Após a execução de todas as fases propostas pela metodologia adaptada da proposta de Fayyad [FAYYA96], procurou-se verificar quais resultados poderiam ser aproveitados para a geração de conhecimento organizacional.
4.2.1.1 Seleção dos resultados da mineração de texto
Foi avaliada a produção científica e tecnológica dos docentes em quatro períodos: de 1998 a 1999, de 2000 a 2001, de 2002 a 2004 e no período total de 1998 a 2004, que corresponde ao período de existência do programa MGCTI. Foram utilizadas as informações de sua produção científica e tecnológica cadastradas no Currículo Lattes, extraídas da base de dados de trabalho, a qual representa os resultados das etapas anteriores de seleção, pré- processamento e transformação.
No primeiro período, cinco dos atuais professores do MGCTI que se encontravam vinculados ao programa registraram informações de seus trabalhos no Currículo Lattes. No segundo período, este número foi de oito professores. No terceiro período foram encontrados registros de dezesseis professores. No quarto período, que compreendeu todo o tempo de existência do programa (1998 a 2004), foram processados registros de dezoito professores. Depois de todos os ajustes considerados necessários, como a adequação do dicionário de sinônimos e das listas de palavras negativas12, foram obtidos os seguintes resultados:
No primeiro período foram identificados dois agrupamentos, caracterizados pelos centróides13 (i) {inteligente, neural, modelo} e (ii) {gestão, construção, competências, estratégia}. O primeiro agrupamento está mais relacionado com temas como DCBD e Inteligência Artificial, ou seja, à Tecnologia da Informação. O segundo está mais relacionado com a Gestão do Conhecimento.
No segundo período foi identificado um agrupamento, pelos centróides {informação, neural, modelo, desenvolvimento}, indicando temas mais relacionados à Tecnologia da Informação. O viés da Gestão do Conhecimento não foi identificado.
12
Palavras negativas (stopwords): conjunto de palavras consideradas não representativas no processo de mineração de texto (e.g.: advérbios, numerais, conjunções, artigos).
13
No terceiro período foram identificados quatro agrupamentos: (i) {conhecimento, informação, gestão, máquina}; (ii) {conhecimento, gestão, virtual, informação}; (iii) {qualidade, objeto, Java}; (iv) {métrica, engenharia, qualidade}. Percebe-se então uma maior definição das áreas de interesse e uma maior caracterização interdisciplinar do MGCTI.
No quarto período a identificação multidisciplinar do programa é confirmada, a partir da identificação de cinco agrupamentos caracterizados pelos centróides: (i) {neural, modelo, conhecimento, inteligente}; (ii) {conhecimento, gestão, informação, modelo}; (iii) {qualidade, objeto, desenvolvimento}; (iv) {competências, aprendizagem, ontologia, suporte}; (v) {métrica, engenharia, qualidade}.
Tabela 11: Centróides dos agrupamentos por período
Período Centróides por grupo
1998-1999 1-INTELIGENTE NEURAL MODELO
2-GESTAO CONSTRUCAO COMPETENCIAS ESTRATEGICA
2000-2001 1-INFORMACAO MODELO NEURAL DESENVOLVIMENTO
2002-2004 1-CONHECIMENTO INFORMACAO GESTAO MAQUINA
2-CONHECIMENTO GESTAO VIRTUAL INFORMACAO 3-QUALIDADE OBJETO J2EE
4-METRICA ENGENHARIA QUALIDADE
1998-2004 1-NEURAL MODELO CONHECIMENTO INTELIGENTE
2-CONHECIMENTO GESTAO INFORMACAO MODELO 3-QUALIDADE OBJETO DESENVOLVIMENTO
4-COMPETENCIAS APRENDIZAGEM ONTOLOGIA SUPORTE 5-METRICA ENGENHARIA QUALIDADE
Foram realizadas também algumas totalizações da produção científica e tecnológica dos envolvidos na pesquisa. A tabela a seguir apresenta os totais de produção por tipo e ano.
Tabela 12: MGCTI – Totais de produção por ano
TIPO DE PRODUCAO 1998 1999 2000 2001 2002 2003 TOTAL
Apresentação de Trabalho 4 4 8
Artigo publicado em periódicos 3 5 2 4 1 11 26
Curso de curta duração ministrado 1 2 3
Demais trabalhos relevantes 6 2 1 9 11 29
Dissertação de mestrado 5 9 32 46
Iniciação Científica 3 2 12 17
Livro ou capítulo de livro 1 3 2 4 10
Monografia de curso de aperfeiçoamento 2 7 9
Organização de evento 2 2
Orientação em andamento 6 14 20
Outra produção bibliográfica 1 1 2
Banca de comissões julgadoras 1 2 5 8
Participação: banca de conclusão (M/D) 1 6 27 64 98
Participações em eventos 3 1 4 6 9 23
Texto em jornal ou revista 2 1 3
Trabalho de conclusão de graduação 1 4 5 17 27
Trabalho publicado em anais de evento 2 10 8 22 39 77 158
Trabalhos técnicos 3 2 1 3 2 11
TOTAL GERAL 9 27 16 56 122 270 500
Foi identificada uma acentuada elevação no quantitativo da produção científica e tecnológica dos docentes do MCGTI durante o período avaliado. As figuras abaixo apresentam as curvas de crescimento dos principais tipos de produção:
4 4 3 5 2 4 1 11 6 2 1 9 11 1 3 2 4 3 2 1 3 2 0 2 4 6 8 10 12 1998 1999 2000 2001 2002 2003 Apresentação de Trabalho Artigo publicado em periódicos Demais trabalhos relevantes Livro ou capítulo de livro Trabalhos técnicos Total
ANO_
Tipo de Produção
5 9 32 1 6 27 64 3 1 4 6 9 2 10 8 22 39 77 0 10 20 30 40 50 60 70 80 90 1998 1999 2000 2001 2002 2003 Dissertação de mestrado
Participação em banca de trabalhos de conclusão
Participações em eventos
Trabalho publicado em anais de evento Total
ANO_
Tipo de Produção
Figura 38: Produção por ano – II
Foram realizadas também algumas totalizações para a identificação qualitativa da produção científica e tecnológica dos docentes do MGCTI. A figura a seguir apresenta as percentuais de publicações e participações em eventos qualificados em nacionais e internacionais. Apesar de pequena, observa-se uma elevação do percentual de participação em eventos e publicações internacionais.
1 2 7 5 13 29 8 25 8 39 73 143 0% 20% 40% 60% 80% 100% 1998 1999 2000 2001 2002 2003 Nacional Internacional TIPO DE PRODUCAO (Tudo)
Soma de QTDE
ANO
CATEGORIA
4.2.1.2 Juízos emitidos
Após a seleção dos resultados do processo de mineração de texto, onde foram identificados os agrupamentos por período, foram emitidos os seguintes juízos:
a) O MGCTI avança no sentido de se constituir como um grupo efetivamente interdisciplinar.
b) As áreas de interesse do programa MGCTI, no que se refere à pesquisa, tornam-se progressivamente mais claras.
c) Melhora, a cada ano, a produção técnico-científica do programa.
4.2.1.3 Fundamentação dos juízos Propósito da pesquisa
Desejando identificar as vocações do MGCTI, surgiu a oportunidade de verificação das linhas de produção dos docentes que participam do programa. A partir das informações sobre a produção científica e tecnológica contida no Currículo Lattes, decidiu-se utilizar estes dados para relacionar os docentes entre si, com o objetivo de identificar áreas de afinidade.
Assim, o propósito desta avaliação é identificar as linhas de pesquisa possíveis, a partir da produção de cada docente.
Propósito dos juízos
Identificar as áreas de interesse dos docentes do MGCTI e o potencial de produção do grupo. Esta identificação abre possibilidades para ações que incrementem o processo produtivo, inclusive com possíveis direcionamentos dos trabalhos para eventos e publicações de maior significado.
Domínios
Os principais domínios considerados na avaliação foram: a) Espaço das publicações (nacionais ou internacionais) b) Idioma de publicação
Padrões de julgamento
a) Qualis Multidisciplinar da CAPES b) Qualidade dos eventos
c) Tipo de eventos
Afirmações de suporte
a) Os agrupamentos resultantes dos processos de mineração de texto passaram de dois para quatro do período inicial para o período final avaliado.
b) Os números da produção científica e tecnológica do MGCTI cresceram ano a ano. c) Apesar de pequeno, ocorreu um aumento no percentual de publicações e
participações em eventos internacionais.
d) Algumas publicações ocorreram em veículos citados no Qualis14 Multidisciplinar.
14
Qualis: lista com a classificação dos veículos utilizados pelos programas de pós-graduação para a divulgação dos resultados da produção científica e tecnológica de seus alunos e professores, elaborado pela CAPES – Coordenação de Aperfeiçoamento de Pessoal de Nível Superior do Ministério da Educação.
5 CONCLUSÕES E TRABALHOS FUTUROS
As bases de dados formadas a partir de sistemas transacionais normalmente armazenam uma grande quantidade de informações passíveis de serem exploradas e capazes de revelar relações não explícitas. Os processos de DCBD podem ser utilizados para a obtenção de conhecimento útil a partir dos dados contidos nestas bases.
Das etapas mencionadas neste trabalho, as fases de seleção, pré-processamento e transformação dos dados normalmente são as que mais consomem tempo e recursos. O tempo gasto nestas etapas é inversamente proporcional à qualidade dos dados armazenados. Por isso, pode se concluir que os sistemas que prezaram pelas etapas de projeto e que cuidaram para uma correta implementação das regras de negócio e manutenção da integridade dos dados podem ser muito mais facilmente explorados com técnicas de DCBD.
Apesar das etapas iniciais de tratamento dos dados representarem uma grande parcela do trabalho total, a etapa de Mineração de Dados pode ser considerada a mais complexa. A escolha, ou o desenvolvimento de algoritmos de reconhecimento de padrões pode representar um grande desafio para a equipe. A grande quantidade de interações e iterações necessárias para a obtenção de padrões que possam se tornar úteis e valiosos pode exigir grandes recursos computacionais e mão de obra altamente especializada.
Todo o processo deve contar com a presença de especialistas no negócio pesquisado, com participação maior ou menor, dependendo da etapa. Sua presença é fundamental nas etapas de Mineração de Dados e Interpretação/Avaliação, onde os padrões obtidos devem ser avaliados buscando identificar conhecimento útil que possa ser incorporado ao sistema.
A simples extração de padrões não acrescenta conhecimento à organização. Para tal, é necessário que os especialistas identifiquem, a partir dos resultados gerados, aqueles que são úteis e possuem valor agregado. Neste sentido, a utilização de um método que auxilie o processo de avaliação dos resultados pode facilitar a obtenção de bons resultados.
O estudo relativo ao perfil dos orientadores do PIBIC pôde demonstrar o potencial da Plataforma Lattes para geração de conhecimento organizacional. Apesar de o referido estudo ter sido realizado sobre um volume reduzido de dados e variáveis, foi possível estabelecer relações para a identificação de um perfil dos docentes que orientaram alunos de iniciação científica.
Já o segundo estudo de caso, sobre os docentes do Programa MGCTI da Universidade Católica de Brasília, demonstrou que os resultados da DCBD podem ser potencializados pela utilização metódica da definição de juízos e de sua fundamentação. Uma percepção anterior, informal, que indicava a vocação interdisciplinar do programa MGCTI foi confirmada com a mineração de texto e com a identificação dos agrupamentos por período. Os juízos estabelecidos, uma vez devidamente fundamentados, têm proporcionado uma discussão muito mais detalhada de cada um dos itens estudados.
O processo como um todo trouxe uma percepção mais apurada e clara dos desígnios vocacionais e dos rumos do Programa objeto do estudo, trazendo mais visibilidade e conhecimento organizacional sobre o MGCTI, seus docentes, sua produção científica e tecnológica, suas linhas de interesse, etc. Tudo isso pode ser acrescentado à base de conhecimento da instituição, e será importante para a definição dos rumos a seguir. Remete-se novamente à Ontologia da Linguagem, que traz o conceito de que os juízos podem fechar ou abrir possibilidades no futuro. Acredita-se, neste caso, que várias possibilidades possam ser (e têm sido) abertas.
Finalmente, pode concluir que o processo de DCBD representa uma excelente oportunidade para as organizações que desejam utilizar melhor suas bases de dados, no sentido de se obter conhecimento, e conseqüentemente, incrementar os seus negócios a partir deste conhecimento organizacional descoberto.
Trabalhos futuros podem ser desenvolvidos a partir das reflexões iniciadas, tais como: a) Agregação, ao processo de mineração de texto da produção científica e
tecnológica, dos resumos dos respectivos trabalhos. O presente estudo utilizou somente os títulos das publicações e as palavras-chave, que era o material disponível na Plataforma Lattes. O acréscimo dos resumos dos trabalhos pode trazer uma maior quantidade de palavras que podem ser associadas, aumentando as possibilidades de identificação das linhas de interesse.
b) Mineração de texto para a geração de uma taxonomia relativa aos grupos de pesquisa.
c) Mineração de texto para a verificação de consistência entre linhas de pesquisa declaradas e a real produção científica e tecnológica.
d) Identificação de competências dos pesquisadores e docentes a partir de suas informações curriculares.
REFERÊNCIAS BIBLIOGRÁFICAS
[AGRAW94] AGRAWAL, R., SRIKANT, R. Fast Algorithms for Mining Association Rules. IBM Research Report RJ 9839. IBM Almaden Research Center, Junho de 1994
[AMARA01] AMARAL, Fernanda C. N. do Data Mining – Técnicas e Aplicações para o
Marketing Direto, São Paulo: Berkeley Brasil, 2001.
[BABCO94] BABCOCK, C. Parallel Processing Mines Retail Data, Computerwork, n. 6, set. 1994.
[BISHO95] BISHOP, Christopher M. Neural networks for pattern recognition. Oxford:
Oxford University Press, 1995
[BRASI02] BRASIL, Lourdes M. Inteligência Artificial – Modelos Conexionistas
Departamento de Informática, UFPB - Universidade Federal da Paraíba, 2002.
[CHEN96] CHEN, Ming-Syan, HAN, Jiawei, YU, Philip S. Data mining: an overview from a database perspective. IEEE Transactions on Knowledge and Data Engineering, v. 8, n.6, p.866-883, dez. 1996.
[CNPQ03] CNPq, Plataforma Lattes
Disponível em: lattes.cnpq.br
Acesso em: 21 de maio de 2003
[CNPQ03a] CNPq, PIBIC
Disponível em: http://www.cnpq.br/bolsas_auxilios/modalidades/pibic.htm
Acesso em: 27 de maio de 2003
[CNPQ03b] CNPq, Diretório dos Grupos de Pesquisa no Brasil, Estratificação
Disponível em: http://lattes.cnpq.br/censo2002/estratificacao/index_estrat.htm
[DRUCK94] DRUCKER, Peter F. The Age of Social Transformation, The Atlantic Monthly, Boston, United States
Disponível em:
http://www.theatlantic.com/politics/ecbig/soctrans.htm#Drucker
Acesso em: 15 out. 2003
[DIXON97] DIXON, Mark An Overview of Document Mining Technology
Disponível em:
http://www.geocities.com/ResearchTriangle/Thinktank/1997/mark/writings/dm. html
Acesso em: 23 mai. 2003.
[ECHEV99] ECHEVERRÍA, Rafael. La Ontologia del Lenguaje, Chile, Dólmen, 408 pp.
1999.
[FAYYA96] FAYYAD, Usama; Piatetsky-Shapiro, G; Smyth, P. Advances In Knowledge
Discovery and Data Mining, 1a ed., Cambridge - Massachusetts: Mit Press, 1996.
[FAUSS94] FAUSSET, Laurene V. Fundamentals of Neural Networks - Architectures. Algorithms, and Applications, Prentice Hall, 1994.
[FELDM97] FELDMAN, Ronen; HIRSH, Haym. Exploiting background information in
knowledge discovery from text. Journal of Intelligent Information
Systems, Boston, v.9, n.1, July/Aug 1997.
[FERREI01] FERREIRA, Aurélio Buarque de Holanda. Minidicionário da Língua
Portuguesa, São Paulo, Nova Fronteira, 2001.
[FERREI03] FERREIRA, L.A. BAX, M.P. A Importância da Gestão do Conhecimento para
o Marketing de Relacionamento. In: 6º Simpósio Internacional de Gestão
do Conhecimento - ISKM, Curitiba, agosto 2003.
[FISHE87] FISHER, D. Knowledge Acquisition via Incremental Conceptual Clustering.
Machine Learning, v.2,n.2,1987
[FLORE88] FLORES, F., GRAVES, M., HARTFIELD, B., WINOGRAD, T. Computer
System and the Design of Organizational Interaction in ACM Trans. of
[GRECO02] GREGO, Maurício A Petrobras doma seus terabytes, InfoExame, São Paulo: ano 18, n.203, p. 78-79, fev. 2003.
[GRUBE93] GRUBER, T. R. A Translation Approach to Portable Ontology
Specifications.Knowledge Systems Laboratory - Stanford University,
Stanford, CA, Technical Report ,1993.
[HARRI98] HARRISON, Thomas H. Intranet Data Warehouse: São Paulo: Berkeley Brasil, 1998.
[UHLMA02] UHLMANN, Günter W. Teoria Geral dos Sistemas, CISC, São Paulo. Visitado em 30/03/2003
Disponível em:
http://www.cisc.org.br/biblioteca/teoria_sistemas.pdf
[KOWAL97] KOWALSKI, Gerald. Information retrieval systems: theory and implementation. Boston : Kluwer Academic Publishers, 1997.
[LOH99] LOH, Stanley; WIVES, Leandro Krug; FRAINER, Antônio Severo.
Recuperação semântica de documentos textuais na internet. In:
Conferencia Latino-Americana de Informática (CLEI), XXV, 1999, Assunción, Paraguay. Memórias del CLEI'99 (Tomo 2). Assunción, Paraguay: Universidad Autónoma de Asunción, 1999.
[LOH01] LOH, Stanley, REATEGUI, Eliseu, WIVES, Leandro Krug, OLIVEIRA, Jose Palazzo Moreira de, GAMEIRO, Maurício Almeida. Formalizando e
Explorando Conhecimento Tácito com a Tecnologia de Text Mining para Inteligência. In: ISKM/DM 2001, 2001, Curitiba, 13 a 15 de Agosto.
Anais. 2001
[LUCEN01] LUCENA, Percival de; Paula, Marcos Ferreira de, Árvores de Decisão Fuzzy Disponível em: www.icmc.sc.usp.br/~percival/download/fidt.pdf
Acesso em: 21 mai. 2003.
[LUCEN02] LUCENA FILHO, Gentil. J. Notas de Aula Universidade Católica de Brasília, Brasília, 2002.
[MEDLE98] MEDLER, David A. A brief history of connectionism. Department of
Computing Survey 1, p. 61-101, 1998.
Disponível em: http://www.icsi.berkeley.edu/~jagota/NCS/vol1.html
Acesso em: 25 mai. 2003.
[NG97] NG, Hwee et al. Feature selection, perceptron learning, and a usability casestudy for text categorization. In: Special Interest Group on
Information Retrieval - SIGIR, 1997. New York: Association for Computing Machinery, 1997.
[NONAK97] NONAKA, Ikujiro, TAKEUCHI, Hiro. Criação de Conhecimento na Empresa, Tradução: Ana Beatriz Rodrigues, Priscilla Martis Celeste, Rio de
Janeiro, Campus, 1997.
[OSORI99] OSORIO, Fernando, VIEIRA, Renata. Sistemas Híbridos Inteligentes. In: ENIA – Encontro Nacional de Inteligência Artificial, Congresso da SBC, Rio de Janeiro, 1999.
[PRADO98] PRADO, Hércules A. Abordagens híbridas para mineração de dados, exame de qualificação, Porto Alegre: CPGCC da UFRGS, 1998.
[REZEN03] REZENDE, Solange Oliveira. Introdução à Inteligência Artificial, Institutuo
de Ciências Matemáticas e de Computação, USP, São Paulo. Visitado em 29/03/2003
Disponível em:
http://www.icmc.sc.usp.br/~solange/IA/iag_int/tsld001.htm
[SALGA02] SALGADO, Cândido G. Comportamento de Regras de Associação e sua
Aplicação para Análise de Dados Médicos. 2002. Dissertação (Mestrado
em Ciência da Computação) - Universidade de Brasília
[SETZE03] SETZER, Valdemar W. Dado, Informação, Conhecimento e Competência, Instituto de Matemática e Estatística - IME, São Paulo.
Visitado em 29/03/2003 Disponível em:
http://www.cidade.usp.br/educar2001/mod5ses2.php
[SILVA02] SILVA, Edilberto M. Descoberta de Conhnecimento com o uso de Text
Conhecimento e da Tecnologia da Informação) - Universidade Católica de Brasília
[SOUSA03] SOUSA, Paulo de Tarso Costa de. Mineração de Dados para Indução de um
Modelo de Gestão do Conhecimento. 2003. Dissertação (Gestão do
Conhecimento e da Tecnologia da Informação) - Universidade Católica de Brasília
[STOLL01] STOLLENWERK, Maria de Fátima Ludovico. Gestão do Conhecimento:
conceitos e modelos. In: Inteligência Organizacional e Competitiva. Kira
Tarapanoff (organizadora). Brasília, Editora Universidade de Brasília, 2001.
[TEIXE00] TEIXEIRA FILHO, Jayme. Gerenciando o Conhecimento. Rio de Janeiro,
SENAC, 2000.
[TOFFL94] TOFFLER, A. Powershift: As Mudanças do Poder. Rio de Janeiro, Record,
1994
[UHLMA02] UHLMANN, Günter W. Teoria Geral dos Sistemas, CISC, São Paulo. Visitado em 30/03/2003
Disponível em:
http://www.cisc.org.br/biblioteca/teoria_sistemas.pdf
[VARGA00] VARGA, Lilia M. Inteligência Competitiva na Empresa, UFRGS, Porto Alegre.
Visitado em 12/01/2004 Disponível em:
http://read.adm.ufrgs.br/read17/artigo/artigo1.htm
[VIDAL98] VIDAL, Antônio Geraldo R. Projeto e Desenvolvimento de Sistemas de
Informação, FEA/USP, São Paulo.
Visitado em 30/03/2003 Disponível em:
http://www.fea.usp.br/cursos/graduacao/arquivos/ead451-05.PDF
[WEKA01] WEKA Projet WEKA 3: Machine Learning Software in Java. Universidade de
Disponível em: http://www.cs.waikato.ac.nz/ml/weka/
Acesso em: 12 jun. 2003
[WIIG93] WIIG, K. M. Knowledge management foundations: thinking about thinking – how people and organizations create, represent and use knowledge.
Arligton, Texas: Schema, 1993. v.1.
[WITTE99] WITTEN, Ian H., FRANK, Eibe: Data Mining: Practical Machine Learning
Tools e Techniques with Java Implementations . Morgan Kaufmann
Publ., 1999.
[WIVES99] WIVES, Leando Krug Um Estudo sobre Agrupamento de Documentos
Textuais em Processamento de Informações não Estruturadas usando Técnicas de Clustering , Porto Alegre: UFRGS, 1999.
[WIVES00] WIVES, Leandro Krug. Tecnologias De Descoberta de Conhecimento em Textos Aplicadas à Inteligência Competitiva, Porto Alegre: UFRGS,