O desenvolvimento do trabalho possibilitou o co-relacionamento entre atividades do processo de descoberta de conhecimento em textos não estruturados (PDC), descrito neste trabalho, e as fases do ciclo de IC, proposto por Prescott e Miller (2002), mostrado no quadro seguinte.
Quadro 6 – PDC x Processo de IC
Co-relacionamento entre o PDC e o Processo de IC
Fase do PDC Atividades do PDC Fases do ciclo de IC Coleta de Informações Coletar Textos;
Formatar Textos;
Coleta de Informações Pré-processamento de Dados Limpar Textos;
Retirar Stopwords; Identificar Stemming;
Analisar Texto com o Thesauros; Armazenar Textos;
Processamento e Armazenamento de Informações
Indexação de Dados Vetorizar Textos Processamento e Armazenamento de Informações
Agrupamento de Textos Agrupar Textos Gerar Matriz SWOT
Como o foco deste trabalho está relacionado à área de IC, o alinhamento demonstrado na tabela acima credibiliza o processo de descoberta do conhecimento no tocante à área de IC. Isto se deve ao entendimento de que, para executar alguma atividade relacionada à de IC, é necessário primeiro implantar um ciclo para IC. Desde modo, o processo de descoberta do conhecimento cumpre seu papel, pois todas as suas atividades podem ser inseridas em fases de um ciclo de IC.
Outro importante resultado relacionado à área de IC e ao objetivo final deste trabalho foi a elaboração de uma estrutura similar à matriz SWOT com os resultados obtidos no agrupamento, realizado pela rede neural ART1. A figura 22 demonstra a estrutura montada.
Figura 22 – Matriz SWOT Resultado
A matriz, ilustrada na figura acima, demonstra os grupos de textos oriundos do agrupamento, gerado pela rede ART1, e posicionados em quadrantes que representam potencialidade, fragilidades, oportunidades e ameaças, os quais representam as visões de empresa e de mercado no tocante ao Banco POP (empresa figurativa do estudo de caso deste trabalho).
Para que um grupo de textos pudesse fazer parte da matriz, seus componentes, deveriam representar uma ameaça ou fragilidade ou potencialidade, ou ainda oportunidade. Em outras palavras, representar apenas uma das características pertencentes à matriz
impacto de cada informação, contida nos textos sobre a empresa Banco POP. Exemplo disso seria o quadrante Potencialidades da matriz, onde sob análise externa a empresa tem vantagens e sob a análise interna tem as desvantagens da mesma. No primeiro quadrante, o das potencialidades, observa-se que os títulos dos textos e propriamente seus conteúdos estão retratando as vantagens obtidas pelo Banco POP em índices advindos do mercado, os quais indicam seu lucro líquido retornos de investimentos e destaques na administração de bens. Por outro lado, sob a visão analítica do ambiente interno do Banco POP, os textos relatam a existência do excesso nas despesas, má administração em função das reclamações e metas de lucratividade não obtidas. Estes textos indicam algumas falhas na administração do Banco caracterizado no segundo quadrante da matriz SWOT como fragilidades do Banco POP.
No terceiro quadrante, o das oportunidades, retrata-se sob aspectos externos ao Banco POP, os textos que indicam oportunidades de negócios e que podem ser considerados como relatos de produtos a serem colocados no mercado no intuito de se obter lucros. Exemplos destes textos são os que mencionam em seus conteúdos oportunidades como antecipação de 13° terceiro pagamento, lançamento de Call centers e demais facilidades direcionadas ao usuário.
Já o quarto e último quadrante, denominado ameaças, representa sob visão analítica do ambiente interno do Banco POP as vantagens competitivas de seus concorrentes efetivadas no mercado. Os textos, posicionados neste quadrante da matriz, relatam, em seus respectivos conteúdos, informações que traduzem os melhores resultados quanto ao lançamento de produtos e administração de bens por parte de concorrentes do Banco POP. Exemplos destes textos são os que mencionam lucratividade no ramo imobiliário, lançamento oportunidade de empréstimos consignados, lançamentos de campanhas de marketing com sucesso, etc., vinculados ao concorrente, ou seja, textos que indicam melhor
administração em alguns segmentos do mercado financeiro por parte dos concorrentes do Banco POP.
O agrupamento de textos, realizado pela rede neural ART1, foi posicionado na matriz SWOT, de forma a identificar nos conteúdos dos textos indícios de potencialidades, fragilidades, oportunidades e ameaças nas visões de empresa e de mercado relacionadas ao Banco POP. O percebido, durante a composição da matriz SWOT, foi a boa quantidade de acertos no agrupamento de textos quanto à sua representatividade nos critérios pertencentes à matriz SWOT. Em outras palavras, a rede neural conseguiu agrupar textos com características similares, os quais indicam vantagens, desvantagens, fraquezas e ameaças do Banco POP.
6 CONCLUSÃO
O presente trabalho abordou o desenvolvimento de um processo de descoberta do conhecimento em dados não estruturados, direcionado à área de Inteligência Competitiva, por meio da classificação de textos, segundo os princípios da matriz SWOT, concebido em quatro fases distintas e interativas, as quais desempenhavam funções de coleta de informações, pré-processamento de dados, vetorização de dados e agrupamento de textos.
A primeira fase do processo, Coleta de Informações consistia na aquisição de textos com origem em bases dados ou na Web, cujo propósito foi criar uma coleção de textos sem estrutura, que serviria como base para as fases seguintes do processo. Esta coleta deu-se por meio de programas em linguagem JAVA, munidos de endereços que permitiam o acesso aos documentos.
Por conseguinte, a fase de pré-processamento dos dados encarregou-se de desempenhar as atividades referentes à área de Text Mining, crucial para o desenvolvimento deste trabalho, pois retratava-se todo o processamento dos textos, que envolvia a eliminação de Stopwords, retirada de acentuação gráfica, contagem de palavras, Stemmings e sinonimização por intermédio de um Thesauros. As atividades desta fase também foram realizadas com programas em linguagem JAVA, munidos de regras teóricas, extraídas da área de Text Mining.
Vetorização foi o nome adotado para a terceira fase do processo, onde os textos previamente processados eram vetorizados, onde foi gerada uma planilha com extensão CSV, cujos textos foram alocados em uma única linha com suas palavras, obedecendo ao posicionamento idêntico às palavras dos textos subseqüentes.
Na quarta e última fase do processo, foi utilizada a ferramenta ARARA em específico módulo da rede neural ART1, encarregando-se da responsabilidade em agrupar os textos processados nas fases anteriores do processo, gerando, no fim do agrupamento, um relatório, indicando os grupos com os textos classificados.
Além do processo de descoberta do conhecimento, neste trabalho foi elaborado uma estrutura similar à matriz SWOT, onde foram encaixados os grupos de textos gerados pela rede neural ART1, retratando as oportunidades, ameaças, vantagens e desvantagens de uma empresa, a qual serviu como estudo de caso.
Os resultados, obtidos com a realização de cada fase do processo, justificaram os principais objetivos desta pesquisa: o primeiro consistiu no desenvolvimento de um processo para descobrir conhecimento em textos não estruturados, cuja evolução deste processo só foi possível graças aos estudos relacionados a teorias como Text Mining, Agentes Móveis, Inteligência Competitiva e Redes Neurais, os quais geraram um arcabouço de conhecimento suficiente para o desenvolvimento das metas traçadas no início deste estudo.
O objetivo seguinte foi o de encontrar ferramentas, capazes de executar as atividades de cada fase do processo de descoberta do conhecimento, sendo necessárias algumas ferramentas: Eureka; Sphinix Léxica; Text Mining Suíte, etc. No entanto, as ferramentas não executavam as atividades do processo de descoberta do conhecimento de acordo com o especificado aqui. A solução veio pela construção de um conjunto de programa em linguagem de programação JAVA, os quais estritamente direcionados às atividades desempenhados em cada fase do processo.
modulo da rede neural ART1. A matriz foi constituída com base no melhor agrupamento de textos produzido pela rede neural ART1. Este objetivo foi atingido no momento em que se observou a alocação correta da maioria dos grupos de textos nos quadrantes da estrutura SWOT, que retratavam oportunidades, ameaças, potencialidades e fragilidades. Deste modo, que os resultados, obtidos com a concretização deste objetivo, possibilitam dizer que o processo de descoberta do conhecimento descrito nesta análise gera resultados plenamente aplicáveis e úteis na elaboração de uma análise preliminar do mercado bancário nacional.
Quanto ao funcionamento do processo de descoberta do conhecimento, este correspondeu ao esperado, ou seja, o processo conseguiu identificar conhecimentos em textos não estruturados. Isto por ser verificado por meio da análise dos Resultados, onde informações concretas foram submetidas a processos, os quais precipitaram resultados significativos e consistentes. Indicando que o processo de descoberta do conhecimento aqui descrito extrai conhecimentos úteis, utilizáveis e aplicáveis de forma prática e concisa, além de ser adaptado às áreas fora do contexto da Inteligência Competitiva. Contudo, outro resultado importante para o bom funcionamento do processo em questão, foi a constituição da base de dados compreendida nas listas de Stemmings, Stopwords e na composição do Thesauros.
Entretanto, as algumas limitações no processo de descoberta do conhecimento foram encontradas, as quais não inviabilizam o mesmo. Acredita-se que, caso estas limitações fossem corrigidas, melhoraria a eficiência do processo. Dentre as limitações, pode-se citar:
• A adaptação dos programas em linguagem JAVA, quanto à leitura de formatos variados de textos e não somente a extensão XML, para melhorar o processmento dos textos;
• O desenvolvimento de uma interface mais amigável para os programas JAVA. Isto possibilitaria melhor interatividade e realização das atividades executadas durante a realização do processo de descoberta do conhecimento;
• A falta de um analisador semântico de conteúdo, ou seja, um processo que analise o um conjunto de palavras, as quais sejam reduzidas a um único significado. Esta limitação impactou o trabalho de análise por meio do Thesauros, onde o texto é analisado palavra a palavra. No entanto, em alguns casos, duas ou mais palavras juntas possuem um único significado;
• A falta de um analisador para a matriz SWOT, ou seja, um processo que analisa automaticamente os resultados, gerados pelos quadrantes da SWOT;
• Cancelar a limitação do tamanho dos textos, girando em torno de quatrocentas palavras.
• Realizar uma pesquisa de campo, para verificar a aplicabilidade e aceitabilidade do processo de descoberto do conhecimento descrito neste trabalho.
No entanto, as limitações citadas ficam registradas como trabalhos futuros, por não fazerem parte do escopo relativo aos objetivos traçados neste trabalho.
Quanto aos pontos fortes do trabalho, três se destacaram: o primeiro envolve a segunda fase do processo de descoberta do conhecimento, caracterizada pelo pré- processamento dos textos, especificamente a consulta ao Thesauros, onde houve uma troca de conceitos entre palavras, possibilitando a indução na classificação exercida pela rede ART1, ou seja, os textos, no final desta fase, ficavam com várias palavras idênticas, induzindo a rede neural para classificá-los em um mesmo grupo; o segundo engloba a vetorização dos textos, pois o desafio inicial era estudar de que forma e em que formato
fase do processo de descoberta do conhecimento: a Vetorização; o terceiro caracterizou-se pelo agrupamento de textos, realizado pela ferramenta ARARA, levando-se em conta os bons resultados obtidos com a utilização da mesma.
Por fim, acredita-se que os resultados obtidos neste trabalho credibilizam o processo de descoberta do conhecimento aqui descrito, no que diz respeito às características funcionais, aplicáveis e adaptativas, as quais geram resultados utilizáveis, como os apresentados no item 5 - Análise dos Resultados.
REFERÊNCIAS
ABRAIC. http://www.abraic.org.br/elaine_upis_f2.asp Inteligência Competitiva 2001. ABUTRIDY, John Atkinson. AITKEN, Stuart. MELLISH, Chris. A Semantically Guided and Domain-Independent Evolutionary Model for Knowledge Discovery From Texts. IEEE Transactions on Evolutionary Computation. Text Mining Vol 7. December 2003.
AGRAWAL, R. SRIKANT, R. Fast algorithms for mining association rules. In BOCCA, J. B. JARKE, M. ZANIOLO, Eds. Proccedings 20th International Conference on Very Large Data Bases, Text Mining Santiago Chile. Morgan Kaufmann 1994.
AIRES, Rachel Virginia Xavier. Uso de marcadores estilísticos para a busca na WEB em português. Instituto de Ciências Matemáticas e de Computação – USP Text Mining São Carlos 2005.
ALVARENGA, Rogério. BORGES, A.S. Estudo sobre o perfil de saúde do motorista profissional no Brasil utilizando o processo de Descoberta do Conhecimento em Bases de Dados. In: VIII Workshop de Tecnologia da Informação, Data Mining, Brasília 2006. ALVARENGA, Rogério. Aplicação de Redes Neurais para verificação de tendências de preços de Ações utilizando a Teoria de Dow. In: VIII Workshop de Tecnologia da Informação, Redes Neurais Brasília 2006.
ALVARENGA, Rogério. ARARA - Ambiente para aquisição e descoberta do conhecimento. In: VII Workshop de Tecnologia da Informação, 2005, Brasília. VII Workshop de Tecnologia da Informação, Redes Neurais 2005.
ALVARENGA, Rogério. Descobrimento de Conhecimento para aumentar os ganhos financeiros e qualidade nas concessionárias de telefonia brasileiras: KDD e CRM. In: VII Workshop de Tecnologia da Informação, Brasília 2005.
ALVARENGA, Rogério. Um Modelo de Externalização do Conhecimento Visando Suporte à Decisão e Vantagens Competitivas Utilizando as Metodologias Commonkads e Crisp - DM. In: KM2004-Congresso Brasileiro de Gestão do Conhecimento Tecnologia, Inteligência Competitiva, São Paulo 2004.
ALVARENGA, Rogério. Um modelo de predicção de Cotações para o mercado de Commodities utilizando Redes Neurais Artificiais. In: VIII Workshop de Tecnologia da Informação, Redes Neurais, Brasília 2006.
ALVARENGA, Rogério. Use of Data Mining and Neural Networks in Solving Travel De- mand Estimation Problem; AFSS2004. In: ks in Solving Travel Demand Estimation Prob- lem; AFSS2004, 2004, Hanoi - Vietnã. Áreas do Conhecimento, 2004.
AZEVEDO, Marilena Coelho. COSTA, Helder Gomes. Métodos para Avaliação da Postura Estratégica. Universidade de São Paulo – USP Inteligência Competitiva São Paulo, v08, nº 2, abril/junho 2001.
BAEZA, Ricardo Yates. NETO Ribeiro Berthier. Modern Information Retrieval, ACM Press Books, Information Retrieval New York. 1999.
BARRETO, Jorge Muniz. Redes Neurais – Fundamentos e Aplicações 2° Simpósio Brasileiro de Automação Inteligente Rede Neurais 1995.
BARROWS, H.S. An Overview of the Uses of Standardized Patients for Teaching and Evaluation Clnical Skills. Acad Med, v. 68 1993.
BECKER, S. Unsupervised learning procedures for neural networks. International Journal of Neural Systems. Neural Networks vol. 2. 1991.
BELEW, Richard K. Finding Out About: A Cognitive Perspective on Search Engine Tech- nology and the WWW. Neural Networks Cambridge University Press. 2000.
BELKIN, N.J. CROFT, W. B. Information filtering and information retrieval: Two sides of the same coin? , Magazine Communications of the ACM, Information Retrieval 1992. BEN-DOV, Moty. WU, Wendy. FELDMAN, Ronen. CAIMS, Paul A. Improving Know- ledge Discovery By Combining Text Mining and Link-Analysis Techniques. School of Computing Science Middlesex University. Text Mining 2002.
BERRY, Michel J. A. LINOFF, Gordon. Data Mining techniques for marketing, sales, and customer support. John Wiley & Sons, New York, Data Mining 1997.
BESANÇON, Martin Rajman. Text Mining – Knowledge extraction from unstructured tex- tual data. Artificial Intelligence Laboratory. Computer Science Dpt Swiss Federal Institute of Technology. Text Mining 2003.
BIGUS, Joseph. P. Data Mining with neural networks: solving business problems – from application development to decision support. Library of Congress Cataloging-in-Publica- tion Data. McGraw-Hill, Data Mining 1996.
BJÖRN, Hermans. Intelligent Software agents on the Internet. First Monday, Intelligent Softwares 1999. http://www.firstmonday.dk/issues/issue2.3/index.html.
BRAGA, Antônio de Pádua. LUDERMIR, Tereza Bernada. CARVALHO, André Carlos Ponce de Leon Ferreira. Redes Neurais Artificiais Teoria e Aplicações, editora LTC Redes Neurais 2000.
BRAGA, Bruno Travessos da Rosa. PEREIRA, José Leonardo Ayres. Agentes Inteligentes – Conceitos Características e Aplicações. Universidade da Amazônia – Centro de Ciências Exatas e Tecnologia PA. Softwares Inteligentes 2001.
BRASILIANO, Antônio Celso Ribeiro. A Coleta de Informações no Processo de Inteligência Competitiva. Revista Eletrônica Brasiliano e Associados. Inteligência Competitiva 2005.
CABENA, P. HADJNIAN, P. STADLER, R. Discovering Data Mining From Concept To Implementation. USA. IBM. Data Mining 1997.
CALLAN, J. CROFT, W. B. BROGLIO, J. TREC and TIPSTER experiments with IN- QUERY.Information Processing and Management: an International Journal, 1995.
CAPUTO, Martins Graziella. Sistema Computacional para o Processamento Textual de Patentes Industriais. Universidade Federal do Rio de Janeiro. COPPE/UFRJ, Text Mining 2006.
CARPENTER, G. A. GROSSBERG, S. A massively parallel architecture for a self-organ- izing neural pattern recognition machine. Computer Vision, Graphics, and Image Pro- cessing. Neural Network 1987.
CASTELLANOS, Malu in: BERRY, Michael W. Survey of Text Mining – Clustering, Classification and Retrieval. Text Mining 2004.
CASTRO, F. C. C. CASTRO, M. C. F. Redes Neurais Artificiais, PUCRS - FENG - DEE - Mestrado em Engenharia Elétrica, Redes Neurais 2001.
de Pós-graduação em Engenharia da Universidade Federal de Santa Catarina, Inteligência Competitiva 2000.
CASTRO, P. F. C. M. M. de: Categorização múltipla com árvores de decisão e regras. http://www.ipanema.ime,eb.br/Re/Tec/2000/At058-000.pdf . Text Mining 2000.
CHEN, Hsinchum. Automatic concept classification of text from electronic meetings. Com- munications of the ACM, New York, v.37, n.10 http://ai.bpa.arizona.edu/papers/ebs92/eb- s92.html Text Mining 1994.
CHEN, Hsinchun. CHAU, Michael. ZENG, Daniel. CI Spider: a tool for Competitive Intel- ligence on the WEB. Department of Management Information Systems. University of Ari- zona Tucson. Competitive Intelligence 2002.
COELHO, G. M. Inteligência competitiva em rede apoiando a estratégia da empresa, 1999. in: COLAUTO, Douglas Romualdo. GONÇAVES, Caio Márcio. BEUREN, Ilse Maria. SANTOS, Néri dos. Os Fatores Críticos de Sucesso Como suporte ao Sistema de Inteligência Competitiva: O Caso de uma Empresa Brasileira. Revista de Administração Mackenzie ano 5, n.2, Inteligência Competitiva 2005.
COELHO, Gilda Massari. SILVA, Cícera Henrique. JUNIOR, Ney da Silveira Vargas. BENTO, Nélio. Inteligência Competitiva em rede apoiando a estratégia da empresa. Congresso Internacional das Instituições de Pesquisa Tecnológica/Biennial Congress Waitro, Porto Alegre, Inteligência Competitiva 2002.
COEN Michael. SodaBot: A Software Agent Environment and Construction System. MIT AI Lab Technical Report 1493, Software Agent 1994. http://www.ai.mit.edu/people/sod- abot/sodabot.html
COURSEAULT, Cherie R. Text Mining Framework Linking Technical Intelligence from Publication Databases to Strategic Technology Decisions. Georgia Institute of Technology Text Mining 2004.
CUI, Xiaochi. POTOK, Thomas E. PALATHINGAL, Paul. Document Clustering using Particle Swarm Optimization. Applied Software Engineering Research Group Computa- cional Sciences and Engineering Division Oak Ridge National Laboratory. Text Mining 2005.
DAVIES, Roy. The creation of new knowledge by information retrieval and classification. Journal of Documentation, v.45, n.4, Retrieval Information 1989.
DEITEL, H. M. DEITEL, P. J. Java Como Programar. 3° edição, editora Bookman, Porto Alegre, Liguagem de Programação 2001.
DILLY, Ruth. Data Mining - an introduction. Parallel Computer Centre - Queen's Uni-
versity of Belfast. Dezembro, Data Mining 1995.
http://www.pcc.qub.ac.uk/tec/coursers/datamining/stu_notes/dm_book_2.html.
DRUCKER, P. Looking Ahead: Implications of the present. Harvard Business Review, Text Mining 1997.
DUMAIS, S. Improving the retrieval of information from external sources, Behavior Re- search Methods, Instruments, & Computers, Retrieval Information 1991.
DUTRA, Ronyê Mitchell O. SPERANDIO, Mauricio. COELHO, Jorge. O Método Ward de Agrupamento de Dados e sua Aplicação em Associação com os Mapas Auto- Organizáveis de Kohonen. Universidade Federal de Santa Catarina (UFSC), Redes Neurais 2003.
FAUSETT, L.V. Fundamentals of Neural Networks Architectures, Algorithms, and Applic- ations. New Jersey: Prentice Hall International, Inc, 1994. in: WANDRESEN, Romualdo. MITISHIT, Edson Aparecido. ANDRADE, José Bittencourt. Identificação de Pontos de Apoio Pré-sinalizados com o uso de Redes Neurais Artificiais e Correlação. Universidadade Federal do Paraná – Departamento de Geomática Setor de Ciências da Terra. Neural Networks 2003.
FAYYAD, Usama, PIATETSKY-SHAPIRO, Gregory. SMYTH, Padhraic. Advances in Knowledge Discovery and Data Mining , AAAI Press / The MIT Press, MIT, Cambridge, Massachusets, and London, England, Data Mining 1996
FELDENS, Miguel Artur. Towards a methodology for the discovery of useful knowledge combining Data Mining , data warehousing and visualization. In: Conferencia Latino-ame- ricana de Informática (CLEI'98), Quito, Ecuador, Data Mining1998.
FELDMAN, Ronen. DAGAN, Ido. Knowledge Discovery in Textual Databases (KDT). 1st International Conference on Knowledge Discovery (KDD-95). Montreal, Text Mining 1995. http://www.cs.biu.ac.il:8080/~feldman/.
FISHER, Douglas H. Knowledge acquisition via incremental conceptual clustering. Ma- chine Learning, Dordrecht, Text Mining1987.
FLODSTRÖM, Raquel. A Framework for the Strategic Management of Information Tech-