• No results found

3. Richard Nixon

3.1 Warren Earl Burger – Chief Justice (1969)

O agrupamento dos textos, utilizado para validar o estudo de caso, abrange a quarta e última fase do processo de descoberta do conhecimento Uma matriz com textos de conteúdos relativos a oportunidades, ameaças, vantagens e desvantagens de uma instituição bancária (chamada neste trabalho de Banco POP), é analisada pela rede neural ART1.

O agrupamento foi realizado por meio da submissão de uma matriz vetorial com palavras selecionadas de 50 textos à análise da rede neural ART1. Para gerar os grupos de

variando entre 0.1 até 1.0, variando em 0.5, onde cada 0.1 equivale a 10% de similaridade. Para os valores atribuídos ao limiar de vigilância, variando entre 0.1 até 0.75, a rede neural gerou apenas um grupo de textos, ou seja, não conseguiu identificar diferenças nos conteúdos dos textos. Já para os valores, atribuídos ao limiar de vigilância, variando entre 0.95 até 1.0, a rede neural identificou inúmeras diferenças nos conteúdos dos textos, provando a criação de praticamente um grupo por texto, ou seja, cada texto representou um único grupo não constituído desta forma um resultado considerável. O resultado, para ser considerado relevante, deve agrupar o maior número de textos com conteúdos similares em um mesmo grupo.

Já para valores atribuídos ao limiar de vigilância, girando em torno de 0.90, os resultados foram diferentes e alguns muito significativos, detalhados a seguir.

A figura acima ilustra a rede ART1, gerando vinte e três grupos; os intitulados Cluster 1, Cluster2, Cluster 7 e Cluster 8 ilustram uma mistura nos textos agrupados. Já nos grupos chamados Cluster 0, Cluster 9, Cluster 14, Cluster 16, Cluster 20 e Cluster 21 houve o agrupamento correto por parte da rede neural, indicando a identificação de similaridades nos textos analisados. Nestes grupos estão contidos os resultados considerados ideais por este estudo, haja vista, o agrupamento de textos referentes a assuntos semelhantes. Exemplos de palavras que possibilitaram a classificação correta da rede neural, tomando por base os textos ilustrados na figura 20 são: cliente; oportunidade, banco, quitação; credito; etc.

O grupo Cluster 0 está contido de textos caracterizando oportunidade ao BancoPOP. O grupo Cluster 9 já é constituído de textos referentes a vantagens para BancoPOP. Já nos grupos Cluster 14, estão textos que evidenciam desvantagens ao BancoPOP. Por fim, nos grupos Cluster 16, Cluster 20 e Cluster 21 estão textos que caracterizam ameaças ao BancoPOP. Os grupos mencionados anteriormente, guardam os resultados das classificações corretas segundo o pretendido por este estudo, ou seja, classificar o maior número possível de textos com conteúdos referentes ao mesmo tema em um único grupo. Além disso, fica evidente o agrupamento de textos segundo ao indicado nos quadrantes da matriz SWOT, o que significar dizer, agrupamento segundo oportunidades, ameaças, desvantagens e vantagens.

Neste momento dos testes com a rede ART1, é importante frisar que, se a rede neural gerar grupos diferentes com textos relativos ao mesmo assunto, o resultado não deixa de ser relevante, pois a matriz SWOT pretendida por este trabalho considera plausível a existência de vários grupos que representem textos com conteúdos diferentes, mas relativos ao mesmo assunto.

Entretanto, o resultado visualizado na figura 20 mostrou a ocorrência de textos com conteúdos diferentes em um mesmo grupo, isto ocorreu dado à constatação por parte da rede neural do aparecimento da mesma palavra em vários textos, além da repetição de uma mesma palavra em um, dois ou em três textos de conteúdos diferentes. Exemplos deste fato seria o grupo Cluster 2, onde aparecem apenas dois textos indicando oportunidade, um texto indicado vantagem e dois textos indicado desvantagem. No caso do Cluster 2 a rede neural não conseguiu identificar diferenças nos conteúdos do textos, significando um agrupamento ruim. Exemplos de palavras que não possibilitaram a classificação correta da rede neural são: proventos; juros; divida; bens; etc.

Outro fato importante a cerca destes resultados seria o aparecimento de vários grupos com apenas um texto. Estes resultados não podem ser considerados errados, pois, os textos foram classificados de forma única nos grupos, indicando a não identificação de semelhanças entre estes textos e os textos com conteúdo semelhantes ou não semelhantes, por parte da rede neural.

Para fins de mensuração da efetividade do agrupamento realizado pela rede neural, com o limiar de vigilância em 90% de similaridade, o agrupamento dos textos ocorreu de forma correta em 76% dos textos. Esta porcentagem foi adquirida, por meio da contagem dos textos classificados corretamente em relação ao total de textos, ou seja, dos 50 textos existentes na matriz vetorial, 38 foram classificados corretamente. Existiram ainda os textos que foram agrupados de forma isolada, nestes casos, existiram classificações corretas, pois, a rede neural os agrupou com textos de conteúdos diferentes, no entanto, é factível dizer que a ART1, não encontrou semelhança entre estes textos e outros com conteúdo semelhante.

verificado na contagem dos grupos (seis no total), que contém textos referentes ao mesmo assunto. Além dos textos classificados unicamente em grupos distintos, o que por estudo é considerado correto. Deste modo, o resultado apresentado na figura 20, ilustra o melhor resultado obtido sem ajustes na matriz vetorial de textos gerada durante a execução das fases, do processo de descoberta do conhecimento aqui descrito.

Para melhorar a classificação dos textos agrupados de forma errada, como exemplo os textos do Cluster 2, alguns ajustes na matriz vetorial podem ser feitos. Estes ajustes implicam na retirada, inserção e mudança do significado das palavras contidas nos arquivos chamados thesauros e stopwords, que auziliam os programas que executam as atividades de Text Mining proposta neste trabalho. Deste modo e, no intuito de melhorar a classifição ilustrada na figura 20, os seguintes ajustes foram feitos:

1. Foi alterado o significado da palavra “Financerios” no arquivo thesauros. A princípio a palavra estava definida como “divida”, mas em função do contexto do texto “BANCOPOPFundos_OPORTUNIDADE” foi alterada para “oportunidade”;

2. A palavra “Aquem” contida no texto “BANCOPOPmetas_DESVANTAGEM” foi retirada da lista de Stopwords e definida no Thesauros como “desvantagem”;

3. A palavra “meta” contida no texto “BANCOPOPciclo_DESVANTAGEM” foi retirada da lista de Stopwrods, no intuito de criar um coluna com a palavra ‘meta’ na matriz vetorial, o que acarretaria numa diferenciação entre os textos;

4. Foram retiradas as palavras “risco e inadimplência”, contidas no texto “BANCOPOPINADIPLENCIA_DESVANTAGEM” da lista de Stopwords e definidas no Thesauros como “vantagem”;

5. Foi retirada a palavra “previdência” contida no texto “BANCOPOPREVIDENCIA_OPORTUNIDADE” da lista de Stopwords e, definida no Thesauros como “oportunidade”;

6. Por fim, foi retirada a palavra “indicadores” contida no texto “BANCOPOPISO_VANTAGEM” da lista de Stopwords e, defnida no Thesauros como “oportunidade”.

Os ajustes mencionados nos itens acima, estão baseados na análise dos textos que foram classificados de forma errada pela rede neural. O resultado após a realização dos ajustes pode ser conferido na figura 21.

A figura acima mostra uma melhorar considerável no agrupamento dos textos. Isto pode ser percebido ao verificar o agrupamento ilustrado na figura 20, onde ocorrenram quatro grupos de textos classificados de forma errada perfazendo um total de 12 textos. O ocorrido na figura 21 demonstra que apenas em um grupo, os textos foram classficados erradamente perfazendo um total de cinco textos.

O ajuste da matriz vetorizada foi realizado palavra a palavra, ou seja, a cada modificação nos arquivos Thesauros e Stopwords uma nova matriz vetorial foi gerada e submetida à rede neural. Além disso, a cada classificação gerada pela rede neural, ocorreu um agrupamento diferente para os textos classificados errados a princípio como o ilustrado na figura 20. Deste modo, foram sendo realizados ajustes na matriz vetoral até chegar ao resultado ilustrado na figura 21, onde ocorreu um aproveitamento de 90% na classificação correta dos textos.

Neste sentido o resultado, apresentado na figura 21 pode ser considerado significante, pois, a rede neural conseguiu identificar similaridades entre textos diferentes, mas com conteúdos semelhantes.