2. Background
2.1 History of the Supreme Court
A coleta, a limpeza, o pré-processamento e a vetorização dos textos utilizados para validar o estudo de caso abrangeram três etapas do processo de descoberta do conhecimento onde atividades importantes foram realizadas, gerando resultados, os quais são demonstrados neste item por meio de figuras que indicam as fases de processamento dos textos. A título de demonstração, foram escolhidos cinco textos, para se servir de exemplo, no que refere à transformação exercida pelas fases do processo de descoberta do conhecimento. Na primeira fase, a Coleta de Informações, os textos foram coletados no formato HTML, passando por uma limpeza de caracteres especiais e armazenados no formato XML. As figuras 16 e 17 ilustram o processamento dos textos, realizado nesta fase.
As atividades, executadas na fase de Coleta de Informações, geraram muito trabalho braçal e analítico. O trabalho braçal relacionado à transformação dos textos no formato TXT em um único arquivo, pois foi realizado de forma manual. Já o trabalho analítico esteve relacionado aos seguintes fatores: a prévia análise das informações para que somente as ligadas à área bancária fossem coletadas; a delimitação do tamanho dos textos, porque se estipulou que os mesmos atingissem 400 palavras o que, na maioria dos textos, não foi possível adotar esta delimitação. Este fator gerou uma análise do conteúdo do texto para que somente o ponto central do texto fosse aproveitado; a dificuldade em encontrar resultados negativos da empresa bancária, alvo do estudo de caso deste trabalho, pois o momento econômico em que vive o Brasil é favorável às empresas bancárias. O ponto positivo foi a linguagem XML com a qual os textos foram formatados, gerando benefícios para o pré-processamento nos textos, realizado pelos programas em linguagem JAVA.
A limpeza e o pré-processamento dos textos equivalem à segunda fase do processo de descoberta do conhecimento. Nesta fase são realizadas operações como: a retirada de toda acentuação gráfica, exclusão de caracteres especiais dos textos, conversão de todas as palavras em minúsculo para maiúsculo, eliminação de Stopwords, contagem das ocorrências de cada palavra, contagem das ocorrências de Stemmings, e sinonimização de termos por meio da utilização do Thesauros. A figura 18 ilustra as atividades citadas.
Figura 18 – Textos sem Stopwords, Stemmings e com análise do Thesauros
A figura 18 ilustra o pré-processamento dos textos divido em três parágrafos, onde as linhas representam os textos processados. O primeiro parágrafo apresenta os textos sem as Stopwords, com suas palavras contadas, sem acentuação gráfica e convertidas para muiúsculo. O segundo parágrafo apresenta os mesmo textos do parágrafo anterior, mas somente os Stemmings identicados nos referidos textos. O terceiro parágrafo apresenta os mesmos textos com suas palavras sinomizadas pelo Thesauros.
O ponto positivo, durante a realização da etapa de pré-processamento dos textos, foi a eficiência dos programas em linguagem JAVA na realização das atividades de limpeza dos textos, contagem das palavras e retiradas das Stopwords, cujos resultados foram precisos, gerando confiabilidade para as próximas fases do processo de descoberta do conhecimento.
Durante esta fase, algumas palavras dos textos não agregaram relevância aos respectivos conteúdos, implicando em uma nova análise dos textos para a retirada de palavras com significado irrelevante. Contudo, após a análise do Thesauros ficou constando, que as palavras que não agregassem relevância ao conteúdo dos textos poderiam constar na lista de Stopwords, evitando um trabalho ao final da fase de pré-processamento dos dados. Exemplos destas palavras tomando por base os textos ilustrados na figura 17 seriam: texto 1 (recursos, compromisso, linha, fluxo, etc.); texto 2 (foram, disponibilizam, ferramenta, permite, etc.); texto 3 (imprevistos, vista, contratação, haverá, etc.); texto 4 (poderão, realizar, consultas, trata-se, etc.); texto 5 (política, possível, acima, respeitando, etc.).
Após a fase de pré-processamento dos dados, antes ainda na vetorização dos textos, existe a percepção clara da similaridade de palavras pertencentes a textos diferentes, mas com o conteúdo relativo ao mesmo assunto. A realização da terceira fase do processo de descoberta do conhecimento, a vetorização, evidencia a similaridade entre as palavras, além de justapor as palavras similares de textos diferentes nas mesmas colunas da matriz vetorial. A figura 19 ilustra o que seria uma matriz vetorial.
A matriz vetorial, ilustrada na figura 19, dispõe de cinco textos referenciando oportunidades ao BancoPOP. Na primeira linha, existe um cabeçalho, indicando, todas as palavras contidas nos textos após o pré-processamento dos mesmos. Os títulos dos textos aparecem na primeira coluna e nas colunas seguintes, aparecem as palavras retiradas dos textos, inseridas na matriz, obedecendo a uma regra de similaridade, ou seja, caso existam palavras similares em textos diferentes, devem ser colocadas na mesma coluna. Além disso, se no texto não houve a palavra existente na coluna, em seu lugar deverá ser colocada a palavra NULL.
Nesta matriz, pode se observar que os textos continham palavras similares, embora algumas em textos diferentes. No entanto, no primeiro texto, apesar da existência da similaridade de palavras com os demais, existe também o aparecimento de palavras diferentes e, que não estavam contidas nos textos seguintes. Neste passo do processo de descoberta do conhecimento, entendia-se que a análise do Thesauros tornava os textos parecidos em função da substituição das palavras retiradas dos textos, por seus respectivos conceitos. Exemplo disso seria a substituição no primeiro texto da palavra (competitivas) por (oportunidade).