4. ANALYSIS AND FINDINGS
5.1. DISCUSSION ON THE FINDINGS
5.1.4. THE FUTURE OF PRIVATE EQUITY
O primeiro sistema de indexação automática foi desenvolvido por Hans Peter Luhn, em 1953, baseado em um princípio simples: a extração de palavras significativas — conhecidas também como palavras-chave — dos títulos ou de outras partes que constituem um documento.
Esses sistemas são popularmente conhecidos como “Key-Word in Context” (KWIC) ou “Key-Word In Title” (KWIT), “Key-Word Out of Context” (KWOC) ou “Key-Word Out of
Title” (KWOT) e “Key-Word And Context” (KWAC) ou “Key-Word And Title” (KWAT) e
foram desenvolvidos para elaboração de índices permutados (MOREIRO GONZÁLEZ, 2004).
A criação do índice KWIC, um índice de assunto elaborado por meio das palavras- chave23 do título dos artigos de periódicos resgata as ideias de William Frederick Poole, em 1882, com a publicação de “Poole’s Index” (BORKO, BERNIER, 197824 apud SILVA, FUJITA, 2004). Foi também utilizado por Crestadoro como princípio norteador na construção de índices da Biblioteca Pública de Manchester (FOSKETT, 1973).
No entanto, Hans Peter Luhn foi o primeiro a aplicar esse princípio aos sistemas de indexação automática e alavancou os estudos de métodos estatísticos para indexação. Embora esses estudos fossem superficiais e pouco rigorosos, deram origem aos primeiros trabalhos de caráter morfológico e sintático de análise textual dos documentos (PINTO MOLINA, 1993). Desse modo, apresentamos em seguida as principais características desses primeiros sistemas de indexação.
O método de indexação automática para construção do índice KWIC baseia-se na extração das palavras significativas do título ou de outra parte do texto. As palavras são organizadas em ordem alfabética com posição fixa, mantendo-se, as palavras precedentes e as seguintes à palavra indexada, na mesma posição em que se encontravam. Dessa forma, a palavra extraída pode ser visualizada no índice dentro do contexto em que se encontra na estrutura do documento, o que lhe atribui um caráter contextual e garante que sejam encontradas no índice apenas associações entre termos existentes na coleção de documentos (MOREIRO GONZÁLEZ, 2004).
23 O sistema de indexação por palavra-chave vem da Alemanha no final do século XVIII e norteou toda a indexação por palavra na atualidade (GUIMARÃES, 2003).
O método de construção dos índices do tipo KWOC é basicamente o mesmo realizado para elaboração do índice KWIC. O que o distingue é a localização da sequência alfabética das palavras extraídas. Essas palavras extraídas são separadas das outras palavras que constituem a referida parte do documento. Neste caso, as palavras extraídas e as do titulo são isoladas, o que torna difícil a recuperação de termos compostos (MOREIRO GONZÁLEZ, 2004).
No caso do índice KWAC, ocorre o processo de extração de palavras como no KWOC. No entanto, enquanto no KWOC o lugar que a palavra extraída ocupava no título é indicado por um sinal gráfico (“*”, “...”, etc.), no índice KWAC a palavra extraída também permanece na parte considerada.
Nesse sentido, como destaca Moreiro González (2004), o critério aplicado para extração de palavras é simplesmente a sua presença na parte do documento, decisão que se fundamenta exclusivamente em elementos formais, exclui fatores semânticos e até mesmo sintáticos.
De acordo com Moreiro González (2004), os princípios nos quais a extração de palavras se sustenta estão relacionados à suposição de que os títulos são significativos e que as palavras extraídas no processo de construção dos índices são realmente válidas para representar o conteúdo de um documento. Baseia-se no princípio de que existe a possibilidade de uma palavra isolada se tornar ambígua, mas que o contexto que circunda esta palavra auxilia na definição e explicação de seu significado.
A vantagem em aplicar esse tipo de método de indexação é a facilidade em elaborar os índices. O custo é mínimo e não requer pessoal especializado, além de refletirem o conteúdo de uma coleção de documentos. Por outro lado, existem inconvenientes como: a inexistência de critério de valor entre palavras; as palavras extraídas possuem a mesma importância; não é possível considerar conceitos implícitos; não há controle de vocabulário; portanto, o método está suscetível à recuperação de documentos irrelevantes. Por esses motivos, depende de uma estabilidade terminológica da área de conhecimento, não apresenta remissivas e apresenta todos os sinônimos de um conceito como se fossem diferentes, da mesma forma que considera todas as entradas diferentes de cada uma das formas gramaticais de uma palavra (por exemplo: “gato”, “gata”, “gatos”, “gatas”). Além disso, termos compostos podem ser desestruturados, como no caso do índice KWOC e KWAC, e os títulos, estrutura a partir da qual, mais comumente, são construídos os índices, podem não refletir adequadamente os conteúdos como se acreditava (MOREIRO GONZÁLEZ, 2004).
Estudos como o de Gil Leiva e Rodríguez Muñoz (1997) mostram que dependendo da área de conhecimento os títulos não são fontes definitivas para fazer a indexação dos documentos, posto que apresentam apenas uma pequena parte dos termos representativos do conteúdo dos documentos. Devido a tais circunstâncias, é possível trabalhar apenas em uma única língua, seus resultados podem ser aproveitáveis no domínio técnico e científico dos artigos de periódicos e existe dificuldade de aplicá-los em buscas retrospectivas sobre um período mais amplo (CHAUMIER, 1986).
O método de indexação fundamentado em extração de palavras proporcionou praticidade no processo de construção de índices, principalmente com a aplicação de computadores. O indexador não tem participação intelectual, seu papel se resume a atividades operacionais, uma vez que o computador simplesmente realiza todo processo.
Os resultados oferecidos pelo método de extração de palavras mostram, sem dúvida, que sua qualidade é questionável, haja vista a gama de interferências linguísticas que se apresentam quando nos referimos ao uso da palavra como elemento de representação do conteúdo dos documentos. Segundo Silva e Fujita (2004), tais interferências começaram a ser mais intensamente discutidas, buscando investigar as interfaces da Ciência da Informação com a Linguística, justamente quando apareceram os estudos de indexação automática.
Alguns sistemas surgiram com a proposta de auxiliar o trabalho do indexador humano, oferecendo orientação quanto à construção dos índices em uma organização em cadeia, como é o caso do sistema PRECIS.