4. ANALYSIS AND FINDINGS
4.1. DESCRIPTIVE STATISTICS
indexação. Tais procedimentos se integram na medida em que os aportes teóricos sobre vocabulários controlados, indexação automática e sistemas de indexação embasam as discussões que se originaram da análise dos resultados de aplicação e avaliação da indexação. A aplicação do ThesAgro no sistema SISA fornece os dados quantitativos e os descritores que são examinados na fase de avaliação (capítulo 5). Nesta fase, por sua vez, são obtidos os fatores que interferiram na indexação e recuperação da informação (capítulo 6). Por fim, os resultados da avaliação em consonância com os resultados teóricos é que permitem sintetizar os aspectos a serem considerados na adaptação de vocabulários controlados no processo de indexação automática (capítulo 7).
4.1 Sistematização teórica sobre indexação automática e sistemas de indexação automática
Esta pesquisa tem caráter teórico-prático, sendo desenvolvida por abordagem qualitativa (revisão da literatura) e por abordagem quantitativa (investigação dos resultados propostos pelo experimento com o SISA). Nesse sentido, para a elaboração da revisão da literatura realizamos uma pesquisa exploratória com o objetivo de “proporcionar maior familiaridade com o problema, com vistas a torná-lo mais explícito ou a construir hipóteses” (GIL, 1996, p.45).
Para tanto, desenvolvemos uma pesquisa bibliográfica da literatura nacional e internacional da área de Ciência da Informação e áreas afins. O levantamento bibliográfico foi realizado a partir da sistematização de pesquisas, valendo-se das palavras-chave “indexação
automática”, “linguagens de indexação”, “linguagens documentárias”, “tesauros”,
“cabeçalhos de assuntos”, “vocabulário controlado”, “sistemas de indexação automática”,
“software de indexação”, além de suas variações e da tradução em inglês, considerando as
pesquisas publicadas entre o período de 1950 a 2011.
As estratégias de busca foram realizadas nas bases de dados: Athena (base de dados bibliográfica da Universidade Estadual Paulista); Dedalus (base de dados bibliográfica da
Universidade de São Paulo); Biblioteca Digital Brasileira de Teses e Dissertações (BDTD); Library Information Science Abstract (LISA); Library, Information Science and Technology Abstracts (LISTA); Wilson Web; Emerald; Portal de Periódicos Capes; Portal de Periódicos Scielo; além de buscas em periódicos nacionais on-line como “DataGramazero”, “Ciência da Informação”, “Perspectivas em Ciência da Informação” e “Informação & Sociedade: Estudos”.
A partir do levantamento bibliográfico e da leitura do título, do resumo e de trechos significativos das obras, selecionamos as fontes de informação que abordam especificamente os aspectos históricos, conceituais e metodológicos da indexação automática, tipos de linguagens de indexação como os cabeçalhos de assuntos e os tesauros, e também as ontologias. Também buscamos fontes de informação sobre os sistemas de indexação automática que aplicam alguma linguagem de indexação, PLN ou ontologia. A seleção e a análise das fontes de informação para a elaboração dos capítulos teóricos esteve pautada, sobretudo, nos aspectos considerados relevantes para a análise dos dados da pesquisa.
A sistematização e a leitura dos referenciais teóricos nos permitiram desenvolver três capítulos teóricos. O capítulo “Os vocabulários controlados como linguagens de indexação” apresenta um panorama do desenvolvimento das linguagens de indexação, desde os princípios de Cutter para a elaboração de cabeçalhos de assuntos aos tesauros, e, mais recentemente, a aplicação de ontologias. A intenção não foi apresentar um referencial exaustivo, mas um panorama do desenvolvimento e das características das linguagens de indexação, para guiar a análise da pesquisa, em que se pressupõe que os aspectos vigentes nos atuais vocabulários controlados — sob influência das correntes que os originaram — aplicados na pesquisa podem influenciar os resultados de indexação obtidos na indexação automática do SISA.
Em seguida, foi desenvolvido o capítulo “Indexação Automática”, em que tratamos especificamente dos aspectos conceituais, históricos e metodológicos da indexação automática. O foco do capítulo é o modo como são realizados os processos de indexação automática e seu aperfeiçoamento desde meados do século passado até os dias atuais. Esses aspectos metodológicos se associam às características dos sistemas de indexação descritas e analisadas no capítulo seguinte.
Nesse sentido, foram analisados 20 sistemas de indexação automática apresentados no capítulo “Sistemas de indexação automática”. A escolha dos sistemas e sua apresentação foram conduzidas por critérios de importância histórica, proposta metodológica e uso de vocabulário controlado em indexação por atribuição.
O critério de importância histórica contribui para a contextualização dos processos de indexação automática empregados no início do desenvolvimento da área, proporcionando uma análise sobre as mudanças que se fizeram necessárias diante de suas limitações. Por outro lado, o critério da proposta metodológica nos fornece informações sobre as alternativas investigadas para solucionar determinados problemas enfrentados nos sistemas de indexação automática. O último critério contribui diretamente para a análise dos resultados da pesquisa ao apresentar a aplicação de vocabulários controlados em sistemas de indexação automática, permitindo a análise sobre as implicações no processo de indexação.
QUADRO 8 - Critérios para seleção de sistemas de indexação automática
Fonte: Elaborado pela autora
Critério Sistemas de indexação
Importância histórica
KWIC, KWOC e KWAC PRECIS
POPSI NEPHIS e LIPHIS
Proposta metodológica
SMART (identificação de termos compostos) Zstation (solução de ambiguidades)
Sintagmas Nominais (KURAMOTO, 2002) (identificação de sintagmas nominais)
Proposta da UTC (identificação de Unidades Terminológicas Complexas)
Sintagmas Nominais (SOUZA, 2005) (identificação de sintagmas nominais)
SiRILiCO (análise sintática e semântica)
Indexação de acórdãos (CÂMARA JÚNIOR, 2007) (indexação automática de acórdãos)
Algoritmos genéticos (representação dos documentos adaptada às necessidades dos usuários)
SintagMed (indexação automática de laudos médicos)
Uso de vocabulário controlado em indexação por atribuição
FAIRS AUTOMINDEX Concept Indexer
HEPIndexer AUTINDEX
Sistema multilíngue (POULIQUEN, STEINBERGER e IGNAT, 2003) CADIS
O QUADRO 8 apresenta o critério principal de seleção da proposta ou sistema de indexação para análise na pesquisa. Isso significa que os sistemas também poderiam ser selecionados por outros critérios — por exemplo, o sistema AUTOMINDEX, que possui importância histórica no desenvolvimento de sistemas de indexação automática no Brasil —, mas foram selecionados pelo critério que mais se destacou para a necessidade da pesquisa.
A descrição de cada sistema de indexação automática e a análise de suas características esteve apoiada pela leitura e pela interpretação das publicações disponíveis, esclarecendo que, em nenhum momento, tivemos acesso aos sistemas propriamente ditos, o que não impossibilitou a análise de suas principais características.
O referencial teórico foi analisado sob perspectiva qualitativa, recorrendo à interpretação e à reflexão sobre os aspectos caracterizadores do tema abordado. Esses aspectos foram resgatados na etapa de análise dos resultados da pesquisa, em que verificamos as origens dos problemas levantados na atuação do vocabulário controlado na indexação automática realizada pelo SISA e também os associamos aos problemas constatados em pesquisa anterior de Narukawa, Gil Leiva e Fujita (2009).