FINDINGS FROM SEMI-STRUCTURED INTERVIEWS

4. ANALYSIS AND FINDINGS

8.3. FINDINGS FROM SEMI-STRUCTURED INTERVIEWS

explorada para automatizar e melhorar as tarefas de indexação, organização e recuperação de informação e que isso se deve à dificuldade em considerar as relações entre conceitos de forma que se considere o contexto implícito dos documentos; ou seja, fica claro que as questões linguísticas interferem no processo de indexação.

Sendo assim, Souza (2005) constata que as pesquisas nessa área podem incluir o uso de estruturas da linguagem natural, como os SN e os sintagmas verbais, e de ferramentas de representação de relacionamentos, tais como os tesauros, assim como as estratégias advindas da Linguística e da Ciência da Informação.

Nesse contexto, Souza (2005) propôs investigar o potencial dos SN em processos de indexação automática, partindo do pressuposto de que são estruturas que suportam carga semântica e podem ser utilizadas como descritores no processo de indexação automática.

A partir de pesquisas já realizadas relacionadas à utilização de SN, Souza (2005) apresentou uma metodologia para viabilizar o processo de atribuição de descritores através da

extração de SN e da análise da frequência desses sintagmas no documento e na coleção, a estrutura do sintagma, o nível dos sintagmas e a ocorrência desses em um tesauro.

De acordo com Souza (2005), a pesquisa utilizou dois corpora: a) 15 textos utilizados por Kuramoto (199926 apud SOUZA, 2005) em seu estudo sobre a possibilidade de aplicação de SN à indexação e recuperação da informação; e b) 60 documentos textuais de língua portuguesa selecionados de uma coleta de 75 textos que representam a totalidade dos artigos publicados em 2002 e 2003 nas revistas “DataGramaZero” e “Ciência da Informação”. O procedimento realizado na pesquisa para verificar a viabilidade da indexação automática via aplicação de SN é descrito da seguinte maneira:

a) Delimitar a área em que a pesquisa seria aplicada selecionando, para tanto, os textos do campo da Ciência da Informação;

b) Os textos selecionados foram convertidos em formato de arquivo para texto simples (TXT);

c) Foram retirados os resumos e palavras-chave dos textos, atribuídos pelos autores; d) Mediante a aplicação de ferramentas específicas para a extração de SN, foi

possível obter um arquivo contendo os SN na ordem em que ocorreram nos textos originais;

e) Os SN foram ordenados de acordo com a frequência de ocorrência de cada um no corpo do documento;

f) Foram descartados os SN com frequência inferior ao estabelecido;

g) Os SN com frequência igual ou maior ao critério estabelecido são agrupados a partir de sua forma canônica e reordenados;

h) Em uma etapa opcional, é possível construir uma lista de palavras proibidas mediante a análise manual dos SN que são considerados inapropriados para indexação;

i) Verifica-se a incidência dos SN no conjunto de documentos, pressupondo-se que, quanto maior a sua incidência no conjunto de documentos, menor será sua relevância como descritor;

j) Analisar a estrutura sintática e os níveis dos SN para a análise de sua relevância;

26_{KURAMOTO, Hélio. Proposition d'un système de recherche d'information assistée par ordinateur: avec} application au portugais. 1999. Thèse (Doctorat en Sciences de l’information et de la communication) - Université Lumière–Lyon 2, Lyon, França.

k) Verificar a ocorrência desses SN de forma parcial ou total em tesauro específico; l) Avaliar a relevância dos SN como descritores considerando fatores como: i) a

frequência de ocorrência do SN no texto do documento, ii) a incidência dos SN no conjunto de documentos, iii) seus níveis, iv) suas estruturas sintáticas e v) sua ocorrência no tesauro da área;

m) Analisar comparativamente os resumos e palavras-chave dos documentos originais e os SN atribuídos como descritores, para a avaliação da metodologia.

Para consecução da análise automática dos textos foram aplicadas algumas ferramentas. Como a nossa proposta é analisar os métodos empregados na indexação automática, nos ateremos principalmente às ferramentas que permitiram extrair os SN. Sendo assim, após a conversão dos textos para arquivo de texto simples, os textos foram submetidos ao processamento do analisador sintático (parser) denominado “Palavras”, desenvolvido pela Southern University of Denmark, e também ao software “Palavras Xtractor”, da Universidade do Vale do Rio dos Sinos (UNISINOS) em conjunto com a Universidade de Évora, de Portugal. Segundo Souza (2005), o processador “Palavras” utiliza um modelo gramatical chamado “Gramática de Restrições”, para realizar a análise dos textos sob a perspectiva dos lexemas, dos grupos de palavras e das orações, nos níveis ortográfico, sintático e semântico. Inicialmente, essas estruturas do texto são marcadas, considerando seus aspectos morfológicos, sintáticos e semânticos, constituindo uma lista de ambiguidades por meio da qual o processador, através da aplicação sucessiva e repetida de regras, resolve as ambiguidades e classifica sintaticamente cada palavra.

A partir da aplicação do “Palavras Xtractor”, o resultado do processamento dos arquivos de texto submetidos ao analisador é convertido em um conjunto de três arquivos em formato “Extensible Markup Language” (XML): um arquivo com o conjunto das palavras, que informa o número de ordem da palavra na sequência do texto; o arquivo com as categorias morfossintáticas, que informa sobre as categorias morfossintáticas de cada um dos lexemas; e o arquivo de agrupamentos, que contém informações sobre as estruturas sintáticas das sentenças do texto original, em que ocorrem os agrupamentos e em que se encontram os SN (SOUZA, 2005).

Sobre o papel que o tesauro exerce no processo de indexação automática, Souza (2005) verificou que o fato dos SN ocorrerem de forma exata no tesauro de Ciência da Informação quase nada contribuiu para lhes conferir relevância como descritores e que pouco

acrescenta o fato de ocorrerem parcialmente. Constatou diversos fatores que dificultam a aplicação do tesauro na indexação automática, entre os quais:

a) a antiguidade e a falta de atualização do tesauro utilizado; b) a dinamicidade do campo da Ciência da Informação;

c) as características interdisciplinares das temáticas das áreas refletidas nos artigos do

corpora, confrontadas com o foco do tesauro nas temáticas mais nucleares da

Ciência da Informação;

d) a dificuldade de comparar os conceitos relacionados, através de palavras-chave ou mesmo de SN;

e) a característica geral dos tesauros de focarem conceitos amplos e genéricos — mesmo que de área especifica —, em oposição à necessidade de contextualização

ad hoc dos descritores no escopo do texto, para o aumento de seu poder

discriminatório, e de caracterização do assunto dentre as publicações de uma área; e, por fim,

f) o fato de que o tesauro, com seu conjunto de conceitos representados por palavras, difere qualitativamente do conjunto de SN, que, por possuírem semântica intrínseca, prescindem do contexto atribuído.

No caso do tesauro, o contexto de cada termo é atribuído por notas explicativas, relacionamentos ou pelo próprio fato de fazerem parte do tesauro, mas, se forem considerados isoladamente, os termos apresentam significância inferior, e, por isso, Souza (2005) decidiu abandonar o uso do tesauro como fator primordial na seleção de descritores, sugerindo seu uso como um recurso acessório para a melhoria da qualidade dos descritores selecionados.

Segundo Souza (2005), os resultados do estudo demonstraram que a metodologia possibilitou a obtenção de descritores pertinentes aos documentos, considerados eminentemente positivos, contrariando experiências anteriores declaradamente malsucedidas, baseadas na extração de estruturas sintáticas, além de considerar as dificuldades enfrentadas pela inexistência de ferramentas de extração de SN.

A proposta de Souza (2005) integra várias alternativas para o desenvolvimento da indexação automática, destacando-se os critérios de frequência de ocorrência de SN, o uso opcional de lista de palavras vazias, a verificação da ocorrência dos SN no conjunto de documentos, a realização da análise sintática e a verificação, ainda, de ocorrência parcial ou total no tesauro.

In document ESG Integration in the Nordic private equity industry (sider 92-96)