• No results found

Opsjonsbasert verdsettelse

3.2 Hovedteknikker for verdsettelse

3.2.2 Opsjonsbasert verdsettelse

Os primeiros sistemas de indexação automática foram desenvolvidos com base em abordagens matemáticas, pautadas na extração de palavras. A palavra é considerada a unidade de representação da informação.

Todos os fatores intervenientes que identificamos são, de certa forma, consequência do critério de identificação de palavras como unidades de representação. O sistema SISA atua sobre a identificação de padrões de sequência de caracteres e não exatamente sobre os conceitos que as palavras representam. Por isso ocorrem casos em que conceitos específicos,

conceitos expressos por termos compostos e conceitos implícitos não são identificados pelo sistema.

A partir das décadas de 1970 e 1980, os estudos linguísticos foram impulsionados na área de indexação automática, buscando integrar analisadores linguísticos e matemáticos. Houve um avanço nessa área quando se passou de uma abordagem com enfoque na palavra como unidade de representação para um enfoque voltado à investigação de estruturas mais complexas, como os sintagmas nominais. Verifica-se a importância da identificação de conceitos na evidência de que o valor de uma análise automática se traduz na identificação do significado, das ideias expressas que podem estar explícitas e, da mesma forma, implícitas no texto dos documentos.

Ainda que analisadores morfológicos e sintáticos possam realizar a análise de estruturas linguísticas, a análise semântica não depende apenas dessas análises: exige, ainda, uma base de conhecimento. Kuramoto (2002) explica que existe uma grande diferença entre a indexação automática e a indexação pelo indexador humano, pois, na indexação realizada pelo ser humano, utiliza-se a base de conhecimentos da pessoa, do especialista, assim como as técnicas de análises de assunto e outras ferramentas (tesauros, vocabulários controlados, lista de termos). Por outro lado, na indexação automática a máquina não possui essa base de conhecimentos nem utiliza qualquer técnica de análise de assuntos, mas, tão somente, a extração de palavras isoladas dos documentos.

Os resultados da pesquisa mostram que a integração de analisadores morfológicos e sintáticos ao sistema SISA pode contribuir para melhorar os resultados de indexação. A lematização pode contribuir para solucionar os problemas relacionados ao fator “termos no singular e no plural”, ao normalizar as distinções de flexão de número, e ao fator “frequência de ocorrência dos termos em apenas uma estrutura do documento”, por constatar que muitos termos se apresentam de formas diferentes em diferentes estruturas do artigo.

Do mesmo modo, a tokenização é um recurso que pode contribuir para definir exatamente quais são as marcas (sinais, pontuações, hífens, parênteses, aspas, apóstrofo) que devem ser consideradas parte integrante dos termos de indexação. Exemplos foram apresentados no fator “diferença na apresentação entre os termos do artigo e os termos do vocabulário controlado”.

Embora os recursos de análise morfológica e sintática — tais como: lematização,

tokenização, identificação de categorias gramaticais, eliminação de palavras vazias —

generalizar todas as situações que ocorrem na linguagem, pois cada idioma possui suas particularidades, seja quanto às regras gramaticais, seja quanto aos sistemas de escrita (o chinês e o árabe, por exemplo, possuem sistemas de escrita que não adotam o alfabeto latino).

Desse modo, constata-se que a indexação automática possui limitações e, portanto, é mais prudente direcionar a aplicação de sistemas de indexação automática a casos particulares que permitam definir melhor a escolha dos métodos de indexação.

Os métodos fundamentados nas ideias de Zipf e Luhn, ou seja, na frequência de ocorrência de palavras, foram importantes para o desenvolvimento dos primeiros sistemas de indexação automática e continuam a ser a base elementar dos sistemas atuais.

O critério de frequência no sistema SISA se estabelece a partir da combinação de frequências nas estruturas “título”, “resumo” e “texto” do artigo. Nem sempre a frequência de um termo relevante ocorre em combinação de estruturas. É muito comum ocorrer apenas no texto e não alcançar a frequência requerida pelo SISA para poder atribuir o termo de indexação. Nesse sentido, outros critérios de ponderação dos termos para indexação poderiam ser integrados para torná-lo mais flexível.

Embora haja esforços para o desenvolvimento da indexação automática, os métodos têm-se limitado à análise de linguagem textual (ANDERSON & PÉREZ-CARBALLO, 2001). Atualmente, existe a facilidade de produção de recursos informacionais multimídias, mas não precisamos ir tão longe para afirmar a necessidade de que os sistemas identifiquem elementos além do texto, tais como fórmulas, números, imagens, gráficos, tabelas, legendas, etc., que podem ser encontrados em um simples documento.

Os artigos científicos de odontologia selecionados para o experimento com o uso do DeCs no SISA apresentavam muitas imagens, que foram desconsideradas no momento da conversão dos artigos para o formato TXT. A linguagem textual que acompanha a imagem pode até mesmo ser descontextualizada quando se desvincula da imagem. É importante desenvolver pesquisas sobre metodologias para análise automática de elementos além do texto, afinal, o assunto dos documentos é expresso pelo conjunto de informações manifestadas em diversas formas.

Verificamos que, no SISA, o formato TXT não reconhece elementos como imagens, tabelas, figuras, etc. A maior parte dos artigos científicos estão disponíveis em formato PDF, DOC e XML, entre outros formatos, o que indica a necessidade de que os sistemas de indexação permitam a inclusão de diversos formatos de documentos, tanto para preservar os elementos do documento como para facilitar o trabalho de configuração do sistema.

Constatamos que cada conceito relacionado à indexação — indexação assistida por computador, indexação semiautomática e indexação automática — reflete processos distintos de análise e representação da informação, o que pode também proporcionar resultados de indexação diferentes. Em um contexto mais amplo, podemos afirmar que cada conceito reflete a concepção de distintas políticas de indexação e as posturas profissionais do indexador. Na indexação assistida por computador, o indexador humano tem o papel de analisar o conteúdo, utilizando o sistema apenas para inserir os termos de indexação. Na indexação semiautomática, o papel do indexador humano é avaliar os termos que foram propostos pelo sistema. Na indexação automática, todo o processo é realizado pelo sistema. No entanto, o papel do indexador humano será projetar, desenvolver, aperfeiçoar e atualizar o sistema de indexação automática de tal forma que os resultados gerados pelo sistema sejam confiáveis. Quando se pensa em uma indexação semiautomática deve-se refletir também sobre os critérios e sobre os requisitos empregados para realizar essa avaliação.

A exigência para desenvolver métodos mais complexos atualmente é motivada pela necessidade que se verifica diante do contexto caótico de disponibilização de informações, como, por exemplo, o ambiente Web, e pelo contexto favorável ao desenvolvimento de ferramentas oferecido pelos avanços tecnológicos, que, esperamos, possam um dia auxiliar efetivamente no processo de indexação e recuperação da informação.