• No results found

Miljømessige forhold

4.1 PESTEL - Makroøkonomisk analyse

4.1.5 Miljømessige forhold

Os vocabulários controlados são instrumentos fundamentais para garantir a consistência na indexação. Passam a ser integrados nos sistemas de indexação automática para auxiliar no controle terminológico.

Os vocabulários controlados foram originalmente concebidos para o processo de indexação manual, ou seja, foram construídos para que os profissionais, por meio de uma análise reflexiva, pudessem atribuir o melhor termo para representar o assunto de que trata o documento.

Os primeiros vocabulários controlados, os cabeçalhos de assuntos, remontam ao final do século XIX, época em que os computadores ainda não eram utilizados. Após o surgimento dos tesauros, os cabeçalhos de assuntos, concebidos para uso nos catálogos alfabéticos de assuntos das bibliotecas, adotaram algumas características daqueles, justamente para poder dispor de uma estrutura mais flexível em termos de estabelecimento de relações semânticas e organização sistemática.

O DeCS foi desenvolvido a partir do MeSH (Medical Subject Headings) da United

States National Library of Medicine (NLM). O MeSH, publicado em 1960, é um tesauro

formado por uma lista de descritores representados também na forma de cabeçalhos de assuntos na área de Ciências da Saúde para a indexação e a recuperação de artigos de periódicos publicados nos Estados Unidos e em mais de 70 países, disponibilizados na base de dados MEDLINE (BOCATO, 2005).

O DeCS é um vocabulário controlado trilíngue criado e mantido pela BIREME para servir como linguagem única na indexação de artigos de revistas científicas, livros, anais de congressos, relatórios técnicos, e outros tipos de materiais, assim como para ser usado na pesquisa e na recuperação de assuntos da literatura científica nas fontes de informação disponíveis na Biblioteca Virtual em Saúde (BVS) (CENTRO LATINO-AMERICANO E DO CARIBE...).

Por sua vez, o ThesAgro foi concebido de acordo com as diretrizes da UNESCO, das normas do “Principles directeurs pour Létablissement et le développement the thesaurus

monolíngues” (SC/WS/555, Paris, 1973), tendo sido lançada, a sua primeira versão, em 1979.

É um tesauro especializado na literatura agrícola, aplicado à indexação e à recuperação de documentos, e foi desenvolvido pela BINAGRI (BIBLIOTECA NACIONAL DE AGRICULTURA...).

Verificamos que o DeCS apresenta elevada coordenação dos termos de indexação, mas alguns termos compostos ainda assim foram atribuídos. Isso pode ser explicado porque a elaboração do vocabulário controlado apoiou-se no princípio da garantia literária, característica comum na elaboração dos cabeçalhos de assuntos. O princípio da garantia literária indica que os assuntos sejam definidos em função de como são apresentados na literatura da área e de como serão buscados pelos usuários.

No entanto, observamos que, de um modo geral, a característica de coordenação do vocabulário DeCS também impediu que o sistema atribuísse uma quantidade elevada de termos de indexação para cada artigo. Isso pode explicar a diferença de termos atribuídos na indexação com o uso do DeCS e com o uso do ThesAgro.

Na aplicação do DeCS houve uma variação de 1 a 11 descritores e uma média de 5 a 6 descritores na indexação no SISA, com variação de 2 a 13 e com média de 4 a 5 descritores na indexação pela BIREME. Já na aplicação do ThesAgro obteve-se uma variação de 4 a 25 descritores e uma média de 14 descritores atribuídos pelo SISA, com variação de 3 a 14 descritores e média de 6 a 7 descritores atribuídos pela BINAGRI. A quantidade de

descritores é considerada no cálculo de consistência na indexação, o que explica, portanto, o índice mais elevado no experimento com o DeCS no SISA.

Verificamos que o ThesAgro é caracterizado por termos constituídos por apenas uma unidade lexical e por termos compostos, mas em menor medida do que o DeCS. Desse modo, no experimento com o ThesAgro foi atribuída uma elevada quantidade de termos de indexação porque a possibilidade de haver compatibilidade entre os termos simples que se encontram no artigo e no vocabulário controlado são maiores.

A questão que permanece quando se realiza um processo de cotejamento entre o vocabulário controlado e os artigos é se o conceito apresentado pelo termo do artigo científico corresponde ao conceito definido pelo termo do vocabulário controlado. Esse questionamento também se aplica à indexação humana, porque, de fato, os vocabulários controlados são limitados, desatualizados e específicos demais. Quando se trabalha com palavras, isto é, com uma sequência de caracteres expressa entre determinadas marcas, a garantia da expressão semântica se torna questionável.

O uso de vocabulário controlado de uma área específica não minimiza os riscos de ocorrer ambiguidade, haja vista os casos em que identificamos diferença semântica entre os termos do artigo e os do vocabulário controlado na área de fruticultura. Além disso, verificamos que a delimitação do vocabulário controlado a uma área específica pode se tornar um empecilho à indexação de assuntos interdisciplinares.

Na aplicação de sistemas de indexação automática em áreas específicas do conhecimento, a análise das características que as definem — como terminologia, tipologias documentais (artigos científicos, relatórios, acórdãos, livros, legislação, laudos médicos, etc.) e sua relação com as estruturas textuais, comportamento da produção científica da área, redes de colaboração de pesquisadores, relação temáticas entre pesquisas, o que indica tendências de pesquisas, rede de citações, coocorrência de assuntos — pode contribuir para o estabelecimento de requisitos para o aperfeiçoamento do sistema.

As características de cada área do conhecimento precisam ser analisadas, para que esses métodos de indexação automática possam ser aplicados com mais confiabilidade a áreas que contemplam características adaptáveis a tais métodos.

Analisamos também diversos sistemas de indexação automática multilíngues. Com o acesso às bases de dados por meio das redes de computadores, torna-se imprescindível dispor de sistemas capazes de lidar com várias línguas. As investigações de tradutores automáticos avançaram e estão sendo integradas aos sistemas de indexação automática com uso de

vocabulários controlados multilíngues. É necessário lembrar que muitos documentos apresentam termos em outras línguas, dependendo da área de conhecimento de que tratam e, assim, considerar esses termos na indexação pode ser relevante. Desse modo, será necessário refletir sobre a aplicação e a integração de vários vocabulários controlados em um mesmo sistema de indexação.

A atualização dos vocabulários controlados é um grande desafio e uma característica fundamental para acompanhar o desenvolvimento científico das áreas do conhecimento. Na indexação automática, metodologias de atualização integradas aos processos de análise automática dos textos podem ser empregadas para agilizar a atualização e aproveitar os assuntos novos que são identificados na literatura da área do conhecimento.

Pouliquen, Steinberger e Ignat (2003) explicam que a simples extração de palavras do texto e o seu cotejamento com o vocabulário controlado não é suficiente no processo de atribuição de termos de indexação. Isso se deve à constatação de que a maior parte dos termos atribuídos aos documentos não estão explicitamente apresentados no texto.

No SISA, o cotejamento entre o artigo científico e o vocabulário controlado teria resultados favoráveis se o sistema realizasse um tratamento morfológico e sintático no início da análise automática para tratar as distintas formas com que os termos do artigo se apresentam. A partir de dados textuais normalizados, o sistema teria condições de atuar por processo de cotejamento. É claro que o tratamento linguístico a que nos referimos deve considerar os problemas envolvidos com recursos como lematização, tokenização, eliminação de palavras vazias, tal como foi exposto nos capítulos anteriores.

O SISA apresenta limitação quanto ao uso das potencialidades de um tesauro ao permitir a configuração do vocabulário controlado na ordem alfabética dos descritores e contemplar apenas as relações de equivalência.

Os vocabulários controlados também precisam ser adaptados com relações semânticas que os sistemas possam reconhecer, distinguindo entre conceitos gerais e específicos, conceitos associados e equivalentes.