• No results found

Tal como referido anteriormente, os metadados são tão úteis para a gestão dos conteúdos como para a descoberta destes após a publicação e, portanto, os metadados tendem, na prática, a ser usados para ambas as finalidades. Analisando os elementos de um esquema de metadados, Garshol (2004) concluiu que:

• O elemento subject ou keyword (assunto ou palavra-chave) é o elemento mais útil para apoiar a localização e recuperação de recursos de informação na perspectiva da grande maioria dos utilizadores. Note-se que o assunto já era usado com relevo nas fichas ou catálogos impressos (cabeçalho de assunto) inerentes à indexação e classificação de documentos de natureza monográfica;

• Os restantes elementos de metadados são mais úteis no âmbito da gestão e organização dos documentos e na ajuda ao utilizador para refinar a pesquisa ou decidir sobre se os resultados devolvidos na pesquisa correspondem aos seus requisitos;

• O elemento subject ou keyword, sendo apenas um campo de texto sem restrições (onde qualquer vocabulário é aceite), vê limitadas as suas potencialidades, uma vez que para descrever um determinado assunto podem existir diversas palavras-chave ou assuntos fortemente relacionados. Por exemplo: “mapas de tópicos”, “mapas de navegação em tópicos” (antigo nome para mapas de tópicos), “XML Topic Maps” (um formato para expressar mapas de tópicos em XML, frequentemente usado como sinónimo de mapas de tópicos), “XTM” (o acrónimo para a linguagem ou formato), etc.

Face à dificuldade em descrever precisamente o assunto dos objectos de informação, o uso de instrumentos de controlo terminológico para apoio à indexação e recuperação da informação torna-se imperativo. Ao longo do último século surgiram, evolutiva e cumulativamente, várias abordagens de classificação baseadas no assunto (subject-based

classification): Vocabulário Controlado (Controlled Vocabulary), Taxonomia (Taxonomy),

Tesauro (Thesaurus) e Classificação Facetada (Faceted Classification). Vários exemplos de aplicação destas abordagens podem ser encontrados em Steffen Staab e Rudi Studer (2004), nomeadamente no âmbito da categoria Classification da especificação LOM (Brase e Nejdl, 2004).

O objectivo destas abordagens não é descrever os objectos de informação (esse objectivo é dos metadados), mas sim descrever os assuntos (subjects ou keywords) que serão

usados nos metadados para os descrever. Genericamente, as classificações baseadas no assunto são formas de classificação dos conteúdos que agrupam os objectos de informação pelos assuntos que lhe são próximos ou que melhor os descrevem.

Embora não seja objectivo deste capítulo analisar detalhadamente os principais instrumentos para auxiliar a indexação e recuperação de informação, convém esclarecer sucintamente cada um deles para contextualizar as abordagens mais recentes: Ontologias (Ontologies) e Mapas de Tópicos (Topic Maps).

Embora diferentes, todas estas abordagens de classificação são similares nos seguintes aspectos (Librelotto, 2005):

• São abordagens para estruturar, classificar, modelar e representar conceitos e relações pertencentes a algum assunto de interesse significativo para uma determinada comunidade;

• Permitem que uma comunidade adopte e use o mesmo conjunto de termos de um modo uniforme;

• O significado dos termos é especificado de alguma maneira a um certo nível.

4.1.1.1- Dicionários e Índices

Genericamente, os dicionários são listas alfabéticas de termos ou conceitos e do vocabulário explicativo dos mesmos. Os glossários são um tipo de dicionários usados para fornecer a explicação de termos pouco conhecidos ou de termos técnicos.

Um dicionário também pode ser usado no âmbito do desenvolvimento de software para documentar as fases de identificação e especificação de requisitos com vista a definir e esclarecer os termos, melhorar a comunicação e evitar mal-entendidos.

Embora os dicionários tenham referências adicionais, tais como: “m.q. (mesmo que), “veja (see)” ou “veja também (see also)”; não têm apontadores para ocorrências de conceitos, tal como os índices.

Os índices são listas alfabéticas dos termos relevantes de um documento e da indicação dos locais onde esses termos aparecem. Por exemplo, num índice remissivo de um livro, cada conceito é associado com a indicação das páginas onde o mesmo foi referido.

4.1.1.2- Vocabulários Controlados

Os vocabulários controlados são constituídos por termos (nomes específicos para conceitos específicos) para usar na indexação ou assuntos para utilizar na classificação. Assim, evita-se que os autores definam termos de fraco significado, termos demasiado gerais ou termos demasiado restritos e impede-se que escolham formas ligeiramente diferentes do mesmo termo ou que dupliquem os termos. Por exemplo, evita-se que os autores usem “mapas de navegação em tópicos” ou “XTM” (ou mesmo termos incorrectamente definidos, tal como “mapas de topiocs”), forçando-os a usar “mapas de tópicos”. Ou seja, um vocabulário controlado evita ambiguidades quanto à designação dos termos e conceitos. Alguns exemplos de vocabulários controlados são: LCSH (Library of Congress Subject

Headings), MESH (Medical Subject Headings) e ERIC (Education Resources Information Center) descriptors.

Convém frisar que os vocabulários controlados (conjunto de termos para a indexação) nada têm a ver com os vocabulários de metadados (tokens ou propriedades sugeridas para descrever os objectos de informação) recomendados para alguns elementos dos esquemas LOM e DCM.

4.1.1.3- Taxonomias

As taxonomias (também designadas por taxionomias ou taxinomias) correspondem a classificações hierárquicas de termos. As taxonomias permitem hierarquizar os vocábulos ou termos dos vocabulários controlados, permitindo que os termos relacionados sejam agrupados e categorizados sistematicamente para que seja mais fácil encontrar o termo que melhor se adequa à descrição de um determinado objecto de informação. Uma das taxonomias mais conhecidas é a taxonomia dos organismos vivos. A Figura 40 ilustra parcialmente uma taxonomia que organiza hierarquicamente os conceitos que compõem o domínio dos seres vivos em diferentes classes.

As relações são definidas através de ligações entre os conceitos. Os conceitos superiores (classes) têm subclasses que herdam as suas propriedades. A partir desta taxonomia podemos afirmar que um humano é racional. Se é racional é mamífero e, se é mamífero é animal, que por sua vez é um ser vivo.

Figura 40 – Exemplo de uma taxonomia para os seres vivos

Para além das taxonomias dos seres vivos (classificação coerente dos animais e vegetais em hierarquias de grupos superiores e subordinados, ou seja, cada reino está subdividido em grupos ou taxa (plural de taxon) sucessivamente mais restritos: Filo, Classe, Ordem, Família, Género e Espécie), podem ser encontrados outros exemplos, tais como: NCBI (National Center for Biotechnology Information), ACM Taxonomy, Taxonomia dos Objectivos Educacionais (Taxonomy of Educational Objectives) ou Taxonomia de Bloom (Bloom's Taxonomy), etc.

A Figura 41 ilustra uma hipotética estrutura taxonómica para este capítulo. Esta estrutura permitiria perceber as categorias no âmbito da representação do conhecimento e descrever os assuntos que seriam usados na classificação do objecto de informação.

Contudo, embora a taxonomia seja útil para o autor aquando da criação dos metadados, na descoberta e recuperação de objectos de informação apenas a indicação “Mapas de tópicos” terá utilidade, uma vez que os restantes conceitos não são capturados. Por exemplo: os metadados não incluirão a linha que liga “Mapas de Tópicos” a “Representação do conhecimento”, logo essa indicação nunca será considerada. Outras indicações inerentes aos conceitos expressos na taxonomia não capturados podem ser (Garshol, 2004):

• O facto de que “XML Topic Maps” é sinónimo de XTM; • A diferença entre “XTM” e “Mapas de Tópicos”;

• O facto de que “mapas de navegação em tópicos” é sinónimo de “Mapas de Tópicos”, mas que actualmente já não é usado;

• A relação entre “Mapas de Tópicos” e a Web Semântica; • A relação entre XTM, XML, HyTM e SGML;

• Entre muitas outras indicações que poderiam enriquecer a descrição do objecto de informação em questão.

Figura 41 – Exemplo de uma taxonomia para a Gestão do Conhecimento

Em sentido lato e do ponto de vista dos metadados, podemos afirmar que não existe qualquer diferença entre um vocabulário controlado e uma taxonomia (Garshol, 2004).

4.1.1.4- Tesauros

Os tesauros ou thesauri são vocabulários controlados e dinâmicos de termos relacionados semântica e genericamente e cobrindo um domínio específico do conhecimento. Pode ser definido, também, segundo a sua função, como um dispositivo de controlo terminológico usado na tradução da linguagem natural dos documentos, dos indexadores ou dos utilizadores numa linguagem do sistema mais restrita (UNESCO, 1973). Existem duas normas para descrever estas estruturas: ISO2788 (tesauro monolingue) e ISO5964 (tesauro multilingue). Os componentes de um tesauro são: termos (descritores que representam conceitos); estrutura (relacionamento entre conceitos representados por termos) e conjuntos de remissivas. A notação usada nestas normas pode resumir-se a:

• Relações hierárquicas: TT (Top Term), BT (Broader Term) e NT (Narrower Term); • Relações com outros termos: RT (Related Term);

• Termos preferenciais: USE // UF (usar preferencialmente um termo em vez de outro); • Propriedade para esclarecer o contexto através de nota: SN (Scope Note).

Os tesauros são um instrumento melhor do que as taxonomias, uma vez que fornecem um vocabulário mais rico para descrever os termos. Por exemplo, na taxonomia da Figura 40 – Exemplo de uma taxonomia para os seres vivos, poderíamos indicar o uso do termo “pessoas” em vez do termo “humanos” através do termo preferencial “USE”. Por conseguinte, muitos dos problemas identificados nas taxonomias podem ser resolvidos recorrendo a tesauros. Alguns exemplos de tesauros são: TEE (Thesaurus Europeu da Educação); TESE (Thesaurus Europeu dos Sistemas Educativos), Tesauro EUROVOC (Thesaurus das Comunidades Europeias), Tesauro UNESCO (United Nations Educational, Scientific and

Cultural Organisation Thesaurus), Tesauro ETB (European Treasury Browser Thesaurus),

TGN (Thesaurus of Geographic Names), Webster's New World Thesaurus, Thesaurus of

English Words & Phrases ou Roget's Thesaurus, WordNet (a lexical database for the English language - dictionary and thesaurus), etc.

4.1.1.5- Classificações Facetadas

As classificações facetadas derivam da proposta inicial de Ranganathan (também conhecida como Colon Classification) que consistia em cinco facetas (facets): Personality

(Personalidade), Matter (Matéria), Energy (Energia), Space (Espaço) e Time (Tempo). Genericamente, as classificações facetadas são estruturas que identificam características comuns a várias categorias de um assunto, organizando-as em diversos aspectos ou facetas. Ou seja, a informação é organizada em compartimentos que associam um atributo a um valor atómico ou complexo. Logo, a descrição dos assuntos é realizada com maior especificidade e, consequentemente, existirá mais do que uma forma de descobrir e recuperar um determinado objecto de informação. Os exemplos mais relevantes de sistemas de classificação facetada são: DDC (Dewey Decimal Classification), UDC (Universal Decimal Classification), LCC (Library of Congress Classification) e NLMC (National Library of Medicine Classification).