• No results found

Historicamente a palavra “marcação” descreve anotações ou marcas que informavam a maneira como parte de um texto deveria ser representada. O paradigma das linguagens de marcação vislumbra que um documento é composto de conteúdo, estrutura e estilo. Segundo Bax (2001), o conteúdo seria a informação em si; a estrutura seria como se dá a organização da informação; e o estilo, a maneira como a informação será apresentada para o usuário.

Algumas linguagens de marcação de padrão aberto (SGML, HTML, XML, etc) permitem a criação de documentos que podem ser manipulados independentemente de plataforma de hardware e software. As linguagens XML (eXtensible Markup Language) e HTML (HyperText Markup Language) são linguagens com tais objetivos, sendo originadas da SGML65 (Standard Generalized Markup Language). O CERN – European Organization for

Nuclear Research (Centro Europeu de Pesquisas Nucleares) utilizou no início da década de 80 a SGML em pesquisas de hipertextos. Dessa maneira, o pesquisador Tim Berners-Lee acabou criando no início da década de 90 o Word-Wide Web, que empregava a idéia de ligações entre documentos (páginas) localizados em qualquer parte do mundo, através da rede mundial de

64 As linguagens RDF e RDF-Schema podem ser consideradas a fundação da Web Semântica. Tais linguagens tornaram-se um padrão recomendado pela W3C que define uma linguagem para descrever recursos, tais como as páginas na Web. Uma recomendação do W3C é entendida pela indústria e pela comunidade como um padrão para a Internet (BREITMAN, 2005).

65 A SGML foi reconhecida como um padrão ISO (8879) em 1986. É considerada uma linguagem para definir outras linguagens, na qual cada documento SGML carrega consigo sua própria especificação formal, o Data

computadores (a Internet) e do URL. Daí o surgimento da HTML66, sendo formada por um conjunto de marcações (conhecidas por tags) predefinidas, com a função de apresentar a informação por meio de páginas Web. Tal linguagem é um padrão usado em diversas aplicações, incluindo navegadores, editores, servidores de base de dados e outros. A Figura 22 apresenta um exemplo de um documento HTML simples, contendo algumas formatações para títulos e listas.

<HTML> <HEAD>

<meta name="Autor" content="João da Silva"> </HEAD> <BODY> <H1> Título 1 </H1> <H2> Título 2 </H2> <H3> Título 3 </H3> <P> Texto Normal </P> <LI> item 1 </LI> <LI> item 2 </LI> <LI> item 3 </LI> </BODY>

</HTML>

Figura 22 - Exemplo de um documento simples em HTML e sua apresentação (à direita)

Fonte: o próprio autor

Entretanto, tal padrão apenas descreve como uma página Web deve ser exibida, não oferecendo nenhuma descrição dos dados. Isso pode acarretar restrições nas buscas, no intercâmbio de dados entre plataformas diferentes, na personalização da informação, dentre outras.

A linguagem XML67 surge então em 1997 com a proposta de ser um formato para descrição de dados semi-estruturados. Uma diferença em destaque entre HTML e XML é que esta última permite um número ilimitado de marcações, indicando o que cada elemento significa, e não o que será apresentado. Tal formato é especificado por definições de tipos de documentos (DTDs) ou por esquemas XML (XML Schema68 ou XMLS). Um DTD define a

estrutura e sintaxe de um documento, ajudando a validar se o mesmo está em conformidade com uma estrutura. Esquemas XML têm a mesma função, mas permitem um maior tratamento às informações. Pode-se definir tipo e formato exato dos atributos, número exato de instâncias de um aninhamento e há mecanismos de inclusão e derivação que proporcionam o seu reuso (TOLENTINO, 2004). Estas capacidades ajudam a reduzir a distância entre DTDs e

66 http://www.w3.org/MarkUp/ 67 http://www.w3.org/XML/ 68 http:///www.w3.org/XML/Schema

ontologias, pois podem ser introduzidos meios para restringir estruturas de documentos e conteúdos, herança para elementos e atributos, tipos primitivos e outras características úteis (FENSEL et al., 2001).

A XML pode utilizar padrões de metadados como o Dublin Core69 na declaração de vocabulários, além de possibilitar criar vocabulários pelos próprios autores do documento. Tais vocabulários são declarados através da utilização da marcação namespace70, garantindo

que para cada termo utilizado na confecção do documento tenha-se apenas uma definição, evitando assim ambigüidade em sua referência. Um namespace XML é uma coleção de nomes (usados em documentos XML como nomes de elementos e de atributos) identificados através da referência a um URI. No exemplo da Figura 23, os elementos xmlns:dc e xmlns:bib indicam respectivamente o namespace do próprio Dublin Core e o relativo ao domínio de biblioteca. Cada elemento está localizado dentro de um único arquivo, que contém a especificação do vocabulário utilizado para descrever a entidade livro no domínio de biblioteca. Para evitar a repetição do endereço do vocabulário todas as vezes que se fizer menção a um de seus termos, cria-se um namespace (mapeado a um URI) para ele. No exemplo, as etiquetas do tipo bib: e dc: substituem respectivamente a menção aos seus endereços completos (http://biblioteca/vocabulario/livro e http://purl.org/dc/elements/1.1/). Exemplos são title, description, publisher e identifier relacionados ao prefixo dc: ; e preço e instituição relacionados ao prefixo bib:.

<?xml version="1.0"?>

<xmlns:dc="http://purl.org/dc/elements/1.1/"> <xmlns:bib="http://biblioteca/vocabulario/livro"> <bib:livro>

<dc:title> Web Semântica – a Internet do Futuro </dc:title>

<dc:description> Este livro oferece um tratamento extenso e compreensivo da Web Semântica e das novas tecnologias necessárias para compreender e implementá-la.

</dc:description>

<dc:publisher> Livros Técnicos e Científicos </dc:publisher> <dc:identifier> http://www.inf.puc-rio.br/index.html </dc:identifier> <bib :preco> R$ 33,71 </bib :preco>

<bib:instituicao> Pontifícia Universidade Católica do Rio de Janeiro </bib:instituicao> </bib:livro>

Figura 23 – Exemplo de um documento em XML

Fonte: o próprio autor

69 Informações adicionais em http: //dublincore.org/ 70 http://www.w3.org/TR/REC-xml-names/

O uso de metadados auxilia sobremaneira a indexação de páginas na Web, melhorando a eficiência na recuperação da informação. Gilliland-Swetland (2000) dá uma definição panorâmica sobre metadado: “a soma total do que pode ser dito sobre algum objeto informacional em algum nível de agregação”. A autora entende objeto informacional como um item ou grupo de itens que pode ser manipulado ou endereçado, independente de tipo ou formato, como um objeto singular ou discreto por um humano ou computador.

Velluci (1998) considera que o advento da Internet potencializou o esforço de bibliotecas e especialistas em informação para melhorar métodos de descrição, organização e recuperação de objetos digitalizados acessados remotamente. Este esforço envolve ainda criadores, provedores e usuários de recursos eletrônicos dos setores acadêmicos, públicos e comerciais. Alvarenga (2003) contribui nessa perspectiva dizendo que no novo contexto de produção, organização e recuperação de objetos digitais, as metas de trabalho não se restringem à criação de representações simbólicas dos documentos constantes de um acervo, mas compreendem a criação de novas formas de escrita para os hipertextos e a criação dos denominados metadados, muitos dos quais podem ser extraídos diretamente dos próprios objetos, constituindo-se, esses, em chaves de acesso a serviço dos internautas.

Vellucci (1998) assinala, no entanto, a importância da convergência de esforços, no intuito de conceber uma estrutura flexível para a organização e acesso a essas informações. Os padrões de metadados têm a capacidade de prover um vocabulário comum para descrever uma variedade de estruturas de dados capazes de satisfazer uma enorme gama de interessados - incluindo os cientistas da computação e engenheiros, os quais desenvolvem máquinas de busca e criam padrões de documentação para Internet, além de estudantes, bibliotecários e arquivistas que organizam e provêem acesso a recursos eletrônicos.

Diante a tais necessidades, principalmente em função da organização da Web, surgiram novas propostas capazes de tratar a semântica envolvida nas estruturas de metadados existentes nos diversos ambientes de informação. Trata-se de aplicações baseadas em XML com funções de publicar vocabulários legíveis para humanos e máquinas, além de proporcionar a reutilização e a distribuição dos metadados. Tais linguagens são apresentadas a seguir.