2 Current Affairs – The Peace that Colonises
2.2. Liberal Imperialism
2.2.2 The Path to Empire
2.2.2.3 A Word on Planning
2.1.3.1. XML
eXtensible Markup Language ou XML est une version simplifiée de SGML publié par W3C en 1996. Il conserve les avantages clés SGML tels que, la structure et la validation, mais il est conçu pour être simple et facile à apprendre et à utiliser que le langage SGML (LAL 09). XML permet aux utilisateurs de créer leurs propres étiquettes sans aucune limite. Cependant, dans HTML les balises sont limitées à une liste définie. XML est devenu le format standard le plus populaire. Il permet la représentation du contenu et la structure des documents de façon indépendante.
Dans la Figure 2 Un XML simple document est affiché. Le document représente un article avec quelques éléments comme le titre, auteur, année, résumé et section. L'élément «section» lui-même contient deux éléments ; titre et paragraphe.
En HTML, le rôle d'une balise est de définir dans un navigateur web comment une partie de texte doit être affiché. En XML, les balises définissent généralement la structure logique du contenu, alors que le format de l'affichage du texte est spécifié par les feuilles de style. XML en effet sépare la structure logique du contenu de document.
Chapitre 2 Web Sémantique
28
Figure 2.2 : Exemple d'un document XML
Chaque élément XML est nommé par son étiquette, par exemple, l'élément <section>. Les éléments peuvent être imbriquées, mais ne doivent pas se chevaucher. Comme montré dans la Figure 2 la première ligne est la déclaration XML qui identifie la version XML et l'encodage utilisé. La deuxième ligne indique l'élément racine qui définit ce document qui est un "article". Les éléments suivants à l'intérieur de la racine sont ses enfants ; aussi chaque enfant peut avoir autres éléments.
Le Document Type Definition (DTD) associé à un document XML décrit la structure générique du document. Il contient toutes les balises qui peuvent être incluses dans les documents et aussi les relations entre ces balises. DTD peut être déclarée à l'intérieur du Document XML ou séparément stockées dans un fichier de données et être référencée dans la partie supérieure du document XML. La Figure 3 représente un DTD simple, associée au Document XML de la Figure 2.
DTD comme on le voit dans l'exemple n'est pas écrit en syntaxe XML : "DOCTYPE": indique que l'élément racine dans le document est «article»
"ELEMENT article (titre, auteur, ...)": indique que l'élément «article» contient 5 éléments à l'intérieur; titre, auteur, année, résumé et de l'article
<?xml version="1.0" encoding="utf-8"?> <article>
<titre> web sémantique </titre> <auteur> Belkacem Abdelli </auteur> <année> 2015 </année>
<résumé> Le Web sémantique est un système qui permet aux machines de «comprendre» le contenu ...
</résumé> <section>
<titre> Définition globale du web sémantique </titre>
<paragraphe> Définition du W3C : « Le web sémantique est une vision : l’idée que les données sur le web soient définies et liées de manière à ...
</paragraphe> </section>
<section>
<titre> Historique </titre>
<paragraphe> Le concept du Réseau sémantique a été formé dans les années 1960 </paragraphe>
</section> </article>
Chapitre 2 Web Sémantique
29
· " ELEMENT titre (#PCDATA)": définit ce que l'élément 'titre' peut impliquer un texte.
Figure 2.3: Exemple d'un DTD
Document structuré et XML
Au contraire d'un document non structuré qui est un texte brut, sans aucune organisation, un document structuré est écrit dans un ordre logique pour permettre la représentation de son contenu d'une meilleure façon pour qu'il soit clair et bien compris avec des titres en gras, différentes tailles de polices, couleurs etc. [RAM 10]. En effet, un document structuré permet aux auteurs d'organiser leurs documents en sections, paragraphes et autres éléments dans un ordre souhaité. Dans le document structuré des balises sont utilisées pour donner une forme structurels à différentes parties du document.
Représentation de la structure logique de document:
La structure décrit le rôle de chaque unité logique dans des documents (titre, chapitre, paragraphe...) Toutes ces unités sont organisées en un arbre hiérarchique pour représenter la relation entre eux. Le langage de balisage XML, est devenu l'un des moyens le plus pratique pour représenter des documents structurés dans l'internet. Transformer le document vers XML a causé un énorme volume de documents XML stockés sur le web. Par conséquent, l'augmentation du nombre de ce type de documents a considérablement augmenté l'intérêt de leur exploitation en fonction de leur structure en amant avec leur contenu textuel. [RAM 10].
<!DOCTYPE Article [
<!ELEMENT article (titre, auteur, année, résumé, section )> <!ELEMENT titre (#PCDATA)>
<!ELEMENT auteur (#PCDATA)> <!ELEMENT année (#PCDATA)> <!ELEMENT résumé (#PCDATA)> <!ELEMENT section (titre, paragraphe)> <!ELEMENT titre (#PCDATA)>
<!ELEMENT paragraphe (#PCDATA)> ])
Chapitre 2 Web Sémantique
30
Représentation de la structure physique :
Pour décrire la structure logique d'un document le langage XSL9 (eXtensible StyleSheet Language) est utilisé. Ce langage qui appartient à la famille des langages dérivés de XML, permet de définir les feuilles de styles des documents XML afin de générer d'autres documents à partir de XML (HTML, PDF, RTF...).
XSL permet de deviser les données d'un document en une liste de blocs qui, à leur tour, contiennent chacun une liste de données texte, et pour chaque type de texte (titre, chapitre, paragraphe, numéros de pages) il est appliqué la mise en forme adéquate. Le langage XSL est subdivisé en deux variantes :
1. Le langage de transformation des données XSLT (eXtensible Stylesheet Transformation) qui permet la transformation de documents XML en d'autres formats tels que HTML ou PDF.
2. Le langage de formatage des données (XSL/FO) pour la mise en forme de données XML
Le langage XML permet de séparer la structure logique de la structure physique. Cette séparation permet de rendre XML un document portable et réutilisable par plusieurs applications [RAM 10]. La structure logique est prise en compte par plusieurs domaine de recherche pour exploiter sa richesse sémantique et traiter efficacement le contenu de ces documents, alors que la structure physique sert juste pour décrire la présentation d’un document.
2.1.3.2. RDF
RDF (Resource Description Framework), est un standard de la famille du W3C, il est conçu pour décrire les ressources Web. RDF peut être utilisé pour décrire le titre, l'auteur, le contenu et les informations des pages Web. Décrire les ressources c'est un axe majeur dans l'activité du Web sémantique, il permet aux applications de stocker, échanger et utiliser des informations lisibles par machine répartie sur tout le Web, ce qui permet aux utilisateurs de récupérer et traiter l'information avec plus d'efficacité et de sécurité.
Un document structuré en RDF est un ensemble de triplets : (Sujet, prédicat, objet) ; Le sujet représente la ressource à décrire, Le prédicat représente un type de propriété applicable à cette ressource, L'objet représente une donnée ou une autre ressource.
L'exemple suivant illustre l'utilisation de certaines des propriétés Dublin Core dans un document RDF
9
Chapitre 2 Web Sémantique
31 .
Figure 2.4 : Exemple d'un document RDF (W3C)
2.1.3.3. SPARQL
SPARQL (Protocol and RDF Query Language) (prononcé "sparkle) est un langage de requête sémantique pour les documents en format RDF, capable d'extraire et manipuler des données stockées dans le format RDF. Il est devenu un Standard dans le groupe W3C depuis 2008, et il est reconnu comme l'une des technologies clés du web sémantique [HEB 09]
2.1.3.4. OWL
Le langage d'ontologie Web (OWL) est un langage de représentation de connaissances pour la création des ontologies. Les ontologies sont une façon formelle pour décrire la structure des connaissances de différents domaines: les noms représentant les classes d'objets et les verbes représentant les relations entre les objets. [KNU 09]