CSS Valide ! Valid XHTML 1.0 Transitional

Le Web Sémantique

Initiative lancé en 1998 par le W3C et son président Tim Berners-Lee, qui est le co-inventeur avec Robert Cailliau du World Wide Web.

Tim Berners-Lee préside aujourd'hui le World Wide Web Consortium (W3C).

Son objectif est de créer un environnement en ligne dans lequel toutes les données sont reliées entre elles de façon logique pour former une information ultra-pertinente.

Seul compte alors le sens des données, et non plus leur place dans un document texte.

L'information peut alors être décloisonnée et provenir de sources multiples et hétérogènes, quels que soient les formats et les méthodes de stockage.

Le Web devient un vecteur communicationnel véritablement utilisable par tous, ainsi les machines, elles aussi, peuvent consulter et interpréter les informations.

Il s'agit d'arriver à un Web "intelligent", où les informations ne seraient plus stockées mais "comprises" par les ordinateurs
afin d'apporter à l'utilisateur ce qu'il cherche vraiment.

Le Web sémantique offre une plate-forme par laquelle les données peuvent être partagées et réutilisées par les applications, les entreprises et les communautés.

Le Web sémantique est le Web des données partagées.


Les trois couches du Web Sémantique:

cake sémantique


  • OWL (Web Ontology Language)
  • RDF (Resource Description Framework)
  • XML (Extensible Markup Language)

XML est le support de sérialisation sur lequel s'appuient RDF et OWL pour définir des structures de données et les relations logiques qui les lient. (Le 10 Février 2004, le W3C publie les recommandations RDF et OWL)


Concrètement, cela signifie que l'on peut exprimer et structurer des concepts complexes à l'aide de RDF et OWL, là oú jusqu'à présent, nous avions recours aux bases de données relationnelles.



OWL fournit des ontologies opérationnelles pour le Web:

L'objectif d'une ontologie Web est de modéliser un ensemble de connaissances dans un domaine donné,
d' associer et de relier les différents concepts de ce domaine, et tout cela de manière compréhensible
par les machines.

Les ontologies décrivent généralement :

  • Individus : les objets de base
  • Classes : ensembles, collections, ou types d'objets
  • Attributs : propriétés, fonctionnalités, caractéristiques ou paramètres que les objets
    peuvent posséder et partager
  • Relations : les liens que les objets peuvent avoir entre eux
  • Evénements : changements subis par des attributs ou des relations

OWL utilise les URIS (URI, URN, URL nous utilisons généralement les URL) pour nommer et,
RDF pour créer des liens.


Ainsi, les ontologies Web possèdent les avantages suivants :

  • Capacité d'être distribuées au travers de nombreux systèmes
  • Mise à l'échelle pour les besoins du Web
  • Compatibles avec les standards Web pour l'accessibilité et l'internationalisation
  • Ouvertes et extensibles

OWL s'appuie sur un modèle et un schéma RDF pour ajouter plus de vocabulaire dans la description de propriétés et de classes,
comme par exemple :

  • les relations entre classes
  • la cardinalité
  • l'égalité
  • une typographie plus riche des propriétés
  • des caractéristiques de propriétés
  • et des classes énumératives

RDF décrit des métas données entre ressources:

RDF est la norme qui spécifie comment définir des liens sémantiques, les relations entre les noeuds de données, les ressources.

L'association des méta-données aux ressources et des ressources entre elles.

Un document structuré en RDF est un ensemble de triplets:


(sujet, prédicat, objet)

  • Le sujet représente la ressource à décrire.
  • Le prédicat représente un type de propriété applicable à cette ressource.
  • L'objet représente une donnée ou une autre ressource.

Le sujet, et l'objet dans le cas où c'est une ressource, peuvent être identifiés par une URI ou être des noeuds anonymes. Le prédicat est nécessairement identifié par une URI.


RDF est simplement une structure de données constituée de noeuds et organisée en graphe

Un document RDF ainsi formé correspond à un multi-graphe orienté étiqueté(lien).

Chaque triplet correspond alors à :

  • un arc orienté dont le label est le prédicat
  • le noeud source est le sujet
  • le noeud cible est l'objet

Voyons ça par l'exemple:

L'expression de l' assertion " Paris est en France " peut se faire par le biais de l'écriture d'un triplet RDF,
que l'on peut représenter sous la forme d'un graphe sujet-prédicat-objet :


exemple sujet prédicat objet



Nous avons ici deux noeuds, " Paris " et " France ", reliés par un arc nommé " est_situé_en ".

En d'autres termes :

  • Paris : est ce qu'on appelle une ressource, ou encore un sujet, une source.
  • Est_situé_en : est ce qu'on appelle un prédicat ou encore une propriété .
  • France : est ce qu'on appelle une valeur ou encore un objet, une cible (target)


La sérialisation en RDF-XML de l'assertion " Paris est située en France " pourrait s' écrire de la manière suivante :

lignes code RDF XML


Un RDF peut être chargé dans un éditeur d'ontologies " SWOOP " ou des Frameworks Sémantique " SESAME, JENA " pour être visualisé.


RDF est composé de différents vocabulaires existants ou en cours d'élaboration:

un vocabulaire RDF est un modèle de script


  • RSS :(RDF Site Summary) : permet de décrire des listes de choses faisant l'objet d'une page web
  • EARL :(Evaluation and Report Language) : permet d'enregistrer les résultats d'une évaluation
  • FOAF :(Friend of a friend) : permet de décrire des personnes et leurs relations entre elles
  • DOAP :(Description of a Project) : permet de décrire un projet informatique
  • SKOS :(Simple Knowledge Organisation System): un vocabulaire pour définir des systèmes d'organisation de la connaissance
  • BIO : vocabulaire pour décrire des informations biographiques
  • GEO : vocabulaire pour décrire des coordonnées géographiques terrestres
  • ROR : vocabulaire pour décrire des sites web, permettant de faciliter la découverte d'information aux moteurs de recherche


Formaliser et organiser ses données:

schéma comparatif architectureclassique et sémantique


L'emploi d'ontologies (XML, RDF et OWL) au sein d'une application Web ou autre, permet de partager à l'échelle d' internet les documents et les données ainsi créés.

Le Web sémantique est comparable à une base de données globale, autorisant la recherche et la réutilisation de manière plus aisée et aussi plus sûre.

Mais comment accéder avec aisance à un dépôt sémantique ?

C'est le rôle joué par SPARQL (qui se prononce "sparkle", Protocol and RDF Query Language )

C'est un protocole (W3C du 15 janvier 2008) et un langage de requêtes qui permet d'exploiter l'approche sémantique des données RDF.

Grâce à cette technologie d'interrogation, les utilisateurs peuvent se concentrer sur leur recherche plutôt que

sur la technologie de base de données ou le format sur lesquels repose le stockage des données.

SPARQL ciblent l'interrogation de meta-données RDF, structure de base du Web sémantique.

Il fonctionne en parfaite synergie avec les autres technologies Web sémantique du W3C :

  • RDF (Resource Description Framework) pour la représentation des données,
  • RDFS (schéma RDF),
  • OWL (Web Ontology Language) pour la création de vocabulaires
  • et GRDDL.

Exemple:

exemple sparql foaf


Un autre exemple plus complet :

GrapheRdf


RequeteSparql


ResultatSparql


Et pour extraire toutes les autres données XML non stockées dans un réservoir ?


C'est là qu'intervient GRDDL, qui est un mécanisme destiné à glaner des descriptions de ressources dans les dialectes des langages

(à prononcer " griddeul ",Gleaning Resource Descriptions from Dialects of Languages).

C'est une technique d'obtention de données RDF dans les documents XML et en particulier dans les pages XHTML.


Pour relier explicitement les données dans ce document au modèle de données RDF, l'auteur doit faire deux modifications :

1) Ajouter un attribut " profile " à l'élément head pour indiquer que son document contient des métadonnées GRDDL.

Ajouter un attribut profile à l'élément head pour indiquer que son document contient 
					des métadonnées GRDDL


2) Ajouter un élément link contenant la référence de la transformation GRDDL spécifique pour convertir le code HTML en RDF.

(appel du vocabulaire RDF choisi)

exemple d'ajout link contenant la référence de la transformation GRDDL spécifique


Schéma de fonctionnement de GRDDL:

Schéma de fonctionnement de GRDDL

Les éditeurs de données individuels peuvent aussi offrir à leurs utilisateurs de les transformer en RDF, sans même avoir à ajouter un nouveau balisage aux documents.

Quiconque veut extraire les données RDF de la page balisée peut récupérer l'adresse URI du profil de vocabulaire RDF choisi pour obtenir le document de profil suivant :

codage d'extraction de données RDF

Sur le Web, les pages avec microformats ne seront peut-être pas des pages XHTML valides.

Alors, on utilisera un programme comme Tidy (ou un autre) pour rendre la page valide pour XHTML avant d'appliquer le GRDDL.

Les sources utilisées

Formaliser et organiser des données diverses un enjeu stratégique majeur et immédiat Francis.Lapique


TEF en RDF - PREMIER ESSAI - Yann NICOLAS


Le W3C donne un coup d'accélérateur au Web sémantique avec Sparql Peter Judge, publié le 21 janvier 2008, ZDNet UK


Photographie et vocabulaire RDF Karl Dubost


Traduction des recommandations du W3C YOYO design