Web sémantique : quand le Web devient données
Sommaire
- 1. Introduction
- 2. Structurer et qualifier la donnée...
- 3. ... pour la rendre ”intelligente”
- 4. Une fusée Web à plusieurs étages
Quand la donnée prend le dessus. C’est ainsi que pourrait être, très vulgairement, résumé le Web sémantique. Un vaste projet qui a éclaté aux yeux de tous suite à l‘intervention de Tim Berners-Lee, patron du W3C - et également père du Web -, le consortium en charge de définir les standards du Web. Dans un entretien réalisé par le Courrier Unesco en 2000, il est parvenu à transmettre sa vision d’un autre web. Non pas le web 2.0, qui aujourd’hui bouleverse les usages du Web en donnant la parole aux internautes, en rendant le web plus participatif, non pas le Web 3.0 dont les contours restent encore aujourd’hui à géométrie variable - on parle notamment d’Internet des objets. Mais, bien un principe qui doit doter le Web d’une part d’intelligence qui lui fait défaut aujourd’hui.
“J’ai un double rêve pour le Web. D’une part, je le vois devenir un moyen très puissant de coopération entre les êtres humains. Et dans un second temps, j’aimerais que ce soit les ordinateurs qui coopèrent. [...] Quand mon rêve sera réalisé, le Web sera un univers où la fantaisie de l’être humain et la logique de la machine pourront coexister pour former un mélange idéal et puissant.”
Une vision un peu magique d’un environnement connecté où seul le sens de l’information, de la donnée serait pris en compte pour livrer à l’internaute une information riche, contextualisée et fortement qualifiée. Bref logique. Une logique décrite informatiquement par des technologies, des standards qui créent des liaisons entre chaque donnée et chaque information pour lui donner du sens. Autrement dit, pousser beaucoup plus loin le concept de l’information comme on le conçoit aujourd’hui, pour débarquer dans un monde contrôlé par des vocabulaires, des thésaurus. Un monde où la donnée n’est pas considérée uniquement comme une donnée, mais comme une bulle sémantique.
Les activités liées au Web sémantique existent depuis 1998 au sein du W3C, et ont débouché depuis sur l’éclosion d’une série de technologies qui forment l’ossature de l’ensemble. Désormais presque matures, ces standards restent malgré tout peu utilisés, tout simplement car les principes du Web sémantique demeurent, eux aussi, un peu flous dans l’esprit des internautes et dans celui des entreprises.
Ce dossier vise à décrypter les mécanismes du Web sémantique, en tentant de livrer une définition aussi claire que possible, de faire un état des lieux des technologies qui orchestrent ce beau concept. Avant de faire un focus sur les usages, puis sur les ouvertures qu’apporte l’approche sémantique, notamment au niveau du poste de travail. En route vers le web des données.

Ah oui oui, on a ça sur les blogs, ça s'appelle les nuages de tags et les liens relatifs ! Mais là je crois que je suis un peu réducteur
Ce que je retiens c'est qu'il va falloir être encore plus discipliné pour bien qualifier l'information que l'on diffuse. Qualifions, qualifions, qualifions !
Réducteur? si peu, si peu.
)
C'est juste comme si tu disais d'une voiture que "ça a 4 roues et un toit".
Au fait les nuages de tags n'ont aucun rapport avec ça. Dans un nuage de tags ont se fiche totalement de la valeur sémantique des mots. Par exemple avec un nuage de tag le mot "fleur" t'enverras aussi bien dans de la botanique que dans de la litérrature ("fleur du mal")
Le mot moule te fera saliver .. de deux manières différentes (super sémantique le mélange plat de noël en famille et soiré en solitaire devant la télé
Le mot "char" de son côté t'enverras aussi bien à l'armée que sur le dernier modèle de toyota en passant par la "2 chevaux" de César (Jule, empereur romain)
Personellement je ne vois rien de sémantique dans tout ce capharnaum.
Oui j'ai bien tout lu l'article ...
Article interessant même si il parrait difficile de voir comment l'introduction du web sémantique peu se faire "concrètement" dans la vie réelle des sites... En effet, cela suppose une "normalisation" des classes forte et implémentée de la même manière par tous pour être efficace...
Sinon, pour moi il y a une petite coquille :
==> Cette nature de "déduction" est la transitivité et non la symétrie (si a = b alors b = a)
En fait moi j'agis déjà dans ce sens depuis 1980, lorsque j'ai créé mon second site web, que je fais évoluer ( non sans mal ! ) vers le W3C !
C'est à dire que c'est plus le fond qui compte, la forme on ne s'y attache que pour plus de lisibilité ! et chaque visiteur du site voit les pages qu'il désire sans se demander si un autre a vu les mêmes ! car chacun étant différent la richesse doit circuler et non rester figée pour quelques uns !
sinon, dreameddeath, tu as raison, c'est bien de la transitivité et non de la symétrie !
Vous n'avez pas honte ?
Sinon moi je vois des gens qui ont plein d'idées, mais j'ai toujours pas compris ce que ça apporte au final...
Article trés intéressant, merci W3C.
Cependant pourquoi se priver d'une Architecture Web plus compléte : Une Archi-Web sémantique/sémiologique et sémitique. Aprés avoir découvert le "pot-aux-roses" du "Tria Vasa Lingarum" autant gagner du temps.
Un dictionnaire Hiérarchisé, mais dans quel but ? Sachant que toutes interprétations à partir d'une éthymologie d'un mot ou d'un groupe de mot : Le fameux "RDF Triplet" SPO Sub-Prédicat-objet est l'illustration parfaite de l'inégalité et de la légalité des chances des chemins vers la connaissance et le savoir de la chose (Web) des personnes physiques ou morales. Donner du sens aux mots et c'est déjà perdre le sens initial. Sachant que toutes personnes est unique, c'est déjà admettre que l'interprétation sera multiple et donc incohérente.
Nos "Ames" végétatives-sensible(animale)-intellective(rationnelle), ne sont "IMHO" que les reliquats occidentaux d'un tryptique double : Spiritus-Animus-Anima / Memoria-Intelligentia-Voluntas soit une solution de type : Ca-Moi-Surmoi. le Web Ontologique ne peut pas faire le grand écart avec l'aspect phylosophique à Géométrie variable.
Suivant les codifications actuelles : SYS/TRAD/DATA sans lesquelles les HTTP et HTML d'origine sont inexpoitables dans toutes bases de données, une lueure d'espoir est permit Le HTML5, il nous faudra bien admettre que nous nous éloignons de l'origine. A quoi nous servira une telle évolution du Systéme de base si les HTTP eux aussi sont exclus de l'évolution compléte de la structure de base.
Concernant la partie : Users interface and applications (unifying logic), il me semble que l'emsemble : Proof-SPARQL-RDFS-RIF-RDF-XML-URI/IRI, etc...Devra adopté de nouveaux critéres de CRYPTO liés essentiellement aux nouvelles Technologies Avancées du Web dans son intégralité et de leurs utilisations par les Internautes et les Entreprises fautes de quoi le Web dit "sémantique" deviendra obsolette aussi vite que les Hard-Wares et Soft-Wares que nous utilisons quotidiennement.
Différentes études personnelles (Deskwork and Fielwork) tendent à prouver que l'évolution et l'involution ne se sont pas un simple couple d'oppossé mais bel et bien une coincidencia oppositarum quatruple avec quoi il faudra composé un nouvel ordre des choses pour un Web-Sémantique efficace et s'inscrivant dans un avenir à trés court terme.
Malgré les incohérences des imbrications formalisées, les notions et les relations de transivité ou de symétrie, les microformats, la bataille du choix entre XFN et FOAF, un semblant d'intelligence du Web est une solution exploitable dans un contexte ou le Connaissant-le Connut-la Connaissance admet comme seul facteur Innovant : l' Inconnut.
Les Graphes de Connaissance sont pour le moins trés encourageants, les structurations des Données en Méta-Données l'avenir. Mais je m'emballe ! Mais attention tout de meme à ce que nous avions l'habitude de penser : Ce pilier Central indéboulonnable du Web-Sémantique, et si ce piler central comme nos systémes nerveux centraux venaient à fléchir, que resterait-il de ce Web-Sémantique si longtemps désiré.
Je suis ravit et je vous remerçie W3C pour votre travail, de mon coté je continu mes explorations Sémantiques et Sémitiques, vive le WEB-SEMANTIQUE, que nos super-calculateurs, processeurs,etc... Deviennent à leur tour Hyper-Intelligent. Bonne continuation au Consortium de dévellopement de la véritable Intelligence Artificielle.
Merci d'avoir pris le temps de lire mon article et merci de m'avoir permis de m'exprimer et d'apporter ma modeste contribution.
Que la Net-Etiquette soit avec vous.
Bien cordialement.
Signé : Oracle
Plus d'infos sur l'utilisation du Smart Desktop dans Mandriva 2010:
http://doc4.mandriva.org/bin/view/ [...] anguage=fr
Pour ceux que cela intéressent, nous avons développer une approche sémantique autour d'une technologie basée sur la modélisation de l'Aire de Wernicke du cerveau.
La fonction qui permet de comprendre simplement l'intérêt de la technologie du web sémantique est le bouton "similar articles" disponible dans l'onglet "procedural mode".
En faisant des tests il faut prendre en compte que notre serveur tourne sur une ligne adsl classique et sur un seul PC. Les test sont réalisé sur 800 000 articles de wikipedia pour la base francaise, et 2,5 millions de la base anglaise. Les bases ne sont pas exhaustives. Une indexation du web demanderait environ 25 000 serveurs pour des performances équivalentes à Google ou Bing sur 5 milliards d'articles.
le lien: www.marvinbot.com
marvinbot > Article "Le Dernier Vol de Lancaster" : un roman
"similar article" : des villes, des comtés, etc toutes situé dans le wisconsin. (pas mal pour un roman qui se passe en europe et en afrique)
Où est le sémantique là dedans? Soit vous avez des erreurs dans votre base (mauvais référencement) soit vous ne faites pas de sémantique.
Comme je le disais il n'y a que 800 000 articles dans notre base française de wiki et après vérification je ne vois pas celui concernant "Le Dernier Vol de Lancaster". La base n'est pas exhaustive...
En revanche, si je cherche dans notre base anglaise de wiki, il trouve The Last Flight (2009) et en cas le bouton "similar articles" trouve des articles en rapport avec le cinema. Marvin ne regarde pas encore la Tv et il ne peut pas apprendre un articles que nous n'avons pas indexé pour le moment. Je suis désolé nous n'avons pas vraiment les moyens de Bing ou Google.
Nous avons développé cela a deux avec un seul Xeon comme serveur.
Essayé par exemple avec l'article "Gratte-ciel"
http://www.marvinbot.com/index.php [...] wid=630832
Vous pouvez comparer les résultats obtenu avec les 200 millions d'euros dépensés par le projet européen Quaero dans http://www.exalead.com
Et également avec le projet www.powerset.com acheté 100 millions de dollars par Microsoft.
La techno de Marvin a gagner le prix de recherche Claude Allègre en 1999 et utilise une technologie différente des chaines de Markov et des probabilités statistique Bayésiennes.
Les résultats que nous proposons sur le site de démo comprennent l'intégralité du bruit de l'espace sémantique produit. Ce qui est un vrai problème quand on aborde la sémantique avec des mathématiques comme les deux projets précédent qui sont obligé de filtrer 95% de leurs résultats.
En IA rien n'est parfait, nous n'avons que des cerveaux d'être humain comme références et des ordinateurs qui sont des dinosaures en rapport au cerveau humain.
Nous somme en train de modifier le serveur pour qu'il apprenne le chinois. Je pense qu'avec des dessins cela sera plus facile à comprendre....
Pour arriver sur cet article là, j'avais simplement chercher le mot "vol" en procédural ( http://88.189.240.38/index.php?mod [...] search=Vol )
4éme article du résultat : "Le Dernier Vol de Lancaster"
Je vous laisse regarder ce qu'il en est. Peut être que comme vous dites il n'a juste pas encore été référencé dans la base sémantique. C'est juste qu'en le voyant dans une page où on voit le bouton "Similar Articles" pour chaque article, on s'attend à ce qu'il le soit.
Oui effectivement, le problème c'est qu'il a crée la locution Dernier Vol et il avait beaucoup de connaissance concernant Lancaster quand il a lu l'article.
Il faudrait qu'il apprenne la locution "Le Dernier Vol de Lancaster". Le fait que Dernier et Vol ont une majuscule a du le tromper...
Il faudrait juste lui faire lire d'autres articles concernant ce roman pour corriger cela.
C'est un cas intéressant que je vais soumettre au physicien de permanence.
D'ailleurs pour la même raison, il y a un autre problème si je cherche Le Dernier Vol de Lancaster, il ne trouve pas l'article.
Le "Similar articles" fonctionne à 90% vous êtes tombé sur un des cas qui ne fonctionne pas. Dommage car le choix de l'article était excellent.
Marvin n'est pas encore intelligent pour cela il y a encore un an de boulot à temps plein...
Avez-vous fait d'autre tests plus concluants ?
Merci de votre coopération.
J'avais fait des tests classiques avant ça qui avaient retourné des articles similaires dans le même thème que le mot clé de la recherche mais comme le mot clé saisie correspondait au thème générique de l'article je n'arrivais pas à savoir si la recherche d'article similaire était par analyse thématique ou par simple mot clé et si les recherches successives tenaient compte de l'enchainement de "Similar Articles" ou si chaque recherche était parfaitement autonome.
C'est pour cette raison là que j'ai cherché un article où le thème principal ne correspondait pas au mot clé de la recherche initiale.
J'ai été ensuite trompé par une mauvaise recherche. Mais c'est peut être une bonne chose si ça vous permet de corriger ou améliorer votre produit.
Pardon de ne répondre seulement maintenant. Vous pouvez recommencer le test du dernier de vol de lancaster.
http://www.marvinbot.com/index.php [...] genact=act
Marvinbot a la capacité d'apprendre en lisant les textes d'un article, voilà les résultats obtenue en le forçant à relire le texte de l'article sur le dernier vol de lancaster.
Les indications knowledge langage ( reconnaissance du langage) et Knowledge Meaning (signification de connaissance)ont leur rôle.
Lorsque Knowledge Meaning indique un nombre faible entre 0 et 40 l'articles à été soumis à l'indexation alors que la connaissance était insuffisante sur le sujet traité dans l'article pour une bonne indexation. En principe le système est fait pour fonctionner en indexation continue mais notre infrastructure matériel est très limitée et ne nous permet pas d'exploiter le système à 100%
Juste pour revenir sur l'histoire transitivité / symétrie, pour moi il s'agit tout simplement de l'inclusion d'un ensemble dans un autre. Alors évidemment vous me direz que l'inclusion est une relation transitive entre objet
mais pas la peine de sortir les termes techniques ^^