J’ai été très impressionné par la qualité de la vision du directeur scientifique de chez Mc Donald Bradley au sujet du web sémantique. Il présente non seulement de très justes illustrations de la vision de Tim Berner’s Lee mais il la remet également de manière très pertinente dans le contexte général de l’évolution de l’informatique sur les dernières décennies, à travers notamment la perspective d’applications concrètes pour l’entreprise. Sa déclaration d’indépendance des données laisse présager un avenir excellent pour la nouvelle discipline informatique qu’est l’architecture de l’information. McDonald Bradley est une entreprise que je trouve d’autant plus intéressante qu’elle se positionne sur des marchés verticaux clairement délimités, au sein du secteur public (et donc précurseurs en matière d’open source) : les services de renseignement, la défense, la sécurité, les finances publiques et les collectivités locales. A rapprocher des interrogations de Kendall Grant Clark au sujet de l’appropriation du web sémantique par les communautés du libre ? Malheureusement, je crains qu’il n’existe pas d’entreprise équivalente en France…
Archives pour la catégorie Web sémantique
Plone as a semantic aggregator
Here is an output of my imagination (no code, sorry, just a speech) : what if a CMS such as Plone could be turned into a universal content aggregator. It would become able to retrieve any properly packaged content/data from the Web and import it so that it can be reused, enhanced, and processed with the help of Plone content management features. As a universal content aggregator, it would be able to « import » (or « aggregate ») any content whatever its structure and semantic may be. Buzzwords ahead : Plone would be a schema-agnostic aggregator. It would be a semantic-enabled aggretor
Example : On site A, beer-lovers gather. Site A’s webmaster has setup a specific data schema for the description of beers, beer flabours, beer makers, beer drinkers, and so on. Since site A is rich in terms of content and its community of users is enthusiastic, plenty of beers have been described there. Then site B, powered by a semantic aggregator (and CMS), is interested in any data regarding beverages and beverages impact on human’s health. So site B retrieves beer data from site A. In fact it retrieves both the description of beer1, beer2, beerdrinker1, … and the description of what a beer is, how data is structured when it describes a beer, what the relationship is between a beer and a beer drinker. So site B now knows many things about beer in general (data structure = schema) and many beers specifically (beers data). All this beer data on site B is presented and handled as specific content types. Site B’s users are now able to handle beer descriptions as content items, to process them through workflows, to rate them, to blog on them, and so on. And finallly to republish site B’s own output in such a way it can be aggregated again from other sites. That would be the definitive birth of the semantic web !
There are many news aggregators (RSSBandit, …) that know how to retrieve news items from remote sites. But they are only able to aggregate news data. They only know one possible schema for retrievable data : the structure of a news item (a title + a link + a description + a date + …). This schema is specified in the (many) RSS standard(s).
But now that CMS such as Plone are equipped with schema management engines (called « Archetypes » for Plone), they are able to learn new data schema specified in XML files. Currently, Plone’s archetypes is able to import any schema specified in the form of an XMI file output by any UML modelizing editor.
But XMI files are not that common on the Web. And the W3C published some information showing that any UML schema (class diagram I mean) is the equivalent of an RDF-S schema. And there even is a testbed converter from RDF-S to XMI. And there even are web directories inventoring existing RDF schemas as RDF-S files. Plus RSS 1.0 is based on RDF. Plus Atom designers designed it in such a way it is easily converted to RDF.
So here is my easy speech (no code) : let’s build an RDF aggregator product from Plone. This product would retrieve any RDF file from any web site. (It would store it in the Plone’s triplestore called ROPE for instance). It would then retrieve the associated RDF-S file (and store it in the same triplestore). It would convert it to an XMI file and import it as an Archetypes content type with the help of the ArchGenXML feature. Then it would import the RDF data as AT items conforming to the newly created AT content type. Here is a diagram summarizing this :
By the way, Gillou (from Ingeniweb) did not wait for my imagination output to propose a similar project. He called it ATXChange. The only differences I see between his proposal and what is said above are, first, that Gillou might not be aware about RDF and RDF-S capabilities (so he might end with a Archetypes-specific aggregator inputting and outputting content to and from Plone sites only) and that Gillou must be able to provide code sooner or later whereas I may not be !
Last but not least : wordpress is somewhat going in the same direction. The semweb community is manifesting some interest in WP structured blogging features. And some plugins are appearing that try to incorporate more RDF features in WP (see also seeAlso).
Is the Semantic Web stratospheric enough ?
Did you think the Semantic Web is a stratospheric concept for people smoking too many HTTP connections ? If so, don’t even try to understand what Pierre Levy is intending to do. He and the associatied network of people say they are preparing the next step after the Semantic Web. Well… In fact, I even heard Pierre Levy saying he is preparing the next step in the evolution of mankind, so this is not such a surprise. The worst point in this story is that his ambitious work may be extremely relevant and insightful for all of us, mortals. :)
RSS : The Next Big Thing Online
Voici un papier blanc (si, si…) au sujet de RSS (à nouveau via l’excellent Outils Froids). Enfin un document qui présente l’écosystème RSS en des termes marketing compréhensible par une D.S.I. de grande entreprise… enfin j’espère. Je testerai ce document sur mes collègues et supérieurs à mon retour de congés.
Maturité des technos XML
01 Informatique a publié un état de l’art très synthétique au sujet des technologies XML. Chaque technologie présentée est qualifiée selon son degré de maturité. Et les seules technologies XML à avoir atteint le degré de maturité maximal sont les suivantes :
- Les techniques de base : DOM, Unicode, XML, XML Namespaces, XLink, SAX, XML Schema/DTD, XLM Encryption, XML Signature, XPath 1.0, XSL et XSLT
- La publication multicanal : CSS, VoiceXML, SMIL, SVG, XHTML, WML, MathML
- Les services Web : le style REST, DSML (je ne suis pas sûr que la place de DSML soit vraiment dans la catégorie « services Web » mais enfin bon… pourquoi pas ?) et XML-RPC
- Les échanges électroniques (B2B) : ICE
- Le web sémantique : Dublin Core, RSS 1.0, RDF
Autrement dit, si vous envisagez d’appuyer une architecture informatique sur une technologie XML qui n’est pas dans cette liste, sachez que vous faites un choix technologique risqué car non éprouvé ! A vos risques et périls…
Reinout’s ROPE
Good news ahead : Reinout van Rees has recentrly restarted struggling with his ROPE project. I had just been thinking about the current status of this project this weekend. I hope there will soon be some nice RDF support within Zope. And ROPE is made for this since ROPE = Rdflib + zOPE.
Présentation du Web Sémantique
Voici une esquisse de plan de présentation des technologies du Web Sémantique pour un public (francophone) d’informaticiens de grandes entreprises :
- Théorie et spécifications
- RDF, le modèle : sujet-prédicat-objet, importance des URIs
- RDF, les syntaxes : XML Schema, ne pas s’attacher à la syntaxe mais davantage au modèle
- RDFS, le schéma
- OWL (voir aussi ici): ses trois niveaux
- Parallèle entre RDF/RDFS/OWL et UML : modélisation d’ontologies vs. diagramme de classes
- Le Web Sémantique (grand W, grand S) :
- La pile de technos du Web Sémantique
- La vision de Tim Berners-Lee
- Parallèle entre le Web et le Web Sémantique : humains vs. machines, liens hypertextes vs. relations sémantiques
- Le web sémantique (petit w, petit s) : applications concrètes
- l’Open Directory : un précurseur dans l’écosystème des annuaires de contenu
- Dublin Core : l’intégration de méta-données documentaires
- RSS : la boucle weblogs + syndication + aggrégation, l’écosystème RSS
- Calendriers : iCal d’Apple, précurseur suivi par eventSherpa
- FOAF : la boucle site perso + syndication FOAF + analyse de réseaux sociaux, l’écosystème FOAF
- Les prochaines étapes de déploiement du web sémantique
- 3 sources de valeur pour le web sémantique, notamment grâce à l’ouverture de ses standards
- créer un écosystème de méta-données par schéma = par niche (RSS, FOAF, …)
- pérenniser les connaissances/faciliter la reprise de données
- créer des applications agnostiques en matière de données ! pour unifier les écosystèmes sémantiques de niche
- Débouchés fonctionnels des frameworks du web sémantique
- Créer des composants d’interface faisant abstraction des données traitées : l’exemple du support de RDF par le framework Mozilla ; le Personal Information Management façon Chandler ; les Wiki Sémantiques
- Etendre au runtime le schéma d’une base de données relationnelle d’une application
- Etendre au runtime le schéma d’une application de gestion de contenus/gestion de connaissance : le schéma devient une donnée comme les autres ; pour faire un annuaire de connaissances extensible /un livre de connaissances extensible / une application de gestion de contenu avancée ; exemples du moteur Archetypes du framework CMF pour Plone, du composant CPSSchemas de CPS, du moteur de gestion de fiches de Sharing Knowledge, du moteur de gestion de topic maps de Mondeca, du moteur de gestion d’ontologies d’AM2 Systems ; possibilité d’intégration de schémas et de contenu provenant de sources tierces
- Intégrer des taxonomies pour produire des reporting consolidés à partir de sources hétérogènes (« business intelligence ») et fluidifier la gestion de contenus (intégration d’informations sémantiques, plus généralement)
- Intégrer les référentiels d’entreprise (E.I.I.) grâce à un moteur à base de règles ; utilisation en B2B ; parallèle avec l’approche « méta-annuaires » (moteurs de jointure)
- Aider à la décision grâce à un moteur d’inférence (systèmes experts appliqués à l’informatique décisionnelle)
- « Orchestrer » les processus métiers et les services Web (Business Process Management et workflows) grâce à un moteur à bases de règles ; exemple d’AM2 Systems
- le « Google du futur » : moteurs de recherche à base d’ontologies ; filtrage collaboratif ; parallèle avec les moteurs à base de thésaurus (cf. la problématique de la modélisation)
- Assistants intelligents : exemple de l’agent organisateur de rendez-vous
- Rêves d’Intelligence Artificielle…
- … et d’intelligence collective !
- 3 sources de valeur pour le web sémantique, notamment grâce à l’ouverture de ses standards
- Les problématiques du web sémantique
- Faire le partage entre ce qui est fantasme visionnaire (W.S.) et ce qui est technologie productive (w.s.)
- Expliquer la différence entre XML et RDF
- Préparer les entreprises à traiter une problématique peu abordée par les éditeurs logiciels et donc peu promue (car peu vendeuse de licences logicielles ?)
- Quels outils pour le développeur ? (exemple)
- Des métadonnées : « Mais qui va faire l’annotation ?! », l’écosystème n’est viable que si la méta-donnée est un sous-produit de l’application (i.e. si l’utilisateur a un réel besoin d’annoter)
- La poule et l’oeuf : pour faire émerger un écosystème de niche par où commencer ? la production de méta-données ? leur aggrégation ? leur exploitation ?
- Comment et quand créer un modèle ?
- Avec des outils de gestion d’ontologie comme Protege ou autres
- Modélisation top down (ontologie centrale créée par un « comité métier ») vs. bottom up (équivalences créées a posterio entre ontologies locales) ; les deux tactiques sont acceptables ; les technos supportent aussi bien les deux approches sans aucun problème (et notamment l’approche bottom up = organique) ; c’est une question politique et non technique ; dans tous les cas, cela relève d’une activité nouvelle et spécifique : l’Information Architecture (attention aux dérives démoniaques du web sémantique ;-) )
- Comment rentabiliser le coût d’une infrastructure d’agrégation de méta-données ?
- Le web sémantique est de style architectural REST ; les services web de style RPC reposent sur un contrat à établir a priori alors que l’intégration de services web sémantiques peut se faire a posteriori (attendez-vous à de l’intégration spontanée !)
Des carnets Web au web sémantique
Sebastien Paquet évoque l’évolution future des carnets Web et l’émergence du « structured blogging ». L’idée est la suivante : plus l’activité des carnettiers va gagner en maturité, plus le format habituel des carnets et de RSS (titre + URL + texte) paraîtra limité et insuffisant, plus les outils de la chaîne de carnettage (weblog + aggrégateurs) vont prendre en compte des types de contenu structurés plus complexes. Et il n’y a qu’un pas (voire aucun) entre le « structured blogging » et le web sémantique. Dans ce contexte, les moteurs de gestion de schéma de contenu tels que Archetypes de Plone (ou CPSSchema de CPS ou encore des moteurs de gestion d’ontologie tels que Mondeca et autres AM2 Systems) auront un rôle clef à jouer puisque des plate-formes équipées de tels moteurs pourront servir au carnettage structuré sous toutes ses formes !
Miam, miam, les années qui viennent nous promettent des inventions fichtrement intéressantes ! Et la vision du Web Sémantique commence à prendre forme.
La différence entre « knowledge management » et « content management »
CMSWatch signale un excellent article qui parvient en quelques lignes non seulement à définir la différence entre gestion des connaissances et gestion de contenu mais également à résumer de manière très juste les pratiques actuelles dans ces deux domaines.
Mon intérêt personnel réside certes dans le domaine de la gestion des connaissances au sens large présenté dans cet article, mais le vrai potentiel de ce domaine me semble résider dans les pratiques (méthodes) et outils (émergents) d’ingénierie des connaissances. D’où mon intérêt pour le Web Sémantique…
Définition démoniaque du Web Sémantique
Danny Ayers signale une définition démoniaque de ce qu’est le Web Sémantique. Je cherchais justement une définition simple à retenir en vue d’une présentation à des collègues… Sataniquement parlant, le W.S. est donc : « une tentative d’application du système décimal de Dewey à une orgie. »
WordPress is going semantic (a little bit)…
WordPress, the famous weblog engine (powering this site), is getting equipped (in its CVS HEAD version) with a new feature allowing webloggers to post small pieces of metadata (pairs of key + value) with each one of their blog entries. WordPress is going the same way Charles Nepote went with his semantic wiki prototype. We won’t wait a long time before someone comes with a real semantic bloki. It must be a matter of months.
By the way, Archetypes is a new masterpiece of Plone and its references management engine allows the weaving of semantic relationships inbetween Content objects. It just lacks the ability to publish its schema and data as RDF files through Plone URLs… Anyway, Archetypes should soon provide the ability to extend objects schemas at runtime through the web. It means users will be able to add metadata to objects. These features can already be tested with PloneCollectorNG in its latest version (test the CVS version if you can).
Let me introduce the Semantic Web
Why are there three versions of the Web Ontology Language (OWL) ?
The Web Ontology Language (OWL maybe because some non English speaker must have mixed the letters…) exists in three different versions :
- OWL Lite expresses constraints on and properties of an RDF schema, such as transitivity (if R1 > P1 > R2 and R2 > P2 > R3 then R1 > P3 > R3), and simple min and max cardinality properties of an RDF property (the values of theses cardinality properties can be 0, 1 or illimited).
- OWL DL expresses « first order descriptive logic » constraints on medata (such as if R1 > P1 > R2 then R1 > P2 > R3), this is much broader as OWL Lite
- OWL Full enables the specification of generic inference engines but it is still seen by some as a curiosity artefact for researchers
This is my very limited understand of the OWL topic. Please someone correct me if I am wrong (you can do it in French if you want !) !
Marché du Knowledge Management
En rapport avec mon mouton à sept pattes, voici un genre d’aperçu des acteurs du marché du knowledge management vu par le petit bout de ma petite lorgnette :
Que manque-t-il pour compléter le tableau ?
OWL-S
Le schéma OWL-S permet de décrire des services Web à l’aide d’ontologies. D’après cette lecture, je crois comprendre que l’on peut
- soit produire des services Web style RPC (via SOAP et WSDL) et compléter leur description, à plus haut niveau, avec OWL-S (ce qui remplace UDDI dans ce cas),
- soit produire des services Web style REST (sans SOAP ni WSDL) et faire toute leur description via OWL-S
Ceci signifierait qu’OWL-S serait un standard dans tous les cas concurrents de UDDI, et dans certains cas complémentaire de WSDL (pour le cas des services Web RPC via SOAP) et dans d’autres cas (services REST), concurrents de WSDL. Est-ce vraiment cela ?
CIA sémantique
La CIA suit de près le développement des technologies du Web Sémantique, au titre des logiciels d’analyse de réseaux sociaux :
There were a couple of presentations in the domain of military and political intelligence – a bit scary, especially when Kendall used one of Libby’s photos in a depiction thing (part of SWINT) asserting I was a terrorist leader. The CIA and co. are the end users of this stuff. Good job I’ve no plans to visit the US in the near future.
Classification à facettes
Je note une certaine convergence vers le concept de « classification à facettes » (« faceted » classification) pour décrire un large ensemble de fonctionnalités qui sont très attendues de la part des technologies du Web Sémantique. Je vous en dis plus dès que j’ai fini mon article à ce sujet… (à suivre, donc)
Le Web Sémantique qui fait peur ?
Allons-y pour un petit coup de parano : les éditeurs informatiques voudraient-ils faire du mal à notre web sémantique bien-aimé de peur qu’il n’abîme leurs futurs modèles économiques ?
La réification, RDF et les Topic Maps
La réification est un concept qui peut être difficile à assimiler. La réification désigne l’opération qui consiste à transformer une relation entre deux choses en une troisième chose. Considérons par exemple la phrase : « Jean beurre une tartine ». Il y a là deux choses : [Jean] et [tartine] qui sont liées par une relation : [beurrer]. La réification consiste à créer une troisième chose à partir de cette phrase : le [beurrage de tartine par Jean].
Un spécialiste du beurrage de tartine évoque la réification pour expliquer une différence importante (essentielle) entre la technologie RDF et la technologie des Topic Maps : en RDF, c’est à vous de gérer la réification alors qu’avec les Topic Maps, tout est systématiquement réifié. Par conséquent, RDF est une technologie de plus bas niveau : plus d’expressivité mais une moindre utilisabilité. Il invite donc les partisans de RDF à considérer les Topic Maps comme un domaine d’application privilégié de RDF et les partisans des Topic Maps à ne pas oublier qu’ils ont besoin de s’appuyer sur RDF pour assurer le succès de leur technologie.
« Semantic EAI »
La société Network Inference positionne son produit Cerebra Server comme une solution « d’intégration sémantique des applications d’entreprise » (« Semantic EAI »). Décidément, tant que le Gartner n’aura pas fait un quadrant magique de ce nouveau concept qu’est l’intégration sémantique de données, on aura du mal à stabiliser son nom marketing !