D2R Map est un langage XML permettant d’établir la correspondance (« mapping ») entre un modèle de données relationnel et le modèle de données en graphe du Web Sémantique (triplets RDF + ontologies OWL). Les inventeurs de D2R Map en proposent une implémentation Java qui permet donc d’exporter en RDF les données de n’importe quelle base accessible via JDBC ou ODBC.
Archives mensuelles : octobre 2003
Devriez-vous utiliser RDF ? Un exemple concret
Enfin un exemple complet de raisonnement sur l’opportunité d’adopter la technologie RDF, sur un cas réel ! Le cas en question concerne un projet relatif à l’agrégation de contenu : « Atom ». L’article commence par un point sur les quatre piliers actuels des technologies du Web Sémantique ainsi que les critiques dont chacun peut parfois être l’objet :
- le modèle de données RDF ; mais est-il pertinent ? est-il suffisament spécifique ?
- la syntaxe de sérialisation de RDF en XML (XML/RDF) ; mais n’est-elle pas trop complexe ? à quoi sert-elle puisqu’elle n’est pas vraiment lisible par un être humain ?
- les outils RDF tels que rdflib pour Python ; mais en existe-t-il assez ? sont-ils assez murs ?
- la vision du Web Sémantique ; mais est-elle réaliste ?
Le projet Atom cherche à créer un format de syndication / agrégation de contenu et une API distribuée (service Web) pour l’exploiter. Les membres de ce projet ont pesé le pour et le contre des 4 séries d’arguments et de contre-arguments sur l’utilisation des technologies du Web Sémantique. Ils en ont conclu que le modèle est particulièrement intéressant car, contrairement à XML seul, il impose d’expliciter les collections d’objets (il faut créer un « conteneur » pour pouvoir énumérer des objets). En cela, ce modèle est plus rigoureux qu’une utilisation d’un modèle XML spécifique. Il apporte une valeur ajoutée certaine pour le cas d’Atom.
Par contre, la syntaxe XML/RDF est beaucoup trop complexe là où une syntaxe XML spécifique offre une meilleure lisibilité. L’intérêt de la syntaxe XML/RDF est qu’elle explicite les namespaces auxquels on fait référence et facilite ainsi la fusion de données RDF provenant de sources hétérogènes. Intégrer des données XML non RDF de sources hétérogènes impose de définir des correspondances (mapping) entre ces données une à une. Cependant, l’objet du projet Atom est justement d’homogénéiser un périmètre restreint de données (les données de gestion de contenu de sources d’actualités) et non de permettre l’intégration de ces données dans des périmètres plus larges (intégrer des actualités et des données d’une application comptable par exemple). L’intérêt de la syntaxe XML/RDF n’a donc pas été jugé suffisant. Les personnes qui voudront aggréger des données au format XML Atom à d’autres sources de données via des mécanismes de Web Sémantique (ontologies) sont invitées à employer XSLT pour ramener les données Atom dans un format RDF.
Cependant, c’est tout de même dommage de se priver de cette opportunité d’intégrer des données Atom dans le Web Sémantique. C’est pourquoi la syntaxe officielle d’Atom certes relèvera d’un modèle XML spécifique, mais la transformation XSLT d’Atom vers XML/RDF sera inclue dans la spécification d’Atom. Ainsi, les férus du Web Sémantique n’auront pas besoin de réinventer la roue chacun de leur côté. Ces derniers disposent certainement d’outils RDF tels que rdflib, et ces outils fournissent des moteurs XSLT qui leur permettront donc d’agréger de manière quasi-transparente les données d’Atom pour les rendre exploitables dans leur API RDF préférée.
En fait, le projet Atom aurait sans doute adopté RDF comme modèle ET comme syntaxe si la communauté d’utilisateurs de RDF avait été plus mure et donc plus grande. Etant encore relativement réduite, Atom préfère rester simple et n’adopter que le modèle (et non la syntaxe), tout en prévoyant une passerelle syntaxique vers le Web Sémantique grâce à XSLT.
La bibliothèque de code open source du gouvernement américain
Les bases relationnelles, et après ?
Les bases de données relationnelles fournissent au développeur les services suivants :
- persistence des données,
- intégrité des transactions,
- fiabilité,
- indexation
Le coût d’utilisation d’une base de données résulte des faits suivants :
- il faut forcer vos données à se conformer à un modèle relationnel (et non hiérarchique, objet ou en graphe),
- il faut écrire soit-même les requêtes relationnelles ou utiliser un outil de mapping relationnel objet (pour faire persister vos objets sous forme d’objets, justement)
- il faut administrer et exploiter le logiciel de gestion de bases de données
RSS contre le SPAM, mieux vaut tirer que pousser
La messagerie électronique est conforme au modèle « push » (l’information est poussée vers son consommateur). Les blogs sont conformes au modèle « pull » du Web (c’est au « consommateur » d’aller chercher l’info, éventuellement à l’aide d’un automate : l’aggrégateur de news). Le phénomène de SPAM exploite les faiblesses du modèle push (puisque l’on peut « pousser » un peu n’importe quoi vers n’importe qui). C’est pourquoi de plus en plus de personnes qui, par le passé, diffusait des newsletters par mail, et passait ainsi souvent pour des spammeurs, sont en train d’adopter le modèle des weblogs. Avec RSS, point de spam, le consommateur contrôle les données qui lui sont présentées puisque c’est son agrégateur qui va spécifiquement les chercher « à la source ». Cependant, ce changement sera lent à s’opérer car peu d’utilisateurs ont encore l’habitude de consommer leur information sur le Web. Le spam a encore de l’avenir !
Tim Berners-Lee à la Société Royale
L’inventeur du Web Sémantique (et du Web tout court) a présenté son invention à la Société Royale des sciences en Grande-Bretagne. Et si le Web devenait une base de données géante, reliant à la fois des documents lisibles par les êtres humains et des données compréhensibles par les machines, d’une manière utile à la fois aux humains et aux machines ?
Selon Tim Berners-Lee, le Web Sémantique couvre une partie de la problématique d’EAI (Enterprise Applications Integration) mais avec une approche qui consiste non pas à essayer d’intégrer des applications (c’est l’approche des Services Web sur le mode RPC tels que SOAP) mais surtout à intégrer les données produites ou consommées par ces applications. Les produits logiciels exploitant le modèle de données RDF (« tout est un triplet ») permettent de constituer des hubs de données qui relient entre eux des documents (les fameux « contenus ») et des données de bases de données relationnelles existantes. Ces hubs permettent de traiter l’ensemble de ces données en faisant abstraction de leur forme originale.
Economie du Web Sémantique
Jim Gray, rapporte William Grosso, estime qu’un point d’équilibre économique existe pour la conception de toute architecture informatique distribuée : 10 000 instructions par octet de trafic réseau. Au-délà, il est opportun de distribuer les traitements. En deça de 10 000 instructions par octet, le coût réseau est trop important, et il est économiquement préférable de centraliser les traitements. William Grosso se demande si cela n’implique pas que le modèle économique du Web Sémantique n’est pas viable : le coût du transport des données (RDF…) à aggréger en vue de traitements serait prohibitif et ne pourrait être supporté que par de grosses infrastructures centralisatrices (telles que Google ?) auxquelles les utilisateurs finaux accèderaient plutôt que d’effectuer eux-même une agrégation « locale » et des traitements distribués.
A cela, les commentateurs répondent ceci :
- les applications informatiques, dans le Web Sémantique, n’auront pas forcément besoin de volumes énormes de données : pas besoin de tout savoir sur tout pour pouvoir effectuer des raisonnements
- les données peuvent être agrégées selon des genres de chaînes alimentaires : plutôt que d’agréger directement toute les données utiles, on peut n’aggréger que des données résultats de digestions déjà effectuées par d’autres aggrégateurs (travailler sur de la matière moins brute, déjà transformée)
- le Web Sémantique n’impose pas ni n’interdit de mode d’agrégation (centralisé ou distribué), il donne simplement une normalisation du modèle de données général (celui des triplets RDF)
La sagesse émerge…
Le Web Sémantique, en pratique
Internetnews essaie de montrer que le Web Sémantique a commencé à s’étendre en dehors du champ théorique pour entrer en pratique. Ses champs d’applications sont les moteurs de recommandation mais surtout l’intégration et la réutilisation des données. Son premier domaine pratique est celui du blogging (carnets web tels que celui que vous êtes en train de lire). Les « carnetiers » (« bloggers ») seraient les premiers à expérimenter le réseau social caractéristique du Web Sémantique. Avec des outils tels que trackback (dont je n’ai toujours pas compris le fonctionnement) et la syndication (ah ! ça, je connais !), les technologies proches de RDF permettent d’exploiter de manière intégrée des données informatiques provenant de divers sites Web et, ainsi, de rendre tangibles des liens de proximité entre les personnes qui produisent ou gèrent ces données (d’où l’idée d’un « réseau social »).
Les technologies du Web Sémantique trouvent également des domaines d’application dans la gestion des profils et préférences des utilisateurs de l’informatique ainsi que dans la gestion des références inter-documents telles que les citations des publications scientifiques.
L’article d’Internetnews cite ensuite quelques initiatives importantes d’éditeurs misant sur les premières technologies du Web Sémantique : HP avec Jena et « HP Haystack », Sun avec SwoRDFish, l’OSAF avec Chandler et, enfin, MovableType le célèbre outil de blogging.
Les technologies de text mining
Le New-York Times et CNET News.com font le point sur les technologies de text mining à travers le témoignage d’un médecin féru de ce type de bestioles : que peut-on en attendre ? quelles en sont les limites ? combien d’énergie humaine et de patience faut-il investir pour en tirer quelque chose d’intéressant ?
Tiens, amusant, le lien vers ce même article sur CNET permet d’afficher l’article puis redirige immédiatement vers une page indiquant que « l’article a expiré »… Etrange.
Développement durable et communication financière
Dans le cadre d’une rencontre de novembre 2001 du Cercle de Liaison des Informateurs Financiers de France (CLIFF), Florence Triou Teixeira, du Groupe Saint-Gobain, évoquait les différentes étapes qui ont marqué l’émergence du développement durable :
- apparition de cabinets spécialisés
- intégration progressive dans les publications des sociétés
- constitution d’indices boursiers
- critère décisif pour certains fonds d’investissements
François-José Bordonado, du groupe Altran, indiquait que les demandeurs d’information sur le développement durable sont principalement :
- les indices boursiers et agences de notation
- les fonds éthiques
- les fonds d’investissement « classiques », « soucieux de se couvrir »
Pascale Sagnier, d’Axa, notait que le développement durable est une forme de gestion du risque au niveau des Etats et des entreprises, une sorte d’assurance contre un risque qui se traduit souvent par de fortes baisses de valorisation des actions suite à la détérioration de son image et de sa réputation.
L’agence Arese (aujourd’hui Vigeo) parlait alors, au sujet des trois composantes du développement durable (économique, écologique, social), du « triangle des incompatibilités » qui deviendrait à long terme un « triangle des complémentarités ». En comparant l’investissement éthique et le développement durable, l’agence Arese remarquait que la recherche éthique était hétérogène et pauvre et que les modes de reporting autres que financiers étaient inexistants. Au contraire, la notation « développement durable » s’appuierait sur des méthodologies, des outils et des pratiques d’évaluation plus homogènes, riches et objectifs.
Et de conclure sur le développement durable avec une belle phrase de Woody Allen : « l’avenir, c’est quelque chose qui m’intéresse, c’est là où je compte passer du temps dans les 20 prochaines années ».
Les services Web ont besoin du Web Sémantique
Suite à une conférence sur les services web, un article de xmlhack.com constate que non seulement la moitié des participants connaissaient plus ou moins la technologie RDF mais aussi que les technologies du Web Sémantique, orientées données ou documents, offrent un potentiel d’intégration des processus d’entreprise bien plus important que la conception « classique » des Services Web, orientée API et appel à des procédures distantes. On retrouve là le classique constat de la supériorité architecturale de REST sur les modèles RPC.
Un commentateur suggère que cette prise de conscience vient du constat que, certes, SOAP n’est pas très compliqué à mettre en oeuvre (quoique pas très utile en soi), mais que WSDL ne servirait finalement pas à grand-chose.
Les économistes et les associations
Les économistes ont du mal à appréhender les associations dans leur champ théorique. Néanmoins, ils constatent que l’Etat délègue aux associations certains champs d’activité pour trois motifs possibles :
- pour raison politique : exemple = écoles privées catholiques
- en raison de la compétence spécialisées qui est requise : exemple = prise en charge des jeunes dans les quartiers
- afin de gagner en flexibilité et réduire les coûts : exemple = associations de formation ou d’insertion
En effet, il est plus aisé de réduire des subventions (ou de les maintenir constantes alors que le nombre de personnes à prendre en charge augmente) plutôt que d’avoir à gérer la flexibilité tout à fait non légendaire d’un service public dédié.
OSBL = OVNI ?
Les O.S.B.L. sont les « Organismes Sans But Lucratif ». Il s’agit d’une dénomination pour désigner les associations, les fédérations, les fondations, mais aussi moults autres types d’entités juridiques (ou non) qui se développent en pagaille pour constituer le « tiers secteur », le « secteur de l’économie solidaire » et autre « secteur des ONG ». Ernst & Young essaie, dans une étude, de faire le point sur la situation et l’avenir des OSBL. On y évoque le caractère de « laboratoire d’innovations sociales » de ce secteur lié à la notion « d’utilité sociale » ainsi qu’un mode de fonctionnement marqué par l’engagement dans l’action au détriment de la réflexion. D’après cette étude, les principales sources de financement des OSBL sont l’Etat et les collectivités locales, par le biais de conventions de financement pluriannuelles ou de conventions d’objectifs. Le mécénat d’entreprise est beaucoup moins présent. Le secteur est marqué par une situation de forte concurrence entre les associations (« qui va décrocher cette subvention ? »).
La stratégie est du ressort des organes statutaires (conseil d’administration ou assemblée générale) mais elle s’apparente plus à un outil de communication (pacte, charte, …) qu’à une véritable stratégie. Le sentiment des dirigeants interrogés est celui d’une grande incertitude sur l’avenir de leur OSBL. Les axes tactiques plébiscitées sont : le recrutement permanent de bénévoles, la qualification des personnels salariés, la recherche de locaux et d’équipements informatiques et la recherche de davantage de subventions. Les nouvelles technologies sont rarement identifiées comme un levier d’efficacité et de changement mis à part, parfois, la mise en place de la messagerie électronique et, éventuellement, l’accès à l’information interne. L’innovation organisationnelle ou la recherche de nouveaux modes de financement ne sont pas des options sérieusement envisagées.
Associations loi 1901
Que faut-il savoir au sujet des associations loi 1901, en France ? première moitié du XXè siècle, elles se consacraient essentiellement aux activités sportives et à des dispositifs d’assurance. Dans l’après-guerre se développent les mouvements de jeunesse, d’éducation populaire et de tourisme social, les associations familiales et les associations caritatives. Plus récemment, ce sont les associations culturelles, de défense des minorités, des consommateurs et de l’environnement qui sont apparues en masse.
Aujourd’hui, les associations loi 1901 les plus souvent mentionnées dans les enquêtes du CREDOC sont les associations sportives, culturelles et de loisirs, de parents d’élèves, les syndicats, associations de défense de l’environnement et associations confessionnelles. L’essor des associations de loisirs provient pour l’essentiel de la participation des seniors. L’adhérent-type est un homme (Madame a déjà un « double emploi » à assurer), d’un ménage aisé. Bénévole, il s’implique dans une association sportive ou de loisirs (33% des bénévoles) ou dans un service social. Son foyer a un revenu dépassant les 15 000 F mensuels ; il a suivi des études supérieures et habite dans une petite commune.
Chaque année, de plus en plus d’associations se crééent (entre 60 000 et 70 000 créations par an) mais nombre d’entre elles sont éphémères. On estime à 700 000 le nombre d’associations réellement en activité en France. A la frontière entre la production du lien social et la production de services, les associations essaient tant bien que mal d’articuler leur recours au bénévolat et leur tendance à la professionnalisation. 120 000 associations emploient 1 200 000 salariés dont nombre d’emplois aidés ou atypiques. Moins de 21 000 associations regroupent 80% des emplois recensés. Et c’est le secteur associatif de la santé et de l’action social qui regroupe près de la moitié des effectifs salariés des associations. Dépendant essentiellement de subventions (20 milliards d’euros), les associations appuient tout de même un tiers de leur budget sur des recettes d’origine marchande (vente de services).
Formation informatique pour direction générale
Certains dirigeants de sociétés ne savent pas allumer leur micro-ordinateur. Ils peuvent en avoir honte et chercher, en secret, à se former aux arcanes de l’informatique.
Oh… J’allais oublier la discussion Slashdot qui va avec cette info. On y apprend que
General Electrics a lancé un programme de parrainage technologique pour 1000 de ses dirigeants : de jeunes cadres de GE, familiers des nouvelles technologies de l’information, ont été chargés d’apprendre à un dirigeant à utiliser l’Internet.
L’argent des ONGs
Sur le site de la Coordination Sud, on trouve d’amples informations sur les organisations de solidarité internationale (O.S.I.) et, notamment, sur leurs modes de financement.
Grâce à une enquête de la Commission Coopération Développemnt, j’y découvre des noms de personnes ou d’organismes d’influence dans le domaine : Coordination Sud, ainsi que le ministère des affaires étrangères, bien sûr, mais aussi Antione Vaccaro de l’agence Excel qui conseille quelques grosses ONG d’urgence en matière de collecte de fonds, Jacques Malet, consultant auprès de la Fondation de France et François Bourguignon, directeur d’études à l’EHESS et Delta.
2 OSI ont un budget supérieur à 300 MF. 16 ont un budget compris entre 50 et 300 MF (une liste détaillée est donnée dans le rapport d’enquête). Ces budgets sont très concentrés (l’essentiel des ressources est entre les mains d’un petit nombre d’ONGs). Les ressources privées des associations résultent essentiellement (61%) des collectes et dons individuels, obtenus par des opérations de publipostage. Les ressources des OSI sont proportionnelles à l’actualité des crises internationales : « Rwanda, Bosnie, Kosovo ont scandé le rythme de développement des OSI ». En l’absence de crises humanitaires « chaudes », les financements publics et privés se contractent.
Qui donne ? 40% des français reconnaissent ne jamais donner. Ce sont les foyers modestes qui sont les plus généreux : 2,01% du revenu imposable des contribuables les plus modestes, contre 0,81% pour les foyers les plus aisés. Du côté des financeurs publics, c’est l’Union Européenne (avec 49% des fonds publics) qui vient en tête, suivie d’autre financeurs internationaux, bien avant l’Etat.
16% des dépenses sont des « frais de fonctionnement » et 8% des frais directement liés à l’organisation de la collecte des fonds. La collecte des fonds privés est beaucoup plus coûteuse que la collecte de fonds publics. Selon François Bourguignon, de l’EHESS, « la part socialement efficace (c’est-à-dire bénéficiant directement à la population visée) de chaque franc de ressource collectée serait de 55 centimes environ pour l’ensemble des activités des OSI et de 45 centimes seulement pour les seules ressources privées. »
Où va cet argent ? Surtout en Afrique (40% des dépenses des OSI) alors que seuls 15% des pauvres du monde vivent en Afrique. 75% des pauvres sont en Asie, qui n’est l’objet que de 16% des dépenses des OSI françaises. Selon François Bourguignon, cet écart est évidemment déterminé par la communauté de langue avec de nombreux pays africains.
Victime de la mode, tel est son nom de code
La mode fait des victimes, c’est bien connu. Ce phénomène est également connu dans le monde informatique, traversé de courants, de tendances et « buzzwords » incontournables (voir également cette discussion). Certaines technos ont été (ou sont encore) particulièrement concernées par ces phénomènes de mode et surtout par le caractère éphémère de ceux-ci, ce qui ne dit pas grand chose de leur valeur réelle pour l’entreprise. Ces technologies semblent être, dans le désordre : le WAP, les services Web, SOAP, XML, VB.Net et .Net en général, les EJB, le DRM, le « push », les JSP, l’Extreme Programming, Struts, les design patterns, XSLT et le développement offshore, sans compter la videoconférence via Internet et la réalité virtuelle.
Les principaux moteurs de la mode semblent être le marketing des éditeurs logiciels ainsi que l’envie (« je vais me faire un paquet grâce à cette technologie ») mais aussi la naïveté des clients des éditeurs ainsi que le grégarisme des managers informatiques. Parfois, les budgets promotionnels d’une offre logicielle atteindraient ou dépasseraient les budgets de développement informatique de cette offre. Un moteur qui entretient l’effet du mode jusqu’à son paroxysme serait la stratégie individuelle des gourous technologiques et autres « early adopters ». En effet, ceux-ci prennent le risque d’investir personnellement sur telle nouvelle technologie. Ils choisissent de passer du temps à la comprendre, à l’apprendre et à l’expérimenter. Ils se retrouvent ensuite dans une situation ou ils doivent soit reconnaître qu’ils ont perdu leur temps soit essayer de maximiser leur profit. Et évangéliser cette technologie outre mesure est le meilleur moyen de maximiser leur retour sur investissement intellectuel : ce n’est qu’ainsi que cette technologie a une chance d’être adoptée et donc la connaissance des early adopters d’être valorisée.
Qu’est-ce qui met fin à l’effet de mode ? Sans doute la mesure effective du retour sur investissement dans le contexte de projets réels. Et la reconnaissance du ratio complexité / fonctionnalités (la valeur ajoutée, en fait) : « finalement, cette technologie n’en valait pas la peine ». C’est pourquoi l’adoption d’une technologie ne semble pouvoir se faire dans de bonnes conditions qu’à la condition de connaître précisément l’étendue des cas dans lesquels il ne faut surtout pas y faire appel.
Développement rapide (RAD) avec Zope
Le produit zetadb associé au serveur d’application Zope est sensé permettre de faire du développement rapide d’application Web à partir d’une base de données. L’idée de ce produit est la suivante :
- A l’aide de votre gestionnaire de base de données préféré (on pourrait utiliser Access par exemple), vous générez votre structure de données.
- Vous lancez zetadb dans Zope et lui indiquez où se trouve votre base de données puis répondez à ses questions au sujet de la manière dont vous souhaitez employer ces données.
- Grâce à vos réponses et à votre structure de données, zetadb créé dans Zope les objets correspondants à vos données et pouvez donc gérer vos données à travers ces objets.
- Vous pouvez utiliser ces objets pour générer des écrans Web (à l’aide de modèles ZPT) ou bien pour générer des rapports sous forme de document bureautiques (au format OpenOffice).
Des templates HTML propres : ZPT
Pour construire des applications Web, il convient d’isoler le mieux possible le code de présentation (mise en forme, affichage, graphisme, …) du code de logique (règles de contrôle, structures de données, traitements). C’est pourquoi de nombreuses technologies de templating existent : elles consistent à proposer un modèle de présentation (le template) qui puisse être entièrement et sans risques manipulé par un graphisme ignorant le code logique. C’est ensuite un moteur de templating qui fusionne le modèle de présentation produit par le graphiste ou l’assembleur de pages avec le code logique prouit par le développeur ou programmeur.
L’une des technologies de templating les plus abouties est celle du Template Attribute Language (TAL) qui est implémenté dans les Zope Page Templates (ZPT) mais existe également en Perl (PETAL), PHP (PHPTAL) et Java (JavaZPT). Pour comprendre ZPT, rien de mieux que la FAQ ZPT, cet article pour débutant en ZPT et ce tutoriel.
SPIP, Plone, CPS ou PHPNuke ?
Les solutions opensource de gestion de contenu (« web content management ») sont nombreuses, diverses et relativement matures. Parmi les plus répandues, on trouve des solutions fonctionnant en environnement PHP telles que SPIP et PHPNuke et des solutions tournant en environnement Zope (Python) telles que Plone et CPS. Ce comparatif présente les avantages et inconvénients de chacun de ces quatre produits.