Mon papa aime bien découper des articles dans la presse. Je suppose qu’il sera intéressé par l’utilisation d’un agrégateur d’actualités. Le meilleur agrégateur open source pour Windows, à ce jour, me semble être RSSBandit. Inconvénients principaux de RSSBandit : il contient encore au moins quelques bugs énervants ; et il nécessite l’installation du framework .Net sur le poste de travail ! Mais bon, ceci accepté, voici donc les infos que je donne à mon papa pour qu’il apprenne à utiliser RSSBandit.
Tu peux faire plusieurs choses avec le pirate :
1/ LIRE les actualités : il suffit de cliquer sur le titre des sources d’actualité (newsfeed) exemple : « Liberation, politique internationale » puis de cliquer sur chaque actualité ; lorsqu’une actualité est lue, elle change de couleur (passage de gras à non-gras) ; ainsi tu sais ce que tu as déjà lu et ce que tu n’as pas encore lu.
2/ ORGANISER les actualités : tu peux ranger les sources d’actualité en rubriques et sous-rubriques (dossiers et sous-dossier). Pour cela, il faut cliquer bouton droit sur le dossier parent et lui dire de créer un sous-dossier. Ensuite tu fais glisser ta source d’actu vers ce nouveau sous-dossier.
Tu peux ainsi créer une arborescence thématique (le dossier « politique » contiendrait le sous-dossier « politique internationale » qui contiendrait par exemple la source d’actu « Libe, politique internationale »).
Tu peux préférer organiser d’abord tes rubriques par langue : un dossier pour toutes les sources en français et un autre pour tout ce qui est en anglais. Mais cela est déconseillé car peu pratique.
Mais le nec plus ultra, c’est de commencer simplement par un créer une liste de dossiers vides numéroté de 095 (avec un zero devant, c’est mieux) à 105. Ensuite tu mets toutes tes sources d’actualité dans le dossier 100. Et, chaque jour, tu viens parcourir les nouvelles actualités. Les sources qui te semblent peu intéressantes, tu les mets dans un dossier inférieur (tu fais passer « Libe, politique internationale » de 100 vers 099 par exemple). Et, inversement, les sources qui te semblent mériter plus d’attention de ta part, tu les mets vers 101. Les jours suivants, tu gardes la même règle à l’esprit : lorsqu’une source est intéressante, je la monte d’un dossier ; lorsqu’elle ne donne rien d’intéressant ce jour-là, je la fais descendre d’un cran. Ainsi, au bout de quelques jours, tu auras classé tes sources par ordre croissant d’attention qu’elles méritent. Ainsi, tu pourras à l’avenir ne lire souvent que les sources dans les dossiers méritant beaucoup d’attention (104, 105, …) et ne vérifier les actus des sources moins intéressantes (dossiers 097, 098, …) que moins souvent.
Tu peux décider de supprimer des sources en cliquant bouton droit dessus puis Delete news feed.
3/ AJOUTER de nouvelles sources
Chaque sources d’actualité est identifiée par une adresse Web. Exemple : la source « AkaSig » a pour adresse Web http://sig.levillage.org/wp-rdf.php En effet, c’est une source qui est publiée à cette adresse sur mon site Web perso.
Ajouter une nouvelle source implique donc que tu trouves des adresses Web de sources d’actualité puis que tu demandes à RSSBandit d’ajouter cette source dans sa liste (puis tu la mets dans le dossier/rubrique que tu veux). Demander à RSSBandit d’ajouter une source, c’est facile : il faut cliquer sur le bouton « New Feed » de sa barre de bouton puis saisir (copier-coller) l’adresse Web de la source que tu veux ajouter. Et RSSBandit fait le reste (y compris, généralement, trouver automatiquement le titre de la source).
La partie « difficile » consiste à trouver des sources d’actualité qui t’intéressent. Pour cela, le mieux est de faire une recherche classique dans Google sur un thème qui t’intéresse, en ajoutant « filetype:rdf » ou « inurl:rdf » ou encore « filetype:rss » comme mot-clef de ta recherche (sans les guillemets). En retour, Google te propose des adresses Web qui contiennent des sources d’actualité que tu peux ensuite ajouter dans RSSBandit. Exemple : chercher « inurl:rdf politique » te donne comme sources possibles l’adresse de plusieurs carnets Web célèbres qui commentent l’actualité politique et constituent donc eux-même des sources.
4/ METTRE des mots-clefs sous surveillance
Tu peux demander à RSSBandit de créer un genre de source virtuelle dans laquelle il va recenser toutes les actualités de tes sources dans lesquelles il aura repéré un mot-clef donné. C’est comme si tu demandait à RSSBandit de lancer automatiquement une recherche, parmi les actus dont il dispose, sur un mot-clef donné à chaque fois que tu l’utilises. Pour ce faire, il faut ajouter un nouveau mot-clef dans la partie en bas à gauche de l’écran. Je ne me souviens plus comment ça s’appelle à l’écran car je viens d’être obligé de désinstaller RSSBandit sur mon poste. Donc je t’en dirai plus plus tard à ce sujet.
5/ METTRE des sources sous surveillance
Tu peux demander à RSSBandit de t’afficher un genre de popup dès qu’une certaine source contient de nouvelles actualités. Pour ce faire, tu cliques bouton droit sur la source que tu veux mettre sous surveillance, tu vas dans propriétés de la source puis tu coches une case qui te dit « afficher une popup window lors de l’arrivée de nouveaux items » (ou alert window je ne sais plus).
Voila, voila… Bonne agrégation.
Mon papa n’a rien compris!! il persiste à acheter des ciseaux et des journaux!!
Finalement, j’ai abandonné RSSBandit : trop lourd, trop buggué. A la place, j’ai adopté FeedReader : moins riche en fonctionnalités mais plus simple et plus léger.
Ping : AkaSig » Blog Archive » Web scraping with python (part 1 : crawling)