Quand le spam pourrit les blogs

Publié le

Après avoir envahi l’email, les parasites publicitaires s’attaquent aux blogs. Mais la résistance s’organise.

Depuis la démocratisation du net, les spams, ces emails publicitaires non désirés, polluent les boîtes aux lettres des internautes. Mais l’email n’est désormais plus la seule victime des parasites : les forums, les sites participatifs comme les wikis et surtout les blogs sont également désormais concernés. Pour les blogs, le problème est même devenu assez dramatique, les commentaires d’articles de blogs étant parfois envahis de dizaines de messages publicitaires. En réaction, comme pour l’email, des systèmes antispam sont apparus, avec des résultats plus ou moins heureux. Ainsi, un système comme Akismet, créé par l’Américain Matt Mullenweg, annonce avoir bloqué plus de 2 milliards de spams sur des blogs depuis ses débuts. Un chiffre impressionant, renforcé par une autre statistique d’Akismet : 94% des réactions à un blog seraient du spam.

Selon Matt Mullenweg, « le spam sur les blogs existe depuis début 2002, mais c’est en 2006 qu’il a commencé à augmenter de façon exponentielle. » Pour lui, la principale raison de ces spams qui envahissent les commentaires des blogs est évidente : « l’objectif principal est de faire grimper un site publicitaire dans les moteurs de recherche. »« spam blogs », ou « splogs ». Selon Technorati, il s’en crée 7000 par jour. Et grâce aux spams, ces splogs verront progresser leur audience et leur positionnement dans les moteurs de recherche. Un système en deux temps qui peut vite se révéler très rentable. Et qui menace surtout de pourrir tout l’écosystème de blogs. Seule solution : contrer le danger avec des systèmes antispam. Il en existe deux sortes. Autrement dit, les spams contiennent des liens vers un autre site, blindé de publicités. On appelle ces sites des

Le système antispam le plus visible se nomme le système CAPTCHA. Inventé en l’an 2000 par l’informaticien Luis von Ahn, le système CAPTCHA (« Completely Automated Public Turing test to Tell Computers and Humans Apart », soit « test de turing permettant de différencier humains et robots automatiquement ») demande à l’internaute, au moment de la création d’un compte ou de la publication d’un commentaire, de recopier dans un formulaire une suite de caractères déformés par une image. Très populaire, le système CAPTCHA a néanmoins de nombreux défauts. Le principal étant qu’il considère l’internaute comme a priori coupable et lui demande de prouver, en recopiant cette suite de caractères, qu’il n’est pas un « spambot », un logiciel programmé pour envoyer des milliers de spams partout. Cette action supplémentaire est par ailleurs parfois rendue difficile par la complexité de la déformation des caractères à reproduire : certaines images CAPTCHA sont ainsi difficilement lisibles. Pire : comme l’explique sur son site le chercheur français Samuel Hocevar, connu entre autres pour avoir participé à la création du logiciel vidéo VLC et pour diriger actuellement le projet de distribution Linux Debian, la plupart des imageries CAPTCHA sont en fait interprétables par les spambots. Alors que des humains ont parfois du mal à interpréter certaines images CAPTCHA, elles ne posent souvent aucun problème aux robots. Un comble. Ce qui donne un système handicapant pour les internautes, mais peu efficace dans la lutte anti-spam. Loin de la panacée, donc.

Mais les CAPTCHA, même s’ils restent très largement utilisés sur le web, ne sont pas la seule façon de lutter contre le spam sur les blogs. Comme pour l’email, des systèmes antispam complètement invisibles ont fait leur apparition sur les blogs. Akismet est le géant du domaine. Créé pour la plateforme de blogs Wordpress, Akismet stoppe en moyenne 6 millions de spams par jour et est désormais utilisable pour la plupart des systèmes de publications (blogs, wikis, forums...). A l’autre bout de l’échelle, on trouve Spamplemousse, petit logiciel créé par deux Français pour Dotclear, un autre système de blogs. Alors qu’Akismet refuse de dévoiler son fonctionnement, celui de Spamplemousse est en revanche ouvert à tous, et s’inspire clairement des antispams créés pour l’email. « Les premiers spams étaient peu complexes et faciles à repérer et à éradiquer avec un logiciel, mais parallèlement à la montée en puissance des antispams, on a pu constater une montée en complexité des spams, expliquent Alain Vagner et Benoit Clerc, créateurs de Spamplemousse. Les antispams, c’est un peu comme les antibiotiques, plus ils sont puissants, plus le mal qui est en face se renforce. C’est une course contre le temps entre les spammeurs et les antispammeurs, comme pour les emails il y a quelques années. On peut donc facilement récupérer les meilleures technologies appliquées au mail pour les adapter au problème du spam sur les blogs. » Pour autant, la lutte n’est pas aisée : « Il y a une nouvelle génération de spam tous les six mois, donc tout système antispam qui ne peut pas s’adapter est forcément obsolète assez rapidement », poursuit Alain Vagner.

Mais malgré ces nouvelles protections, le spam dans les commentaires de blogs ne s’arrête pas. Et ni les auteurs de Spamplemousse ni celui d’Akismet ne sont très optimistes. « En théorie, une régulation du gouvernement, ou n’importe quoi modifiant le système économique des spammeurs pourrait supprimer les intérêts du spam, explique Matt Mullenweg. Mais en attendant... » Alain Vagner et Benoit Clerc voient eux un espoir dans les nouvelles technologies permettant de s’identifier sur le net, comme le service décentralisé OpenID, adopté par Microsoft, AOL, Wikipédia et certains systèmes de blogs (LiveJournal, Vox) : « Comme pour le mail, le spam est rendu possible par la très grande ouverture du système qui le supporte. Une des solutions avancées semble être la gestion des identités numériques sur le web, qui permet d’authentifier formellement l’auteur d’un commentaire. Et donc de détecter plus facilement les spammeurs. Mais pour que ce système marche, il faut une grande adoption sur le web, et une intégration dans les navigateurs afin de faciliter au maximum la vie de l’utilisateur. » Des critères qui sont aujourd’hui encore loin d’être remplis.

Commenter cet article