La linguistique pour détecter le spam

28 Juil

Je suis récemment tombé sur un article de Clubic parlant de l’utilisation de la linguistique pour aide à détecter le spam dans les commentaires sur des hôtels.

Spam & cats

Chasser le spam en plein air

L’article relatait l’utilisation d’un logiciel capable de détecter une série de critères dans un commentaire afin de déterminer si oui ou non celui-ci était légitime.

Au delà de l’aspect purement expérimental de cette technique, ça nous amène à nous poser des questions sur la qualité des commentaires qu’on peut laisser sur un blog dans le but d’obtenir un lien DoFollow.

En effet, même si à l’heure actuelle les moteurs de recherche donnent une importance décroissante aux liens présent sur un page, qui dit que un jour les moteurs ne seront pas capable de détecter des commentaires légitimes de commentaires intéressés ?

Il est clair que Google est en train de revoir sa stratégie d’indexation en profondeur pour se débarrasser du spam, il serait donc intéressant de penser dès maintenant à l’avenir pour éviter la claque que se sont pris certains sites américains à la sortie de Panda.

Et puis de toute manière, n’est-ce pas une preuve d’intelligence et de respect que de rédiger un commentaire complet et en rapport avec le sujet ?

A voir :

Publicités

3 Réponses to “La linguistique pour détecter le spam”

  1. Keeg juillet 29, 2011 à 9:16 #

    Détecter un vrai contenu d’un auto-généré n’est déjà pas une chose aisé pour un script. Alors détecter un commentaire bien écrit d’un autre bien écrit (lui aussi) me semble mission impossible pour le moment. Même si l’article de Clubic affirme un gros taux de réussite, je suis très franchement ultra-dubitatif.

    • web20hub juillet 29, 2011 à 8:00 #

      Entièrement d’accord avec toi, mais je pense que ça pourrait se faire progressivement, en commençant par accorder moins de crédibilité aux commentaires du style « Très bien, continuez comme ça ».
      Bref commencer par détecter le spam de goret et puis évoluer progressivement…
      Mais ce n’est sûrement pas pour demain que la détection sera très évoluée… (en plus le fort taux de réussite relaté dans l’article de clubic est applicable à un secteur particulier, il y a donc moins de variables à prendre en compte)

  2. Keeg août 1, 2011 à 8:59 #

    Si c’est le type de script dont parle Clubic, je ne peux qu’approuver… et rajouter qu’un script de ce type sera très vite dépassé.

    Il est sûr qu’on peut facilement détecter pourquoi pas les commentaire de moins de X mots contenant les termes « merci », « super », « bien » et j’en passe.

Laisser un commentaire

Entrez vos coordonnées ci-dessous ou cliquez sur une icône pour vous connecter:

Logo WordPress.com

Vous commentez à l'aide de votre compte WordPress.com. Déconnexion / Changer )

Image Twitter

Vous commentez à l'aide de votre compte Twitter. Déconnexion / Changer )

Photo Facebook

Vous commentez à l'aide de votre compte Facebook. Déconnexion / Changer )

Photo Google+

Vous commentez à l'aide de votre compte Google+. Déconnexion / Changer )

Connexion à %s

%d blogueurs aiment cette page :