Les “bots”: ces visiteurs dont il faut se méfier

Dans nos métiers de product manager et de product designer, notre objectif au quotidien est de rendre l’expérience utilisateur fluide et agréable. Quand on pense aux visiteurs de nos sites web, on pense bien entendu à des humains comme vous et moi. Mais ces humains ne sont pas les seuls à venir se balader sur nos sites. Un pourcentage important du trafic provient de ces robots qu’on appelle les “bots”.

Toutes les sources que j’ai consultées pour la préparation de cet article s’accordent pour dire que 50% du trafic sur Internet est généré par des robots dont plus de la moitié est générée par des robots malveillants.

trafic web robots vs humains
Trafic web robots vs humains (2016) © Imperva

Imaginez si 30% de l’électricité d’un pays quel qu’il soit était gaspillée par des robots malveillants… Il y a fort à parier que le gouvernement en ferait une priorité nationale pour les “jeter à la porte”.

Types de robots sur le web

Il y a une multitude de robots qui observent nos sites web. En voici une liste non exhaustive.

  • Web crawlers: ces robots ont pour objectif de scanner toutes les pages web pour identifier leur contenu et le référencer sur les moteurs de recherche. Ces robots nous sont utiles à tous puisque c’est grâce à eux que les moteurs de recherches nous donnent des résultats pertinents. Google, qui détient 94% des recherches mondiales, utilise son propre web crawler, intitulé Googlebot.
  • Web scrapers: ceux-là scannent aussi les pages web mais ont un objectif différent: celui de récupérer de la donnée et de la stocker dans des bases de données pour la réutiliser ailleurs. Il peut s’agir par exemple d’un lecteur de flux RSS qui récupère tous les nouveaux articles publiés sur un certain nombre de sites pour les agréger au sein de l’application du lecteur RSS.  
  • Attaques “force brute”: leur nom est suffisamment explicite pour comprendre que ceux-là ne sont pas les gentils de l’histoire. Ce sont les plus dangereux car ils imitent le comportement d’un utilisateur humain et récupèrent des informations non protégées.
  • Spambots: si vous avez un blog, vous les connaissez probablement déjà ! Ils sont programmés pour laisser des faux commentaires en masse sur les blogs ou les forums par exemple. Les messages envoyés par les spambots sont souvent rédigés en anglais ou en russe et contiennent des liens de phishing pour obtenir des informations sensibles. 

Bloquer les robots malveillants

Vous l’aurez compris avec le paragraphe ci-dessus, comme dans toute histoire, il y a des gentils et des méchants. L’idée est donc de laisser les gentils robots faire leur travail sans entrave et de bloquer les robots malveillants.

Diverses solutions s’offrent à nous. Elles nécessitent des compétences plus ou moins techniques. Parmi les solutions les plus populaires et les plus simples à mettre en place, j’ai notamment retenu ces deux solutions. 

Installer un pare-feu

La solution la plus utilisée paraît être l’utilisation d’un pare-feu qui peut être ajouté à la plupart des sites web ou même directement proposée par l’hébergeur. Ils bloquent une grande partie des robots tout en laissant le champ libre aux robots de type GoogleBots.

Précision ajoutée le 27/04/2021:
Merci à Renaud qui me précise en commentaire qu’une solution de type pare-feu nécessite de filtrer toutes les requêtes entrantes (pour savoir lesquelles laisser passer et lesquelles bloquer) générant ainsi un surplus de consommation énergétique des serveurs.

Mettre en place un système de CAPTCHA

L’ajout d’un système de CAPTCHA est aussi fortement recommandée. Il s’agit d’un test qui demande à l’utilisateur de taper une série de caractères qu’il voit sur une image. Les robots ne sont pas capables de lire les CAPTCHA ce qui les rend particulièrement efficaces pour protéger un site web.

Si ce sujet vous intéresse, voici deux articles rédigés par des professionnels et qui vous donneront une liste de solutions plus exhaustive:
Comment éliminer les robots malveillants de votre site Web
Les bad bots: qui sont-ils ? Comment les bloquer ?

Vous pouvez contribuer à créer un web plus respectueux de la planète en partageant cet article pour éveiller les consciences :)
  •  
  •  
  •  
Publié le
Catégorisé comme Comprendre

3 commentaires

  1. Les bots scrapers ne font pas forcément partie des gentils robots. Autant pour le flux RSS pas de problème mais si le bot scrap et enregistre le contenu de tout le site pour en re-créer un quasi identique (par exemple pour exploiter le SEO du site original) mais y rajouter de la pub ou du phishing c’est pas très gentil ! Et c’est aussi un problème écologique de stocker le contenu en double (voire plus).

  2. Si le but de tenter de limiter les bots est pour le côté Ecolo, mieux vaut savoir que filtrer toutes les requêtes (firewall) ou utiliser un service infonuagique pour le CAPTCHA active les serveurs et consomme considérablement. Autrement dit, ça peut aider l’expérience utilisateur mais pas diminuer la consommation électrique.

    1. Intéressant, merci Renaud pour cette précision. Pour le pare-feu en effet, je comprends ton point de vue (j’ai ajouté une petite précision dans l’article pour compléter). Mais dans le cas d’un CAPTCHA par exemple, il est généré une fois par utilisateur peu importe ensuite le nombre de pages vues par ce visiteur. Du coup, est-ce que ça ne reste pas plus intéressant écologiquement que de ne rien faire du tout lorsqu’on sait que 30% du traffic provient de bots malveillants ?

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *