Première rédaction de cet article le 23 mai 2025
Cet article raconte une petite anecdote avec un gros hébergeur Internet suite à un abus d'un de ses clients. Et en tire la leçon que le support des gros hébergeurs Internet est souvent inutile.
Donc, point de départ, un innocent serveur
HTTP,
, que j'héberge. Il n'a
pas de https://www.langtag.net/
robots.txt
, parce
que, eh bien, il n'y a pas de raison d'en mettre, le contenu est
public, et les pages sont
presque toutes statiques, et en nombre fini, donc les
robots ne peuvent pas faire grand mal, même
s'ils déconnent. (Au passage, le format de
robots.txt
est normalisé dans le RFC 9309.)
Or, un matin, voici ce que je vois dans le journal du serveur :
47.128.121.124 - - [10/May/2025:07:31:21 +0000] "GET /robots.txt HTTP/1.1" 301 320 "https://langtag.net/robots.txt" "-" langtag.net 47.128.121.124 - - [10/May/2025:07:31:22 +0000] "GET /robots.txt HTTP/1.1" 301 320 "https://langtag.net/robots.txt" "-" langtag.net 47.128.121.124 - - [10/May/2025:07:31:23 +0000] "GET /robots.txt HTTP/1.1" 301 320 "https://langtag.net/robots.txt" "-" langtag.net 47.128.121.124 - - [10/May/2025:07:31:24 +0000] "GET /robots.txt HTTP/1.1" 301 320 "https://langtag.net/robots.txt" "-" langtag.net 47.128.121.124 - - [10/May/2025:07:31:25 +0000] "GET /robots.txt HTTP/1.1" 301 320 "https://langtag.net/robots.txt" "-" langtag.net 47.128.121.124 - - [10/May/2025:07:31:26 +0000] "GET /robots.txt HTTP/1.1" 301 320 "https://langtag.net/robots.txt" "-" langtag.net 47.128.121.124 - - [10/May/2025:07:31:27 +0000] "GET /robots.txt HTTP/1.1" 301 320 "
Qu'est-ce que cela dit ? Que la machine
47.128.121.124
demande le
robots.txt
(jusqe là, c'est normal), se fait
rediriger par le serveur (le code HTTP
301 signifie une redirection, ici de
langtag.net
vers
www.langtag.net
) mais ignore cette redirection
et redemande une seconde après le même fichier et encore et encore
(je n'ai mis que quelques lignes mais il y en a des milliers). OK,
cela n'a pas tué le serveur mais quand même, il n'y a aucune raison
légitime à refaire la même demande toutes les secondes. (Si le robot
avait suivi la redirection, il aurait eu un 404.)
Comme j'étais de bonne humeur, au lieu de mettre l'adresse IP sur une liste noire, je me
dis que je vais prévenir l'hébergeur. Un coup de
whois montre que cette adresse IP est chez
AWS à Singapour et que
le logiciel qui déconne est donc chez un client d'AWS. La même
requête whois m'avait donné un contact pour signaler les abus,
trustandsafety@support.aws.com
. Jusque là,
j'étais plutôt content car, avec beaucoup d'acteurs de l'Internet,
trouver une adresse de courrier de contact
est une galère, dans le meilleur des cas, on a un formulaire Web qui
refuse d'envoyer votre demande en disant que votre adresse de
courrier est illégale. Donc,
j'écris poliment et j'ai une réponse automatique, et un numéro de
ticket
(55808142305). Chic, mon message n'a pas été rejeté ou classé comme spam.
Mais c'est ensuite que les choses se gâtent. La première réponse
spécifique me dit qu'il s'agit d'un robot
légitime et « si vous voulez bloquer le robot, écrivez un
robots.txt
», ce qui n'a rien à voir avec le
problème et montre que l'humain (ou l'IA ?) qui a répondu n'a pas lu mon
message.
Je réponds, toujours poliment, expliquant que le support d'AWS
n'a pas répondu au problème et le message suivant me dit « le
problème est chez vous, il n'y a pas de
robots.txt
».
À ce stade, j'ai arrêté la discussion, ayant autre chose à faire que de parler avec des stagiaires sous-payés ou des IA bas de gamme. Manifestement, l'entité chargée de répondre aux rapports d'abus chez AWS ne sait même pas lire ce format de journal, pourtant très courant.
Les leçons à en tirer ? Évidemment que la plupart du temps, signaler un abus ne sert à rien. On lit parfois, quand on se plaint sur les réseaux sociaux, qu'il serait plus efficace de signaler le problème à l'opérateur plutôt que de râler à la cantonade, conseil qui serait très pertinent si la grande majorité des acteurs de l'Internet ne se comportaient pas comme AWS. (À leur décharge, il faut rappeler que la grande majorité des signalements sont également écrits par des humains incompétents ou des IA et que c'est également une perte de temps que de les lire.)
PS : quelqu'un a dû quand même transmettre un message car le robot fou a finalement stoppé.
Version PDF de cette page (mais vous pouvez aussi imprimer depuis votre navigateur, il y a une feuille de style prévue pour cela)
Source XML de cette page (cette page est distribuée sous les termes de la licence GFDL)