<?xml version="1.0" encoding="utf-8"?>
<rfcdesc title="IAB AI-CONTROL Workshop Report" num="9969"
	 status="informational">
  <authors><author>M. Nottingham</author><author>S. Krishnan</author></authors>
  <rfcdate><month>May</month><year>2026</year></rfcdate>
  <date>2026-05-20</date>
<content>
  <p>Ah, l'<wikipedia name="Intelligence artificielle">IA</wikipedia>…
  Vaste sujet, et d'actualité. Une des questions qui reviennent
  souvent est celle de l'utilisation du contenu qu'on trouve sur le
  <wikipedia name="World Wide Web">Web</wikipedia> pour entrainer les
  <wikipedia name="Grand modèle de langage">grands
  modèles</wikipedia>, sa légitimité, la charge qu'elle induit pour
  les serveurs, les moyens de la contrôler, etc. <link
  url="https://www.ietf.org/blog/impressions-ai-control-workshop/">Un
  colloque avait été organisé</link> par l'<wikipedia name="Internet
  Architecture Board">IAB</wikipedia> en septembre 2024 sur ces
  questions et ce <wikipedia name="Request for
  comments">RFC</wikipedia> en est le compte-rendu. Ce colloque avait
  lancé le projet <wikipedia name="Internet Engineering Task
  Force">IETF</wikipedia> <link
  url="https://datatracker.ietf.org/wg/aipref/">aipref</link>.</p>
  <p>Une petite précision politique d'abord : le <wikipedia
  name="Request for comments">RFC</wikipedia> précise bien qu'il
  s'agit d'un compte-rendu et que l'<wikipedia name="Internet
  Architecture Board">IAB</wikipedia> n'approuve pas forcément tout ce
  qui a été dit à ce colloque (section 1.2 du RFC). Je rajoute que
  j'ai aussi des opinions sur le sujet, donc je mettrais [entre
  <wikipedia name="Crochet (typographie)">crochets</wikipedia>] ce qui est mon opinion, et ne vient
  pas du RFC. Le reste n'est donc pas de moi, j'en rends compte, c'est
  tout, ne me tapez pas.</p>
  <p><link
  url="https://www.ietf.org/blog/impressions-ai-control-workshop/">Ce
  colloque</link> fait partie de la série de colloques qu'organise
  régulièrement l'<wikipedia name="Internet Architecture
  Board">IAB</wikipedia> pour explorer des tendances à plus ou moins
  long terme, sans les obligations de l'<wikipedia name="Internet
  Engineering Task Force">IETF</wikipedia> de produire normes et
  documents.</p>
  <p>Donc, les <wikipedia name="Grand modèle de
  langage">LLM</wikipedia> (qui ne sont qu'une partie des techniques
  qu'on regroupe sous <link local="pses-ia">le terme marketing
  d'« IA »</link>) fonctionnent en deux phases : on entraine le modèle
  en lui faisant ingérer une grande quantité de contenu (textes,
  images ou autres), puis il va pouvoir inférer du contenu à partir de
  ce qu'il a digéré pendant la phase d'entrainement, et d'une demande
  (dite <foreign>prompt</foreign>). Le contenu inféré n'est jamais
  tout à fait identique à celui utilisé pour l'entrainement
  (autrement, cela serait du <wikipedia>plagiat</wikipedia>,
  potentiellement illégal). Les <wikipedia name="Grand modèle de
  langage">LLM</wikipedia> ne marchant bien, à l'heure actuelle, que
  si le <wikipedia name="Corpus">corpus</wikipedia> d'entrainement
  était énorme, ils sont très gourmands en données et une source
  évidente de contenu en grande quantité est le <wikipedia name="World
  Wide Web">Web</wikipedia>. Des <foreign><wikipedia name="Bot
  informatique">bots</wikipedia></foreign> ou <foreign><wikipedia
  name="Robot d'indexation">crawlers</wikipedia></foreign> parcourent
  donc le Web, ramassant du contenu. Voici par exemple un extrait du
  <wikipedia name="Historique (informatique)">journal</wikipedia> du serveur qui héberge ce blog,
  montrant le <foreign>bot</foreign> de <wikipedia name="Perplexity
  AI">Perplexity</wikipedia> récoltant du contenu :
  <code>
18.210.92.235:64884 - - [09/Jan/2026:07:26:15 +0000] "GET /images/TCP_state_diagram.jpg HTTP/1.1" 200 96551 "-" "Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; PerplexityBot/1.0; +https://perplexity.ai/perplexitybot)" www.bortzmeyer.org TLS
18.97.9.103:64398 - - [09/Jan/2026:08:31:39 +0000] "GET /bitcoin-metamorphoses.html HTTP/1.1" 200 8982 "-" "Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; PerplexityBot/1.0; +https://perplexity.ai/perplexitybot)" www.bortzmeyer.org TLS
18.97.9.101:57493 - - [09/Jan/2026:08:31:39 +0000] "GET /robots.txt HTTP/1.1" 404 3250 "-" "Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; PerplexityBot/1.0; +https://perplexity.ai/perplexitybot)" www.bortzmeyer.org TLS
18.97.9.103:48122 - - [09/Jan/2026:08:47:36 +0000] "GET /nist-pq.pdf HTTP/1.1" 200 84543 "-" "Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; PerplexityBot/1.0; +https://perplexity.ai/perplexitybot)" www.bortzmeyer.org TLS
18.97.9.96:25157 - - [09/Jan/2026:08:51:37 +0000] "GET /files/capitole-libre-2019-quic-pour-impression.pdf HTTP/1.1" 200 212507 "-" "Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; PerplexityBot/1.0; +https://perplexity.ai/perplexitybot)" www.bortzmeyer.org TLS
</code>    
  </p>
  <p>Une des questions soulevées par cette récolte de données est
  qu'elle n'était pas prévue à l'origine. Certains webmestres qui mettent
  du contenu en ligne estiment donc qu'un nouvel usage (l'entrainement
  des LLM) justifie de nouvelles règles et de nouvelles possibilités
  de contrôle par le serveur Web. C'est par exemple ce que prévoit
  l'<foreign><wikipedia name="Règlement sur l'intelligence artificielle">AI Act</wikipedia></foreign> européen.</p>
  <p>Le colloque (ou atelier) de l'IAB s'est tenu les 19 et 20
  septembre 2024 (oui, le <wikipedia name="Request for
  comments">RFC</wikipedia> met trop longtemps à sortir) et prévoyait
  de travailler sur tous les aspects liés à cette récolte de données
  (cf. l'<link
  url="https://datatracker.ietf.org/group/aicontrolws/about/">appel à
  participation</link>). Le colloque regroupait des personnes de
  divers horizons, experts techniques, entreprises d'IA, fournisseurs
  de contenu, décideurs politiques, etc. La liste figure dans l'annexe
  A.2. La règle suivie était <wikipedia name="Règle de Chatham
  House">celle de Chatham House</wikipedia> (tout ce qui se dit est
  public mais sans le lier à un·e participant·e
  particulier·ère). D'ailleurs, le RFC note qu'au moins un participant
  n'a pas voulu que son identité soit dévoilée, juste qu'il était un
  représentant officiel d'un gouvernement. Et, comme déjà dit, le RFC
  rend compte des discussions, cela ne signifie pas que l'<wikipedia
  name="Internet Architecture Board">IAB</wikipedia> approuve tout ce
  qui a été dit.</p>
  <p>La section 2 du RFC résume les discussions (la totalité des
  soumissions sont <link
  url="https://datatracker.ietf.org/group/aicontrolws/materials/">en
  ligne</link>).  Aujourd'hui, les fournisseurs de contenu, les
  webmestres, peuvent exprimer leurs choix quant à la récolte de
  données par divers moyens. Il y a par exemple une solution technique
  existante, c'est le
  <computer><wikipedia name="Protocole d'exclusion des robots">robots.txt</wikipedia></computer>, qui est
  décrit dans le <rfc num="9309" local="true"/>. Notez que, en
  l'absence du fichier <computer>robots.txt</computer>, les
  <foreign>bots</foreign> peuvent tout récolter. C'est donc une
  solution <foreign><wikipedia xml:lang="en" name="Opt-out">opt-out</wikipedia></foreign>. Il y a
  aussi des solutions non-techniques par exemple les
  <wikipedia name="Conditions générales d'utilisation">conditions d'utilisation</wikipedia> (ainsi, <link
  url="/">ce blog</link> est sous licence <wikipedia name="Licence de
  documentation libre GNU">GFDL</wikipedia> et les contenus peuvent
  donc être réutilisés, à la condition que les destinataires jouissent
  des mêmes droits de réutilisation). Tiens, par contre, il n'y a pas
  de <wikipedia name="Creative Commons">licence
  CC-BY-NoAI</wikipedia> ? Pour revenir à la technique, le webmestres
  peuvent aussi bloquer les <foreign>crawlers</foreign> par leur
  adresse IP, ou leur <computer>User-Agent</computer> (<rfc num="9110"
  local="true"/>, section 10.1.5), ou carrément tout mettre derrière
  un <foreign><wikipedia>paywall</wikipedia></foreign>.</p>
  <p>Comme indiqué plus haut, ces solutions sont en général
  <foreign><wikipedia xml:lang="en" name="Opt-out">opt-out</wikipedia></foreign>, donc par défaut,
  la récolte est autorisée. (Sur ce blog, et c'est apparemment le cas
  de la plupart des serveurs HTTP, plus de la moitié des requêtes sont
  faites par des <foreign>bots</foreign>, mais pas forcément liés à
  l'IA, c'était déjà le cas avant les LLM.) On constate (cf. l'exposé
  « <foreign><link
  url="https://www.ietf.org/slides/slides-aicontrolws-consent-in-crisis-the-rapid-decline-of-the-ai-data-commons-00.pdf">Consent
  in Crisis: The Rapid Decline of the AI Data
  Commons</link></foreign> ») une tendance à la fermeture : la récolte
  devient de plus en plus difficile car de nombreux serveurs bloquent
  les accès qu'ils pensent dûs à un <foreign>bot</foreign>. Le Web
  tend donc à se fermer.</p>
  <p>[Le RFC n'est pas clair sur ce point mais, pour moi, il est
  important de faire la différence entre les problèmes techniques et
  opérationnels posés par certains <foreign>bots</foreign> qui, qu'ils
  travaillent pour l'IA ou pas, « matraquent » avec excès les
  serveurs, et les problèmes politiques et financiers liés à
  l'<emphasis>utilisation</emphasis> qui est faite des données
  récoltées. Les problèmes techniques et opérationnels causés par des
  « <foreign>bots</foreign> fous » existaient bien avant les LLM. Par
  contre, les problèmes politiques (<link
  local="collecte-pour-l-ia">légitimité à réutiliser le
  contenu</link>) et financiers (perte de revenus pour les
  ayant-droits, comme mentionné dans le RFC) sont plus spécifiques de
  l'IA. Le RFC ne parle pas vraiment des problèmes opérationnels posés
  par l'agressivité de certains <foreign>bots</foreign> - pas
  forcément liés à l'IA, d'ailleurs - mais la <link
  url="https://datatracker.ietf.org/meeting/123/proceedings">réunion IETF 123 à
  Madrid</link> avait vu <link
  url="https://mastodon.gougere.fr/@bortzmeyer/114901375864309123">de
  très intéressants exposés à ce sujet</link>.]</p>
  <p>À l'heure actuelle, il est difficile de savoir ce qui est permis,
  au delà des simples consignes du
  <computer>robots.txt</computer>. Les gérants des serveurs n'ont pas
  de moyen standard et automatiquement analysable de faire connaitre
  leurs conditions d'utilisation, et les <foreign>bots</foreign> n'ont
  donc pas non plus de moyen de savoir ce qui est permis. [Il va de
  soi qu'il y a des <foreign>bots</foreign> qui, de toute façon, s'en
  foutent. Le travail de normalisation à l'<wikipedia name="Internet
  Engineering Task Force">IETF</wikipedia> ne pourra concerner que les
  <foreign>bots</foreign> honnêtes et ne dispensera pas de mesurs de
  sécurité contre les malhonnêtes.]</p>
  <p>Le RFC creuse certain aspects de la question. Par exemple, en
  section 2.1, le problème de la différence entre le moment du
  ramassage des données et celui de leur utilisation. Les consignes du
  serveur (comme le <computer>robots.txt</computer>) sont lues au
  moment du ramassage mais certains responsables de contenu voudraient
  exprimer des choix concernant l'utilisation, or celle-ci se fait à
  un autre moment, décorrélé du premier. Certaines récoltes, comme
  celle faite par <wikipedia>Common Crawl</wikipedia>, peuvent servir
  à de multiples usages et des consignes concernant le ramassage ne
  sont donc pas appropriées. Autre exemple que Common Crawl, on peut
  avoir une organisation qui gère un <wikipedia name="Moteur de recherche">moteur de recherche du
  Web</wikipedia> <emphasis>et</emphasis> développe un LLM, et qui
  utilise le même <foreign>crawler</foreign> pour les deux
  usages. Certains webmestres estiment que la première utilisation ne
  pose pas de problème (au bout du compte, cela ramènera du trafic sur
  leur site Web) mais s'opposent à la seconde car elle n'apportera pas
  de trafic, le LLM donnant des réponses qui suffiront à
  l'utilisateur.</p>
  <p>Du point de vue technique, il faut aussi noter que le principe
  d'entrainement d'un LLM fait qu'on utilise toutes les données et,
  qu'une fois le modèle créé, il n'y a pas d'étiquetage spécifique de
  la source de telle ou telle réponse du LLM. (C'est pour cela que les
  LLM ont du mal à indiquer leurs sources.) Un webmestre qui
  souhaiterait dire « d'accord pour servir à l'entrainement des IA
  mais pas pour que ces IA aient un usage militaire, ou bien pas un
  usage commercial » ne le peut pas, en raison de cette limite
  technique. Et même si ce moyen existait, le gérant du LLM serat
  obligé de faire N modèles, pour toutes les permutations des
  différents critères (ou tout simplement d'exclure tous les contenus
  ayant une licence restrictive, ce qui limiterait la représentativité
  du corpus d'entrainement du modèle).</p>
  <p>Enfin, les préférences changent dans le temps et celles exprimées
  au moment de la récolte des données peuvent ne pas être à jour
  lorsque les données seront utilisées pour l'entrainement d'un
  LLM.</p> 
  <p>Le problème est déjà compliqué si on suppose que tous les acteurs
  sont de bonne foi et respectent les règles. Mais, évidemment, la
  confiance ne règne pas, et pour de bonnes raisons. [Les entreprises
  capitalistes trichent, que ce soit celles qui entrainent les LLM ou
  bien celles des ayant-droits.] Il n'y a pas de moyen facile de
  vérifier le respect des préférences exprimées par les gérants du
  contenu. Et c'est d'autant plus inquiétant que les entreprises de
  l'IA n'ont pas vraiment de motivation pour respecter les règles :
  aucun risque de sanction [surtout compte-tenu des déclarations de
  <wikipedia name="Donald Trump">Trump</wikipedia> contre tout projet de régulation de
  l'IA]. Cette absence de confiance entraine l'utilisation importante
  de moyens techniques de blocage, comme de bloquer les <wikipedia
  name="Adresse IP">adresses IP</wikipedia> des
  <foreign>bots</foreign> connus. Il y a même un
  <foreign>bot</foreign> qui suggère cette solution :
  <code>
119.28.89.249:58834 - - [21/Jan/2026:15:32:02 +0000] "GET /5153.xml HTTP/1.1" 200 6891 "-" "Mozilla/5.0 (compatible; Thinkbot/0.5.8; +In_the_test_phase,_if_the_Thinkbot_brings_you_trouble,_please_block_its_IP_address._Thank_you.)" www.bortzmeyer.org TLS
  </code>
  </p>
  <p>L'atelier de l'IAB a passé du temps sur la question de
  l'attachement des préférences au contenu (section 2.3). Le
  <computer>robots.txt</computer> (<rfc num="9309" local="true"/>) est
  très bien, très déployé et largement reconnu. Mais il manque de
  souplesse pour les gros sites qui souhaitent un système plus
  granulaire. Par exemple, si un site de vidéos souhaitait restreindre
  l'accès à certaines vidéos, la seule solution est de les placer dans
  un espace particulier (par exemple un
  <wikipedia name="Répertoire (informatique)">répertoire</wikipedia> distinct), et donc de devoir
  changer l'<wikipedia name="Uniform Resource Locator">URL</wikipedia>
  si la classification change. Et, comme le
  <computer>robots.txt</computer> est à la racine du site Web, il
  n'est pas sous le contrôle des créateurs de contenu qui ont accès à
  un espace dédié mais pas à la totalité du site. Si le <wikipedia
  name="Système de gestion de contenu">CMS</wikipedia> que vous
  utilisez permet des créations de contenu et des mises à jour
  décentralisées, où certaines personnes peuvent modifier une partie
  du site, regardez s'il permet à ces personnes d'influencer le
  <computer>robots.txt</computer>. Je suis preneur d'exemples.</p>
  <p>Une autre solution (qui ne serait pas forcément exclusive du
  <computer>robots.txt</computer> mais complémentaire) serait
  d'inclure les préférences d'utilisation dans le contenu
  lui-même. C'est ce que permet l'élément <wikipedia name="Hypertext
  Markup Language">HTML</wikipedia> <computer><link
  url="https://developer.mozilla.org/fr/docs/Web/HTML/Reference/Elements/meta">&lt;meta&gt;</link></computer>
  ou le format <wikipedia name="Extensible Metadata Platform">XMP</wikipedia> pour les images. Des formats
  comme <wikipedia name="Extensible Markup Language">XML</wikipedia>
  ou <wikipedia name="JavaScript Object Notation">JSON</wikipedia>
  permettraient certainement d'ajouter ces préférences d'utilisation,
  qui ont l'avantage de forcément voyager avec le contenu,
  contrairement au <computer>robots.txt</computer>. Évidemment, cela
  ne marchera pas si ces méta-données sont retirées par le programme
  de collecte (pas forcément pour des raisons malveillantes, cela peut
  être pour diminuer la taille des données). Et certains formats ne se
  prêtent pas à cette inclusion des préférences d'utilisation, comme
  le <wikipedia name="Texte brut">texte brut</wikipedia>, ou comme les contenus qui ont
  plusieurs auteurs (pensez à un fil de discussion sur les réseaux
  sociaux).</p>
  <p>Une autre solution serait de placer les préférences d'utilisation
  dans un registre, extérieur aux œuvres, comme cela se fait souvent
  pour, par exemple, la musique ou les photographies. C'est plus
  robuste que l'inclusion de métadonnées mais ça passe mal à l'échelle
  de l'Internet (les registres existants avaient été conçus pour des
  écosystèmes plus petits et relativement fermés).</p>
  <p>Enfin, parmi les difficultés, il faut noter qu'exprimer
  préférences et conditions d'utilisation un peu fines nécessite de
  disposer d'un vocabulaire (par exemple pour décrire les différentes
  techniques qui sont regroupées sous le terme marketing et flou
  d'« IA ») et qu'il n'existe pas de vocabulaire standard. Ce serait
  un tâche difficile que d'en établir un (un travail est en cours,
  dans <computer><link
  url="https://datatracker.ietf.org/doc/draft-ietf-aipref-vocab/">draft-ietf-aipref-vocab</link></computer>). Je
  me souviens d'une réunion <wikipedia name="Internet Engineering Task
  Force">IETF</wikipedia> où il y avait eu un long débat sur la
  question de savoir si la <wikipedia>traduction</wikipedia> rentrait
  dans la catégorie « <wikipedia name="Intelligence artificielle générative">IA générative</wikipedia> » (après
  tout, elle génère des textes…).</p>
  <p>La section 3 du RFC, en conclusion, essaie de synthétiser et
  d'identifier les points sur lesquels l'<wikipedia name="Internet
  Engineering Task Force">IETF</wikipedia> pourrait
  travailler. L'atelier avait un relatif consensus sur le fait que la
  situation actuelle est mauvaise et que le principal outil technique
  disponible, <computer>robots.txt</computer>, ne convient pas. Les
  pistes de travail discutées ont été :
  <enum>
    <item>Améliorer
  <computer>robots.txt</computer> ou bien développer un meilleur
  système d'attachement aux sites Web,</item> <item>Définir des
  attachements pour les protocoles IETF (par exemple dans l'en-tête
  <wikipedia name="Hypertext Transfer Protocol">HTTP</wikipedia>, HTML
  ou XML dépendant d'un <wikipedia name="World Wide Web
  Consortium">autre organisme</wikipedia>),</item>
    <item>Définition d'un vocabulaire commun (le groupe de travail
    IETF <link url="https://datatracker.ietf.org/wg/aipref/">aipref</link> y travaille),</item>
    <item>Description de comment les différentes techniques (attachées
    au site Web ou bien attachées au contenu) se combinent.</item>
  </enum>
  Par contre, le consensus était que les points suivants n'étaient pas
  du ressort de l'IETF ou ne pouvaient pas, pour l'instant, faire
  l'objet d'un travail concret :
  <enum>
    <item>Faire respecter les
  directives données aux récoltants (les
  <wikipedia name="Licence de logiciel">licences</wikipedia> du <wikipedia name="Logiciel
  libre">logiciel libre</wikipedia> ont un problème analogue),</item>
    <item>Développer des mécanismes de transparence de la
  récolte,</item> <item>Créer des registres des contenus,</item>
    <item>Identifier et authentifier les <foreign>bots</foreign> (à
  noter que <wikipedia>Cloudflare</wikipedia> a <link
  url="https://blog.cloudflare.com/web-bot-auth/">lancé cette
  idée</link>, ce qui a donné naissance aux brouillons <computer><link
  url="https://datatracker.ietf.org/doc/draft-meunier-web-bot-auth-architecture/">draft-meunier-web-bot-auth-architecture</link></computer>
  et <computer><link
  url="https://datatracker.ietf.org/doc/draft-meunier-web-bot-auth-glossary/">draft-meunier-web-bot-auth-glossary</link></computer>).</item>
  </enum>
  </p>
  <p>Notez qu'un résumé de l'atelier avait été <link
  url="https://www.ietf.org/blog/impressions-ai-control-workshop/">publié
  juste après</link>. Et, sinon, vous pouvez regarder l'intéressant
  site Web « <foreign><link
  url="https://dealing-with-bots.coar-repositories.org/">Dealing With
  Bots</link></foreign> » et, sur les projets de contrôle de l'accès
  aux ressources et leurs risques, l'excellent article
  « <foreign><link url="https://digitalmedusa.org/no-one-should-control-the-internet-after-ai-freedom-to-build-cleopatra-gpt/">No One Should Control the Internet After AI: Freedom to Build Cleopatra GPT</link></foreign> ».</p>
</content>
</rfcdesc>
