Le cas honnête pour un protocole de crawl IA basé sur DNS — et une admission lucide de ce qu’il ne peut pas arrêter
Cet article reflète notre expérience en tant qu’opérateur de site web et notre tentative de proposer un meilleur standard. Le protocole PAQ référencé ici est un brouillon exploratoire publié à github.com/Dibblee/paq-spec. Ce n’est pas un standard ratifié.
Le portail sans clôture
Robots.txt est un fichier texte. Il contient des instructions en langage clair. Il n'a aucun mécanisme d'application. Il fonctionne parce que les entreprises qui le lisent ont décidé, pour leurs propres raisons, de s'y conformer. Un robot d'exploration qui l'ignore ne fait face à aucune barrière technique, aucune pénalité juridique, et dans la plupart des juridictions, aucune conséquence.
La clôture n'est pas là. Elle n'a jamais été là. Ce qui existe, c'est un portail debout dans un champ ouvert, avec la supposition que quiconque s'en approche choisira de l'utiliser.
Ce n'est pas un défaut qui peut être corrigé. C'est la conception. Robots.txt a été écrit en 1994 pour coordonner entre les webmestres et la poignée de robots d'exploration de moteurs de recherche qui existaient à l'époque. Ce monde n'existe plus.
Pourquoi la conformité est sélective
Les grandes entreprises américaines d'IA — Anthropic, OpenAI, Amazon, Google — respectent généralement robots.txt. Non pas parce qu'elles y sont légalement obligées. Parce qu'elles ont une exposition réputationnelle sur le marché américain et des équipes juridiques qui ont évalué le risque de litige.
ByteDance a effectué 12 200 requêtes sur ce site en trente jours. ByteDance n'a pas le même calcul réputationnel sur le marché nord-américain. Les robots d'exploration chinois, les fermes de scraping offshore, et quiconque opère en dehors de la gravité culturelle et juridique de la Silicon Valley n'ont aucune raison particulière de consulter un fichier texte avant de prendre ce qu'ils veulent.
La conformité à robots.txt est un contrat social appliqué par la pression réputationnelle sur les entreprises qui se soucient de leur réputation américaine. Ce n'est pas un contrôle technique, pas un instrument juridique, et pas efficace contre quiconque a décidé qu'il ne s'applique pas à eux.
PAQ : un contrat différent
Nous avons publié un protocole brouillon appelé PAQ — Public AI Query Protocol. L'idée principale est de déplacer le signal de politique d'un fichier texte HTTP vers un enregistrement TXT DNS, et de coupler ce signal avec un point de terminaison de requête structurée qui donne aux agents conformes une raison de l'utiliser plutôt que d'explorer.
_paq.example.com IN TXT "v=PAQ1; c=throttled; e=https://example.com/.well-known/paq"
Le DNS est pré-HTTP. Un agent peut résoudre les enregistrements _paq pour une file d'exploration entière avant de faire une seule requête HTTP. Le signal vit à une couche que le contenu du site ne peut pas usurper — le même modèle que SPF et DMARC utilisent pour l'authentification des e-mails.
Le point de terminaison répond à trois commandes : DESCRIBE (qu'est-ce qui est là), GET (récupérer une ressource spécifique par ID), et SEARCH (trouver des ressources par mot-clé, retournant des ID uniquement). Il n'y a pas de pagination. Pas d'exportation en lot. Un agent qui veut tout ne peut pas l'obtenir via PAQ. Le manifeste est organisé par l'opérateur.
Ce que PAQ peut et ne peut pas faire
- Donner aux agents conformes des données structurées et organisées — meilleures que le HTML scrapé
- Rendre la politique vérifiable avant toute requête HTTP via DNS
- Créer une norme qui pourrait éventuellement avoir un poids juridique dans les juridictions RGPD
- Rendre la non-conformité visible et mesurable
- Arrêter ByteDance, les fermes de scraping offshore, ou quiconque a décidé que les règles ne s'appliquent pas à eux
- Appliquer quoi que ce soit sans adoption par les grands laboratoires d'IA
- Remplacer le blocage au niveau de l'infrastructure pour les acteurs de mauvaise foi
La réponse à deux niveaux
La conclusion honnête est qu'aucun mécanisme unique ne résout ce problème. Il y a deux populations distinctes : les acteurs qui se conformeront à une politique déclarée avec une incitation raisonnable, et les acteurs qui ne se conformeront pas peu importe.
Pour le deuxième groupe, la réponse est l'infrastructure. Les règles WAF Cloudflare, le fingerprinting de bots, la limitation de débit, et les murs d'authentification pour le contenu que vous ne voulez vraiment pas extrait. Ce sont des instruments brutaux mais ce sont des contrôles techniques, pas des demandes polies.
Pour le premier groupe — les grands laboratoires américains d'IA, les entreprises avec une exposition réputationnelle et juridique — un protocole comme PAQ leur offre quelque chose de mieux que robots.txt.
Bloquer les mauvais acteurs au niveau de l'infrastructure. Définir les termes pour les acteurs volontaires au niveau du protocole. Aucun ne fonctionne sans l'autre. Un protocole sans application est un portail sans clôture. Une infrastructure sans protocole est un mur sans porte.
Nous n'avons aucune illusion que PAQ résoudra le problème structurel décrit dans l'article sur l'effet pieuvre vampire. Mais une norme claire, simple et implémentable est un point de départ. C'est quelque chose que les laboratoires peuvent adopter, que les opérateurs peuvent déployer en une après-midi, et vers lequel les régulateurs peuvent éventuellement pointer.
Le portail a besoin d'une clôture. Voici un brouillon de spécification pour la clôture. Si quelqu'un la construit est une autre question.