L’effet pieuvre vampire : l’IA extrait le web dont elle a besoin pour exister

Accueil / Blogue / L’effet pieuvre vampire

Cet article reflète notre expérience directe et nos observations en tant qu’opérateur de site web. Les chiffres cités proviennent de notre propre tableau de bord Cloudflare. C’est un point de départ pour la discussion — pas un conseil juridique ni une analyse économique formelle.

35,380 Requêtes Amazonbot (30 jours)
0 Visiteurs renvoyés par Amazon
256 Requêtes Googlebot (même période)
56 Visiteurs renvoyés par Google

Les chiffres ne mentent pas

Notre tableau de bord Cloudflare a raconté une histoire le mois dernier. Les robots d'exploration d'Amazon ont effectué 35 380 requêtes sur ce site. Google en a fait 256. Amazon n'a renvoyé aucun visiteur. Google en a envoyé 56.

Ce ratio — 138 fois plus d'exploration, zéro fois le retour — n'est pas un bogue dans le système d'Amazon. C'est le système. C'est ce à quoi ressemble l'extraction web à l'ère de l'IA à grande échelle, et cela arrive à chaque site web sur l'internet ouvert simultanément.

En 2010, Matt Taibbi du Rolling Stone a décrit Goldman Sachs comme « un grand céphalopode vampire enroulé autour du visage de l'humanité, enfonçant inlassablement son entonnoir à sang dans tout ce qui sent l'argent. » Il décrivait une institution qui s'était positionnée à chaque point où la valeur circulait, extrayant sans produire un retour équivalent. La métaphore était frappante parce qu'elle était structurellement exacte.

Elle décrit tout aussi précisément la relation de l'industrie de l'IA avec le web aujourd'hui.

Le pacte qui a bâti le web

L'internet que les entreprises d'IA exploitent actuellement a été construit sur un accord. Personne ne l'a signé. Il n'y avait pas de contrat. Mais il était réel, et tous ceux qui publiaient quoi que ce soit en ligne comprenaient les termes.

Google allait explorer votre site. Il allait indexer votre contenu. Il allait rendre vos pages accessibles lorsque des gens cherchaient ce que vous aviez écrit. En échange, il vous enverrait du trafic. Ce trafic était le moteur économique qui rendait le web ouvert viable — il générait des revenus publicitaires, créait des prospects, construisait des audiences, finançait le journalisme, et donnait à des millions de créateurs une raison de continuer à créer des choses qui valaient la peine d'être lues.

Le taux de retour n'a jamais été généreux — peut-être 10 à 20 visiteurs pour 100 pages explorées. Mais c'était un retour. Google nous a explorés 256 fois et a envoyé 56 personnes. C'est un taux de référencement de 22%. Pas spectaculaire. Mais réel.

Le nouveau modèle : tout prendre, ne rien rendre

L'entraînement de l'IA fonctionne sur un modèle entièrement différent. L'exploration est vastement plus grande. Les données sont ingérées, traitées et utilisées pour entraîner des modèles commerciaux qui sont ensuite vendus comme produits et services API. Mais l'étape qui fermait autrefois la boucle économique — renvoyer les utilisateurs vers la source — a été éliminée par conception.

Lorsque quelqu'un pose une question à un assistant IA, la réponse vient du modèle. L'utilisateur ne visite pas le site qui contenait l'information dont le modèle a appris. Il n'y a pas de référencement. Pas de trafic. Pas de clic. Pas de revenu pour le créateur qui a produit le contenu qui a rendu la réponse possible.

Amazon a exploré ce site 35 380 fois. Cette exploration a une valeur économique pour Amazon — ces pages font partie du corpus d'entraînement qui rend ses services IA plus performants. Amazon vendra l'accès à ces capacités. Nous n'avons rien reçu.

La structure du problème

Ce n'est pas une plainte contre une seule entreprise. Le même schéma s'applique à tous les grands fournisseurs d'IA. Les chiffres varient. La direction ne varie pas. Les entreprises d'IA extraient du web à une échelle énorme et ne retournent rien de valeur économique aux personnes qui ont produit ce qu'elles ont extrait. Le ratio n'est pas seulement inférieur à celui de la recherche — il est nul.

Ce que l'industrie de l'IA prétend retourner

L'industrie de l'IA a plusieurs réponses à la critique de l'extraction. Aucune ne tient la route.

Argument 1

Citations et attribution

Certains systèmes d'IA citent leurs sources. C'est vrai. C'est aussi sans pertinence. Une citation dans une réponse IA n'est pas un référencement. L'utilisateur a déjà reçu une réponse complète. Il n'y a aucune raison de cliquer sur le lien, et la plupart ne le font pas.

Argument 2

Notoriété de la marque

Si une IA nomme votre entreprise en répondant à une question, peut-être qu'un utilisateur vous cherchera directement. Peut-être. Cette chaîne d'événements est trop indirecte pour constituer un retour économique durable sur l'échelle de l'extraction de contenu qui se produit.

Argument 3

L'économie de marée montante

L'IA génèrera une valeur économique énorme qui profitera à tout le monde, y compris aux créateurs de contenu. Cet argument est structurellement identique à chaque précédente affirmation selon laquelle une technologie perturbatrice finira par bénéficier à ses victimes. Les personnes qui paient le coût ne sont pas celles qui reçoivent le bénéfice.

Le système se dévore lui-même

Au-delà de l'argument d'équité, il y a un problème structurel que l'industrie de l'IA n'a pas adéquatement résolu : les modèles d'IA qui extraient de la valeur du web ont besoin que le web continue à produire du contenu de valeur. Mais le web produit du contenu de valeur parce que la création de contenu est économiquement viable. Et la création de contenu est économiquement viable grâce au trafic généré par les référencements de recherche.

Si l'IA déplace systématiquement la recherche — ce qui est explicitement son but — elle réduit le trafic qui rend la création de contenu viable. Moins de trafic signifie moins de revenus. Moins de revenus signifie moins d'incitation à créer. Moins de création signifie moins de nouveau contenu. Moins de nouveau contenu signifie des modèles d'IA entraînés sur des corpus de plus en plus périmés, ou pire, sur du contenu généré par d'autres systèmes d'IA.

Le point final logique

Si l'extraction par l'IA détruit l'économie de la création de contenu, le web ouvert se contracte. Le contenu de qualité se réfugie derrière des murs payants ou disparaît. Le corpus d'entraînement disponible pour les futurs modèles se rétrécit et se dégrade. Les modèles s'empirent. Tout l'édifice dépend d'un approvisionnement continu en contenu généré par des humains — contenu que l'IA rend activement moins viable économiquement à produire.

Ce que nous faisons à ce sujet

Nous avons bloqué les principaux robots d'exploration d'entraînement IA sur ce site via Cloudflare. Non pas parce que nous sommes philosophiquement opposés à l'IA — nous construisons activement avec elle. Mais parce qu'il y a une différence significative entre les outils d'IA que nous choisissons d'utiliser et qui nous retournent de la valeur, et les pipelines d'entraînement IA qui prennent notre contenu sans demander et ne retournent rien.

Le pacte de recherche était imparfait, mais c'était un pacte. Si vous nous explorez, vous nous envoyez des lecteurs. L'entraînement IA tel qu'il est pratiqué actuellement n'est pas un pacte. C'est de l'extraction. Nous n'avons aucune obligation d'y participer.

Le web ouvert a été construit par des personnes qui publiaient des choses parce que la publication leur était utile ou précieuse. Il n'a pas été construit comme un corpus d'entraînement gratuit pour des produits d'IA commerciaux. Les entreprises qui le consomment à l'échelle industrielle semblent l'avoir oublié. Certaines des personnes qui l'ont construit commencent à le leur rappeler.