Tromper les butineurs IA (fool AI crawlers)

matlag · January 15, 2025, 4:45pm

Bonjour à toutes et tous!
Les entreprises lancées dans la course aux IA se font un plaisir de parcourir les sites en ignorant robots.txt, et parfois en étant particulièrement agressives.

Bloquer ces butineurs est peu efficace: ils reviennent avec un user agent différent.

Je me demandais si d’autres que moi avaient envisagé de tromper ces butineurs en renvoyant du contenu délibérément faussé (de la tambouille générée par IA également, du texte grossièrement faux, etc.)?

ghose · January 29, 2025, 6:08am

I’ve seen this post

https://cornichon.me/@PhieLaidMignon/113907892950518273

pointing to

github.com/PhieF/MiscConfig

blockai.php

master

<?php
/*

generate a block list of ai crawlers useragent

/!\ this might be unsecured /!\

include in nginx conf of your website:
server {
  ...
  include block.conf;
}
*/
$f = file_get_contents("https://raw.githubusercontent.com/ai-robots-txt/ai.robots.txt/refs/heads/main/robots.json");
$arr = array();
foreach(json_decode($f) as $k => $v){
array_push($arr, addslashes($k));
}
file_put_contents("/etc/nginx/block.conf", "if (\$http_user_agent ~* \"(".implode('|', $arr).")\"){\nreturn 403;\n}");
?>

warning

you should check that .json file and consider host yourself and not get it automatically loaded

expect dragons too

Limezy · January 29, 2025, 9:21am

skk · April 18, 2025, 4:29pm

Je vous signale juste un fil de discussion complémentaire en anglais sur ce même sujet: Prevent LLM scrapers/trawlers?

skk · April 18, 2025, 4:32pm

Et, comme signalé sur ce même fil de discussion parallèle, un outil qui semble intéressant: Anubis https://anubis.techaro.lol/

Il est d’ailleurs déjà listé dans la wishlist du catalogue d’applis YunoHost

#HTH

ericg · April 18, 2025, 4:39pm

GitHub - YunoHost-Apps/anubis_ynh: Anubis package for YunoHost but not yet functional yet, I guess

ewilly · April 18, 2025, 6:56pm

Thanks for working on it
It seems not easy to manage it with a package as if i well understand Anubis should be in front of desired other nginx conf files as mentioned here https://anubis.techaro.lol/docs/admin/installation/#nginx
Do you have an idea how to implement it ?

MtheBird · May 11, 2025, 7:15am

Je partage cet article d’Agate Blue qui explique comment mettre en place iocaine avec Nginx. C’est ce que j’ai fait. Par exemple, sur les douze derniers jours, j’ai envoyé près de 800Go de données factices aux différents crawlers. (80% des requêtes viennent de ClaudeBot)

Je suis en train de voir pour mettre en place Anubis, mais c’est plus complexe avec Yunohost. Je pense qu’avec l’app Redirect, ce serait possible de mettre en place Anubis app par app (à tester), mais ce serait fastidieux. Yunohost aurait besoin de gérer un reverse-proxy global pour faciliter la mise en place d’Anubis.

I share here this article from Agate Blue [fr] about setting up iocaine with Nginx. I’ve done as explained, and for instance, over the last dozen days, I’ve sent about 800GB fake data to various crawlers. (80% of the requests come from ClaudeBot).

I am currently working on setting up Anubis, but it’s more complex with Yunohost. I think with Redirect apps, it would be possible to set it up app per app (would need some test), but it would be tedious. Yunohost would need to handle a global reverse-proxy to have an easy way for Anubis.

skk · July 28, 2025, 9:09am

Sur le fil anglais de discussion sur ce même sujet, @Josue a proposé une solution légère et intéressante, car applicable immédiatement. Lisez également les réponses qui suivent, elles contiennent d’autres idées intéressantes. Ce n’est peut-être qu’une rustine en attendant mieux, mais toujours mieux que rien.

blodarn · July 28, 2025, 1:24pm

Il y a aussi moyen d’utiliser CloudFlare pour bloquer les AI crawlers. Plus simple au final.

cptbichez · July 28, 2025, 1:36pm

si juste ce simple script permet de mitiger une partie de AI crawlers c’est en effet pas si mal.