Tromper les butineurs IA (fool AI crawlers)

Bonjour à toutes et tous!
Les entreprises lancées dans la course aux IA se font un plaisir de parcourir les sites en ignorant robots.txt, et parfois en étant particulièrement agressives.

Bloquer ces butineurs est peu efficace: ils reviennent avec un user agent différent.

Je me demandais si d’autres que moi avaient envisagé de tromper ces butineurs en renvoyant du contenu délibérément faussé (de la tambouille générée par IA également, du texte grossièrement faux, etc.)?

I’ve seen this post

pointing to

warning

you should check that .json file and consider host yourself and not get it automatically loaded

expect dragons too

Je vous signale juste un fil de discussion complémentaire en anglais sur ce même sujet: Prevent LLM scrapers/trawlers?

Et, comme signalé sur ce même fil de discussion parallèle, un outil qui semble intéressant: Anubis https://anubis.techaro.lol/

Il est d’ailleurs déjà listé dans la wishlist du catalogue d’applis YunoHost

#HTH

1 Like

GitHub - YunoHost-Apps/anubis_ynh: Anubis package for YunoHost but not yet functional yet, I guess

3 Likes

Thanks for working on it :slight_smile:
It seems not easy to manage it with a package as if i well understand Anubis should be in front of desired other nginx conf files as mentioned here https://anubis.techaro.lol/docs/admin/installation/#nginx
Do you have an idea how to implement it ?

Je partage cet article d’Agate Blue qui explique comment mettre en place iocaine avec Nginx. C’est ce que j’ai fait. Par exemple, sur les douze derniers jours, j’ai envoyé près de 800Go de données factices aux différents crawlers. (80% des requêtes viennent de ClaudeBot)

Je suis en train de voir pour mettre en place Anubis, mais c’est plus complexe avec Yunohost. Je pense qu’avec l’app Redirect, ce serait possible de mettre en place Anubis app par app (à tester), mais ce serait fastidieux. Yunohost aurait besoin de gérer un reverse-proxy global pour faciliter la mise en place d’Anubis.


I share here this article from Agate Blue [fr] about setting up iocaine with Nginx. I’ve done as explained, and for instance, over the last dozen days, I’ve sent about 800GB fake data to various crawlers. (80% of the requests come from ClaudeBot).

I am currently working on setting up Anubis, but it’s more complex with Yunohost. I think with Redirect apps, it would be possible to set it up app per app (would need some test), but it would be tedious. Yunohost would need to handle a global reverse-proxy to have an easy way for Anubis.

1 Like