Bonjour à toutes et tous!
Les entreprises lancées dans la course aux IA se font un plaisir de parcourir les sites en ignorant robots.txt, et parfois en étant particulièrement agressives.
Bloquer ces butineurs est peu efficace: ils reviennent avec un user agent différent.
Je me demandais si d’autres que moi avaient envisagé de tromper ces butineurs en renvoyant du contenu délibérément faussé (de la tambouille générée par IA également, du texte grossièrement faux, etc.)?
Thanks for working on it
It seems not easy to manage it with a package as if i well understand Anubis should be in front of desired other nginx conf files as mentioned here https://anubis.techaro.lol/docs/admin/installation/#nginx
Do you have an idea how to implement it ?
Je partage cet article d’Agate Blue qui explique comment mettre en place iocaine avec Nginx. C’est ce que j’ai fait. Par exemple, sur les douze derniers jours, j’ai envoyé près de 800Go de données factices aux différents crawlers. (80% des requêtes viennent de ClaudeBot)
Je suis en train de voir pour mettre en place Anubis, mais c’est plus complexe avec Yunohost. Je pense qu’avec l’app Redirect, ce serait possible de mettre en place Anubis app par app (à tester), mais ce serait fastidieux. Yunohost aurait besoin de gérer un reverse-proxy global pour faciliter la mise en place d’Anubis.
I share here this article from Agate Blue [fr] about setting up iocaine with Nginx. I’ve done as explained, and for instance, over the last dozen days, I’ve sent about 800GB fake data to various crawlers. (80% of the requests come from ClaudeBot).
I am currently working on setting up Anubis, but it’s more complex with Yunohost. I think with Redirect apps, it would be possible to set it up app per app (would need some test), but it would be tedious. Yunohost would need to handle a global reverse-proxy to have an easy way for Anubis.