- cross-posted to:
- technology@lemmy.world
- cross-posted to:
- technology@lemmy.world
TL;DR Na początku robots.txt działało, bo wszyscy traktowali to jako dżentelmeńską umowę. Z czasem coraz więcej crawlerów przestało się tym przejmować, bo “co nam zrobicie?”. Zjawisko nabrało siły wraz ze wzrostem popularności AI i pojawianiem się crawlerów zbierających dla nich dane. W praktyce jak nie chcesz, żeby jakiś crawler skanował twoją stronę, to musisz stworzyć jakiś konkretny mechanizm po swojej stronie, żeby przynajmniej utrudnić mu ten proces.
Kilka lat wcześniej były podobne problemy. Początkujące wyszukiwarki chcące konkurować z G. udawały normalną przeglądarkę i normalnego użytkownika i też to ignorowały. Choćby dlatego by mieć więcej treści. Odkryto to po nietypowym zachowaniu.