- cross-posted to:
- technology@lemmy.world
- cross-posted to:
- technology@lemmy.world
TL;DR Na początku robots.txt działało, bo wszyscy traktowali to jako dżentelmeńską umowę. Z czasem coraz więcej crawlerów przestało się tym przejmować, bo “co nam zrobicie?”. Zjawisko nabrało siły wraz ze wzrostem popularności AI i pojawianiem się crawlerów zbierających dla nich dane. W praktyce jak nie chcesz, żeby jakiś crawler skanował twoją stronę, to musisz stworzyć jakiś konkretny mechanizm po swojej stronie, żeby przynajmniej utrudnić mu ten proces.
AI jest raczej jak czytelnik. Robots chroniło przed linkowaniem do zasobów które nie miały się ukazać w wyszukiwarce ze względów praktycznych. Po co w wyszukiwarce link do panelu admina lub coś w tym stylu. Duże strony zwęszyły interes w sprzedaży swoich treści w celu nauki AI. Stąd drama. Przeczuwają, że istnieje szansa, że staną się kolejną prasą lub radiem.
“Przeczuwają, że istnieje szansa, że staną się kolejną prasą lub radiem.”
To jest raczej: Jak to tak za darmo mają się uczyć na naszych danych?
"Po co w wyszukiwarce link do panelu admina lub coś w tym stylu. "
Też, ale niektórzy lubili stosować tzw. “głębokie ukrycie”. Motywacje różne, ale część wiedzy tam ukrywali. Np popatrz sobie na robots.txt dla tej strony: https://download.enclustra.com/
Kilka lat wcześniej były podobne problemy. Początkujące wyszukiwarki chcące konkurować z G. udawały normalną przeglądarkę i normalnego użytkownika i też to ignorowały. Choćby dlatego by mieć więcej treści. Odkryto to po nietypowym zachowaniu.