Lacky to Interesting · 9 months ago

The rise and fall of robots.txt

www.theverge.com

3

cross-posted to:
technology@lemmy.world

1

The rise and fall of robots.txt

www.theverge.com

Lacky to Interesting · 9 months ago

3

cross-posted to:
technology@lemmy.world

As unscrupulous AI companies crawl for more and more data, the basic social contract of the web is falling apart.

TL;DR Na początku robots.txt działało, bo wszyscy traktowali to jako dżentelmeńską umowę. Z czasem coraz więcej crawlerów przestało się tym przejmować, bo “co nam zrobicie?”. Zjawisko nabrało siły wraz ze wzrostem popularności AI i pojawianiem się crawlerów zbierających dla nich dane. W praktyce jak nie chcesz, żeby jakiś crawler skanował twoją stronę, to musisz stworzyć jakiś konkretny mechanizm po swojej stronie, żeby przynajmniej utrudnić mu ten proces.

Chat

サぺルM
link
fedilink
Polski
arrow-up
1·
9 months ago
Kilka lat wcześniej były podobne problemy. Początkujące wyszukiwarki chcące konkurować z G. udawały normalną przeglądarkę i normalnego użytkownika i też to ignorowały. Choćby dlatego by mieć więcej treści. Odkryto to po nietypowym zachowaniu.