TL;DR Na początku robots.txt działało, bo wszyscy traktowali to jako dżentelmeńską umowę. Z czasem coraz więcej crawlerów przestało się tym przejmować, bo “co nam zrobicie?”. Zjawisko nabrało siły wraz ze wzrostem popularności AI i pojawianiem się crawlerów zbierających dla nich dane. W praktyce jak nie chcesz, żeby jakiś crawler skanował twoją stronę, to musisz stworzyć jakiś konkretny mechanizm po swojej stronie, żeby przynajmniej utrudnić mu ten proces.

  • サぺルM
    link
    fedilink
    Polski
    arrow-up
    1
    ·
    9 months ago

    Kilka lat wcześniej były podobne problemy. Początkujące wyszukiwarki chcące konkurować z G. udawały normalną przeglądarkę i normalnego użytkownika i też to ignorowały. Choćby dlatego by mieć więcej treści. Odkryto to po nietypowym zachowaniu.