TL;DR Na początku robots.txt działało, bo wszyscy traktowali to jako dżentelmeńską umowę. Z czasem coraz więcej crawlerów przestało się tym przejmować, bo “co nam zrobicie?”. Zjawisko nabrało siły wraz ze wzrostem popularności AI i pojawianiem się crawlerów zbierających dla nich dane. W praktyce jak nie chcesz, żeby jakiś crawler skanował twoją stronę, to musisz stworzyć jakiś konkretny mechanizm po swojej stronie, żeby przynajmniej utrudnić mu ten proces.

  • LackyOP
    link
    fedilink
    arrow-up
    1
    ·
    9 months ago

    “Przeczuwają, że istnieje szansa, że staną się kolejną prasą lub radiem.”

    To jest raczej: Jak to tak za darmo mają się uczyć na naszych danych?

    "Po co w wyszukiwarce link do panelu admina lub coś w tym stylu. "

    Też, ale niektórzy lubili stosować tzw. “głębokie ukrycie”. Motywacje różne, ale część wiedzy tam ukrywali. Np popatrz sobie na robots.txt dla tej strony: https://download.enclustra.com/

    • サぺルM
      link
      fedilink
      Polski
      arrow-up
      1
      ·
      9 months ago

      Kilka lat wcześniej były podobne problemy. Początkujące wyszukiwarki chcące konkurować z G. udawały normalną przeglądarkę i normalnego użytkownika i też to ignorowały. Choćby dlatego by mieć więcej treści. Odkryto to po nietypowym zachowaniu.