TL;DR Na początku robots.txt działało, bo wszyscy traktowali to jako dżentelmeńską umowę. Z czasem coraz więcej crawlerów przestało się tym przejmować, bo “co nam zrobicie?”. Zjawisko nabrało siły wraz ze wzrostem popularności AI i pojawianiem się crawlerów zbierających dla nich dane. W praktyce jak nie chcesz, żeby jakiś crawler skanował twoją stronę, to musisz stworzyć jakiś konkretny mechanizm po swojej stronie, żeby przynajmniej utrudnić mu ten proces.

  • サぺルM
    link
    fedilink
    Polski
    arrow-up
    1
    ·
    9 months ago

    AI jest raczej jak czytelnik. Robots chroniło przed linkowaniem do zasobów które nie miały się ukazać w wyszukiwarce ze względów praktycznych. Po co w wyszukiwarce link do panelu admina lub coś w tym stylu. Duże strony zwęszyły interes w sprzedaży swoich treści w celu nauki AI. Stąd drama. Przeczuwają, że istnieje szansa, że staną się kolejną prasą lub radiem.

    • LackyOP
      link
      fedilink
      arrow-up
      1
      ·
      9 months ago

      “Przeczuwają, że istnieje szansa, że staną się kolejną prasą lub radiem.”

      To jest raczej: Jak to tak za darmo mają się uczyć na naszych danych?

      "Po co w wyszukiwarce link do panelu admina lub coś w tym stylu. "

      Też, ale niektórzy lubili stosować tzw. “głębokie ukrycie”. Motywacje różne, ale część wiedzy tam ukrywali. Np popatrz sobie na robots.txt dla tej strony: https://download.enclustra.com/

      • サぺルM
        link
        fedilink
        Polski
        arrow-up
        1
        ·
        9 months ago

        Kilka lat wcześniej były podobne problemy. Początkujące wyszukiwarki chcące konkurować z G. udawały normalną przeglądarkę i normalnego użytkownika i też to ignorowały. Choćby dlatego by mieć więcej treści. Odkryto to po nietypowym zachowaniu.