Wayback Machine blokowana. Wydawcy boją się AI

Q: Czy wydawcy w ogóle rozróżniają boty?

Coraz więcej wydawców blokuje dostęp Internet Archive do swoich treści, powołując się na obawy przed scrapowaniem przez modele AI.

Q: Prawa autorskie czy panika kontrolna?

Coraz więcej wydawców blokuje dostęp Internet Archive do swoich treści, powołując się na obawy przed scrapowaniem przez modele AI.

Q: Kto traci na tej wojnie?

Coraz więcej wydawców blokuje dostęp Internet Archive do swoich treści, powołując się na obawy przed scrapowaniem przez modele AI.

Wayback Machine dostaje rykoszetem w wojnie o dane treningowe

Internet Archive — organizacja non-profit, która od 1996 roku archiwizuje strony internetowe — traci dostęp do coraz większej liczby witryn, bo wydawcy masowo wystawiają blokady w obawie przed AI. Efekt uboczny? Jeden z najważniejszych narzędzi do weryfikacji faktów i badań historycznych internetu przestaje działać.

Mechanizm jest prosty: wydawca dodaje reguły do pliku robots.txt lub wysyła do Internet Archive żądanie zablokowania dostępu. Wayback Machine — w przeciwieństwie do wielu botów AI — te zakazy szanuje. W rezultacie organizacja, która przez lata zdobywała zaufanie właśnie dzięki transparentności i respektowaniu granic, płaci cenę za działania podmiotów, które tego samego szacunku nie okazują.

Trzy dekady archiwum w trzech minutach

Wayback Machine to 866 miliardów zarchiwizowanych stron internetowych. Każdy, kto kiedyś szukał usuniętego artykułu, sprawdzał jak wyglądała witryna rządowa dwa lata temu albo weryfikował, czy redakcja zmieniła tytuł po publikacji — korzystał z tego archiwum. Dziennikarze używają go do fact-checkingu. Prawnicy — do dowodów w sprawach sądowych. Badacze — do analizy ewolucji narracji medialnych.

To nie jest prywatna baza danych jednej firmy. To cyfrowy odpowiednik biblioteki publicznej, tyle że zamiast książek trzyma migawki sieci.

Czy wydawcy w ogóle rozróżniają boty?

Tu robi się ciekawie. Większość poważnych firm AI — OpenAI, Google, Anthropic — wysyła własne crawlery, które można zidentyfikować i oddzielnie zablokować. Wayback Machine ma swój identyfikator: ia_archiver. Technicznie wydawca może zablokować GPTBot (crawler OpenAI) i jednocześnie zostawić otwarte drzwi dla Internet Archive.

A jednak część wydawców albo tego nie rozróżnia, albo świadomie decyduje się zablokować wszystko. Efekt jest taki, że archiwum dostaje w twarz razem z tymi, przed którymi rzekomo chronione są treści.

Na domiar złego — blokada Wayback Machine nie uchroni niczyich treści przed modelami AI, które już zostały wytrenowane na danych z przeszłości. Konie dawno uciekły ze stajni, a wydawcy zamykają wrota archiwiście.

Prawa autorskie czy panika kontrolna?

Formalnie wydawcy mają prawo decydować, kto indeksuje ich treści. robots.txt to standard od lat 90. i nikt nie kwestionuje samego mechanizmu.

Problem w tym, że aktualne blokady mają charakter reaktywny i często nieprzemyślany. Kilka dużych grup medialnych i wydawniczych jednocześnie pozwało OpenAI, zawarło umowy z Google na licencjonowanie treści, a przy okazji zrewidowało swoje polityki robots.txt w sposób, który uderza w podmioty zupełnie niezwiązane z generatywną AI.

Internet Archive nie trenuje żadnych modeli językowych. Organizacja wielokrotnie to komunikowała. Mimo to część wydawców traktuje każde archiwizowanie jako zagrożenie.

Kto traci na tej wojnie?

Nie traci OpenAI, bo modele GPT już istnieją i działają. Nie traci Google, bo ma własne indeksy i umowy z wydawcami. Tracą konkretne grupy:

Badacze sprawdzający historyczne wersje stron
Dziennikarze weryfikujący zmiany w artykułach
Użytkownicy szukający treści usuniętych z sieci
Prawnicy dokumentujący stan witryn na potrzeby sporów sądowych

Wayback Machine to narzędzie archiwalne, nie model generatywny. Różnica jest fundamentalna — tyle że wydawcy w gorączce AI-paniki najwyraźniej przestali ją dostrzegać.

Precedens, który może zaboleć

Jeżeli trend blokowania Wayback Machine się utrzyma, za kilka lat internet straci coś, czego nie da się odbudować od zera: ciągłość dokumentacji sieci. Migawki stron sprzed 10 lat znikają ze zbiorów. Nowe treści nie trafiają do archiwum. Zostaje dziura.

Internet Archive już teraz boryka się z problemami finansowymi i prawnymi — w 2024 roku przegrało sprawę sądową z czterema dużymi wydawnictwami w kwestii digitalizacji książek. Seria nowych blokad działa jak sól wsypana w otwartą ranę.

Na razie organizacja nie podała oficjalnych danych, ile konkretnie domen ją zablokowało w ostatnich 12 miesiącach.