Niewłaściwa konfiguracja pliku robots.txt powoduje, że blisko 6% serwisów internetowych nieświadomie blokuje AI crawlers, co czyni je niewidocznymi dla użytkowników ChatGPT czy Perplexity. Strategiczne zarządzanie dostępem botów pozwala chronić zasoby przed darmowym trenowaniem modeli (training), zachowując jednocześnie krytyczny ruch referencyjny z systemów odpowiedzi (search).
Dlaczego blokowanie wszystkich botów to błąd architektoniczny?
Całkowite blokowanie AI crawlers eliminuje witrynę z platform discovery, na których w 2025 roku odbywa się już 40% procesów wyszukiwania produktów. Rozwiązaniem nie jest binarny zakaz, lecz granulacja dostępu rozróżniająca boty typu „user-facing”, generujące ruch, od botów „training”, które bezpowrotnie eksploatują treść bez wysyłania użytkowników do źródła.
- Ruch referencyjny: Boty takie jak ChatGPT-User pojawiają się, gdy realny użytkownik zadaje pytanie. Ich zablokowanie to utrata szansy na cytowanie i przejście do strony.
- Efekt „Ghostingu”: Firmy stosujące radykalne blokady (np. przez darmowe wersje CDN bez granulacji) znikają z ekosystemu AI, a powrót do indeksów po zmianie polityki trwa nawet osiem tygodni.
- Ekonomia wymiany: Tradycyjne wyszukiwarki oferowały ruch za indeksowanie. Niektóre boty AI, jak ClaudeBot, oferują współczynnik 20 583 przeskanowanych stron na jedno przejście użytkownika, co czyni je pasożytniczymi z punktu widzenia ROI.
Klasyfikacja botów: kogo wpuścić, a kogo zablokować?
Nowoczesna architektura bezpieczeństwa i SEO wymaga podziału AI crawlers na trzy kategorie: Tier 1 (Always Allow) dla botów obsługujących zapytania użytkowników, Tier 2 (Consider Charging) dla botów treningowych oraz Tier 3 (Block) dla agresywnych skraperów ignorujących standardy robots.txt.
- Tier 1 (Zezwalaj – 200 OK): Do tej grupy należą ChatGPT-User, OAI-SearchBot, Claude-Web, PerplexityBot oraz Perplexity-User. Reprezentują one realne intencje zakupowe i badawcze użytkowników.
- Tier 2 (Negocjuj/Monetyzuj – 402 Payment Required): Boty takie jak GPTBot, ClaudeBot, Google-Extended oraz Meta-ExternalAgent masowo pobierają dane do trenowania przyszłych modeli. Nie generują one bezpośredniego ruchu i powinny być kierowane do procesów licencyjnych.
- Tier 3 (Blokuj – 403 Forbidden): Agresywne jednostki, jak Bytespider (ByteDance), znane są z ignorowania dyrektyw robots.txt i nadmiernego obciążania infrastruktury.
Optymalizacja pod GEO i mechanizm 402 Payment Required
Zamiast standardowej blokady 403, standardem staje się odpowiedź HTTP 402 „Payment Required”, służąca do sygnalizowania botom treningowym konieczności zawarcia umów licencyjnych. Pozwala to na monetyzację danych poprzez systemy takie jak Cloudflare Pay Per Crawl (beta), przy jednoczesnym utrzymaniu widoczności dzięki dopuszczeniu botów indeksujących wyłącznie do celów „search”.
- Cloudflare AI Crawl Control: Umożliwia precyzyjne zarządzanie każdym botem z osobna z poziomu dashboardu, zamiast edycji statycznych plików.
- Separacja Google: Kluczowe jest rozróżnienie Googlebot (indeksowanie wyszukiwarki) od Google-Extended (trening AI). Zablokowanie tego drugiego nie wpływa na pozycje w tradycyjnym Google Search.
- Struktura RAG-Ready: Aby boty „user-facing” mogły skutecznie cytować markę, treść musi być serwowana w czystym HTML (nie tylko JavaScript) i wsparta danymi strukturalnymi JSON-LD (Article, FAQPage, HowTo).
Pułapka ad tech: boty, których nigdy nie powinieneś blokować
Błędem w podejściu „secure by design” jest rykoszetowe blokowanie ad tech crawlers, które są niezbędne do weryfikacji brand safety i targetowania kontekstowego. Brak dostępu dla tych botów drastycznie obniża bid density oraz stawki CPM, ponieważ systemy zakupowe (DSP) nie mogą ocenić jakości i tematyki treści, co prowadzi do ich wykluczenia z kampanii.
Lista krytycznych botów ad tech (nie blokować): DoubleVerifyBot / DVBot: Weryfikacja bezpieczeństwa marki. IAS_crawler / IAS_admantx: Analiza semantyczna i wykrywanie oszustw (Integral Ad Science). TTD-Content: Indeksowanie treści dla The Trade Desk. PubMatic Crawler Bot: Analiza zasobów SSP.
Wnioski praktyczne
- Audyt selektywny: Sprawdź robots.txt. Upewnij się, że dopuszczasz OAI-SearchBot i PerplexityBot, nawet jeśli blokujesz GPTBot.
- Wdrożenie 402: Skonfiguruj odpowiedź HTTP 402 dla botów treningowych (GPTBot, ClaudeBot) z informacją o kontakcie w sprawie licencji.
- Weryfikacja tożsamości: Korzystaj z Cloudflare Bot Management lub weryfikacji DNS/IP, aby wykrywać złośliwe skrapery podszywające się pod oficjalne boty AI.
- Technologia serwowania: Wdróż Server-Side Rendering (SSR) dla kluczowych sekcji merytorycznych. Crawlery AI często nie wykonują skryptów JavaScript, co sprawia, że dynamicznie ładowana treść jest dla nich niewidoczna.

Dodaj komentarz