Zum Inhalt springen
2.8Experte9 min

AI-Crawler-Management: Compliance-Krise und Enterprise-Strategie

Lucas Blochberger··Aktualisiert 20. April 2026
Definition

Am 9. Dezember 2025 entfernte OpenAI ChatGPT-User stillschweigend aus der robots.txt-Compliance-Dokumentation. 12,9 Prozent der AI-Bot-Requests ignorieren jetzt robots.txt (gegenüber 3,3 Prozent in Q4 2024). Perplexity wurde von Cloudflare als Verified Bot delistet nach dokumentiertem User-Agent-Spoofing.

Auf einen Blick

  • ChatGPT-User ignoriert robots.txt seit Dezember 2025 (OpenAI-Dokumentationsänderung)
  • 12,9% der AI-Bot-Requests ignorieren robots.txt (Q1 2025, von 3,3% in Q4 2024)
  • Perplexity: Cloudflare dokumentierte robots.txt-Verstöße und UA-Spoofing
  • OpenAI Atlas-Browser nutzt Standard-Chrome-UA — nicht unterscheidbar von echtem Traffic
  • GPTBot: +305% Wachstum YoY, von #9 auf #3 unter allen Crawlern
  • Anthropic crawlt 25.000-100.000 Seiten pro verwiesenem Besucher
  • Layered Enforcement: robots.txt + Server-Blocking + WAF nötig

Die robots.txt-Compliance-Krise hat AI-Crawler-Management zu einer Enterprise-Governance-Aufgabe gemacht.

Die Compliance-Krise

Am 9. Dezember 2025 aktualisierte OpenAI seine Crawler-Dokumentation und entfernte ChatGPT-User aus der robots.txt-Compliance. Nur OAI-SearchBot und GPTBot respektieren noch robots.txt. ChatGPT-User wurde als „Proxy für User-Browsing" umklassifiziert.

Perplexitys Verstöße sind gravierender. Cloudflare veröffentlichte am 4. August 2025 eine detaillierte Untersuchung: Perplexity ignorierte robots.txt, fälschte User-Agents (imitierte Chrome auf macOS) und rotierte IP-Adressen über nicht deklarierte ASNs. Cloudflare delistete PerplexityBot als Verified Bot.

OpenAIs Atlas-Browser nutzt Standard-Chrome-UA und ist von normalem Browser-Traffic nicht unterscheidbar.

Enterprise-Strategie

Layer 1 — robots.txt: Für konforme Bots (OAI-SearchBot, GPTBot, Bingbot). Layer 2 — Server-Blocking: nginx User-Agent-Matching für Enforcement. Layer 3 — WAF/CDN: Cloudflare AI Audit, Rate-Limiting bei 6-10 Requests/Minute pro AI-Bot. Layer 4 — IP-Verifizierung gegen veröffentlichte IP-Ranges.

Crawl-to-Referral-Asymmetrie

Die Ratios zeigen fundamentale Imbalance: Anthropic crawlt 25.000-100.000 Seiten pro verwiesenem Besucher. OpenAI 401:1 bis 3.700:1. Perplexity 88:1 bis 200:1. Google 3:1 bis 30:1. DuckDuckGo sendet tatsächlich mehr Traffic als es crawlt.

Daten & Statistiken

GPTBot wuchs 305% YoY und stieg von #9 auf #3 unter allen Crawlern

Cloudflare (2025)

12,9% der AI-Bot-Requests ignorieren robots.txt (Q1 2025)

TollBit (2025)

Anthropic crawlt 25.000-100.000 Seiten pro verwiesenem Besucher

Crawl-to-Referral-Analyse (2025)

ChatGPT-User Traffic wuchs 2.825% YoY

Cloudflare (2025)

Site owners should think carefully about which AI crawlers they allow and what content they want to be used for training vs. inference.

Fabrice Canel, Principal Program Manager, Microsoft Bing

Häufig gestellte Fragen

Kann ich ChatGPT-User noch per robots.txt blockieren?
Effektiv nein. Am 9. Dezember 2025 entfernte OpenAI ChatGPT-User aus der robots.txt-Compliance-Dokumentation. OpenAIs Begründung: ChatGPT-User agiert als „Proxy für User-Browsing", analog zu einem Webbrowser. Serverseitige Blockierung oder WAF-Regeln sind die einzige effektive Maßnahme.
Welche Crawler sollte ich erlauben vs. blockieren?
Erlauben (Citation-Value): OAI-SearchBot, PerplexityBot, Googlebot, Bingbot, DuckAssistBot. Blockieren (Training-Only): GPTBot, anthropic-ai, Google-Extended, Applebot-Extended, CCBot, Bytespider, meta-externalagent. Enforcement: robots.txt + nginx UA-Matching + WAF/CDN-Regeln.