1.3Fortgeschritten9 min

Googlebot und Crawling: Wie Google das Web durchsucht

Lucas Blochberger·7. April 2026·Aktualisiert 10. Juni 2026

Definition

Googlebot ist der automatisierte Webcrawler von Google, der systematisch Webseiten besucht, deren Inhalte liest und Links verfolgt, um neue und aktualisierte Seiten für den Google-Index zu entdecken und zu verarbeiten. Er existiert primär als Googlebot Smartphone (Mobile-First) und Googlebot Desktop und bildet die erste von drei Phasen der Google-Suche: Crawling, Indexierung und Ranking.

Auf einen Blick

✓Googlebot ist der primäre Crawler von Google für Desktop und Mobile und der erste Schritt vor Indexierung und Ranking
✓Mobile-First Indexing bedeutet: Googlebot crawlt primär die Mobile-Version, nur dort vorhandene Inhalte müssen mobil ausgeliefert werden
✓Googlebot war laut Cloudflare der aktivste Crawler im Web und legte von Mai 2024 bis Mai 2025 um 96 Prozent zu
✓robots.txt steuert den Crawl-Zugang verschiedener Crawler-Typen, verhindert aber keine Indexierung; dafür sind noindex und canonical zuständig
✓Crawl-Budget aus Crawl-Kapazitätslimit und Crawl-Demand ist vor allem für sehr große oder schnell wechselnde Sites relevant
✓AI-Crawler wie GPTBot, ClaudeBot und PerplexityBot führen in der Regel kein JavaScript aus, anders als der Googlebot mit seinem Web Rendering Service
✓Echte Googlebot-Zugriffe lassen sich per Reverse-DNS-Verifizierung von gefälschten User-Agents unterscheiden

Der Googlebot ist die Grundlage dafür, dass eine Website überhaupt bei Google gefunden wird. Ohne erfolgreiches Crawling gibt es keine Indexierung, ohne Index kein Ranking und ohne Ranking keine Sichtbarkeit. Für B2B-Unternehmen im DACH-Raum ist das mehr als ein technisches Detail: Wer in der organischen Suche nicht auftaucht, fehlt im wichtigsten Recherchekanal seiner Zielgruppe. Dieser Artikel erklärt, wie der Googlebot arbeitet, wie Sie sein Verhalten steuern, welche Fehler das Crawling verhindern und wie sich das Bild durch KI-Crawler für ChatGPT, Perplexity und Google AI Overviews gerade verschiebt.

Warum Crawling über Ihre Sichtbarkeit entscheidet

Crawling ist der erste Schritt einer Kette, an deren Ende der Geschäftserfolg in der Suche steht. Der Googlebot besucht Seiten, liest deren Inhalte und folgt Links, um neue und aktualisierte URLs zu entdecken. Erst danach kann Google die Inhalte indexieren und für passende Suchanfragen ausspielen. Die schiere Dimension verdeutlicht, warum dieser Prozess nicht dem Zufall überlassen werden darf: Der Google-Index umfasst laut Google hunderte Milliarden Webseiten und ist weit über 100.000.000 Gigabyte groß. In diesem Umfang konkurriert jede Seite um die begrenzte Aufmerksamkeit des Crawlers.

Für den DACH-Markt kommt eine klare Konzentration hinzu. In Österreich hält Google laut StatCounter einen Suchmaschinen-Marktanteil von 81,87 Prozent, Bing folgt mit 9,01 Prozent. Die Reichweitenbasis ist breit: Laut Statistik Austria standen in der österreichischen Bevölkerung zwischen 16 und 74 Jahren 95 Prozent Internetnutzer:innen nur 5 Prozent Nicht-Nutzer:innen gegenüber. Wer in Österreich digital gefunden werden will, optimiert damit in erster Linie für den Googlebot. Und das Crawling-Volumen wächst: Laut Cloudflare war Googlebot der aktivste Crawler im Web und legte von Mai 2024 bis Mai 2025 um 96 Prozent zu, mit einem Spitzenwert von plus 145 Prozent im April 2025.

Wie der Googlebot funktioniert: Crawling, Indexierung, Ranking

Der Googlebot ist der automatisierte Webcrawler von Google. Er existiert in zwei Hauptvarianten: dem Googlebot Smartphone, der die mobile Ansicht abruft, und dem Googlebot Desktop. Im Rahmen des Mobile-First Indexing crawlt Google heute primär die Mobile-Version einer Seite. Wer Inhalte oder strukturierte Daten nur in der Desktop-Variante ausliefert, riskiert, dass diese nicht erfasst werden. Echte Googlebot-Zugriffe lassen sich verifizieren: Sie führen einen Reverse-DNS-Lookup der zugreifenden IP durch, prüfen, ob der Hostname auf googlebot.com oder google.com endet, und bestätigen ihn anschließend per Forward-DNS. So entlarven Sie gefälschte User-Agents, die sich als Googlebot ausgeben.

Die Google-Suche läuft in drei Phasen ab, die ineinandergreifen:

Crawling: Der Googlebot entdeckt URLs über Links, Sitemaps und bereits bekannte Seiten und ruft deren Inhalte ab. Bei modernen Seiten rendert Google den Inhalt anschließend wie ein Browser, um JavaScript-generierte Inhalte zu erfassen.
Indexierung: Google analysiert Texte, Bilder und Schlüssel-Tags, erkennt Duplikate und Canonicals und speichert die Seite im Index. Nur indexierte Seiten können überhaupt ranken.
Ranking: Bei einer Suchanfrage wählt Google aus dem Index die relevantesten Ergebnisse und sortiert sie für die SERP. Crawling und Indexierung sind also Voraussetzung, das Ranking entscheidet über die Position.

Wie der Googlebot URLs findet und wie Sie ihn steuern

Der Googlebot entdeckt neue Seiten überwiegend über Links. Jede gecrawlte Seite liefert neue URLs, denen er folgt. Daraus ergeben sich drei zentrale Hebel, mit denen Sie die Auffindbarkeit aktiv beeinflussen:

Interne Verlinkung: Eine flache, logische Linkstruktur sorgt dafür, dass wichtige Seiten mit wenigen Klicks von der Startseite erreichbar sind. Verwaiste Seiten ohne interne Links werden schlecht oder gar nicht gefunden.
XML-Sitemap: Die Sitemap listet alle relevanten URLs und meldet sie über die Google Search Console direkt an. Sie ersetzt keine gute interne Verlinkung, hilft aber besonders bei großen oder schlecht verlinkten Sites.
robots.txt: Diese Datei im Stammverzeichnis steuert, welche Bereiche ein Crawler abrufen darf. Sie ist das wichtigste Steuerungsinstrument für den Crawl-Zugang, aber kein Werkzeug zur Deindexierung.

Die robots.txt verdient besondere Sorgfalt, weil Fehler hier weitreichend wirken. Laut dem Web Almanac 2024 lieferten 83,9 Prozent der robots.txt-Dateien bei mobilen Abrufen einen Status 200 zurück, während 14,1 Prozent mit einem 404 antworteten. Ein fehlendes oder fehlerhaftes File ist also keine Seltenheit. Wichtig ist die saubere Trennung der Werkzeuge: Die robots.txt blockiert das Crawling, verhindert aber keine Indexierung bereits bekannter URLs.

Crawl-Budget verstehen und optimieren

Crawl-Budget bezeichnet die Menge an URLs, die Google auf einer Site crawlen kann und will. Google definiert es als Zusammenspiel aus zwei Größen: dem Crawl-Kapazitätslimit und dem Crawl-Demand (Crawl Capacity Limit und Crawl Demand). Das Kapazitätslimit ist die maximale Zahl gleichzeitiger Verbindungen plus die Wartezeit zwischen Abrufen. Reagiert ein Server schnell, steigt das Limit; bei Serverfehlern oder langsamen Antworten sinkt es. Der Crawl-Demand ergibt sich aus dem wahrgenommenen Seitenbestand, der Popularität der URLs und ihrer Aktualität.

Für die meisten kleineren Websites ist das Crawl-Budget kein limitierender Faktor. Relevant wird es laut Google vor allem für große Sites mit über einer Million einzigartiger Seiten bei wöchentlich wechselndem Inhalt oder mittlere bis große Sites ab 10.000 Seiten mit sehr schnell wechselndem Inhalt. Google bezeichnet diese Werte als grobe Einordnung, nicht als feste Schwellen. Für betroffene Sites zählt vor allem, kein Budget zu verschwenden: Serverleistung verbessern, Soft-404s und Endlosschleifen eliminieren, Duplikate konsolidieren und unwichtige URL-Parameter ausschließen. Jede überflüssig gecrawlte URL geht zulasten wichtiger Seiten.

Crawling steuern und Fehler vermeiden

Die häufigste Ursache für Crawling-Probleme ist die Verwechslung der Steuerungswerkzeuge. Drei Mechanismen erfüllen drei verschiedene Aufgaben und dürfen nicht vermischt werden:

robots.txt: steuert, ob eine URL gecrawlt werden darf. Eine per robots.txt blockierte Seite kann dennoch im Index landen, wenn andere Seiten auf sie verlinken, dann ohne Inhalt, nur als URL.
noindex: ein Meta-Robots-Tag oder HTTP-Header, der die Indexierung verhindert. Damit Google das Tag liest, darf die Seite nicht zugleich per robots.txt blockiert sein. Laut Web Almanac 2024 nutzen 4,7 Prozent der Desktop-Seiten und 3,9 Prozent der mobilen Seiten ein noindex.
canonical: signalisiert bei mehreren ähnlichen URLs die bevorzugte Version und bündelt Ranking-Signale, statt Inhalte komplett auszuschließen.

Typische Crawl-Fallen entstehen durch technische Nachlässigkeit. Facettierte Navigationen, Filter und Session-IDs erzeugen unendlich viele URL-Varianten, die das Budget aufzehren. Duplicate Content verteilt Signale auf konkurrierende URLs. Soft-404s, also Fehlerseiten mit Status 200 statt 404, täuschen gültige Inhalte vor und werden weiter gecrawlt. Wer diese Muster früh erkennt und sauber per Statuscode, canonical und noindex auflöst, hält die Crawling-Effizienz hoch.

Rendering und JavaScript-SEO

Moderne Websites liefern Inhalte oft erst per JavaScript aus. Der Googlebot kommt damit grundsätzlich zurecht, weil er die Seiten in einem zweiten Schritt mit dem Web Rendering Service (WRS) rendert, also den Code wie ein Browser ausführt. Dieses Rendering ist jedoch ressourcenintensiv und kann zeitversetzt erfolgen. Inhalte, die für das Verständnis der Seite zentral sind, sollten daher serverseitig gerendert oder vorgerendert ausgeliefert werden, damit sie zuverlässig und schnell erfasst werden.

Seitengröße und Performance wirken direkt auf das Crawling. Je schwerer und langsamer eine Seite, desto mehr Ressourcen kostet jeder Abruf und desto weniger Seiten schafft der Googlebot im gleichen Zeitfenster. Der Trend zeigt in die falsche Richtung: Laut Web Almanac 2024 lag das mediane Seitengewicht im mobilen Bereich bei 2.311 KB, ein Plus von 6,4 Prozent oder 140 KB gegenüber dem Vorjahr. Schlanker Code, optimierte Bilder und eine schnelle Serverantwort sind damit nicht nur Tempofaktoren, sondern direkte Crawling-Optimierung.

Crawling-Diagnose mit Tools und Logfiles

Crawling lässt sich messen, nicht nur vermuten. Zwei Datenquellen sind dafür entscheidend. Die erste ist die Google Search Console, die kostenlos einen Innenblick in das Crawling der eigenen Domain gibt:

Crawling-Statistiken: zeigen die Zahl der Anfragen, durchschnittliche Antwortzeiten und Antwortcodes über die Zeit und decken Serverprobleme auf.
URL-Prüfung: verrät für eine einzelne URL, ob sie gecrawlt und indexiert wurde, welche Canonical Google wählt und wie die gerenderte Seite aussieht.
Index-Abdeckung (Seitenindexierung): listet, welche Seiten indexiert sind und aus welchen Gründen andere ausgeschlossen wurden, etwa durch noindex, Duplikate oder Crawling-Fehler.

Die zweite Quelle ist die Server-Logfile-Analyse. Logfiles protokollieren jeden echten Zugriff des Googlebot und zeigen damit, welche URLs tatsächlich wie oft gecrawlt werden, wo Budget verschwendet wird und welche wichtigen Seiten der Crawler vernachlässigt. In Kombination mit der Reverse-DNS-Verifizierung lassen sich echte Googlebot-Zugriffe sauber von gefälschten trennen. Für große Sites ist die Logfile-Analyse das präziseste verfügbare Crawling-Diagnosewerkzeug.

Vom Googlebot zu KI-Crawlern: GEO im DACH-B2B

Neben dem Googlebot crawlt eine neue Generation von Bots das Web für KI-Systeme. GPTBot sammelt Inhalte für OpenAI und ChatGPT, ClaudeBot für Anthropics Claude, PerplexityBot für die Antwortmaschine Perplexity. Google-Extended ist ein separates Token, mit dem sich die Nutzung von Inhalten für Gemini und KI-Trainings steuern lässt, ohne das reguläre Google-Search-Crawling zu blockieren. Ein zentraler technischer Unterschied: Diese KI-Crawler führen in der Regel kein JavaScript aus. Inhalte, die erst clientseitig gerendert werden, bleiben für sie unsichtbar, während der Googlebot sie über den WRS noch erfassen kann.

Diese Verschiebung hat handfeste Konsequenzen, weil KI-Antworten zunehmend Suchverhalten übernehmen. Laut einer Semrush-Studie wurden in den USA AI Overviews bei 6,49 Prozent der Anfragen im Januar 2025 ausgelöst, im Juli waren es 24,61 Prozent und im November 15,69 Prozent. Generative Engine Optimization (GEO) zielt darauf, in solchen KI-Antworten zitiert zu werden. Eine internationale Studie zeigt, dass gezielte GEO-Maßnahmen die Sichtbarkeit in generativen Suchantworten um bis zu 40 Prozent steigern können. Für DACH-B2B-Unternehmen folgt daraus eine doppelte Aufgabe: Erstens die bewusste Entscheidung in der robots.txt, welche KI-Crawler Zugang erhalten, denn der Zugang sichert Sichtbarkeit, kostet aber Server- und Inhaltskontrolle. Zweitens die Auslieferung zentraler Inhalte ohne JavaScript-Abhängigkeit und mit klarer, extrahierbarer Struktur, damit sie sowohl vom Googlebot als auch von KI-Crawlern verarbeitet werden können.

Weiterführendes

Crawling ist die unsichtbare Basis jeder Suchstrategie. Wer den Googlebot versteht, sorgt zuerst für saubere technische Voraussetzungen: eine fehlerfreie robots.txt, eine aktuelle XML-Sitemap, eine flache interne Verlinkung und schnelle, schlanke Seiten. Darauf bauen die nächsten Schritte auf. Sinnvolle Anschlussthemen sind die Indexierung und ihre Steuerung über noindex und canonical, die Funktionsweise der Ranking-Faktoren, die Optimierung der Google Search Console für die laufende Diagnose sowie Generative Engine Optimization als eigenständige Disziplin für die Sichtbarkeit in ChatGPT, Perplexity und Google AI Overviews. Gemeinsam bilden sie das Fundament, auf dem organische und KI-gestützte Sichtbarkeit im DACH-Raum entsteht.

Daten & Statistiken

Der Google-Index umfasst hunderte Milliarden Webseiten und ist weit über 100.000.000 Gigabyte groß

Google - How Search Works (Organizing Information) (2025)

Google hält in Österreich einen Suchmaschinen-Marktanteil von 81,87 Prozent, Bing folgt mit 9,01 Prozent

StatCounter Global Stats - Search Engine Market Share Austria (2026)

In der österreichischen Bevölkerung zwischen 16 und 74 Jahren stehen 95 Prozent Internetnutzer:innen (Onliner) 5 Prozent Nicht-Nutzer:innen (Offliner) gegenüber

Statistik Austria - Nichtnutzung des Internets 2023 (Pressemitteilung 19.09.2024) (2023)

Googlebot war der aktivste Crawler im Web und wuchs von Mai 2024 bis Mai 2025 um 96 Prozent, mit einem Spitzenwert von plus 145 Prozent im April 2025

Cloudflare Blog - From Googlebot to GPTBot: who's crawling your site in 2025 (2025)

83,9 Prozent der robots.txt-Dateien lieferten bei mobilen Abrufen einen Status 200 zurück, 14,1 Prozent antworteten mit einem 404 (2024, mobil)

Web Almanac 2024 (HTTP Archive) - SEO-Kapitel (2024)

Crawl-Budget definiert Google als Zusammenspiel aus Crawl-Kapazitätslimit und Crawl-Demand (set of URLs that Google can and wants to crawl)

Google Search Central - Crawl Budget Management (2025)

Crawl-Budget-Optimierung ist vor allem relevant fuer grosse Sites mit ueber 1.000.000 einzigartigen Seiten (woechentlich wechselnder Inhalt) oder mittlere bis grosse Sites ab 10.000 Seiten mit sehr schnell wechselndem Inhalt

Google Search Central - Crawl Budget Management for Large Sites (2025)

4,7 Prozent der Desktop-Seiten und 3,9 Prozent der mobilen Seiten nutzen ein noindex

Web Almanac 2024 (HTTP Archive) - SEO-Kapitel (Robots directive rules) (2024)

Das mediane Seitengewicht im mobilen Bereich lag bei 2.311 KB, ein Plus von 6,4 Prozent oder 140 KB gegenueber dem Vorjahr

Web Almanac 2024 (HTTP Archive) - Page Weight (2024)

AI Overviews wurden bei 6,49 Prozent der Anfragen im Januar 2025 ausgeloest, im Juli bei 24,61 Prozent und im November bei 15,69 Prozent (US-Daten)

Semrush Blog - Semrush AI Overviews Study 2025 (2025)

Gezielte GEO-Massnahmen koennen die Sichtbarkeit in generativen Suchantworten um bis zu 40 Prozent steigern (internationale Studie)

arXiv - GEO: Generative Engine Optimization (KDD 2024) (2024)

Häufig gestellte Fragen

Was ist der Googlebot?

Der Googlebot ist der automatisierte Webcrawler von Google. Er besucht systematisch Webseiten, liest deren Inhalte und folgt Links, um neue und aktualisierte Seiten fuer den Google-Index zu entdecken. Es gibt ihn primaer als Googlebot Smartphone, der die mobile Ansicht abruft, und als Googlebot Desktop. Im Rahmen des Mobile-First Indexing crawlt Google heute vorrangig die Mobile-Version einer Seite.

Wie unterscheiden sich Crawling, Indexierung und Ranking?

Es sind die drei aufeinander aufbauenden Phasen der Google-Suche. Beim Crawling entdeckt und ruft der Googlebot URLs ab. Bei der Indexierung analysiert und speichert Google die Inhalte im Index, nur indexierte Seiten koennen ranken. Beim Ranking waehlt Google bei einer Suchanfrage die relevantesten Ergebnisse aus dem Index aus und sortiert sie fuer die SERP. Crawling und Indexierung sind also die Voraussetzung, das Ranking entscheidet ueber die Position.

Wie findet der Googlebot neue Seiten?

Der Googlebot entdeckt neue URLs ueberwiegend ueber Links auf bereits bekannten Seiten. Drei Hebel beeinflussen die Auffindbarkeit: eine flache, logische interne Verlinkung, damit wichtige Seiten mit wenigen Klicks erreichbar sind; eine XML-Sitemap, die relevante URLs ueber die Google Search Console direkt meldet; und eine korrekte robots.txt, die den Crawl-Zugang steuert. Verwaiste Seiten ohne interne Links werden schlecht oder gar nicht gefunden.

Was ist Crawl-Budget und fuer wen ist es wichtig?

Crawl-Budget bezeichnet die Menge an URLs, die Google auf einer Site crawlen kann und will. Google definiert es als Zusammenspiel aus Crawl-Kapazitaetslimit (gleichzeitige Verbindungen plus Wartezeit, abhaengig von der Serverleistung) und Crawl-Demand (Seitenbestand, Popularitaet, Aktualitaet). Fuer kleinere Websites ist es selten ein Engpass. Relevant wird es laut Google vor allem fuer sehr grosse Sites ab etwa einer Million Seiten oder mittlere bis grosse Sites ab 10.000 Seiten mit sehr schnell wechselndem Inhalt.

Was ist der Unterschied zwischen robots.txt, noindex und canonical?

Die drei Mechanismen erfuellen verschiedene Aufgaben. Die robots.txt steuert, ob eine URL gecrawlt werden darf, verhindert aber keine Indexierung: Eine blockierte Seite kann ueber Links dennoch als URL im Index landen. Das noindex-Tag verhindert die Indexierung, dafuer darf die Seite aber nicht zugleich per robots.txt blockiert sein, sonst liest Google das Tag nie. Das canonical-Tag bestimmt bei mehreren aehnlichen URLs die bevorzugte Version und buendelt deren Ranking-Signale.

Wie verifiziere ich, ob ein Zugriff wirklich vom Googlebot stammt?

Verlassen Sie sich nicht allein auf den User-Agent, da dieser faelschbar ist. Fuehren Sie einen Reverse-DNS-Lookup der zugreifenden IP-Adresse durch und pruefen Sie, ob der Hostname auf googlebot.com oder google.com endet. Bestaetigen Sie ihn anschliessend per Forward-DNS-Lookup, der wieder auf dieselbe IP zeigen muss. In Server-Logfiles lassen sich so echte Googlebot-Zugriffe zuverlaessig von Bots trennen, die sich nur als Googlebot ausgeben.

Worin unterscheiden sich KI-Crawler wie GPTBot und ClaudeBot vom Googlebot?

KI-Crawler wie GPTBot (OpenAI/ChatGPT), ClaudeBot (Anthropic) und PerplexityBot sammeln Inhalte fuer KI-Systeme und Antwortmaschinen. Ein zentraler technischer Unterschied: Sie fuehren in der Regel kein JavaScript aus, waehrend der Googlebot Seiten ueber seinen Web Rendering Service rendert. Rein clientseitig gerenderte Inhalte bleiben fuer KI-Crawler daher unsichtbar. Ueber die robots.txt und das Token Google-Extended laesst sich steuern, welche dieser Crawler Zugang erhalten.

Wie schneidet deine Website ab?

Erhalte einen kostenlosen, KI-gestützten SEO-Report deiner Website per E-Mail: technische SEO, On-Page, Keywords & Wettbewerber. Unverbindlich.

Kostenlosen SEO-Audit anfordern →

Vorheriger← Wie funktionieren Suchmaschinen? Google, Bing und Co.NächsterIndexierung: Wie Google Seiten speichert und versteht →