Indexierung: Wie Google Seiten speichert und versteht
Indexierung ist der Prozess, bei dem Google die gecrawlten Webseiten analysiert, deren Inhalte versteht und in einer durchsuchbaren Datenbank (dem Google-Index) speichert, um sie bei relevanten Suchanfragen als Ergebnis anzeigen zu können.
Auf einen Blick
- ✓Nicht jede gecrawlte Seite wird indexiert
- ✓Google Search Console zeigt den Indexierungsstatus jeder URL
- ✓noindex-Tag verhindert gezielt die Indexierung einzelner Seiten
- ✓Canonical Tags signalisieren Google die bevorzugte URL-Version
- ✓Duplicate Content ist einer der häufigsten Indexierungs-Blocker
Die Indexierung ist die Brücke zwischen Crawling und Ranking. Eine Seite, die nicht indexiert ist, kann nicht in den Suchergebnissen erscheinen — unabhängig davon, wie gut ihr Inhalt ist.
Der Indexierungsprozess
Nachdem Googlebot eine Seite gecrawlt hat, analysiert Google deren Inhalt in mehreren Schritten. Zürst wird der HTML-Code geparst und der Textinhalt extrahiert. Dann werden Bilder, Videos und strukturierte Daten (Schema Markup) verarbeitet. Anschließend ordnet Google die Seite thematisch ein und speichert sie im Index.
Google versteht dabei nicht nur den wörtlichen Inhalt, sondern auch semantische Zusammenhänge. Durch Natural Language Processing erkennt Google Entitäten (Personen, Orte, Konzepte) und deren Beziehungen zueinander.
Warum Seiten nicht indexiert werden
Nicht jede gecrawlte Seite schafft es in den Index. Die häufigsten Gründe sind ein gesetzter noindex-Tag, Blockierung durch robots.txt, Duplicate Content, qualitativ minderwertiger oder dünner Inhalt, Server-Fehler (5xx) oder Client-Fehler (4xx).
Die Google Search Console ist das wichtigste Werkzeug zur Diagnose von Indexierungsproblemen. Der Bericht Coverage/Seitenindexierung zeigt für jede URL den Status: indexiert, ausgeschlossen (mit Grund), oder Fehler.
Canonical Tags und Duplicate Content
Wenn dieselben Inhalte unter mehreren URLs erreichbar sind, spricht man von Duplicate Content. Google wählt dann selbständig eine Version als kanonisch aus. Der Canonical Tag (link rel=canonical) ermöglicht es, Google die bevorzugte Version explizit mitzuteilen.
Typische Duplicate-Content-Szenarien sind URLs mit und ohne www, HTTP- und HTTPS-Versionen, URL-Parameter die keine inhaltliche Änderung bewirken und Paginierung.
Indexierung und KI-Systeme
Für KI-Suchsysteme ist die Google-Indexierung indirekt relevant: Google AI Overviews ziehen ihre Quellen zu 92-99,5 Prozent aus dem Google-Index. Perplexity und ChatGPT haben eigene Indizes, wobei ChatGPT den Bing-Index nutzt. Eine Seite muss also in mindestens einem relevanten Index präsent sein, um KI-sichtbar zu werden.
Daten & Statistiken
Googles Index enthält hunderte Milliarden Webseiten
Google (2025)96,55% aller Webseiten erhalten keinen Traffic von Google
Ahrefs (2024)“”
— John Mueller, Google Search Advocate