Indexing in modernen Suchtechnologien: Google, Shazam und KI-Agents
Das Fundament jeder modernen Such- und Antworttechnologie ist das Indexieren – von Googles web‑Indexed‑Crawlern über Shazams akustische Fingerprints bis hin zu KI‑Agenten, deren Leistungsfähigkeit stark von der Qualität und Aktualität ihres Index abhängt.
Google‑Indexierung
- Google sucht nicht live im Internet, sondern in einem vor‑berechneten Index.
- Crawler (Googlebots) durchsuchen konstant Web‑Seiten, lesen Sitemaps, folgen Links.
- Indexierer rendert HTML, führt JavaScript aus, erkennt Duplikate, bewertet Freshness, Spam‑Scores, Mobile‑Funktionalität und extrahiert tausende Signale.
- Retrieval: bei einer Anfrage wie „best grilled chicken in London“ wird der Index mit Milliarden Dokumenten durchsucht, Ergebnisse werden durch Relevanzrangierung (z. B. PageRank‑ähnliche Modelle) sortiert und innerhalb von < 200 ms top‑10‑Ergebnisse geliefert.
Shazam‑Indexierung
- Spektrogramm (Frequenz vs. Zeit).
- Peak‑Finding (lärtest Punkte).
- Konstellationen (Peak‑Paare aus Anchor‑ und Target‑Peak).
- Hash‑Funktion → kompakte Identifikatoren (z. B. hash(800, 1200, 0.6)=“A3B7F2”).
Index mappt Hashes → (Song ID, Zeitoffset). Aufruf: Aufnahme → Fingerprints → Look‑up → Kandidaten → Zeit‑Alignment → Bestmatch in < 1 Sekunde, auch bei Rauschen oder Kompression. Dasselbe Prinzip treibt YouTube‑Content‑ID an.
KI‑Agenten‑Indexierung
Ziel: bessere Kontext‑Schicht, weniger Halluzinationen, smarte Antworten. Ein einziger Index reicht nicht – unterschiedliche Abfrage‑Typen benötigen unterschiedliche Strukturen:
- Semantischer Index (Vektor‑Suche, Embeddings) – für vage, konzeptuelle Fragen.
- Keyword‑Index (BM25) – für präzise, exakt passende Code‑Snippets.
- Graph‑Index – für Beziehungen (Aufruf‑Graphen, Abhängigkeiten).
Parallelabfrage aller drei Indizes, Ergebnis‑Merge via Reciprocal Rank Fusion, anschließend Feed to LLM.
Mehr zu BM25
Alt aus den 90 er, nutzt Term‑Frequency, Inverse Document Frequency und Dokumentlängen‑Normalisierung. Besonders effektiv für Code‑Suche mit präzisen Tokens wie ERR_CONNECTION_REFUSED.
Herausforderungen
- Incremental Reindexing: Nur geänderte Dokumente neu indexieren, z. B. via Abhängigkeitsgraph.
- Version Tracking: Dokumente nach Versions‑Meta‑Daten filtern, um Halluzinationen über veraltete APIs zu vermeiden.
- Context‑Window‑Constraint: Prompt‑Größe limitiert; effiziente Ranking‑Algorithmen sind entscheidend, da Embeddings reicher, aber token‑effizienter schlechter passen.
- Token‑Effizienz & Confidence‑Scoring: Hoch‑vertrauenswerte Treffer werden bevorzugt, um Prompt‑Platz zu sparen.
Cold‑Start & Kosten
- Pre‑Indexierung von öffentlichen Quellen (Framework‑Docs, Standard‑Libraries).
- Automatisches Fetch‑Index von importierten Libraries oder API‑Docs.
- Embedding‑Kosten können durch Self‑Hosting, Kompression, Batch‑Generierung reduziert werden, aber erfordern Hardware‑ und DevOps‑Aufwand.
Ausblick
Der nächste Abschnitt wird sich mit Ranking‑Methoden beschäftigen. Qualität des Index bleibt entscheidend für den Erfolg aller Such‑ und Beantwortungs‑Use‑Cases.
