Indexing in modernen Suchtechnologien: Google, Shazam und KI-Agents

Das Fundament jeder modernen Such- und Antworttechnologie ist das Indexieren – von Googles web‑Indexed‑Crawlern über Shazams akustische Fingerprints bis hin zu KI‑Agenten, deren Leistungsfähigkeit stark von der Qualität und Aktualität ihres Index abhängt.

Google‑Indexierung

Google sucht nicht live im Internet, sondern in einem vor‑berechneten Index.
Crawler (Googlebots) durchsuchen konstant Web‑Seiten, lesen Sitemaps, folgen Links.
Indexierer rendert HTML, führt JavaScript aus, erkennt Duplikate, bewertet Freshness, Spam‑Scores, Mobile‑Funktionalität und extrahiert tausende Signale.
Retrieval: bei einer Anfrage wie „best grilled chicken in London“ wird der Index mit Milliarden Dokumenten durchsucht, Ergebnisse werden durch Relevanzrangierung (z. B. PageRank‑ähnliche Modelle) sortiert und innerhalb von < 200 ms top‑10‑Ergebnisse geliefert.

Shazam‑Indexierung

Spektrogramm (Frequenz vs. Zeit).
Peak‑Finding (lärtest Punkte).
Konstellationen (Peak‑Paare aus Anchor‑ und Target‑Peak).
Hash‑Funktion → kompakte Identifikatoren (z. B. hash(800, 1200, 0.6)=“A3B7F2”).

Index mappt Hashes → (Song ID, Zeitoffset). Aufruf: Aufnahme → Fingerprints → Look‑up → Kandidaten → Zeit‑Alignment → Bestmatch in < 1 Sekunde, auch bei Rauschen oder Kompression. Dasselbe Prinzip treibt YouTube‑Content‑ID an.

KI‑Agenten‑Indexierung

Ziel: bessere Kontext‑Schicht, weniger Halluzinationen, smarte Antworten. Ein einziger Index reicht nicht – unterschiedliche Abfrage‑Typen benötigen unterschiedliche Strukturen:

Semantischer Index (Vektor‑Suche, Embeddings) – für vage, konzeptuelle Fragen.
Keyword‑Index (BM25) – für präzise, exakt passende Code‑Snippets.
Graph‑Index – für Beziehungen (Aufruf‑Graphen, Abhängigkeiten).

Parallelabfrage aller drei Indizes, Ergebnis‑Merge via Reciprocal Rank Fusion, anschließend Feed to LLM.

Mehr zu BM25

Alt aus den 90 er, nutzt Term‑Frequency, Inverse Document Frequency und Dokumentlängen‑Normalisierung. Besonders effektiv für Code‑Suche mit präzisen Tokens wie ERR_CONNECTION_REFUSED.

Herausforderungen

Incremental Reindexing: Nur geänderte Dokumente neu indexieren, z. B. via Abhängigkeitsgraph.
Version Tracking: Dokumente nach Versions‑Meta‑Daten filtern, um Halluzinationen über veraltete APIs zu vermeiden.
Context‑Window‑Constraint: Prompt‑Größe limitiert; effiziente Ranking‑Algorithmen sind entscheidend, da Embeddings reicher, aber token‑effizienter schlechter passen.
Token‑Effizienz & Confidence‑Scoring: Hoch‑vertrauenswerte Treffer werden bevorzugt, um Prompt‑Platz zu sparen.

Cold‑Start & Kosten

Pre‑Indexierung von öffentlichen Quellen (Framework‑Docs, Standard‑Libraries).
Automatisches Fetch‑Index von importierten Libraries oder API‑Docs.
Embedding‑Kosten können durch Self‑Hosting, Kompression, Batch‑Generierung reduziert werden, aber erfordern Hardware‑ und DevOps‑Aufwand.

Ausblick

Der nächste Abschnitt wird sich mit Ranking‑Methoden beschäftigen. Qualität des Index bleibt entscheidend für den Erfolg aller Such‑ und Beantwortungs‑Use‑Cases.

Quelle

Quelle: https://ossa-ma.github.io/blog/on-indexing

Indexing in modernen Suchtechnologien: Google, Shazam und KI-Agents

Indexing in modernen Suchtechnologien: Google, Shazam und KI-Agents

Google‑Indexierung

Shazam‑Indexierung

KI‑Agenten‑Indexierung

Mehr zu BM25

Herausforderungen

Cold‑Start & Kosten

Ausblick

Quelle

Submit a Comment Cancel reply

Recent Posts

Recent Comments