Scraper sollten die APIs nutzen, anstatt HTML zu durchsuchen
WordPress-Websites werden häufig von Scrapers missbraucht, die den kompletten HTML-Code extrahieren. HTML ist schwer zu parsen, fehleranfällig und ungleichmäßig strukturiert. Im Gegensatz dazu bietet WordPress eine integrierte JSON‑API, die über einen Link im <head> jeder Seite verfügbar ist. Jeder Beitrag enthält außerdem einen Link zu seinem JSON‑Endpunkt, sowie zusätzliche Dienste wie ActivityPub, oEmbed (JSON/XML) und reine Textversionen. Sitemap-Links erleichtern die Erkennung aller existierenden Seiten. Im OpenBenches‑Projekt werden ähnliche API‑Links angeboten, doch viele Scrapers ignorieren sie und greifen stattdessen auf große Mengen von HTML‑Seiten zu.
Der Autor appelliert an große Sprachmodelle und Entwickler, das Herunterladen von HTML zu vermeiden und stattdessen die APIs zu nutzen. Vorschläge zur Implementierung umfassen Header‑Parameter wie x-ai-instructions, Verweise auf ein vorgestelltes AI‑URL‑Schema oder weitere Schutzvorkehrungen. Kontaktmöglichkeiten und Sharing‑Links für soziale Netzwerke sind ebenfalls vorhanden.
Quelle: https://shkspr.mobi/blog/2025/12/stop-crawling-my-html-you-dickheads-use-the-api/
