Papers2Dataset – Automatisierte Datenextraktion aus Open‑Access‑Papieren
Key Takeaway
Papers2Dataset nutzt KI‑Agenten, um automatisch Daten aus Open‑Access‑Papieren zu extrahieren, sie zu strukturieren und als CSV samt Quellenverweis in HuggingFace hochzuladen – ein voll automatisierter Workflow vom Projektaufbau bis zur Veröffentlichung.
Summary
- Ziel: Automatisierte Datenextraktion aus wissenschaftlichen Papieren, die nicht in bestehenden Datenbanken vorkommen.
- Projektstruktur: Ein Docker‑ähnliches, CLI‑basierte Tool mit Unterordnern für Projektdefinition, PDFs, Daten und Export.
- Setup:
- Repository klonen (
git clone). - Abhängigkeiten mit
uv syncinstallieren. - Beispiel‑Umgebungsdatei
.env.examplekopieren und eigene API‑Keys eintragen.
- Repository klonen (
- Projekt erstellen:
papers2dataset "<Beschreibung des gewünschten Datensatzes>"generiert automatisch eine Projektstruktur, einen Vorschlag für das Datensatz‑Schema, eine Prompt‑Datei für die KI‑Extraktion und eine Suchanfrage. - Paper‑Suchen:
papers2dataset search --project <name>ruft OpenAlex ab und legt PDFs im Projektordner ab. PDFs können auch manuell mit ihrer OpenAlex ID ergänzt werden. - Extraktion:
papers2dataset extract --project <name>führt die KI‑Extraktion aus, erzeugt JSON‑Dateien im Daten‑Verzeichnis und kann mit unterschiedlichen Parametern mehrfach ausgeführt werden. - Export:
papers2dataset export --project <name> --publickombiniert die gesammelten Daten zu einer CSV und lädt sie auf HuggingFace hoch. - TODO‑Liste: Duplikate entfernen, fehlende PDFs analysieren, rechtliche Compliance prüfen (Robots.txt, Fair Use), bessere Scheduling‑Algorithmen, Tests hinzufügen.
- Rechtlicher Hinweis: Tool ist für Open‑Access‑Repos gedacht; Nutzer sind für Rechte an nicht‑Open‑Access‑Inhalten verantwortlich.
- Verwenden von externen Bibliotheken: Empfohlene Tools wie
paper‑scraper,asta‑paper‑finderund Plattformen wie Edison Scientific. - Technologie: Vollständig in Python, nutzt pyproject, uv, und GitHub‑Actions.
Related queries:
Wie kann ich den Extraktionsprozess für spezifische Felder in Paper‑Texten anpassen?
Welche API‑Schlüssel benötige ich, um Papers2Dataset ohne Kosten laufen zu lassen?
Wie stelle ich sicher, dass die extrahierten Daten korrekt mit den Quellen verknüpft sind?
Quelle: https://github.com/eamag/papers2dataset
