Papers2Dataset – Automatisierte Datenextraktion aus Open‑Access‑Papieren

Key Takeaway

Papers2Dataset nutzt KI‑Agenten, um automatisch Daten aus Open‑Access‑Papieren zu extrahieren, sie zu strukturieren und als CSV samt Quellenverweis in HuggingFace hochzuladen – ein voll automatisierter Workflow vom Projektaufbau bis zur Veröffentlichung.

Summary

Ziel: Automatisierte Datenextraktion aus wissenschaftlichen Papieren, die nicht in bestehenden Datenbanken vorkommen.
Projektstruktur: Ein Docker‑ähnliches, CLI‑basierte Tool mit Unterordnern für Projektdefinition, PDFs, Daten und Export.
Setup:
1. Repository klonen (git clone).
2. Abhängigkeiten mit uv sync installieren.
3. Beispiel‑Umgebungsdatei .env.example kopieren und eigene API‑Keys eintragen.
Projekt erstellen: papers2dataset "<Beschreibung des gewünschten Datensatzes>" generiert automatisch eine Projektstruktur, einen Vorschlag für das Datensatz‑Schema, eine Prompt‑Datei für die KI‑Extraktion und eine Suchanfrage.
Paper‑Suchen: papers2dataset search --project <name> ruft OpenAlex ab und legt PDFs im Projektordner ab. PDFs können auch manuell mit ihrer OpenAlex ID ergänzt werden.
Extraktion: papers2dataset extract --project <name> führt die KI‑Extraktion aus, erzeugt JSON‑Dateien im Daten‑Verzeichnis und kann mit unterschiedlichen Parametern mehrfach ausgeführt werden.
Export: papers2dataset export --project <name> --public kombiniert die gesammelten Daten zu einer CSV und lädt sie auf HuggingFace hoch.
TODO‑Liste: Duplikate entfernen, fehlende PDFs analysieren, rechtliche Compliance prüfen (Robots.txt, Fair Use), bessere Scheduling‑Algorithmen, Tests hinzufügen.
Rechtlicher Hinweis: Tool ist für Open‑Access‑Repos gedacht; Nutzer sind für Rechte an nicht‑Open‑Access‑Inhalten verantwortlich.
Verwenden von externen Bibliotheken: Empfohlene Tools wie paper‑scraper, asta‑paper‑finder und Plattformen wie Edison Scientific.
Technologie: Vollständig in Python, nutzt pyproject, uv, und GitHub‑Actions.

Related queries:

Wie kann ich den Extraktionsprozess für spezifische Felder in Paper‑Texten anpassen?

Welche API‑Schlüssel benötige ich, um Papers2Dataset ohne Kosten laufen zu lassen?

Wie stelle ich sicher, dass die extrahierten Daten korrekt mit den Quellen verknüpft sind?

Quelle: https://github.com/eamag/papers2dataset

Papers2Dataset – Automatisierte Datenextraktion aus Open‑Access‑Papieren

Papers2Dataset – Automatisierte Datenextraktion aus Open‑Access‑Papieren

Key Takeaway

Summary

Related queries:

Submit a Comment Cancel reply

Recent Posts

Recent Comments