LLMs für Führungskräfte: Ein mentales Modell für Entscheidungen
Key Takeaway
Ein klares mentales Modell von LLMs ist für Führungskräfte unerlässlich, um fundierte Geschäftsentscheidungen mit generativer KI zu treffen.
Summary
- Kontext & Zielgruppe – MIT Sloan School of Management: Erklärung von LLMs für Führungskräfte, 11‑min Lesezeit, 10 häufig missverstandene Fragen.
- Token‑basierte Generierung – LLMs erzeugen Text tokenweise; das Stop‑Kriterium ist eine Kombination aus Modellvorhersage (z. B. End‑of‑Sequence‑Token) und extern gesteuerten Logikregeln (max. Token, Stop‑Sequenzen).
- Stoppmechanismen – Systemruns LLM iterativ, bis eine Bedingung eintritt; externe Regel definiert Ende.
- Keine sofortige Selbstaktualisierung – Korrekturen werden nicht sofort in das Modell eingefügt; Updates kommen erst in kommenden Versionen. Einige Chat‑Apps (ChatGPT, Claude) verfügen über Memory für Personalisierung, jedoch nicht zur Korrektur des Modells.
- „Erinnerung“ vergangener Gespräche – Durch gespeichertes Gedächtnis oder Retrieval‑Augmented Generation (RAG) werden relevante Infos an das Prompt angehängt; keine Echtzeit‑Aufruffähigkeit.
- Training‑Cutoff vs. Live‑Information – Modelle kennen Ereignisse nur bis zum Cut‑off; bei Bedarf ziehen sie live Web‑Suchen (z. B. ChatGPT mit Browsing) oder generieren eine Suchfrage, die anschließend im Prompt verarbeitet wird.
- Documents‑Only‑Prompt – Standard‑LLMs können nicht gezwungen werden, ausschließlich uploadete Dokumente zu nutzen; RAG erhöht die Wahrscheinlichkeit, dass die gewünschten Inhalte priorisiert werden.
- Zitationen & Glaubwürdigkeit – LLMs können fälschen; Verifizierungen von Zitaten sind ratsam, da Post‑Processing nicht immer zuverlässig ist.
- RAG trotz großer Kontextfenster – Großdimensionale Modelle (GPT‑4.1, Gemini 2.5) haben Millionen‑Token‑Fenster, aber RAG bleibt wichtig, weil:
- Überladung des Prompts kann Qualität mindern.
- Modelle fokussieren sich eher auf Prompt‑Anfang/Ende.
- Mehr Tokens erhöhen Kosten & Verzögerungen.
- Halluzinationen – Durch probabilistische Token‑Vorhersage entstehen zwangsläufig Halluzinationen; vollständige Beseitigung ist derzeit nicht möglich. Reduktion möglich via:
- Präzises Prompt Engineering.
- RAG / Domain‑Specific Fine‑Tuning.
- Post‑Processing mit Regeln oder externer Validierung.
- Praktische Implikationen – Führungsentscheidungen sollen:
- ein zuverlässiges mentales Modell von LLM‑Verhalten haben.
- RAG & Halluzinations‑Reduktionsstrategien berücksichtigen.
- Echtzeit‑Browser‑Features nur bei Bedarf einsetzen.
3 Short Queries (in Markdown-Codeblocks)
Wie beeinflussen Stopkriterien bei LLMs die Kosten in einer API-Anwendung?
Welche Rolle spielt RAG bei der Reduktion von Halluzinationen?
Wie können organisationsinterne Policies in LLM‑basierten Anwendungen sicher implementiert werden?
