home

LLMs für Führungskräfte: Ein mentales Modell für Entscheidungen

Key Takeaway

Ein klares mentales Modell von LLMs ist für Führungskräfte unerlässlich, um fundierte Geschäftsentscheidungen mit generativer KI zu treffen.

Summary

  • Kontext & Zielgruppe – MIT Sloan School of Management: Erklärung von LLMs für Führungskräfte, 11‑min Lesezeit, 10 häufig missverstandene Fragen.
  • Token‑basierte Generierung – LLMs erzeugen Text tokenweise; das Stop‑Kriterium ist eine Kombination aus Modellvorhersage (z. B. End‑of‑Sequence‑Token) und extern gesteuerten Logikregeln (max. Token, Stop‑Sequenzen).
  • Stoppmechanismen – Systemruns LLM iterativ, bis eine Bedingung eintritt; externe Regel definiert Ende.
  • Keine sofortige Selbstaktualisierung – Korrekturen werden nicht sofort in das Modell eingefügt; Updates kommen erst in kommenden Versionen. Einige Chat‑Apps (ChatGPT, Claude) verfügen über Memory für Personalisierung, jedoch nicht zur Korrektur des Modells.
  • „Erinnerung“ vergangener Gespräche – Durch gespeichertes Gedächtnis oder Retrieval‑Augmented Generation (RAG) werden relevante Infos an das Prompt angehängt; keine Echtzeit‑Aufruffähigkeit.
  • Training‑Cutoff vs. Live‑Information – Modelle kennen Ereignisse nur bis zum Cut‑off; bei Bedarf ziehen sie live Web‑Suchen (z. B. ChatGPT mit Browsing) oder generieren eine Suchfrage, die anschließend im Prompt verarbeitet wird.
  • Documents‑Only‑Prompt – Standard‑LLMs können nicht gezwungen werden, ausschließlich uploadete Dokumente zu nutzen; RAG erhöht die Wahrscheinlichkeit, dass die gewünschten Inhalte priorisiert werden.
  • Zitationen & Glaubwürdigkeit – LLMs können fälschen; Verifizierungen von Zitaten sind ratsam, da Post‑Processing nicht immer zuverlässig ist.
  • RAG trotz großer Kontextfenster – Großdimensionale Modelle (GPT‑4.1, Gemini 2.5) haben Millionen‑Token‑Fenster, aber RAG bleibt wichtig, weil:
    • Überladung des Prompts kann Qualität mindern.
    • Modelle fokussieren sich eher auf Prompt‑Anfang/Ende.
    • Mehr Tokens erhöhen Kosten & Verzögerungen.
  • Halluzinationen – Durch probabilistische Token‑Vorhersage entstehen zwangsläufig Halluzinationen; vollständige Beseitigung ist derzeit nicht möglich. Reduktion möglich via:
    • Präzises Prompt Engineering.
    • RAG / Domain‑Specific Fine‑Tuning.
    • Post‑Processing mit Regeln oder externer Validierung.
  • Praktische Implikationen – Führungsentscheidungen sollen:
    • ein zuverlässiges mentales Modell von LLM‑Verhalten haben.
    • RAG & Halluzinations‑Reduktionsstrategien berücksichtigen.
    • Echtzeit‑Browser‑Features nur bei Bedarf einsetzen.

3 Short Queries (in Markdown-Codeblocks)

Wie beeinflussen Stopkriterien bei LLMs die Kosten in einer API-Anwendung?
Welche Rolle spielt RAG bei der Reduktion von Halluzinationen?
Wie können organisationsinterne Policies in LLM‑basierten Anwendungen sicher implementiert werden?

Quelle: https://sloanreview.mit.edu/article/how-llms-work/