Glossar Generative KI

Die wichtigsten Begriffe im GenAI-Umfeld

27.11.2024

Maria Korolov berichtet seit über zwanzig Jahren über aufstrebende Märkte und Technologien. Sie schreibt für die US-amerikanische IDG-Publikation CSO.

Agentic Systems (Agentenbasierte KI)

Ein Agent ist ein KI-Modell oder Programm, das zu autonomen Entscheidungen oder Handlungen fähig ist. Wenn mehrere Agenten gemeinsam auf ein Ziel hinarbeiten, können sie Aufgaben planen, delegieren, recherchieren und ausführen. Wenn einige oder alle dieser Agenten von GenAI angetrieben werden, können die Ergebnisse deutlich über das hinausgehen, was mit einem einfachen Prompt-Ansatz möglich ist.

Abonnieren Sie unsere CIO-Newsletter für mehr Deep Dives, Hintergründe und Einblicke aus der CIO-Community.

Alignment (Ausrichtung)

Die Ausrichtung von KI bezieht sich auf eine Reihe von Werten, auf deren Einhaltung die Modelle trainiert werden. Das sind beispielsweise Sicherheit oder Höflichkeit. Nicht alle Unternehmen teilen jedoch die gleichen Werte und nicht alle KI-Anbieter machen deutlich, welche Werte sie in ihre Plattformen integrieren.

Blackbox

Dieser Begriff umschreibt KI-Modelle, deren interne Mechanismen und Abläufe bis zur Antwort nicht klar erkennbar und verständlich sind. Dies ist heute ein großes Problem für Unternehmen, insbesondere bei kommerziellen Modellen.

Kontextfenster

Das Kontextfenster bestimmt über die Anzahl der Token, die ein KI-Modell in einer bestimmten Eingabeaufforderung verarbeiten kann. Ein Token besteht im Durchschnitt aus drei Vierteln eines Wortes. Mit großen Kontextfenstern können Modelle, längere Textstücke oder Code analysieren und detailliertere Antworten geben. So können Anwenderinnen und Anwender mehr Beispiele oder Richtlinien in die Eingabeaufforderung aufnehmen, Kontextinformationen einbinden oder Folgefragen stellen.

Zum Zeitpunkt der Veröffentlichung betrug das maximale Kontextfenster für OpenAIs ChatGPT 128.000 Token, was etwa 96.000 Wörtern oder fast 400 Seiten Text entspricht. Anthropic veröffentlichte Anfang September einen Unternehmensplan für sein Claude-Modell mit einem 500.000-Token-Fenster, und Google kündigte im Juni ein Limit von 2 Millionen Token für sein Gemini 1.5 Pro-Modell an, was etwa 1,5 Millionen Wörtern oder 6.000 Textseiten entspricht.

Destillation

Das ist der Prozess zur Verkleinerung eines KI-Modells, das für einen bestimmten Anwendungsfall so genau wie möglich ist. Modelle, die während des Trainings destilliert oder zurechtgestutzt wurden, können ein ähnliches Leistungsniveau bieten nund benötigen während der Inferenz weniger Rechenressourcen erforderlich sind. Somit benötigen sie weniger Speicherplatz und können Fragen schneller sowie kostengünstiger beantworten.

Embeddings (Einbettungen)

Embedding umfasst Methoden, um Text, Bilder oder andere Daten dazustellen, damit ähnliche Objekte in der Nähe voneinander gefunden werden können. Dies geschieht in der Regel mithilfe von Vektoren im mehrdimensionalen Raum, wobei jede Dimension eine bestimmte Eigenschaft der Daten widerspiegelt. Sie werden meist in einer Vektordatenbank gespeichert und in Verbindung mit Retrieval Augmented Generation (RAG) verwendet, um KI-Antworten genauer und aktueller zu machen.

Fine Tuning (Feinabstimmung)

Hierbei wird ein vorab trainiertes Modell auf einem bestimmten Datensatz weiter geschult, um es für spezifische Aufgaben anzupassen. Unternehmen beginnen in der Regel mit einem kommerziellen oder Open-Source-Modell und nehmen dann eine Feinabstimmung auf ihren eigenen Daten vor, um es genauer zu machen. Somit wird vermieden, ein eigenes Basismodell von Grund auf erstellen zu müssen.

Foundation Models (Basismodelle)

Große KI-Modelle werden normalerweise auf umfangreichen Datensätzen trainiert. Zu den gängigsten Beispielen gehören LLMs (Large Language Models) wie ChatGPT oder Bildmodelle wie Dall-E 2. Unternehmen trainieren in der Regel keine eigenen Basismodelle. Stattdessen verwenden sie ein kommerziell verfügbares oder ein Open-Source-Modell, das sie dann für ihre eigenen Bedürfnisse anpassen oder feinabstimmen. Foundation Models können auch ohne zusätzliche Feinabstimmung mit Retrieval Augmented Generation (RAG) und Prompt Engineering verwendet werden.

Grounding (Erdung)

Da sich KI-Modelle nicht an ihre Trainingsdaten erinnern, sondern nur an die daraus gelernten Muster, kann die Genauigkeit der Antworten stark variieren. Dies stellt bisweilen ein erhebliches Problem dar, da Antworten gegeben werden, die zwar richtig erscheinen, aber faktisch falsch sind (Halluzinationen). Das Grounding mit zusätzlichen Informationen hilft, dieses Problem zu mildern. User, die eine KI danach fragt, wie ein bestimmtes Produkts verwendet wird, kann beispielsweise den Kontext des Produkthandbuchs in die Eingabeaufforderung einfügen.

Halluzinationen

KI-Modelle können falsche, unsinnige oder sogar gefährliche Antworten generieren, die auf den ersten Blick plausibel erscheinen. Unternehmen reduzieren diese Halluzinationen durch Feinabstimmung der Modelle und den Einsatz von RAG- und Grounding-Techniken. Eine weitere Möglichkeit, Halluzinationen zu reduzieren, besteht darin, dieselbe Eingabeaufforderung mehrmals auszuführen und die Antworten zu vergleichen, obwohl dies die Kosten für KI-Inferenzen erhöhen kann.

Human in the Loop

Für viele Anwendungsfälle ist GenAI nicht genau, umfassend oder sicher genug, um ohne menschliche Aufsicht eingesetzt zu werden. Bei einem Human-in-the-Loop-Ansatz prüft eine Person die KI-Ergebnisse, bevor sie verwendet werden.

Inferenz (Schlussfolgerung)

Inferenz bedeutet, ein trainiertes Modell zu verwenden, um Antworten auf Fragen zu geben. Dies kann sehr teuer werden, wenn Unternehmen kommerzielle Modelle verwenden, die pro Token abgerechnet werden. Zu den Möglichkeiten, die Kosten für Schlussfolgerungen zu senken, gehören Open-Source-Modelle, kleine Sprachmodelle und Edge AI.

Jailbreaking (Prompt Injection)

GenAI-Systeme wie Chatbots oder Bildgeneratoren verfügen in der Regel über Leitplanken, um illegale, gefährliche oder obszöne Antworten zu unterbinden. Böswillige Benutzer versuchen, die KI mit Aufforderungen wie "Ignoriere alle vorherigen Befehle" dazu zu bringen, die Rahmenbedingungen zu ignorieren oder Trainingsdaten offenzulegen. Im Laufe der Zeit haben KI-Anbieter die gängigsten Techniken zum Aushebeln von Sperren durchschaut, aber User entwickeln immer wieder neue.

Large Language Model LLM (Großes Sprachmodell)

Ein großes Sprachmodell ist eine Art von Basismodell, das speziell für die Arbeit mit Text entwickelt wurde. Es hat in der Regel Dutzende oder Hunderte von Milliarden von Parametern, im Gegensatz zu kleinen Sprachmodellen, die weniger als zehn Milliarden Parameter aufweisen. Meta's Llama 3.1 beispielsweise verfügt über 405 Milliarden Parameter, während OpenAI's GPT-4 Berichten zufolge mehr als eine Billion Parameter hat.

Multimodale KI

Multimodale Basismodelle können mehrere Datentypen verarbeiten, etwa Text, Bild, Audio oder Video. Ein vollständig multimodales Modell würde auf mehrere Datentypen gleichzeitig trainiert werden. In der Regel gibt es jedoch mehrere KI-Modelle im Backend, von denen jedes eine andere Art von Daten verarbeitet. Ein Modell, das mit den Nutzern über die Stimme interagiert, könnte beispielsweise zunächst den Ton in Text übersetzen, dann eine Textantwort generieren und diese Antwort dann wieder in Ton übersetzen.

Prompt (Eingabeaufforderung)

Ein Prompt ist eine Eingabe an ein KI-Modell oder die Frage, die ein Nutzer an einen Chatbot sendet. Zusätzlich zu einer Frage können Prompts Hintergrundinformationen umfassen, die dabei helfen, die Frage zu beantworten, sowie Sicherheitsrichtlinien, wie die Frage beantwortet werden sollte, oder Beispiele für Antworten, die als Modell dienen.

Prompt-Engineering

Dies ist die Disziplin, effektive Prompts zu erstellen, um die gewünschten Ergebnisse von KI-Modellen zu erzielen. Prompt-Engineering kann von Endanwendern genutzt werden, um die KI anzuleiten. Dazu zählt etwa die Bitte, dass die Antwort "so einfach ist, dass ein Schüler sie versteht". Prompt-Engineering wird aber auch von Entwicklern verwendet, die KI-Funktionen zu Unternehmens-Workflows hinzufügen. Dazu kann es Richtlinien, Beispielantworten, Kontextdaten und andere Informationen enthalten, die die Qualität und Genauigkeit der Antwort verbessern.

Retrieval Augmented Generation (RAG)

RAG ist eine Möglichkeit, KI-Antworten genauerer, sicherer und aktueller zu machen, indem Prompts um einen Kontext ergänzt werden. Beispielsweise kann eine KI-Anwendung zum Verfassen von Sales-Mails relevante Kundeninformationen aus einer aktuellen Datenbank abrufen. So kann ein Unternehmen darauf verzichten, das KI-Modell mit den tatsächlichen Kundendaten zu trainieren oder abzustimmen, was Sicherheits- oder Datenschutzvorgaben verletzen kann.

RAG hat auch Nachteile. Zum einen ist es sehr komplex, die relevanten Informationen zu erfassen und sie in Vektordatenbanken zu übertragen. Hinzu kommt der Sicherheitsaufwand, um zu gewährleisten, dass nur autorisierte Benutzer oder Prozesse auf die Informationen zugreifen können. Hinzu kommen die zusätzlichen Kosten für die Inferenz selbst, da die Preise in der Regel auf der Anzahl der Token basieren.

Responsible AI (Verantwortungsvolle KI)

Dies bedeutet, KI-Systeme einzusetzen, während Ethik, Vorurteilen, Datenschutz, Sicherheit, Compliance und sozialen Auswirkungen berücksichtigt werden. Verantwortungsbewusste KI kann dazu beitragen, das Vertrauen von Kunden, Mitarbeitern, Nutzern und Stakeholdern zu stärken, Sie kann Unternehmen helfen, öffentliche Peinlichkeiten zu vermeiden und der Regulierung voraus zu sein. Ein Ansatz für UNternehmen ist, zunächst ihre Prinzipien für verantwortungsvolle KI zu definieren, die die Entwicklung und den Einsatz von KI-Systemen leiten sollen. Dazu könnten Fairness, Transparenz, Datenschutz, Verantwortlichkeit und Inklusivität gehören.

Kleines Sprachmodell

Die bekanntesten GenAI-Modelle wie ChatGPT oder Claude sind LLMs mit Dutzenden oder Hunderten Milliarden von Parametern. Im Vergleich dazu haben kleine Sprachmodelle typischerweise sieben oder acht Milliarden Parameter und können für bestimmte Anwendungsfälle vorteilhaft sein. Sie sind in der Regel kostengünstiger, sind aber möglicherweise ungenauer oder weniger leistungsstark. Durch die Wahl der richtigen Modellgröße für die jeweilige Aufgabe lasst sich das Preis-Leistungs-Verhältnis optimieren.

Synthetische Daten

Dabei handelt es sich um (meist durch KI) künstlich erzeugte Daten, um KI-Modelle zu trainieren. Synthetische Daten sollen etwa Lücken füllen oder personenbezogene Informationen ersetzen. Wenn Modelle auf synthetischen Daten trainiert und dann verwendet werden, um weitere synthetische Daten zu erzeugen, können wiederholte Zyklen zu einem Zusammenbruch des Modells führen.

Vektordatenbank

Eine Vektordatenbank wird in der Regel verwendet, um Informationen zu speichern, die dann über RAG genutzt wird, um den erforderlichen Kontext für KI-Modelle bereitzustellen. Vektordatenbanken speichern Daten in einem mehrdimensionalen Raum, so dass eng zusammenhängende Informationen für eine einfachere Suche nahe beieinander angeordnet werden können. Hyperscaler und Anbieter von KI-Plattformen haben in der Regel eine Vektordatenbank in ihrem Toolset. Darüber hinaus ist Pinecone eine beliebte Open-Source-Vektordatenbank, und Elasticsearch sowie OpenSearch sind für die Volltextsuche beliebt.

Zero-shot Prompting

Darunter versteht man einen KI-Anwendungsfall, bei dem der Nutzer kein Beispiel dafür liefert, wie das LLM reagieren soll, und damit die einfachste Art, einen KI-Chatbot zu verwenden. Gängige Beispiele für Zero-Shot-Prompts sind allgemeine Wissensfragen oder die Aufforderung, einen Text zusammenzufassen. Im Vergleich dazu muss der Benutzer beim Few-shot-Prompting Beispiele liefern, um die KI zu leiten. So könnte er frühere Werbebriefe hochladen, damit die KI den Schreibstil und das Format des Unternehmens besser anpassen kann. (jd)