Was ist Generative AI?

17.05.2023 von Josh Fruhlinger
Generative AI entwirft Mikrochips, programmiert und verschickt Mails. Lesen Sie, wie das funktioniert und was Sie für die Zukunft erwarten dürfen.
Generative KI-Systeme können viel, sind am Ende aber auch nur Maschinen.
Foto: VectorMine - shutterstock.com

ChatGPT, DALL-E oder Stable Diffusion sind in aller Munde. Dieser Artikel erklärt Ihnen, was Generative AI ist, wie es funktioniert, welche Einsatzmöglichkeiten und Grenzen es gibt. Dabei klären wir außerdem auch die Frage, warum "zu viele Finger" ein untrügliches Erkennungsmerkmal für KI-Kunst geworden sind.

Generative AI definiert

Generative AI beziehungsweise generative Künstliche Intelligenz ist ein Dachbegriff für jede Art von automatisiertem Prozess, bei dem Algorithmen eingesetzt werden, um Daten (häufig in Form von Bildern oder Text) zu erzeugen, zu bearbeiten oder zu synthetisieren. Diese Art der Künstlichen Intelligenz wird als generativ bezeichnet, weil sie auf Grundlage historischer Daten etwas bisher nicht Dagewesenes erzeugt. Das unterscheidet sie wesentlich von Discriminative-AI-Instanzen, die lediglich zwischen verschiedenen Input-Arten differenzieren. Anders ausgedrückt:

Dabei hat generative KI wesentlich mehr Jahre auf dem Buckel, als Sie vielleicht denken. Als erste Instanz dieser Art könnte man den 1966 am MIT entwickelten Chatbot "ELIZA" sehen, der Gespräche mit einem Psychotherapeuten simulieren sollte. Inzwischen sind einige Jahrzehnte in der KI-Forschung ins Land gezogen - mit der Veröffentlichung von Generative-AI-Systemen der aktuellen Generation wie ChatGPT, DALL-E oder Stable Diffusion könnte der langersehnte (respektive gefürchtete) Durchbruch Künstlicher Intelligenz in den Mainstream bevorstehen.

ChatGPT und Co. werden häufig als Modelle bezeichnet, weil sie versuchen, einen Aspekt der realen Welt auf der Grundlage einer (manchmal sehr großen) Teilmenge von Informationen zu simulieren oder zu modellieren. Die Ergebnisse, die Systeme dieser Art liefern, können Erstaunen hervorrufen, werfen aber vor allem Fragen auf - zum Beispiel, ob KI-Systeme ein Bewusstsein entwickeln können oder ob sie künftig den Menschen Arbeitsplätze "wegnehmen". Während der Hype unaufhörlich tobt, geht unter der Oberfläche der Systeme allerdings weit weniger Revolutionäres vor sich, als viele vermuten. Zeit, einen Blick unter die Haube von Generative-AI-Systemen zu werfen.

Wie Generative AI funktioniert

Generative AI nutzt maschinelles Lernen, um riesige Datenmengen in Bild- oder Textform zu verarbeiten, die größtenteils aus dem Netz zusammengesammelt werden und anschließend als Grundlage für Vorhersagen genutzt werden. Das Gros der Programmierarbeit für Generative-AI-Systeme besteht darin, Algorithmen zu entwickeln, die "Dinge unterscheiden" können. Im Fall von Chatbots wie ChatGPT etwa Wörter und Sätze, im Fall von DALL-E visuelle Elemente.

Im Grunde erzeugt eine generative Künstliche Intelligenz ihren Output also, indem sie die Datenbestände auswertet, auf denen sie trainiert wurde. Dann antwortet sie mit Prompts, die in den Wahrscheinlichkeitsbereich fallen, der durch die Daten bestimmt wurde. Eine Low-Level-Form von Generative AI nutzen Sie vermutlich schon seit längerem täglich: Beispielsweise wenn Ihr Smartphone oder Gmail Ihre Wörter oder Sätze vervollständigt. Systeme wie ChatGPT und DALL-E bringen diese Idee auf ein signifikant höheres Niveau.

Generative KI-Modelle trainieren

Der Prozess, in dem Modelle entwickelt werden, die die genannten Daten verarbeiten können, wird Training genannt. Je nach Modelltyp kommen hierbei verschiedene Methoden zur Anwendung:

Wichtig ist dabei vor allem, dass zwar manuelle Eingriffe in den Trainingsprozess stattfinden, der Großteil der Lern- und Anpassungsarbeit erfolgt jedoch automatisiert.

Die Grenzen von Generative AI

DALL-E und ChatGPT sind also weit von "denkenden" Maschinen entfernt. Wie Chris Phipps, ehemaliger NLP-Lead bei IBM, erklärt, handelt es sich vielmehr um gut gemachte Vorhersagemaschinen: "ChatGPT kann vorhersagen, was Menschen kohärent finden, aber es 'versteht' nicht. Im Gegenteil: Die Menschen, die den Output konsumieren, treffen im Regelfall alle impliziten Annahmen, die nötig sind, damit dieser einen Sinn ergibt."

Bestimmte Prompts unterstreichen Phipps Standpunkt. Nehmen wir zum Beispiel folgendes Rätsel: Was wiegt mehr, ein Pfund Blei oder ein Pfund Federn? Die Antwort ist natürlich, dass beides gleich viel wiegt - ein Pfund. Auch wenn unser Instinkt uns vielleicht sagt, dass die Federn leichter sind. Auch ChatGPT wird diese Frage richtig beantworten. Allerdings nicht, weil es über die richtige Antwort nachdenkt: Weil die Trainingsmenge eine Reihe von Texten enthält, die das Rätsel erklären, kann das System eine Version der richtigen Antwort ausgeben.

Wenn Sie ChatGPT aber fragen, ob zwei Pfund Federn schwerer als Blei sind, wird es Ihnen gegenüber aber weiterhin behaupten, beides würde gleich viel wiegen. Die KI-Instanz auf ihren Fehler hinzuweisen, führt zu mitunter bizarren Ergebnissen. In unserem Fall hat sich ChatGPT entschuldigt - nur um anschließend zu behaupten, dass zwei Pfund Federn viermal so viel wiegen wie ein Pfund Blei.

Eine bemerkenswerte Eigenart der KI-Kunst bietet weitere Einblicke in die (Nicht-)Funktionsweise von Generative-AI-Systemen - Menschen mit seltsamen Händen. Das liegt vor allem am Datenkorpus, der DALL-E und ähnlichen Tools zugrundeliegt: Bilder von Menschen bieten in der Regel einen guten Blick auf das Gesicht. Hände sind hingegen oft teilweise verdeckt oder in seltsamen Winkeln zu sehen. Dazu kommt die Tatsache, dass Hände strukturell sehr komplex sind - bekanntermaßen sind sie auch für menschliche Künstler schwer zu zeichnen.

DALL-E weiß nicht einmal notwendigerweise, dass "Hände" eine kohärente Kategorie von Dingen ist. Es kann lediglich versuchen, auf der Grundlage der ihm vorliegenden Bilder vorherzusagen, wie ein ähnliches Bild aussehen könnte. Die Ergebnisse sind - großen Datenmengen zum Trotz - oft unzureichend. KI-Experte Phipps vermutet als Ursache zu wenig negativen Input: "Soweit ich weiß, wird das System hauptsächlich mit positiven Beispielen trainiert. Man hat ihm nicht das Bild einer Hand mit sieben Fingern gegeben und gesagt: 'Das ist ein schlechtes Beispiel für eine Hand. Mach das nicht.' Das System sagt also den Raum des Möglichen voraus, nicht den des Unmöglichen. Im Grunde genommen wurde es nie angewiesen, keine siebenfingrige Hand zu erschaffen."

Dazu kommt die Tatsache, dass KI-Modelle die Zeichnungen, die sie anfertigen, nicht als kohärentes Ganzes betrachten, sondern als eine Reihe von Komponenten. Diese werden so zusammengesetzt, wie es die Trainingsdaten nahelegen. Deswegen weiß DALL-E nicht, dass eine Hand fünf Finger hat - wohl aber, dass ein Finger wahrscheinlich unmittelbar neben einem anderen Finger liegt. So kommt es dann zum "Vielfinger"-Problem (das sich übrigens auch mit Zähnen reproduzieren lässt). Für Phipps Geschmack ist diese Beschreibung des Prozesses allerdings immer noch eine zu stark ausgeprägte Vermenschlichung: "Ich bezweifle, dass DALL-E versteht, was ein Finger ist. Wahrscheinlicher ist, dass das System die Farbe von Pixeln vorhersagt - und fingerfarbene Pixel befinden sich in der Regel neben anderen fingerfarbenen."

Schattenseiten generativer KI

Die eben genannten Beispiele unterstreichen eine wesentliche Limitation von Generative AI. Fehlerhafte Outputs - von Branchenexperten auch als "Halluzinationen" bezeichnet. Doch selbst wenn eine generative Künstliche Intelligenz von diesem Makel befreit ist - bleiben diverse andere, potenziell negative Auswirkungen aufzulisten:

Generative-AI-Anwendungsfälle

Dennoch ist das Potenzial, das in Generative-AI-Systemen steckt, nicht zu unterschätzen. Das zeigt ein Blick auf mögliche Use Cases (abseits eines intelligenten Chatbots):

Dieser Beitrag basiert auf einem Artikel unserer US-Schwesterpublikation Network World.