ChatGPT, DALL-E oder Stable Diffusion sind in aller Munde. Dieser Artikel erklärt Ihnen, was Generative AI ist, wie es funktioniert, welche Einsatzmöglichkeiten und Grenzen es gibt. Dabei klären wir außerdem auch die Frage, warum "zu viele Finger" ein untrügliches Erkennungsmerkmal für KI-Kunst geworden sind.
Generative AI definiert
Generative AI beziehungsweise generative Künstliche Intelligenz ist ein Dachbegriff für jede Art von automatisiertem Prozess, bei dem Algorithmen eingesetzt werden, um Daten (häufig in Form von Bildern oder Text) zu erzeugen, zu bearbeiten oder zu synthetisieren. Diese Art der Künstlichen Intelligenz wird als generativ bezeichnet, weil sie auf Grundlage historischer Daten etwas bisher nicht Dagewesenes erzeugt. Das unterscheidet sie wesentlich von Discriminative-AI-Instanzen, die lediglich zwischen verschiedenen Input-Arten differenzieren. Anders ausgedrückt:
Discriminative AI will die Frage "Ist das eine Zeichnung von einem Kaninchen oder einem Löwen?" beantworten.
Generative AI reagiert auf einen Input wie "Zeichne mir ein Bild von einem Löwen, der neben einem Kaninchen sitzt".
Dabei hat generative KI wesentlich mehr Jahre auf dem Buckel, als Sie vielleicht denken. Als erste Instanz dieser Art könnte man den 1966 am MIT entwickelten Chatbot "ELIZA" sehen, der Gespräche mit einem Psychotherapeuten simulieren sollte. Inzwischen sind einige Jahrzehnte in der KI-Forschung ins Land gezogen - mit der Veröffentlichung von Generative-AI-Systemen der aktuellen Generation wie ChatGPT, DALL-E oder Stable Diffusion könnte der langersehnte (respektive gefürchtete) Durchbruch Künstlicher Intelligenz in den Mainstream bevorstehen.
ChatGPT und Co. werden häufig als Modelle bezeichnet, weil sie versuchen, einen Aspekt der realen Welt auf der Grundlage einer (manchmal sehr großen) Teilmenge von Informationen zu simulieren oder zu modellieren. Die Ergebnisse, die Systeme dieser Art liefern, können Erstaunen hervorrufen, werfen aber vor allem Fragen auf - zum Beispiel, ob KI-Systeme ein Bewusstsein entwickeln können oder ob sie künftig den Menschen Arbeitsplätze "wegnehmen". Während der Hype unaufhörlich tobt, geht unter der Oberfläche der Systeme allerdings weit weniger Revolutionäres vor sich, als viele vermuten. Zeit, einen Blick unter die Haube von Generative-AI-Systemen zu werfen.
Wie Generative AI funktioniert
Generative AI nutzt maschinelles Lernen, um riesige Datenmengen in Bild- oder Textform zu verarbeiten, die größtenteils aus dem Netz zusammengesammelt werden und anschließend als Grundlage für Vorhersagen genutzt werden. Das Gros der Programmierarbeit für Generative-AI-Systeme besteht darin, Algorithmen zu entwickeln, die "Dinge unterscheiden" können. Im Fall von Chatbots wie ChatGPT etwa Wörter und Sätze, im Fall von DALL-E visuelle Elemente.
Im Grunde erzeugt eine generative Künstliche Intelligenz ihren Output also, indem sie die Datenbestände auswertet, auf denen sie trainiert wurde. Dann antwortet sie mit Prompts, die in den Wahrscheinlichkeitsbereich fallen, der durch die Daten bestimmt wurde. Eine Low-Level-Form von Generative AI nutzen Sie vermutlich schon seit längerem täglich: Beispielsweise wenn Ihr Smartphone oder Gmail Ihre Wörter oder Sätze vervollständigt. Systeme wie ChatGPT und DALL-E bringen diese Idee auf ein signifikant höheres Niveau.
Generative KI-Modelle trainieren
Der Prozess, in dem Modelle entwickelt werden, die die genannten Daten verarbeiten können, wird Training genannt. Je nach Modelltyp kommen hierbei verschiedene Methoden zur Anwendung:
ChatGPT verwendet beispielsweise einen sogenannten Transformer. Dieser leitet Bedeutung aus langen Textsequenzen ab, um zu "verstehen", wie einzelne Wörter oder semantische Komponenten zueinander in Beziehung stehen. Anschließend bestimmt er, wie wahrscheinlich es ist, dass sie in Zusammenhang stehen. Transformatoren werden unsupervised auf einem riesigen Natural-Language-Korpus losgelassen. Diesen Prozess bezeichnet man als Pretraining. Er steht vor dem manuellen Feintuning, bei dem Menschen mit dem Modell interagieren.
Eine andere Technik, um Generative-AI-Modelle zu trainieren, ist das sogenannte Generative Adversarial Network (GAN). Hierbei treten zwei Algorithmen gegeneinander an: Der eine generiert Text oder Bilder auf der Grundlage von Wahrscheinlichkeiten, der andere ist eine (manuell trainierte) Discriminative AI, die "beurteilt", ob ein Output real oder KI-generiert ist. Dabei versucht die generative KI, ihr Gegenstück zu "überlisten". Sobald die Generative AI in diesem Wettbewerb konsequent die Oberhand hat, wird das Discriminative-AI-System manuell feinabgestimmt und der Prozess beginnt von vorne.
Wichtig ist dabei vor allem, dass zwar manuelle Eingriffe in den Trainingsprozess stattfinden, der Großteil der Lern- und Anpassungsarbeit erfolgt jedoch automatisiert.
Die Grenzen von Generative AI
DALL-E und ChatGPT sind also weit von "denkenden" Maschinen entfernt. Wie Chris Phipps, ehemaliger NLP-Lead bei IBM, erklärt, handelt es sich vielmehr um gut gemachte Vorhersagemaschinen: "ChatGPT kann vorhersagen, was Menschen kohärent finden, aber es 'versteht' nicht. Im Gegenteil: Die Menschen, die den Output konsumieren, treffen im Regelfall alle impliziten Annahmen, die nötig sind, damit dieser einen Sinn ergibt."
Bestimmte Prompts unterstreichen Phipps Standpunkt. Nehmen wir zum Beispiel folgendes Rätsel: Was wiegt mehr, ein Pfund Blei oder ein Pfund Federn? Die Antwort ist natürlich, dass beides gleich viel wiegt - ein Pfund. Auch wenn unser Instinkt uns vielleicht sagt, dass die Federn leichter sind. Auch ChatGPT wird diese Frage richtig beantworten. Allerdings nicht, weil es über die richtige Antwort nachdenkt: Weil die Trainingsmenge eine Reihe von Texten enthält, die das Rätsel erklären, kann das System eine Version der richtigen Antwort ausgeben.
Wenn Sie ChatGPT aber fragen, ob zwei Pfund Federn schwerer als Blei sind, wird es Ihnen gegenüber aber weiterhin behaupten, beides würde gleich viel wiegen. Die KI-Instanz auf ihren Fehler hinzuweisen, führt zu mitunter bizarren Ergebnissen. In unserem Fall hat sich ChatGPT entschuldigt - nur um anschließend zu behaupten, dass zwei Pfund Federn viermal so viel wiegen wie ein Pfund Blei.
Eine bemerkenswerte Eigenart der KI-Kunst bietet weitere Einblicke in die (Nicht-)Funktionsweise von Generative-AI-Systemen - Menschen mit seltsamen Händen. Das liegt vor allem am Datenkorpus, der DALL-E und ähnlichen Tools zugrundeliegt: Bilder von Menschen bieten in der Regel einen guten Blick auf das Gesicht. Hände sind hingegen oft teilweise verdeckt oder in seltsamen Winkeln zu sehen. Dazu kommt die Tatsache, dass Hände strukturell sehr komplex sind - bekanntermaßen sind sie auch für menschliche Künstler schwer zu zeichnen.
DALL-E weiß nicht einmal notwendigerweise, dass "Hände" eine kohärente Kategorie von Dingen ist. Es kann lediglich versuchen, auf der Grundlage der ihm vorliegenden Bilder vorherzusagen, wie ein ähnliches Bild aussehen könnte. Die Ergebnisse sind - großen Datenmengen zum Trotz - oft unzureichend. KI-Experte Phipps vermutet als Ursache zu wenig negativen Input: "Soweit ich weiß, wird das System hauptsächlich mit positiven Beispielen trainiert. Man hat ihm nicht das Bild einer Hand mit sieben Fingern gegeben und gesagt: 'Das ist ein schlechtes Beispiel für eine Hand. Mach das nicht.' Das System sagt also den Raum des Möglichen voraus, nicht den des Unmöglichen. Im Grunde genommen wurde es nie angewiesen, keine siebenfingrige Hand zu erschaffen."
Dazu kommt die Tatsache, dass KI-Modelle die Zeichnungen, die sie anfertigen, nicht als kohärentes Ganzes betrachten, sondern als eine Reihe von Komponenten. Diese werden so zusammengesetzt, wie es die Trainingsdaten nahelegen. Deswegen weiß DALL-E nicht, dass eine Hand fünf Finger hat - wohl aber, dass ein Finger wahrscheinlich unmittelbar neben einem anderen Finger liegt. So kommt es dann zum "Vielfinger"-Problem (das sich übrigens auch mit Zähnen reproduzieren lässt). Für Phipps Geschmack ist diese Beschreibung des Prozesses allerdings immer noch eine zu stark ausgeprägte Vermenschlichung: "Ich bezweifle, dass DALL-E versteht, was ein Finger ist. Wahrscheinlicher ist, dass das System die Farbe von Pixeln vorhersagt - und fingerfarbene Pixel befinden sich in der Regel neben anderen fingerfarbenen."
Schattenseiten generativer KI
Die eben genannten Beispiele unterstreichen eine wesentliche Limitation von Generative AI. Fehlerhafte Outputs - von Branchenexperten auch als "Halluzinationen" bezeichnet. Doch selbst wenn eine generative Künstliche Intelligenz von diesem Makel befreit ist - bleiben diverse andere, potenziell negative Auswirkungen aufzulisten:
Billige und simple Content-Erstellung: ChatGPT und Co. sind keine Kreativarbeiter. Allerdings ist das auch nicht in jedem Fall nötig: Geht es darum, öffentlich verfügbare Informationen zusammenzufassen, ist das eine perfekte Aufgabe für Generative AI. Leider haben das auch schon kriminelle Hacker und Spammer bemerkt und setzen das Tool zum Beispiel ein, um Phishing-E-Mails zu verfassen.
Geistiges Eigentum: Wem gehört ein KI-generiertes Bild oder ein KI-generierter Text? Wenn ein urheberrechtlich geschütztes Werk Teil des Trainingsdatensatzes ist, "plagiiert" die KI dann dieses Werk, wenn sie daraus synthetische Daten erzeugt - auch wenn sie es nicht Wort für Wort kopiert? Dies sind heikle - und weitgehend ungeklärte - rechtliche Fragen.
Bias: Die Inhalte, die ein Generative-AI-Sytem erzeugt, werden vollständig von den zugrundeliegenden Trainingsdaten bestimmt. Da diese Daten von Menschen erzeugt wurden, können auch die generierten Ergebnisse fehlerhaft und voreingenommen sein - insbesondere dann, wenn sie ohne menschliche Leitplanken arbeiten. Deswegen hat OpenAI sein Modell vor Veröffentlichung mit Sicherheitsvorkehrungen ausgestattet. Der Leak von Metas ChatGPT-Konkurrenten LLaMA zeigt, was passiert, wenn diese fehlen.
Energieverbrauch: Neben den philosophischen Fragen wirft Generative AI auch einige sehr praktische Probleme auf: Zum einen ist das Training eines generativen KI-Modells sehr rechenintensiv. Unternehmen, die in diesen Bereich einsteigen wollen, müssen also mit erhöhten Cloud-Rechnungen rechnen. Letztlich stellt sich darüber hinaus die Frage, ob der erhöhte Stromverbrauch - und letztlich auch die Treibhausgasemissionen - das Endergebnis wert sind (ähnlich wie bei Blockchain und Kryptowährungen).
Generative-AI-Anwendungsfälle
Dennoch ist das Potenzial, das in Generative-AI-Systemen steckt, nicht zu unterschätzen. Das zeigt ein Blick auf mögliche Use Cases (abseits eines intelligenten Chatbots):
Code-Generierung: Die Idee, dass generative KI Software programmieren könnte, ist nichts Neues. ChatGPT und Co. verstehen Programmiersprachen tatsächlich ähnlich gut wie natürliche Sprachen. Das macht sie zu wertvollen Werkzeugen, um die Entwicklerproduktivität zu steigern.
Billige und einfache Content-Erstellung: Dieser Punkt ist nicht nur problematisch, sondern birgt auch Chancen: Dieselbe KI, die Spam-E-Mails schreibt, kann auch legitime Marketing-E-Mails verfassen. Generative KI-Systeme blühen auf, wenn es um hochstrukturierte Formen von Text geht, die nicht viel Kreativität erfordern - etwa Lebensläufe und Anschreiben.
Technisches Design: Visuelle Kunst und natürliche Sprache haben im Bereich der generativen KI viel Aufmerksamkeit erregt, weil sie für normale Menschen leicht zu verstehen sind. Aber ähnliche Techniken werden für die Entwicklung von Mikrochips bis hin zu neuen Medikamenten eingesetzt - und mit an Sicherheit grenzender Wahrscheinlichkeit bald auch im Bereich IT-Architektur Einzug halten. (fm)
Dieser Beitrag basiert auf einem Artikel unserer US-Schwesterpublikation Network World.