Generative AI

4 Gründe, warum KI-Projekte in Schönheit sterben

05.12.2023 von Maria Korolov
Viele Unternehmen stürzen sich nach ersten Erfahrungen mit ChatGPT ins Generative-AI-Abenteuer – und holen sich dabei eine blutige Nase. Der Hauptgrund ist ein Klassiker: Die Datenqualität ist zu schlecht.
Ein Defizit in Sachen Governance, eine unzureichende Datenqualität und unerwartete Kostensteigerungen lassen Generative-AI-Vorhaben häufig scheitern.
Foto: Bits And Splits - shutterstock.com

Beginnen wir mit einem Beispiel von der anderen Seite des Globus: Im Juni brachte die neuseeländische Supermarktkette Pak'n'Save den "Savey-Meal-Bot" auf den Markt. Es handelte sich um ein generatives KI-Tool, mit dem Kunden eine individuelle Liste von Lebensmitteln hochladen konnten - zum Beispiel mit dem Inhalt ihres Kühlschranks. Der Bot sollte ihnen daraufhin Rezepte vorschlagen.

Die Lösung wurde den Kunden als Möglichkeit angepriesen, nachhaltig zu wirtschaften und zu sparen: Die Menschen dort werfen jedes Jahr pro Kopf Lebensmittel für rund 1.500 neuseeländische Dollar weg. Pak'n'Save hatte eine Altersbeschränkung von 18 Jahren festgelegt und gewarnt, dass die Rezepte voll automatisch erzeugt und nicht von Menschen geprüft würden. Außerdem dürften ausschließlich Lebensmittel in den Chatbot eingegeben werden.

Geheimtipp des Bots: Reis mit Bleichmittel

Natürlich ging das Vorhaben schief, und das Unternehmen hatte plötzlich einen weltweiten Shitstorm am Hals. Der Meal-Bot hatte beispielsweise einem Nutzer als "überraschendes kulinarisches Abenteuer" vorgeschlagen, eine mit Bleichmittel versetzte "Reisüberraschung" zuzubereiten. Ein tödliches Chlorgas wurde als "aromatische Wassermischung" angegeben: Der Bot hatte es als "das perfekte alkoholfreie Getränk, um Ihren Durst zu löschen und Ihre Sinne zu erfrischen" angepriesen. Ein "mysteriöser Fleischeintopf" sollte der KI zufolge 500 Gramm gehacktes Menschenfleisch enthalten - der Meal-Bot schrieb von einem "köstlich herzhaften Gericht, das Sie mit seinen magischen Aromen überraschen wird".

Wenn Generative AI ein Rezept vorschlägt, sollten Hobbyköchinnen (und Katzen) vorsichtig sein. Es könnte Bleichmittel oder Menschenfleisch enthalten.
Foto: Amerigo_images - shutterstock.com

Gut, dass niemand der KI vertraute: Es gibt zumindest keine Berichte über Kunden, die durch den Verzehr dieser Rezepte vergiftet wurden. Auch wurde das Tool inzwischen aktualisiert, so dass die Benutzer nur mehr aus einer begrenzten Anzahl von vollständig essbaren Zutaten wählen können. Unappetitliche Rezepte werden aber immer noch empfohlen.

5.000 Dollar Strafe für GenAI-generierte Gerichtsunterlagen

Dass Generative AI Risiken birgt, musste auch die Anwaltskanzlei Levidow, Levidow & Oberman P.C. erfahren. Dort reicherten zwei Anwälte Rechtsgutachten mit künstlich generierten Zitaten an, nachdem sie ChatGPT zum Schreiben ihrer Argumentation herangezogen hatten. Ein Richter verdonnerte die Kanzlei im Sommer zu einer Geldstrafe von 5.000 Dollar. Die Anwälte hätten künstlich erzeugte Rechtsgutachten eingereicht und seien damit ihrer Verantwortung nicht gerecht geworden, hieß es in der Begründung.

Bret Greenstein, Partner und Leiter der Go-to-Market-Strategie für generative KI bei PricewaterhouseCoopers, kennt solche Fälle. Sein Beratungshaus hat in letzter Zeit viele Unternehmen bei der Umsetzung von KI-Projekten unterstützt. Er stellt fest, dass vor allem bei GenAI-Vorhaben manches schiefläuft: "Generative KI reicht viel weiter als traditionelle KI oder maschinelles Lernen (ML)", sagt Greenstein. Die "Möglichkeiten, Katastrophen anzurichten", würden durch die neue AI-Generation deutlich zunehmen.

Folgende vier Faktoren sind häufig die Ursache für das Scheitern von Generative-AI-Vorhaben:

1. Schlechte Governance lässt Generative-AI-Projekte scheitern

Wenn GenAI-Projekte ohne ausreichende Steuerung und Aufsicht verfolgt werden, steigen die Risiken. Der Bot von Pak'nSave ist ein prominentes Beispiel dafür, doch viele Unternehmen machen vergleichbare Fehler. So weiß Greenstein von einem mittelgroßen Finanzinstitut zu berichten, das Im Frühjahr 2023 GenAI auf Basis einer privaten Cloud-Instanz eines kommerziellen KI-Tools implementiert hat. "Sie stellten die API zur Verfügung, damit die Anwender ihre eigenen Anwendungen erstellen konnten", so der Berater. Als erstes sei ein HR-Chatbot entwickelt worden, der Empfehlungen zur Bereitstellung von Benefits geben sollte.

Tatsächlich setzte sich das Unternehmen damit unbewusst massiven Haftungsrisiken aus. Manchmal empfahl das Tool die falsche Option - mit der Folge, dass der betreffende Mitarbeiter ein ganzes Jahr lang überhaupt keine Benefits erhielt. Die Betroffenen ärgerten sich zwar, aber sie gingen davon aus, dass das HR-Tool schon korrekt arbeiten würde.

Greenstein hält es für einen Fehler, wenn Unternehmen einfach den KI-Zugang über eine API öffnen und ihre Mitarbeitenden dann einfach machen lassen. Seiner Ansicht nach bedarf es eines durchdachten, diszipliniert verfolgten Ansatzes mit einer ausreichenden Governance. "Es gibt professionelle Wege, um generative KI zu entwickeln. Man muss die Genauigkeit bewerten und mit Verzerrungen oder Halluzinationen umzugehen lernen. Und man braucht jemanden, der sicherstellt, dass alles richtig gemacht wird", fügt er hinzu.

Sie interessieren sich für KI-Governance? Dann lesen Sie auch:

Das Unternehmen ließ den Chatbot etwa einen Monat laufen. Das Feedback war nicht gut. Glücklicherweise erkannten die Verantwortlichen den Fehler, so dass die Beschäftigten nicht ernsthaft geschädigt wurden. Allerdings war das Vertrauen in die Führungsetage erst einmal getrübt. Trotzdem will man dort die Nutzung von GenAI weiterverfolgen: Zu groß sei das Risiko, eine Chance zu verpassen und hinter den Wettbewerb zurückzufallen.

Einer im Juli veröffentlichten Umfrage der AI Infrastructure Alliance (AIIA) zufolge, an der mehr als 1.000 Führungskräfte großer Unternehmen teilnahmen, haben 54 Prozent aufgrund von Versäumnissen bei der Governance von KI- oder ML-Anwendungen Verluste erlitten. Aus dieser Gruppe gaben sogar 63 Prozent an, dass sie Einbußen von mehr als 50 Millionen US-Dollar verkraften mussten.

2. Kostenexplosion - bei Generative AI nicht ungewöhnlich

Chatbots wie ChatGPT sind bekanntlich in der Basisversion kostenlos. Mit ein wenig Experimentierfreude ist es nicht schwierig und außerdem billig, Anwendungsfälle zu identifizieren, mit denen sich geschäftliche Vorteile erzielen lassen. Doch wenn Unternehmen solche Pilotprojekte skalieren, werden die Kosten, die ein größerer Roll-out verursachen kann, oft unterschätzt.

Rob Lee, Chief Curriculum Director am SANS Institute, gibt zu bedenken, dass es oft an Erfahrung im Umgang mit Gen-AI in größerem Maßstab fehle. Das gelte auch, wenn ein Unternehmen einen externen Anbieter mit einem Projekt beauftrage. "Wenn Sie so etwas schon einmal gemacht haben und die Kosten genau vorhersagen können, sind Sie im Moment sehr gefragt", sagt Lee.

Wird KI beispielsweise über die Cloud bereitgestellt, wachsen die Kosten mit jedem API-Aufruf. Dabei lässt sich das Nutzungsverhalten oft nur schwer vorhersagen. Lee warnt davor, das Verhalten der Anwender im Umgang mit ihren bisherigen Systemen eins zu eins auf die GenAI-Welt zu übertragen: "In Wirklichkeit weiß niemand, wie die Menschen die neue KI-Lösung nutzen werden."

Hinzu kämen schwer kalkulierbare Übergangskosten. Lee wählt den Vergleich eines Immobilienkaufs: "Wenn Sie ein neues Haus erwerben wollen, müssen Sie Ihr vorhandenes Haus möglicherweise verkaufen. Gelingt das nicht schnell genug, müssen Sie zwei Häuser gleichzeitig finanzieren." Das gelte auch für die IT: Anwender sollten sich fragen, ob sie es sich leisten können, wenn eine Umstellung länger dauert als geplant. Bei der KI handele es sich um eine neue, schwer kalkulierbare Technik.

Ein Kostenfaktor sei auch die Größe des Datensatzes: "Ich muss für den Storage und die Abrufe zahlen. Für bestimmte Anwendungen müssen Konzerne zudem weltweit mehrere Speicherlokationen sowie Backups bereitstellen." Die Kosten von GenAI-Vorhaben sind also nicht zu unterschätzen: Laut der AIIA-Umfrage sind sie in vielen Unternehmen das zweitgrößte Hindernis für die Einführung von KI in großem Stil.

3. Zu viele Anwender haben überhöhte Erwartungen

Der Hype um Generative AI treibt seit dem Erscheinen von ChatGPT immer neue Blüten. Viele Unternehmen hoffen auf eine neue Wunderwaffe oder fürchten, von anderen überholt zu werden. Amol Ajgaonkar, Cheftechnologe bei Insight, einem Lösungsintegrator mit Sitz in Arizona, findet die Euphorie wenig hilfreich. "Einiges davon sickert in die Entscheidungsfindung ein", fürchtet er.

Ajgaonkar nennt ein Beispiel: Im Sommer wollte ein weltweit aktiver Elektronikkonzern aus den USA ein System für die automatisierte Content-Produktion einführen, wobei es schwerpunktmäßig um das Erstellen von Preisdokumenten ging. "Das Unternehmen hat mehr als 8.000 Vertriebsmitarbeiter, die Zehntausende von Kunden verwalten", erklärt er. Das Erstellen von Inhalten gelte als einfacher Use Case für GenAI, glaubten die Verantwortlichen.

Das Unternehmen sei jedoch fälschlich davon ausgegangen, dass die KI relevante Beispiele aus der Vergangenheit finden und diese dann auf neue Kundenanfragen anwenden könne. "Die dachten: Wir geben der KI historische Preise vor, sie analysiert diese und teilt uns mit, wie die Preise für ähnliche Produkte sein sollten." Das habe nicht funktioniert, und für ihn sei es ein Kampf gewesen, dem Management zu erklären, wie generative KI tatsächlich arbeite.

Viele Geschäftsführer hoffen auf ein KI-Wunder. Dumm nur, wenn die Konkurrenz ebenfalls eine Wunderlampe besitzt.
Foto: MikyR - shutterstock.com

"Alles, was sie gelesen hatten, hat uns am Ende Schwierigkeiten bereitet", erinnert sich Ajgaonkar. "Sie hielten den Aufwand für verschwindend gering und den geschäftlichen Nutzen für großartig." Der Insight-CTO hält es generell für besser, solche Projekte in einzelne Schritte zu zerlegen und zu analysieren, wie diese am besten zu bewerkstelligen sind. Oft sei GenAI gar nicht die richtige Lösung. Historische Dokumente zu durchforsten, um relevante Fälle aufzustöbern, könne besser mit traditionellen Ansätzen erledigt werden, auch wenn das Zusammenfassen von Dokumenten eine Stärke von GenAI darstelle.

Zukunftsszenarien ließen sich besser mit Advanced Analytics und Machine Learning erstellen. Und wenn es darum gehe, verschiedene Bestandteile zu einem Angebot zusammenzufügen, sei es am besten, eine Geschäftslogik zu verwenden, die festlegt, welche Dienste enthalten sein sollen. Komme es schließlich zu mathematischen Berechnungen, sei GenAI nicht nur ungenau, sondern auch ein Overkill. "Man kann ein Plugin schreiben, das die Berechnungen durchführt", so der Techniker, "aber man sollte sich nicht auf Generative AI verlassen, um etwas zu berechnen."

Geht es schließlich darum, das endgültige Angebotsdokument zu erstellen, kann GenAI wieder helfen. Beispielsweise ließen sich mit der Technik Standardtexte aus der Rechtsabteilungen integrieren. Letztendlich habe das Elektronikunternehmen zwar eine Lösung gefunden, mit der Leistungsbeschreibungen schneller erstellt werden konnten. Aber bis es so weit war, habe der Konzern eine lange Lernkurve durchlaufen müssen.

Einen guten Prompt kann nicht jeder schreiben

Unternehmen würden oft auch nicht verstehen, dass es nicht leicht sei, einen guten KI-Prompt zu schreiben. Sie verhielten sich meist so, als würden sie einem erwachsenen Menschen Anweisungen geben. "In Wirklichkeit ist es aber so, als würde ich meinen Kindern im Teenageralter Anweisungen geben", sagt Ajgaonkar. "Man muss Dinge wiederholen, damit sie hängen bleiben. Manchmal hört die KI auf einen, aber eben nicht immer." Bei GenAI-Vorhaben sei das Verständnis der vermeintlichen Kleinigkeiten besonders wichtig für den Projekterfolg.

Der Insight-Manager verweist auf die Möglichkeit, die Qualität der Antworten systematisch zu verbessern, indem beispielsweise Gedankenbäume oder ähnliche Prompting-Methoden genutzt würden. Das bedeute aber, dass man sich mit den Prompt-Techniken beschäftigen müsse. Es erfordere immer mehrere Prompts, um verfeinerte und damit brauchbare Antworten zu bekommen.

So entstünden dann aber mitunter hohe Kosten, sagt Ajgaonkar. Jedes Wort, das User eingeben, wird auf das Kontingent des Unternehmens angerechnet. Am Ende werden die Kosten für die Plattform von der Menge der verbrauchten Token bestimmt. Hinzu kommt die Zeit, die für die Beantwortung der einzelnen Fragen benötigt wird.

"Wenn man für jede Anfrage den Gedankenbaum verwenden und nach Erklärungen fragen muss, wird das sehr teuer", beobachtet der Technikexperte. "Wenn es nichts kosten würde, würde ich dieselbe Abfrage wahrscheinlich tausendmal in verschiedenen Variationen ausführen, um das gewünschte Ergebnis zu erhalten." Unternehmen müssten sich aber überlegen, ob der zu erwartende Mehrwert diesen Aufwand rechtfertige.

4. Datenqualität - ein Problem, das nicht weggeht

Carm Taglienti, Distinguished Engineer bei Insight, hatte kürzlich ebenfalls mit einem Fall zu tun, in dem unrealistische Erwartungen ein KI-Projekt beinahe an den Abgrund geführt hätten. "Das Scheitern solcher Vorhaben hängt zu 99 Prozent mit überzogenen Erwartungen zusammen und nicht etwa mit fehlerhafter Technologie", sagt Taglienti.

In seinem Fall wollte ein Kunde von Insight, ein US-amerikanischer Halbleiterkonzern, Probleme in seinem Supply Chain Management mit KI lösen. Das Unternehmen habe aber zu hohe Erwartungen an die Lösung gestellt und sei zudem davon ausgegangen, dass alles auf Anhieb funktionieren würde. Doch jedes Mal, wenn das Projekt von einer Phase in eine andere überging, mussten Anpassungen vorgenommen werden, weil nicht alles so lief, wie es sollte. Hinzu kam ein technisches Problem, das viele KI-Vorhaben scheitern lässt: Es fehlte an guten Daten.

Wenn in der Vergangenheit ein Chip oder eine Komponente nicht verfügbar war, musste das Unternehmen in einem arbeitsintensiven, manuellen Prozess Ersatz schaffen. Aus Sicht von Taglienti war das alles andere als agil. Man entschied sich, einen Teil des Prozesses durch Entscheidungsbäume und Expertensysteme zu ersetzen, doch diese erwiesen sich als fehleranfällig. Veränderungen im Zuliefermarkt bedeuteten, der gesamte Entscheidungsbaum musste aktualisiert werden.

Außerdem erforderte der KI-Einsatz gepflegte Daten in großen Mengen. Aber das Unternehmen tat sich schwer, Trainingsdaten zu identifizieren, mit denen die herstellerübergreifende Suche nach Komponenten automatisiert funktionieren könnte. Chiphersteller analysieren nicht ständig den Zuliefermarkt, so Taglienti. Sie hielten Listen bevorzugter Lieferanten und Backup-Anbieter vor. Zudem würden Lieferanten nur selten umfangreich geprüft.

Ein weiteres Problem bestand darin, dass die Daten, wenn sie denn verfügbar waren, oft in einer nur schwer zu verarbeitenden Form vorlagen. "Die Spezifikationen gab es nicht in einem Format, das man schnell hätte einlesen können."

Und dann gibt es bei der Auswahl von Partnern in einer Supply Chain noch einige differenzierende Aspekte, die automatisiert nur schwer abzubilden sind. Das betrifft etwa den Standort eines Anbieters oder seinen Ruf in Bezug auf Pünktlichkeit. "Wenn es sich um ein börsennotiertes Unternehmen handelt, muss man auch noch das Internet durchforsten und sich die 10-K-Zahlen ansehen", führt Taglienti aus.

Am Ende sei die Aufgabe viel größer, als nur funktionierende Teile bei Zulieferern zu finden. Die dafür nötige Analyse kann laut Taglienti durchaus automatisiert werden, doch das sei auch schon vor GenAI der Fall gewesen. Meistens entpuppten sich diese Anstrengungen aber dann doch als größer und komplexer als gedacht. Der Grund sei eigentlich immer der Mangel an verwertbaren Daten - ein Problem, das KI- und ML-Projekte schon lange begleitet. Auch in der AIIA-Umfrage nennen 84 Prozent der Unternehmen, die GenAI einsetzen, Datenprobleme als größte Herausforderung.

Datenquellen harmonisieren ist nicht einfach

Greenstein von PwC beispielsweise arbeitete kürzlich für ein B2C-Unternehmen, das ein Projekt zur Automatisierung von Back-Office-Prozessen starten wollte. "Sie hatten ihre KI-Dienste schon eingerichtet, auch die Cloud. Die Mitarbeiter waren ebenfalls bereit. Aber am Ende hatte niemand damit gerechnet, wie schwierig es sein würde, Zugang zu den richtigen Daten zu bekommen."

Beispielsweise seien für eine Datenquelle API-Lizenzen erforderlich geworden, über die das Unternehmen nicht verfügt habe. Deshalb musste ein monatelanger Beschaffungsprozess durchlaufen werden. "In einem anderen System waren die Zugriffskontrollen hierarchisch zu hoch angesetzt gewesen", so Greenstein. Ein drittes System habe indes nur benutzerbasierte Kontrollen vorgesehen. "Für GenAI mussten all diese Systeme miteinander abgeglichen werden, aber das ging nicht so schnell."

Greenstein ist sicher, dass das Unternehmen langfristig alle benötigten Daten erhalten wird, aber bis dahin werden Monate vergehen. "Solche Verzögerungen wirken sich negativ auf die Motivation der Teams aus", beobachtet Greenstein. "Mitarbeitende, die von den potenziellen Produktivitätsverbesserungen erst einmal begeistert waren, wurden frustriert. Das gilt erst recht für die IT-Mitarbeiter, denen die mangelnde Datenqualität vorgeworfen wurde. Sie verloren das Vertrauen des Managements."

Greenstein empfiehlt Unternehmen daher, KI-Anwendungsfälle zuerst nach ihrem potenziellen Nutzen, dann nach ihrem Risiko und schließlich nach den verfügbaren Daten zu priorisieren. Entscheidend seien die Fragen: "Haben wir die Daten für diesen Anwendungsfall? Dürfen wir sie nutzen? Sind sie zugänglich? Sind sie sauber genug, um unseren Use Case zu unterstützen?" Nur dann lohne es sich, ein GenAI-Projekt zu beginnen. (hv)