Reinforcement-Learning-Vorteile

Wenn Gen AI zur Sackgasse wird

18.07.2023 von Matt Asay
Reinforcement Learning sticht Generative AI aus, wenn Sie Wert auf Genauigkeit, Konsistenz und korrekte Outputs legen.
Large Language Models führen nicht in jedem Fall zum Erfolg - eher im Gegenteil.
Foto: gengiskhan - shutterstock.com

So beeindruckend die Evolution von Large Language Models (LLMs) - so ausufernd ist auch der Hype um sie. Forscher von Microsoft befeuern letzteres auch noch mit der Behauptung, Open AIs GPT-4-Modell wäre "ein Funken von Artificial General Intelligence". Es scheint fast, als würde man bei Microsoft die Nachteile generativer künstlicher Intelligenz bewusst ausblenden: LLMs tendieren zu Halluzinationen, sind für Strategiespiele wie Schach und Go nicht gut geeignet, haben mit Mathematik Probleme und generieren Programmcode, der potenziell verbuggt ist. Das soll nicht heißen, dass große Sprachmodelle nur Hype sind - im Gegenteil. Aber in Sachen Generative AI wären vielfältige Perspektiven und weniger Übertreibung angebracht.

Wie KI-Experte und Tech-Journalist Craig Smith in einem Artikel auf IEEE Spectrum zusammenfasst, argumentieren etwa Yann LeCun (Meta) und Geoff Hinton (Ex-Google), dass Large Language Models ein grundlegendes Problem plagt. Es fehle den großen Sprachmodellen an nicht-linguistischem Wissen, was für das Verständnis der zugrundeliegenden Realität, die die Sprache beschreibt, entscheidend sei. Und Matthew Lodge, CEO beim KI-Anbieter Diffblue, sagte kürzlich auf der QCon 2023 in London: "Kleine, schnelle und kostengünstige Reinforcement-Learning-Modelle schöagen riesige LLMs mit hundert Milliarden Parametern bei allen möglichen Aufgaben."

Es stellt sich die Frage: Suchen wir an den falschen Stellen nach KI-Gold - beziehungsweise schaden wir uns mit einem übermäßigen LLM-Fokus selbst?

The Reinforcement Games

Nehmen wir das bereits erwähnte Beispiel der Strategiespiele: Levy Rozman, internationaler Schachmeister, veröffentlichte auf seinem YouTube-Kanal ein Video, in dem er detailliert erklärt, wie dumm sich ChatGPT im Vergleich zur aktuell besten Schachsoftware Stockfish anstellt:

Es ist nur einer von vielen Beweisen dafür, dass Gen AI in der Praxis manchmal weit hinter dem Hype zurückbleibt.

Ganz anders sieht das in Sachen Reinforcement Learning aus: Die KI-Technik kommt zum Beispiel bei Googles AlphaGo zum Einsatz. Sie funktioniert einfach erklärt, indem verschiedene Lösungen für ein Problem generiert, getestet und die Ergebnisse anschließend für die nächste Fragestellung verwendet. Dieser Prozess wird tausende Male wiederholt, um das beste Ergebnis zu finden. Im Fall von AlphaGo bedeutet das: Die KI probiert verschiedene Züge aus und erstellt eine Vorhersage darüber, ob es sich um einen guten Zug handelt und ob es wahrscheinlich ist, das Spiel aus dieser Position heraus zu gewinnen. Das Feedback nutzt die Instanz, um vielversprechende Zugfolgen zu generieren.

Dieser Prozess wird probabilistische Suche genannt: Es ist nicht möglich, jeden erdenklichen Zug ausprobieren - dazu gibt es einfach zu viele Möglichkeiten. Stattdessen wird der "Raum" um die Züge herum nach den jeweils besten durchsucht. Dieses Vorgehen hat sich im Bereich der Spiele bewährt - schließlich konnte AlphaGo in der Vergangenheit schon menschliche Großmeister in die Schranken weisen. Es ist zwar nicht unfehlbar - schneidet aber in diesem Bereich aktuell signifikant besser ab als die derzeit besten Large Language Models.

Wahrscheinlichkeit vs. Genauigkeit

Die Vergrößerung von Sprachmodellen kann diese Probleme nicht auf magische Weise lösen - so hat GPT-4 weitgehend mit denselben Herausforderungen zu kämpfen wie GPT-3. Selbst nach Überzeugung von Open AI sind größere Modelle nicht die Lösung für die LLM-Probleme, wie in einem Forumsbeitrag zu lesen ist: "Große Sprachmodelle sind von Natur aus probabilistisch und erzeugen wahrscheinliche Outputs auf der Grundlage von Mustern, die sie in den Trainingsdaten beobachtet haben. Bei mathematischen und physikalischen Problemen kann es nur eine richtige Antwort geben, und die Wahrscheinlichkeit, diese Antwort zu erzeugen, kann sehr gering sein."

Im Gegensatz dazu liefert KI, die auf Reinforcement Learning fußt, wesentlich bessere Ergebnisse. Dabei ist es allerdings nicht so, dass Reinforcement Learning in der LLM-Welt keine Rolle spielt. GPT-4 etwa beinhaltet Reinforcement Learning mit menschlichem Feedback (RLHF) - das Kernmodell wird also von menschlichen Anwendern so trainiert, dass es bestimmte Antworten gegenüber anderen bevorzugt. Das ändert allerdings im Grunde nichts an den Antworten, die das Modell von vornherein erzeugt. Letztendlich sind LLMs einfach nicht darauf ausgelegt, übermäßig akkurat oder konsistent zu sein. Sie machen einen Kompromiss zwischen Genauigkeit und deterministischem Verhalten.

Reinforcement Coding?

Im Bereich der Softwareentwicklung kommt Generative AI bereits aktiv zum Einsatz - beispielsweise in Form von GitHub Copilot oder AWS CodeWhisperer. Diese (und weitere) Tools sagen auf der Grundlage des Codes vor und nach dem Einfügepunkt vorher, welcher Codeschnipsel als nächstes folgt. Das erfordert in der Folge, dass die Ergebnisse sorgfältig manuell überprüft und bearbeitet werden müssen, damit der Code korrekt kompiliert und funktioniert. Von "autonomem" Coding kann also keine Rede sein.

Reinforcement Learning kann das nach Auffassung von Diffblue-CEO Lodge hingegen leisten. Das mag daran liegen, dass sein Unternehmen ein kommerzielles Tool entwickelt hat, das auf der KI-Technik basiert. Jedenfalls ist der Manager davon überzeugt, dass Reinforcement Learning Gen AI in der Softwareentwicklung übertreffen kann: "Wenn das Ziel darin besteht, automatisiert 10.000 Unit-Tests für ein Programm zu erstellen, das kein Mensch versteht, dann ist Reinforcement Learning die einzige echte Lösung. LLMs können in diesem Bereich nicht mithalten, denn es gibt keine Möglichkeit für den Menschen, sie effektiv zu überwachen und ihren Code in diesem Umfang zu korrigieren", sagte Lodge auf der QCon. (fm)

Dieser Beitrag basiert auf einem Artikel unserer US-Schwesterpublikation Infoworld.