Reinforcement-Learning-Vorteile
Wenn Gen AI zur Sackgasse wird
So beeindruckend die Evolution von Large Language Models (LLMs) - so ausufernd ist auch der Hype um sie. Forscher von Microsoft befeuern letzteres auch noch mit der Behauptung, Open AIs GPT-4-Modell wäre "ein Funken von Artificial General Intelligence". Es scheint fast, als würde man bei Microsoft die Nachteile generativer künstlicher Intelligenz bewusst ausblenden: LLMs tendieren zu Halluzinationen, sind für Strategiespiele wie Schach und Go nicht gut geeignet, haben mit Mathematik Probleme und generieren Programmcode, der potenziell verbuggt ist. Das soll nicht heißen, dass große Sprachmodelle nur Hype sind - im Gegenteil. Aber in Sachen Generative AIGenerative AI wären vielfältige Perspektiven und weniger Übertreibung angebracht. Alles zu Generative AI auf CIO.de
Wie KI-Experte und Tech-Journalist Craig Smith in einem Artikel auf IEEE Spectrum zusammenfasst, argumentieren etwa Yann LeCun (Meta) und Geoff Hinton (Ex-Google), dass Large Language Models ein grundlegendes Problem plagt. Es fehle den großen Sprachmodellen an nicht-linguistischem Wissen, was für das Verständnis der zugrundeliegenden Realität, die die Sprache beschreibt, entscheidend sei. Und Matthew Lodge, CEO beim KI-Anbieter Diffblue, sagte kürzlich auf der QCon 2023 in London: "Kleine, schnelle und kostengünstige Reinforcement-Learning-Modelle schöagen riesige LLMs mit hundert Milliarden Parametern bei allen möglichen Aufgaben."
Es stellt sich die Frage: Suchen wir an den falschen Stellen nach KI-Gold - beziehungsweise schaden wir uns mit einem übermäßigen LLM-Fokus selbst?
The Reinforcement Games
Nehmen wir das bereits erwähnte Beispiel der Strategiespiele: Levy Rozman, internationaler Schachmeister, veröffentlichte auf seinem YouTube-Kanal ein Video, in dem er detailliert erklärt, wie dumm sich ChatGPT im Vergleich zur aktuell besten Schachsoftware Stockfish anstellt:
Es ist nur einer von vielen Beweisen dafür, dass Gen AI in der Praxis manchmal weit hinter dem Hype zurückbleibt.
Ganz anders sieht das in Sachen Reinforcement Learning aus: Die KI-Technik kommt zum Beispiel bei Googles AlphaGo zum Einsatz. Sie funktioniert einfach erklärt, indem verschiedene Lösungen für ein Problem generiert, getestet und die Ergebnisse anschließend für die nächste Fragestellung verwendet. Dieser Prozess wird tausende Male wiederholt, um das beste Ergebnis zu finden. Im Fall von AlphaGo bedeutet das: Die KI probiert verschiedene Züge aus und erstellt eine Vorhersage darüber, ob es sich um einen guten Zug handelt und ob es wahrscheinlich ist, das Spiel aus dieser Position heraus zu gewinnen. Das Feedback nutzt die Instanz, um vielversprechende Zugfolgen zu generieren.
Dieser Prozess wird probabilistische Suche genannt: Es ist nicht möglich, jeden erdenklichen Zug ausprobieren - dazu gibt es einfach zu viele Möglichkeiten. Stattdessen wird der "Raum" um die Züge herum nach den jeweils besten durchsucht. Dieses Vorgehen hat sich im Bereich der Spiele bewährt - schließlich konnte AlphaGo in der Vergangenheit schon menschliche Großmeister in die Schranken weisen. Es ist zwar nicht unfehlbar - schneidet aber in diesem Bereich aktuell signifikant besser ab als die derzeit besten Large Language Models.