Maskieren statt klagen

Nightshade hilft Künstlern gegen Generative KI

14.11.2023 von Manfred Bremmer

Ein neues Tool namens Nightshade "vergiftet" Bilder auf Pixel-Ebene – und kann potenziell sogar das gesamte bildgenerierende KI-Modell nutzlos machen.

Ähnlich wie sein biologisches Vorbild verursacht auch das Tool Nightshade (Nachtschatten) Halluzinationen - allerdings bei bildgenerierenden KI-Modellen.
Foto: COULANGES - shutterstock.com

Anbieter von GenAI-Lösungen wie OpenAI, Meta, Google und Stability AI (Stable Diffusion) sehen sich aktuell mit einer Reihe von Klagen von Künstlern konfrontiert, die behaupten, dass ihr urheberrechtlich geschütztes Material und ihre persönlichen Daten ohne Zustimmung oder Entschädigung abgegriffen wurden.

Der Ausgang solcher Klagen ist ungewiss, da die Beweislast bei den Klägern liegt. Zudem argumentieren die KI-Firmen, dass alle Bücher, Zeitungen, Bilder und Kunstwerke in den Trainingsdaten unter die Fair-Use-Regelung fallen, da generative KI neue Inhalte auf der Grundlage dieser Trainingsdaten erstelle.

Um das Kräftegleichgewicht zwischen den KI-Unternehmen und den Künstlern wiederherzustellen, hat ein Forscherteam unter der Leitung von Ben Zhao, Professor an der University of Chicago, ein Tool namens Nightshade (Nachtschatten) entwickelt.

Letzter Schutz für Content-Ersteller

Das Tool soll in der Lage sein, jedes KI-Modell zu "vergiften", das ohne die Erlaubnis der Urheber deren Bilder zum Trainieren von KI verwendet, wie Zhao gegenüber dem Fachmagazin MIT Technology Review erklärt. Auf diese Weise würden künftige Generationen von bildgenerierenden KI-Modellen wie DALL-E, Midjourney und Stable Diffusion nur noch bedingt nutzbar sein, da sie teilweise unbrauchbare Ergebnisse lieferten. Die Forscher schlagen die Verwendung von Nightshade und ähnlicher Tools als letzten Schutz von Content-Erstellern gegen Web-Scraper vor, die Opt-out/Do-not-crawl-Direktiven ignorieren.

Derart vergiftete Datenmuster können Modelle so manipulieren, dass sie beispielsweise Bilder von Hüten für Kuchen und Bilder von Handtaschen für Toaster halten. Die vergifteten Daten seien dabei nur sehr schwer zu entfernen, da die Technologieunternehmen jede einzelne beschädigte Probe mühsam finden und löschen müssten. Laut Forschungsbericht (PDF) reichen bereits weniger als 100 vergiftete Proben, um einen Stable Diffusion SDXL-Prompt zu korrumpieren.

Katzen statt Hunde

Die Forscher testeten den Angriff an den neuesten Modellen von Stable Diffusion und an einem KI-Modell, das sie selbst von Grund auf trainiert hatten. Als sie Stable Diffusion mit nur 50 vergifteten Bildern von Hunden fütterten und es dann aufforderten, selbst Bilder von Hunden zu erstellen, generierte die GenAI-Lösung Kreaturen mit zu vielen Gliedmaßen und cartoonartigen Gesichtern. Mit 300 vergifteten Mustern kann ein Angreifer Stable Diffusion so manipulieren, dass es Bilder von Hunden erzeugt, die wie Katzen aussehen, während ein Hut in eine Torte verwandelt wird.

Bereits 300 mit Nightshade vergiftete Proben reichten im Test aus, damit Stable Diffusion statt den gewünschten Hundebilder Katzenbilder generierte.
Foto: Department of Computer Science, University of Chicago

Zhaos Team hat auch Glaze entwickelt, ein Tool, mit dem Künstler ihren persönlichen Stil "maskieren" können, um zu verhindern, dass er von KI-Unternehmen erfasst wird. Es funktioniert ähnlich wie Nightshade: Die Pixel eines Bildes werden auf subtile Weise so manipuliert, dass maschinelle Lernmodelle das Bild als etwas anderes interpretieren als das, was es tatsächlich zeigt.

Das Team beabsichtigt, Nightshade in Glaze zu integrieren, und den Künstler die Wahl zu lassen, ob sie das Datenvergiftungswerkzeug verwenden wollen oder nicht. Das Team will Nightshade auch als Open Source zur Verfügung stellen, so dass andere damit experimentieren und ihre eigenen Versionen erstellen können. "Je mehr Menschen es nutzen und ihre eigenen Versionen davon erstellen, desto leistungsfähiger wird das Tool", erklärt Zhao. Die Datensätze für große KI-Modelle können aus Milliarden von Bildern bestehen. Je mehr vergiftete Bilder also in ein Modell eingespeist werden können, desto mehr Schaden richtet die Technik an.

Einen Haken hat die Sache allerdings: Das Programm hat keine Auswirkungen auf bestehende Modelle, die schon mit Kunstwerken, Fotos etc. trainiert wurden.