Was sind Deepfakes?
J.M. Porup schreibt als Senior Security Reporter für unsere US-Schwesterpublikation CSO Online. Er beschäftigt sich seit dem Jahr 2002 mit dem Themenbereich IT Security.
Vor ein paar Jahrzehnten waren Deepfakes nur etwas, das große Hollywood-Studios oder Geheimdienste bewerkstelligen konnten. Heutzutage steht Deepfake Software zur freien Verfügung im Netz und ermöglicht es einer breiten Masse von (tech-affinen) Nutzern, die Produktion von Deepfake-Videos als Freizeitsport zu betreiben. Wir sagen Ihnen, wie man Deepfakes definiert, wie sie funktionieren und wie man sie erkennt.
Deepfake - Definition
Die Bezeichnung Deepfake ist aus der Verschmelzung der Begriffe "Deep Learning" und "Fake" entstanden und bezeichnet mediale Inhalte (im Regelfall handelt es sich dabei um Videomaterial, in einigen Fällen aber auch um Audioaufnahmen), die authentisch wirken, aber mit Hilfe von Künstlicher Intelligenz, beziehungsweise Deep Learning, verändert wurden. In erster Linie sollen solche Inhalte dazu dienen, die Rezipienten zu täuschen oder die Protagonisten bloßzustellen.
Die Qualität von Deepfakes hat sich im Laufe der letzten Jahre, getrieben durch den technologischen Fortschritt, weiterentwickelt. Mit der richtigen technischen Ausstattung (insbesondere GPUs) lassen sich heutzutage Videoinhalte erstellen, die auf den ersten Blick kaum noch als Fake erkennbar sind.
Deepfakes erstellen
Ursprünglich kamen für die Erstellung von Deepfakes vor allem Autoencoder zum Einsatz. Diese sind auch heute noch beliebt, inzwischen werden allerdings auch Generative Adversarial Networks (GANs) eingesetzt, um Deepfake-Inhalte anzufertigen.
Autoencoder
Im Fall von Autoencodern werden Deepfakes in einem zweistufigen Prozess erzeugt. Im ersten Schritt wird mit Hilfe eines neuralen Netzwerks das Gesicht aus einem Quellbild extrahiert und in Merkmalsvektoren zerlegt. Diese werden dann in Schichten zu einem Modell zusammengefügt. Im zweiten Schritt übernimmt ein weiteres neurales Netz die Decodierung der Vektoren, richtet das Gesicht entsprechend der vorgegebenen Definition aus und setzt es auf das Quellbild.
Einen Autoencoder für die Erstellung von Deepfakes zu trainieren, erfordert eine Vielzahl von Quellbildern und entsprechende Aufnahmen des Gesichts aus verschiedenen Blickwinkeln und unter verschiedenen Lichtverhältnissen. Ohne die Unterstützung dedizierter Grafikprozessoren kann das Wochen in Anspruch nehmen.
GANs
Die Deepfake-Ergebnisse eines Autoencoders lassen sich mit Hilfe von Generative Adversarial Networks verfeinern. Zum Beispiel, indem man zwei neurale Netze "aufeinander loslässt": Ein generatives Netz kreiert Beispiele, die dieselben Statistiken wie das Original aufweisen, während ein anderes, diskriminatives Netz versucht, Unterschiede zwischen Beispiel und Original zu detektieren.
Generative Adversarial Networks zu trainieren, ist ein zeitintensives, iteratives Vorgehen - das im Vergleich zu Autoencodern ein Vielfaches an Rechen-Power verlangt. Nach aktuellem Stand sind GANs eher dazu geeignet, realistische Bilder von fiktiven Personen zu erzeugen. Das könnte sich bei der rasanten Entwicklung von Deep Learning Hardware in absehbarer Zeit ändern.
Deepfakes erkennen
Deepfakes zu erkennen, stellt ein großes Problem dar. Natürlich lassen sich amateurhafte Deepfakes relativ schnell mit bloßem Auge enttarnen. Andere entlarvende Details wie fehlerhaftes Blinzeln oder Schatten sind oft nur mit Hilfe von Software zu erkennen. Insbesondere durch die rasante Entwicklung von GANs ist zu erwarten, dass die Erkennung von Deepfakes künftig eine Sache der IT-Forensik sein wird.
Wobei nicht klar ist, ob eine zuverlässige Erkennung von Deepfakes in allen Fällen möglich sein wird - schließlich lassen sich GANs auch darauf trainieren, Erkennungsmethoden gezielt zu umgehen. Dass die US-Verteidigungsbehörde DARPA viel Geld in wissenschaftliche Forschungsinitiativen steckt, die die Authentifizierung von Videomaterial verbessern sollen, gibt einen ersten Anhaltspunkt darüber, wie schwerwiegend das Problem mit Deepfakes in Zukunft noch werden könnte. Noch aber variiert die Qualität von Deepfakes sehr stark - und hängt neben den technischen Methoden oft auch von den Skills des "Urhebers" ab.
Anfang 2020 veranstaltete ein Konsortium, bestehend aus Amazon, Facebook, Microsoft sowie verschiedenen Bildungs- und Forschungsinstitutionen, die "Deepfake Detection Challenge". Der Wettbewerb beinhaltete zwei gut dokumentierte Prototyp-Lösungen - eine Introduction und ein Starter Kit. Selim Seferbekov konnte mit seiner Lösung die Challenge gewinnen - diese steht nun in quelloffener Form zur Verfügung. Allerdings konnte auch sie lediglich zwei Drittel der Deepfakes in der Test-Datenbank erkennen.
Deepfake - Beispiele
Beispiele für Deepfakes gibt es viele, wobei deren Geschichte weit zurückreicht: In Form von Fake News, quasi der politischen Deepfake-Variante, tauchten sie bereits in den 1920er Jahren auf. In einem Zeitalter, als Filme Wochen brauchten, um Ozeane zu überqueren, inszenierten Berichterstatter beispielsweise Katastrophen wie Erdbeben oder Brände mit Miniatursets, um ihre Nachrichten realitätsnäher zu gestalten beziehungsweise zu dramatisieren. Das änderte sich in den 1930er Jahren mit einer veränderten Zuschauererwartung.
In jüngster Zeit wurde die Debatte über Deepfakes durch die Veröffentlichung eines Videos auf TikTok neu entfacht, das vermeintlich Schauspieler Tom Cruise zeigt. In Wirklichkeit handelte es sich um eine Kombination aus einem menschlichem Imitator und dem Open-Source-KI-Algorithmus von DeepFaceLab. Laut dem Ersteller der Videos, VFX-Experte Chris Ume aus Belgien, sei diese Technik für die meisten Menschen nur schwer zu reproduzieren. Dennoch zeigt das Projekt, was mit einer Kombination aus künstlicher Intelligenz und CGI möglich ist: Für das ungeübte Auge ist der Betrug fast nicht zu erkennen.
Deepfake Apps
Um Deepfakes zu erkennen, aber auch um sie anzufertigen, stehen (künftig) verschiedene Applikationen zur Verfügung.
Faceswap ist die wohl bekannteste, quelloffene Software für die Erstellung von Deepfake-Material.
mit dem Video Authenticator will Microsoft künftig die Verbreitung von Desinformation eindämmen. Das Tool soll Foto- und Videomaterial analysieren und so ermitteln können, wie hoch die Wahrscheinlichkeit ist, dass ein Deepfake vorliegt.
auch Facebook plant für die Zukunft mit einem Deepfake Detector - allerdings soll der Quellcode nicht offengelegt werden, um böswilligen Angreifern kein Futter zu liefern.
Descript Overdub widmet sich Deepfakes im Audio-Bereich und realisiert die Umwandlung von Text in Sprache quasi in Echtzeit. Etwa zehn Minuten Training reichen aus, um eine Stimme synthetisch nachzubilden. Anschließend ist es möglich, ihre Voiceovers als Text zu bearbeiten.
Google WaveNet ermöglicht ebenfalls die Erzeugung synthetischer Stimmen, wobei das Authentizitätslevel im Vergleich zu Descript Overdub ein wenig abfällt. WaveNet-Stimmen haben Sie schon einmal gehört, wenn sie beispielsweise einen Google Assistant nutzen. (fm)
Dieser Beitrag basiert in Teilen auf Artikeln unserer US-Schwesterpublikationen Infoworld und CSO Online.