
Deepfake-Video eines US-Comedian, Quelle: YouTube
„Präsident Trump ist ein kompletter Vollidiot“ hört man den ehemaligen US-Präsidenten Barrack Obama in einem YouTube-Video aus dem Jahr 2018 sagen. Nun, gedacht mag sich Obama das vielleicht durchaus schon mal haben – tatsächlich gesagt hat er es jedoch nie. Wir sind einem Deepfake-Video des US-Comedian Jordan Peele auf den Leim gegangen. Dieser wollte mit dem Clip auf die Gefahren von Fake News und Deepfake-Videos aufmerksam machen. Doch auch aktuelle Geschehnisse, wie jene des Videotelefonats von Wiens Bürgermeister mit einem Fake von Vitali Klitschko, zeugen davon, wie täuschend echt Deepfakes sein können.
Auf sozialen Netzwerken wie Facebook oder YouTube begegnet man Deepfakes häufig im Zusammenhang mit Parodien oder Satire-Inhalten. Aber Deepfakes kommen - wie die oben genannten Beispiele beweisen - auch zu anderen Zwecken als zur Unterhaltung zum Einsatz und sind somit oftmals alles andere als harmlos…
Was ist überhaupt ein Deepfake?
Das Wort Deepfake setzt sich aus den beiden englischen Begriffen „Deep Learning“ und „Fake“ zusammen und bezeichnet das Fälschen oder Ändern von Video- oder Audioinhalten mithilfe Künstlicher Intelligenz. Für Deepfakes kommen künstliche neuronale Netze sowie Methoden des maschinellen Lernens (Deep Learning) zum Einsatz. So tauscht eine Software beispielsweise Gesichter von Personen in bestehenden Videosequenzen aus, lässt Personen fremde Texte sprechen oder verändert deren Bewegungen. Das Resultat: Die erstellten Inhalte wirken authentisch und sind oft nur schwer als Fälschungen zu erkennen.
Deepfakes sind durchaus problematisch, da sie sehr häufig – neben der Anwendung in der Unterhaltungsbranche – für gezielte Desinformation (Stichwort: Fake News), Propaganda oder auch zur Diskreditierung von Einzelpersonen zum Einsatz kommen.
Künstliche Intelligenz als Basis
Möglich gemacht wird das Ganze überhaupt erst durch Künstliche Intelligenz. Als technische Basis dienen künstliche neuronale Netze und Algorithmen des maschinellen Lernens, die bereitgestelltes Video- und Audiomaterial analysieren und neue Inhalte erstellen. Grundvoraussetzung ist, dass die Algorithmen und neuronalen Netze überhaupt erst mit Bild- und Audiomaterial gefüttert werden. Video- und/ oder Audioinhalte des Ausgangsmaterials und der Personen, die man fälschen möchte, werden benötigt. Dabei gilt natürlich: Je mehr Material zur Verfügung steht, desto besser. Möchte man beispielsweise Gesichter austauschen (Anmerkung: nennt sich auch Face Swapping), braucht man für einen glaubhaften Deepfake möglichst viele Aufnahmen der Person aus verschiedenen Perspektiven und mit unterschiedlicher Mimik. Im Zuge des maschinellen Lernvorgangs lernen die Algorithmen dann die wesentlichen Eigenschaften der Person kennen und sind letztlich dazu in der Lage, diese in anderes Material zu übertragen, ohne das Umfeld zu verändern.
Für den Einsatz des Fake-Klitschko wurde mit hoher Wahrscheinlichkeit Videomaterial eines echten Klitschko-Interviews mit einem ukrainischen Journalisten verwendet. Dabei wurden in Echtzeit die Lippenbewegungen aus dem Video mit den Aussagen der Person zusammengeführt, die tatsächlich mit Bürgermeister Ludwig gesprochen hat.