wissen.de Artikel

Deepfakes: Wenn Videos nicht die Wahrheit sagen

Manipulierte Fotos gibt es schon länger. Doch durch den Einsatz von künstlicher Intelligenz ist es heutzutage möglich, auch täuschend echte Videofälschungen zu produzieren. Schon jetzt gibt es erste Versuche, durch solche gefälschten Videos Personen zu diskreditieren oder sie sogar zur Erpressung zu nutzen. Doch wie werden solche Filmfälschungen gemacht? Und wie kann man sie erkennen?
SRE / NPO, 27.04.2020

Mit entsprechender Software kann schon heute jeder täuschend echt wirkende Videos produzieren, in denen Gesichter ausgetauscht werden, Personen Dinge sagen, die sie nie gesagt haben, oder Handlungen vornehmen, die so nie stattfunden haben.

iStock.com, Rick_Jo

Apps, bei denen man die Gesichter mit Freunden tauschen kann, mögen vielleicht lustig erscheinen. Aber was wäre, wenn Videofälschungen so professionell gemacht sind, dass selbst Experten sie nicht mehr sagen können, ob eine Videoaufnahme echt oder gefälscht ist? Was wie eine dystopische Zukunftsaussicht klingt, ist teilweise schon Realität: In sozialen Medien kursieren Videos, die scheinbar Schauspielerinnen beim Sex zeigen und in denen Politiker ihre Gegner beschimpfen.

Überzeugende Fälschungen durch KI-Einsatz

Aber warum sind diese neuen Fälschungen so überzeugend? Der Grund dafür ergibt sich bereits aus dem Namen des neuen Phänomens: Deepfake, ein Kofferwort aus Deep Learning (auf deutsch: tiefes Lernen), einer Methode des maschinellen Lernens, und Fake – also Fälschungen. Die Manipulation von Medien ist kein neues Phänomen, Foto-Retuschierungen wurden schon Anfang des 20. Jahrhunderts eingesetzt. Doch durch neue Technologien wie den Einsatz künstlicher Intelligenz ergeben sich vollkommen neue Möglichkeiten auch für bewegte Bilder.

Basis dieser Technologien sind, wie bei jedem Computerprogramm, Algorithmen. Diese Handlungsvorschriften definieren Schritt für Schritt, was die Rechenmaschine tun soll. Allerdings befolgt das Programm normalerweise nur die Vorschriften, die ihm vorgegeben werden. Anders hingegen funktionieren die lernfähigen Algorithmen der künstliche Intelligenz: Sie lernen durch Training mit einer großen Menge an Videos, welche Muster beispielsweise für eine vorüberlaufende Katze, für ein Gesicht oder für Mundbewegungen typisch sind.

Auch hiner dem Alterungsfilter der populären FaceApp steckt eine KI.

Nervenzellen als Vorbild

Möglich wird diese Form des Lernens durch künstliche neuronale Netze, die die Funktionsweise der Nervenzellen im Gehirn nachahmen. Unsere Hirnzellen schaffen beim Lernen neue Verknüpfungen zu ihren Nachbarn schaffen und diese Verbindungen werden um so stabiler und ausgeprägter, je häufiger wir diese Verknüpfung nutzen.

Der Algorithmus tut Ähnliches: Im Laufe seines Lernens durch Versuch und Irrtum gewichtet er immer diejenigen Verknüpfungen zwischen seinen Netzknoten stärker, die zu einer richtigen Antwort geführt haben. Mit wachsender Dauer des Trainings "merkt" sich dadurch das neuronale Netzwerk, welche eingehenden Bildmuster mit welcher Bedeutung oder welchem Bildinhalt verknüpft sind. Auf diese Weise können solche Deep Learning-Programme beispielswiese Katzen in einem Video selbstständig erkennen. Werden sie beispielsweise in einem autonomen Fahrzeug eingesetzt, kann das System unterscheiden, ob ein Mensch vor dem Auto die Straße kreuzt oder nur ein Schatten die Fahrbahn verdunkelt.

Überlagerung von Gesichtspartien

Allerdings kann diese Technik auch für weniger positive Zwecke eingesetzt werden, wie zum Beispiel für die Manipulation von Video- und Audiodateien. In einem der prominentesten Beispiele warnt der ehemalige US-Präsident Barack Obama in einem Video aus dem Jahr 2018 vor Deepfakes. Außerdem beschimpft er im Video seinen Nachfolger Donald Trump. In Wirklichkeit jedoch hat Obama all dies nie gesagt. Stattdessen wurde diesem Video eine Audio-Tonspur in seiner Stimme unterlegt und ein Algorithmus passte die Mundbewegungen des Video-Obama täuschen echt darauf an.

Bei dieser Form der Fälschung werden meist die Gesichter aus zwei verschiedenen Videodateien mit  Hilfe der neuronalen Netzwerke überlagert. Dabei werden die Datensätze der einzelnen Videodateien zuerst auf kleinere Datensätze reduziert. Dadurch ist es für die KI leichter, relevante Muster wie die Bewegung der Mundpartien zu erkennen. Anschließend werden beide Datensätze, also für die Mundpartie und das Gesicht, überlagert und optimiert, so dass eine sehr überzeugende Fälschung entstehen kann.

Enorme Mengen an Bildmaterial nötig

Das Obama-Video diente vor allem als Warnung vor Deepfakes. Allerdings kann man das Video leicht schneiden, so dass man nur den Ausschnitt sieht, indem er Trump beschimpft. Deepfakes werden auch verwendet, um die Gesichter von prominenten Schauspielerinnen in pornografische Filme hineinzuschneiden. Vor allem in sozialen Medien werden solche Inhalte schnell geteilt und von einigen Nutzern kaum auf den Wahrheitsgehalt überprüft, was Deepfakes so gefährlich macht. Es besteht durchaus die Gefahr, dass solche Videos zu Erpressungszwecken oder zur Wahlkampf-Manipulation eingesetzt werden.

Für normale, nicht berühmte Personen besteht – zumindest derzeit – keine allzu große Gefahr, dass er oder sie Opfer eines Deepfakes wird. Für das Erstellen einer solchen Fälschung ist sehr viel Video- und Bildmaterial notwendig. Otto Normalverbraucher kann sich also relativ sicher sein, dass er nicht ungewollt in einem Video auftaucht – sofern er nicht terabyteweise Bilder von sich im Internet hochlädt.

Woran erkenne ich Deep Fakes?

Aber wie erkenne ich nun Deepfakes? Die meisten bisherigen Fälschungen sind noch recht einfach gemacht. In diesen Filmen sieht man deutlich, dass die Kopfpartie nicht zum restlichen Körper passt und recht „starr“ ist. Auch durch den Einsatz von KI lassen sich solche Fälschungen enttarnen.

Wenn jemand aber sehr viel Aufwand in die Videomanipulation hineinsteckt, ist es auch möglich, sehr überzeugende Fälschungen zu schaffen und sogar die KI auszutricksen.

Experten raten, vor allem auf Artefakte beziehungsweise „Brüche“ im Video zu achten: Wenn etwa der Kopf im Vergleiche zum restlichen Körper recht starr ist, wenn Lippenbewegungen nicht völlig synchron sind, wenn es „Schnitte“ am Rand der Mundwinkel gibt oder wenn Gesichtspartien wie Stirnfalten sich nicht bewegen, sind das Anzeichen für eine Videofälschung.

Und auch der gesunde Menschenverstand kann sicher nicht schaden: Wenn sich der im Video Dargestellte untypisch verhält und Dinge sagt, die eigentlich nicht zu seiner Persönlichkeit passen, dann ist es ratsam, misstrauisch zu werden. Dann sollte man genau prüfen, woher dieses Video kommt und die Information mit anderen, unabhängigen und als seriös bekannten Quellen abgleichen.

Mehr Artikel zu diesem Thema

Weitere Lexikon Artikel

Weitere Artikel aus dem Wahrig Synonymwörterbuch

Weitere Artikel aus dem Wahrig Fremdwörterlexikon

Weitere Artikel aus dem Wahrig Herkunftswörterbuch

Weitere Artikel aus dem Wahrig Herkunftswörterbuch

Weitere Artikel aus dem Vornamenlexikon