wissen.de Artikel

Sora-KI: Nehmen nun die Video-Deepfakes überhand?

OpenAI hat es wieder geschafft. Keine zwei Jahre, nachdem das US-Unternehmen die Welt mit seinem Chatbot ChatGPT verblüffte, präsentiert der KI-Konzern ein neues bahnbrechendes Projekt. Das Text-zu-Video-Programm Sora kann anhand von Textanweisungen täuschend echt aussehende Videoclips erstellen. Aber wie glaubwürdig sind die erstellten Videos? Lassen sich dank Sora Fehlinformationen einfacher verbreiten? Und wie kann man das verhindern?

THE, 29.02.2024

Symolbild Text-to-Video-Generator Sora von OpenAI — © Digitales Auge: Vertigo3d, iStock; Smartphone-Kontur: CentralITAlliance, iStock; Smartphone-Screen: OpenAI

Eine stylische Frau, die durch Tokio läuft. Eine Tour durch eine Kunstgalerie mit Kunstwerken in verschiedenen Stilrichtungen. Oder eine riesige, hoch aufragende Wolke in Form eines Mannes, der Lichtblitze auf die Erde herabschleudert. Diese und viele andere beeindruckende Beispielvideos hat das amerikanische Softwareunternehmen OpenAI veröffentlicht, um die Fähigkeiten seines neuen Text-zu-Video-Generators Sora zu präsentieren. Viele Videosequenzen erscheinen verblüffend realistisch. Auch deswegen erscheint Sora wie ein Quantensprung in der Text-zu-Video-Generierung.

Täuschend echte Frau – mit zwei linken Beinen

Allerdings hat das Programm laut OpenAI auch noch einige Schwächen. So fällt es der Sora-KI noch schwer, die Physik einer komplexen Szene genau zu simulieren. Auf einem vom Text-zu-Video-Generator erstellten Video trainiert ein junger Mann beispielsweise auf dem Laufband – rennt dabei aber in die falsche Richtung. Außerdem versteht der Video-Generator bestimmte Fälle von Ursache und Wirkung nicht. So beißt eine Person im Video in einen Keks, dieser hat danach aber möglicherweise keine Bissspuren.

Derartige „Glitches“ in den von Sora erstellten Videos springen nur teilweise direkt ins Auge. Einige Videos wirken auf den ersten Blick täuschend echt. Andere haben ausgeprägte Macken: Gerade natürliche Handbewegungen werden vom Generator teilweise komplett falsch dargestellt. Das kann skurrile Züge annehmen. "KI hat wirklich keine Ahnung, was Hände sind oder wie sie funktionieren", kommentierte dazu eine Reporterin von "The Verge". Doch auch scheinbar fehlerfreie Videos, wie das Demo-Video der durch Tokio laufenden jungen Frau, irritieren beim genaueren Hinsehen: Ab und zu macht die Frau zwei Schritte hintereinander mit demselben Bein.

Die Deepfake-Sorge

Da sich Text-zu-Video-Generatoren wie Sora rapide verbessern, dürfte es laut Hany Farid von der University of California in Berkeley aber immer schwerer werden, echte Videos von Fakes zu unterscheiden. Das birgt Gefahren. "Diese Technologie könnte, wenn sie mit KI-gestütztem Klonen von Stimmen kombiniert wird, eine völlig neue Front eröffnen, wenn es darum geht, Deepfakes von Menschen zu erstellen, die Dinge sagen und tun, die sie nie getan haben", sagte Farid dem Magazin "New Scientist". Einige Experten befürchten außerdem, dass die realistischen Videos auch politische Desinformation ermöglichen und dadurch Einfluss auf Wahlentscheidungen haben könnten.

Ist diese Sorge berechtigt? Laut Christian Hoffmann von der Universität Leipzig lassen sich Wähler nicht so einfach durch Fake-Videos beeinflussen. Gerade, wenn Menschen auf inhaltlich unplausible Videos stoßen, stellen sie nicht direkt ihr komplettes Weltbild infrage. Eher zweifeln sie die Informationsquelle an. Wer beispielsweise einen Clip von Angela Merkel zu Gesicht bekommt, in dem sie 200-Kilo-Hanteln stemmt, erkennt den Inhalt vermutlich schnell als Fake und hinterfragt dessen Herkunft. Dasselbe Prinzip gilt für Videos, in denen berühmte Personen Aussagen treffen, die sie realistisch niemals von sich geben würden.

Wer ist anfällig für Video-Fakes?

Aber was ist mit weniger offensichtlich gefälschten Clips? Bei einem Fake-Video, in dem der SPD-Politiker Kevin Kühnert eine Erhöhung des Renteneintrittsalters fordert, wären Menschen mit etwas Vorwissen vielleicht skeptisch, denn der ehemalige Vorsitzende der Jungen Sozialen ist eigentlich eine ziemlich "linke Socke". Doch laut Heike Kessler von der Universität Zürich sind Menschen ohne Vorwissen zu einem Thema und solche, die noch keine feste Meinung haben, anfälliger für Fehlinformationen durch Videos. Ihnen fehlt das Kontextwissen, um derartige Informationen überhaupt erst als unplausibel einzuordnen.

In solchen Fällen können KI generierte Videos durchaus Einfluss auf die politische Meinungsbildung haben. „Problematisch kann es dann werden, wenn Nutzer wiederholt mit Falschinformationen konfrontiert werden, ohne dass diese korrigiert werden“, sagt Kessler dazu. „Glaubt man eine Fehlinformation dann einmal, ist es schwer, diese Meinung wieder zu ändern, selbst wenn die Falschinformation später korrigiert wird.“

Technische Erkennung von Fakes

Um den Missbrauch der Sora-KI einzudämmen, will OpenAI ein Programm entwickeln, das von Sora generierte Videos identifizieren soll – quasi eine KI-App gegen KI-Videos. Laut Thorsten Holz vom Helmholtz-Zentrum für Informationssicherheit konzentrieren sich derartige Programme meist auf die Erkennung von Inkonsistenzen in den Videos. „Dazu gehören Auffälligkeiten im Frequenzspektrum des Bildes oder semantische Auffälligkeiten wie ungewöhnliche Pupillenreflexionen in Bildern, inkonsistente Blinkmuster der Augen in Videos, auffällige Hauttexturen oder fehlerhafte oder inkonsistente Hintergrunddetails“, erklärt er. Auch wenn Bild und Ton nicht richtig zueinanderpassen, sei dies ein Hinweis auf KI-generiertes Videomaterial.

Da Text-zu-Video-Clips immer realistischer werden, muss man jedoch die entsprechenden Identifikations-Algorithmen stetig verbessern. Dies berge aber Tücken, erklärt Holz: Die verbesserten Erkennungsmethoden könnten wiederum eingesetzt werden, um noch realistischere KI-generierte Inhalte zu produzieren – die Folge wäre ein klassisches Wettrüsten der Technologien. Derzeit ist unklar, wer bei einem solchen „Kampf der Giganten“ die Nase vorne behalten würde. Auch deshalb reichen laut Holz technologische Lösungen allein nicht aus, um die Gefahr durch desinformierende Videos zu bannen.

Desinformation kann man verhindern

Aus diesem Grund halten es einige Experten für sinnvoller, den umgekehrten Weg zu gehen und echte Videos aus seriösen Quellen als solche zu „markieren“. „Ein möglicher Umgang mit KI-generierten Inhalten kann sein, dass Regierung, Parteien und Medienmarken ihr Bild- und Videomaterial mit eindeutigen digitalen Fingerabdrücken kennzeichnen. Damit würden entsprechende Akteure signalisieren, welche Inhalte verlässlich von ihnen stammen, sodass mögliche Fälschungen schneller für professionelle Beobachter und Kommentatoren identifizierbar sind.“ schlägt Andreas Jungherr von der Universität Bamberg vor.

Dafür müssten Menschen aber einschätzen können, welche Quellen seriös sind und diese auch besuchen. Angesichts der algorithmengesteuerten Echokammern in Social Media ist dies aber nur bedingt realistisch. Auch mit der Medienkompetenz hapert es oft gerade bei jüngeren und weniger gebildeten Mediennutzenden.

„Bildungsinitiativen sollten darauf abzielen, das Bewusstsein für die Existenz und die Erkennungsmerkmale künstlich erzeugter Inhalte zu schärfen", sagt Edda Humprecht von der Universität Jena. "Awareness-Kampagnen können eine wichtige Rolle spielen, indem sie die Öffentlichkeit über die Risiken und Kennzeichen von Desinformation aufklären".