Panorama

Was Deepfakes sind - und wie sie entstehen

Deepfakes erscheinen oft verblüffend real – doch wie entstehen diese KI-generierten Bilder, Stimmen und Videos eigentlich? Ein Experte erklärt die Technologie dahinter.

Von dpa

06.03.2026

Wer weiß wie, kann recht einfach Deepfakes erstellen - die richtige Technik und KI-Unterstützung reichen aus.picture alliance / dpa-tmn

Wer weiß wie, kann recht einfach Deepfakes erstellen - die richtige Technik und KI-Unterstützung reichen aus.picture alliance / dpa-tmn

© picture alliance / dpa-tmn

Mithilfe Künstlicher Intelligenz (KI) ist heutzutage vieles machbar, etwa das Erzeugen von Deepfakes. Der sogenannte AI Act, das weltweit erste umfassende Gesetz der Europäischen Union zur Regulierung von KI, liefert auch eine Definition von Deepfakes.

Und zwar in Artikel 3, Absatz 60: „Einen durch KI erzeugten oder manipulierten Bild-, Ton- oder Videoinhalt, der wirklichen Personen, Gegenständen, Orten, Einrichtungen oder Ereignissen ähnelt und einer Person fälschlicherweise als echt oder wahrheitsgemäß erscheinen würde.“

Technisch faszinierend, aber eine Herausforderung

Aus Sicht des Digital-Branchenverbands Bitkom sind Deepfakes eine besondere Form synthetischer Medien – technisch faszinierend, aber im Zusammenhang zum Beispiel mit Desinformation oder Cybercrime eine neue Herausforderung.

Wie entstehen Deepfakes eigentlich? Deepfakes lassen sich mit sogenannten generativen KI-Modellen erstellen. „Diese Systeme werden mit Bild-, Audio- oder Videodateien trainiert“, erläutert Bitkom-Experte Marvin Pawelczyk.

Teils reichen wenige Sekunden Audio oder Video

Die Systeme lernen typische Muster eines Gesichts oder einer Stimme und können diese anschließend auf neues Material übertragen. „Teilweise reichen dafür wenige Sekunden Video- oder Tonaufnahmen oder einige Bilder, mit mehr Material wird das Ergebnis dann besser“, so Pawelczyk. 

Bis hin zum fertigen Deepfake passiert dem Experten zufolge vereinfacht gesagt Folgendes:

  • Datensammlung: Fotos, Videos oder Sprachaufnahmen einer Person werden gesammelt – häufig aus sozialen Netzwerken oder von öffentlichen Auftritten.
  • Training des Modells: Eine KI analysiert diese Daten und lernt, wie das Gesicht oder die Stimme in unterschiedlichen Situationen aussieht oder klingt.
  • Synthese: Das gelernte Muster wird auf fremdes Material gelegt – etwa auf den Körper einer anderen Person oder auf einen neuen Text, den die KI in der imitierten Stimme vorliest.
Das könnte Sie auch interessieren

Panorama

zur Merkliste

Was ist digitale Gewalt und was kann man dagegen tun?

Nacktbilder im Netz, heimliche Standortüberwachung: Digitale Gewalt trifft vor allem Frauen und bleibt für Täter oft folgenlos. Wie Betroffene sich schützen können – und was sich ändern soll.

Panorama

zur Merkliste

„Mordufer“ - Das bietet die neue Serie vom Bodensee

Eine verkohlte Leiche, falsche Fährten und ein neues Ermittlerinnen-Duo: Was das Publikum von der neuen Serie erwarten kann und warum das ZDF wieder den Bodensee als Schauplatz auserkoren hat.