Détecter des vidéos "deepfake" en un clin d'œil

Anonim

Une nouvelle forme de désinformation est en passe de se propager dans les communautés en ligne à mesure que les campagnes électorales de mi-mandat de 2018 se développent. Appelé "deepfakes" après le compte en ligne pseudonyme qui a popularisé la technique - qui peut avoir choisi son nom parce que le processus utilise une méthode technique appelée "apprentissage en profondeur" - ces fausses vidéos sont très réalistes.

Jusqu'à présent, les gens ont utilisé des vidéos de type deepfake dans la pornographie et la satire pour faire croire que des personnes célèbres font des choses qu'ils ne feraient pas normalement. Mais il est presque certain que les deepfakes apparaîtront pendant la campagne électorale, prétendant représenter des candidats en train de dire des choses ou en allant dans des endroits où le vrai candidat ne le ferait pas.

Parce que ces techniques sont tellement nouvelles, les gens ont du mal à faire la différence entre les vidéos réelles et les vidéos deepfake. Mon travail, avec mon collègue Ming-Ching Chang et notre doctorat Yuezun Li, un étudiant, a trouvé un moyen fiable de raconter de vraies vidéos à partir de vidéos deepfake. Ce n'est pas une solution permanente, car la technologie va s'améliorer. Mais c'est un début et offre l'espoir que les ordinateurs pourront aider les gens à dire la vérité à partir de la fiction.

Qu'est-ce qu'un "deepfake"?

Faire une vidéo deepfake ressemble beaucoup à la traduction entre langues. Des services tels que Google Translate utilisent l'apprentissage automatique (analyse informatique de dizaines de milliers de textes en plusieurs langues) pour détecter les modèles d'utilisation des mots qu'ils utilisent pour créer la traduction.

Les algorithmes Deepfake fonctionnent de la même manière: ils utilisent un type de système d’apprentissage automatique appelé réseau de neurones profonds pour examiner les mouvements faciaux d’une personne. Ensuite, ils synthétisent des images du visage d'une autre personne en effectuant des mouvements analogues. Cela permet de créer une vidéo de la personne cible qui semble faire ou dire les choses que la personne source a faites.

Avant qu'ils puissent fonctionner correctement, les réseaux de neurones profonds ont besoin de beaucoup d'informations source, telles que des photos des personnes constituant la source ou la cible de l'usurpation d'identité. Plus le nombre d'images utilisées pour entraîner un algorithme deepfake est élevé, plus l'emprunt d'identité numérique sera réaliste.

Détecter le clignotement

Il y a encore des failles dans ce nouveau type d'algorithme. L'une d'elles concerne la manière dont les visages simulés clignotent - ou non. L'homme adulte en bonne santé cligne des yeux entre deux et dix secondes et un seul clignement prend entre un dixième et quatre dixièmes de seconde. C'est ce qu'il serait normal de voir dans une vidéo d'une personne qui parle. Mais ce n'est pas ce qui se passe dans beaucoup de vidéos deepfake.

Lorsqu'un algorithme deepfake est formé sur les images de visage d'une personne, cela dépend des photos disponibles sur Internet qui peuvent être utilisées comme données d'entraînement. Même pour les personnes photographiées souvent, peu d'images sont disponibles en ligne et leurs yeux sont fermés. Non seulement les photos sont rares - parce que les yeux des gens sont ouverts la plupart du temps - mais les photographes ne publient généralement pas d’images où les yeux des sujets principaux sont fermés.

Sans les images d'entraînement des personnes qui clignotent, les algorithmes deepfake sont moins susceptibles de créer des visages qui clignotent normalement. Lorsque nous calculons le taux global de clignotement et que nous le comparons à la plage naturelle, nous avons constaté que les caractères dans les vidéos DeepFake clignotent beaucoup moins souvent que les personnes réelles. Notre recherche utilise l'apprentissage automatique pour examiner l'ouverture et la fermeture des yeux dans les vidéos.

Cela nous donne une inspiration pour détecter les vidéos deepfake. Par la suite, nous développons une méthode pour détecter le moment où la personne dans la vidéo clignote. Pour être plus précis, il scanne chaque image d’une vidéo en question, détecte les visages qu’elle contient et localise automatiquement les yeux. Il utilise ensuite un autre réseau de neurones profonds pour déterminer si l'œil détecté est ouvert ou fermé, en utilisant l'apparence de l'œil, les caractéristiques géométriques et le mouvement.

Nous savons que notre travail tire parti d’une faille dans le type de données disponibles pour former les algorithmes DeepFake. Pour éviter de tomber en proie à un défaut similaire, nous avons formé notre système sur une vaste bibliothèque d'images à la fois ouvertes et fermées. Cette méthode semble bien fonctionner et, par conséquent, nous avons atteint un taux de détection de plus de 95%.

Ce n'est pas le dernier mot sur la détection des deepfakes, bien sûr. La technologie s'améliore rapidement et la concurrence entre la génération et la détection de fausses vidéos est analogue à un jeu d'échecs. En particulier, le clignotement peut être ajouté aux vidéos approfondies en incluant des images de visage avec des yeux fermés ou en utilisant des séquences vidéo pour l'entraînement. Les gens qui veulent confondre le public seront plus à même de créer de fausses vidéos - et nous et d’autres membres de la communauté technologique devront continuer à trouver des moyens de les détecter.

menu
menu