Une entreprise chinoise lance une IA pour créer de fausses vidéos qui ressemblent exactement aux vraies

(Dan Tri) - ByteDance, la société mère de TikTok, a surpris tout le monde en introduisant un outil d'IA capable de créer des vidéos avec du contenu réaliste.

ByteDance, la société technologique à l'origine du réseau social TikTok, vient de présenter un nouveau modèle d'intelligence artificielle (IA) appelé OmniHuman-1, avec la capacité de créer des vidéos animées et réalistes.

ByteDance a déclaré qu'OmniHuman-1 est basé sur la technologie deepfake, permettant la création de vidéos avec des mouvements extrêmement fluides et il est très difficile de reconnaître qu'il s'agit d'un produit de l'IA. ByteDance affirme avec confiance que son moteur d'IA peut créer des produits de qualité supérieure par rapport aux autres outils de création vidéo d'IA existants.

Vidéo de la conférence d'Albert Einstein créée par OmniHuman-1 à partir de l'image du scientifique (Vidéo : ByteDance).

Selon les chercheurs de ByteDance, OmniHuman-1 n'a besoin que d'une seule image et d'un seul son pour modéliser, comme la voix d'une personne au hasard ou la voix chantée. Sur la base de ces données, l’outil d’IA peut générer des vidéos de longueur arbitraire, avec des voix ou des chants identiques à l’échantillon audio.

OmniHuman-1 peut également éditer et modifier des vidéos existantes pour modifier le contenu de la vidéo d'origine.

De plus, OmniHuman-1 permet également aux utilisateurs de créer de nouvelles vidéos avec une variété de styles visuels et audio, tels que des vidéos animées ou des styles cinématographiques ou des vidéos réalistes.

Vidéo créée par OmniHuman-1 à la demande de l'utilisateur (Vidéo : ByteDance).

Les utilisateurs n'ont qu'à donner des exigences sur le rapport hauteur/largeur, le rapport corporel (portrait, demi-corps, corps entier ou tout en un), cet outil d'IA peut créer des vidéos avec la plus grande authenticité, y compris les mouvements, l'éclairage, les détails environnants...

ByteDance n'a pas encore officiellement publié OmniHuman-1 au public, mais la société a partagé des exemples de vidéos créées par l'outil.

Une vidéo de 23 secondes a été créée à partir d'une image d'Albert Einstein, dans laquelle le célèbre scientifique donne une conférence, avec des mouvements du visage et des mouvements des lèvres réalistes.

Plusieurs autres courtes vidéos créées par OmniHuman-1 montrent des personnes présentant des gestes et des expressions faciales réalistes.

Vidéo de personnages faisant des présentations, créée par OmniHuman-1 à partir d'images fixes (Vidéo : ByteDance).

Les vidéos de démonstration des capacités d'OmniHuman-1 ont laissé la communauté en ligne et le monde de la technologie impressionnés. Beaucoup de gens admettent qu’il s’agit de la fausse vidéo la plus réaliste qu’ils aient jamais vue.

Les chercheurs de ByteDance ont déclaré avoir construit un modèle d'IA capable de mélanger des données provenant d'images, de vidéos et d'audio pour créer des vidéos réalistes, avec des proportions faciales, un corps, des expressions faciales, des actions... aussi humaines que possible.

L'équipe de recherche a déclaré que les vidéos créées par l'IA ont des visages naturels, des mouvements de tête, des gestes... qui correspondent aux sons et aux scènes environnantes, contribuant à augmenter le « réalisme » des vidéos.

ByteDance n'a pas encore révélé quand OmniHuman-1 sera disponible pour les utilisateurs.

Vidéo créée par OmniHuman-1 à partir d'images, avec le paysage à l'extérieur de la fenêtre du train changeant de manière réaliste (Vidéo : ByteDance).

L'émergence d'OmniHuman-1 montre les incroyables capacités des outils d'IA en provenance de Chine, mais beaucoup craignent qu'OmniHuman-1 puisse être utilisé à des fins malveillantes, comme la création de fausses vidéos de célébrités pour partager de fausses informations, des escroqueries, ou même la création de fausses vidéos pornographiques à des fins de chantage.

La course au développement de l'IA devient de plus en plus intense entre les États-Unis et la Chine, alors que les deux superpuissances introduisent continuellement des outils d'IA dotés de fonctionnalités supérieures pour vaincre leurs adversaires.

Il y a quelques jours, OpenAI a également intégré une nouvelle fonctionnalité dans ChatGPT, permettant à l'outil de réaliser un rapport à partir d'une énorme quantité de données en quelques minutes seulement, une tâche qui prendrait des heures aux humains.

Deepfake est une technologie d'intelligence artificielle qui utilise des techniques de synthèse d'images d'une personne pour combiner et superposer l'image du visage sur une vidéo ou une image d'une autre personne.

Deepfake passera par un « processus d'apprentissage », basé sur des données d'entrée pour créer des modèles et choisir des algorithmes appropriés pour traiter et apprendre en continu de ces modèles. Après une période « d’apprentissage », le deepfake a pu fusionner des visages avec une grande précision, difficiles à reconnaître à l’œil nu.

Source : https://dantri.com.vn/suc-manh-so/cong-ty-trung-quoc-ra-mat-ai-tao-video-gia-mao-giong-het-nhu-that-20250206125927906.htm