OpenAI lance un outil de création de vidéos à base de texte

Selon CNBC , OpenAI vient de présenter Sora, un modèle d'IA de nouvelle génération qui fonctionne de manière similaire à son précédent outil d'IA de génération d'images DALL-E. Les utilisateurs entrent simplement dans la scène souhaitée et Sora renvoie un clip vidéo haute résolution. Sora peut également créer des clips vidéo inspirés d'images fixes et étendre des vidéos existantes ou remplir des images manquantes.

OpenAI ra mắt công cụ sáng tạo video bằng văn bản- Ảnh 1. — Des chiens Samoyède et Golden Retriever gambadent dans une ville éclairée au néon la nuit dans une vidéo générée par l'IA

La création de vidéos pourrait être la prochaine frontière de l'IA créative après que les chatbots et les générateurs d'images ont fait leur chemin dans le monde des consommateurs et des entreprises il n'y a pas longtemps. Si la création de contenu passionne les passionnés d’IA, ces nouvelles technologies suscitent de sérieuses inquiétudes quant à la désinformation à l’approche des grandes élections politiques mondiales. Selon les données de la société d'apprentissage automatique Clarity, le nombre de deepfakes générés par l'IA a augmenté de 900 % d'une année sur l'autre.

Avec Sora, OpenAI cherche à concurrencer les outils d'IA de génération de vidéos d'entreprises comme Google et Meta. Des outils d'IA similaires sont également disponibles auprès d'autres startups, telles que Stability AI avec un produit appelé Stable Video Diffusion. Amazon a également lancé Create with Alexa, un modèle spécialisé dans la création de contenu animé de courte durée pour les enfants basé sur des commandes.

Sora est actuellement limité à la création de vidéos d'une durée d'une minute ou moins. OpenAI a fait de la multimodalité, une méthode qui combine la génération de texte, d'images et de vidéos, un objectif dans le but de fournir un ensemble plus large de modèles d'IA.

Jusqu’à présent, Sora n’a été mis à la disposition que d’un petit groupe de testeurs de sécurité, ou « équipes rouges », qui testent le modèle pour détecter les vulnérabilités dans des domaines tels que la désinformation. La société n'a publié aucune démo publique au-delà des 10 exemples de clips disponibles sur son site Web et indique que la documentation technique d'accompagnement sera bientôt publiée.

OpenAI indique également qu'il construit un « classificateur de détection » capable d'identifier les clips vidéo générés par Sora, et qu'il prévoit d'inclure certaines métadonnées dans la sortie pour aider à identifier le contenu créé par cette IA. C’est le type de métadonnées que Meta cherche à utiliser pour identifier les images générées par l’IA.

Sora est un modèle d'IA qui utilise l'architecture Transformer que les chercheurs de Google ont présentée dans un article en 2017. Dans son annonce, OpenAI a déclaré que Sora sert de base aux modèles qui comprennent et simulent le monde réel.

Lien source