Text-zu-Video-KIs wie Sora

[Anzeige_1]

Sora (OpenAI)

Sora ist der neuste Name, der angekündigt wurde, hat aber für das größte Aufsehen gesorgt, teilweise weil es ein Produkt von OpenAI ist – dem berühmten Entwickler von ChatGPT –, aber hauptsächlich wegen der Qualität der Videos, die das Programm nur aus Textbefehlen erstellt.

Der Erfolg mit ChatGPT verleiht der künstlichen Intelligenz des Unternehmens auch umfassende Fähigkeiten zum Sprachverständnis. Clips, die Soras Fähigkeiten veranschaulichen, zeigen die Bewegungen und Nuancen der Figur so lebendig wie in einem Live-Action-Film.

Video "siêu thực" do Sora tạo từ các lệnh văn bản — „Surrealistisches“ Video, erstellt von Sora aus Textbefehlen

Aus Sicherheitsgründen ist Sora jedoch noch nicht auf dem Markt erhältlich. OpenAI wird sorgfältige Maßnahmen ergreifen, bevor dieses Produkt der breiten Masse zugänglich gemacht wird, insbesondere im Zusammenhang mit der Nutzung künstlicher Intelligenz durch Kriminelle für böswillige Zwecke, zur Nachahmung der Identität von Benutzern oder auf illegale Weise.

Lumiere (Google)

Lumiere ist ein Produkt von Google, das ebenfalls Videos aus eingegebenen Textbefehlen erstellen kann und auf der Grundlage des strukturierten Diffusionsmodells STUNet (Space-Time-U-Net) funktioniert. Lumiere macht sich nicht mit dem Zusammenfügen von Standbildern herum, sondern diese KI identifiziert die Details im Video (räumlicher Teil), verfolgt, wie sie sich bewegen und gleichzeitig verändern (zeitlicher Teil) und trägt so dazu bei, dass der Prozess reibungslos abläuft.

Wie Sora wurde auch Lumiere nicht der Öffentlichkeit zugänglich gemacht. Das Unternehmen führte dieses Modell erst Ende Januar 2024 ein, nachdem es Gemini auf den Markt gebracht hatte – ein großes Sprachmodell, das kürzlich mit Bard synchronisiert wurde.

VideoPoet (Google)

Dieses große Sprachmodell (LLM) wird anhand eines riesigen Repositorys mit Videos, Bildern, Audiodateien und Texten trainiert, das 2023 von Google Search entwickelt wurde. VideoPoet kann verschiedene Aufgaben aus Eingabequellen wie Text, Bildern, Videos usw. ausführen, um Videos zu erstellen, Inhalte hervorzuheben, Videos in Audiodateien umzuwandeln, Standbilder in Animationen umzuwandeln usw.

Die ursprüngliche Idee von VideoPoet entstand aus der Notwendigkeit, jedes autoregressive Sprachmodell in ein Videogenerierungssystem umzuwandeln. Aktuelle autoregressive Sprachmodelle können Text und Programmcode wie Menschen verarbeiten, stoßen aber bei Videos an ihre Grenzen. VideoPoet löst dieses Problem, indem es mithilfe der Tokenisierung Eingaben aus jedem Format in eine Sprache konvertiert, die es verstehen kann.

Các công cụ tạo ra video từ văn bản đa phần đang thử nghiệm giới hạn — Tools zum Erstellen von Videos aus Text stoßen meist an ihre Grenzen

Emu-Video (Meta)

Neben Google und OpenAI ist auch Meta eines der großen Technologieunternehmen, die im Bereich KI-Innovationen aktiv sind. Das Unternehmen, dem Facebook gehört, hat außerdem eine KI zur Videoerstellung namens Emu Video entwickelt, die Bilder in Text umwandeln und diesen dann als Daten zum Erstellen von Clips verwenden kann.

Emu Video erhält positive Bewertungen von den Teilnehmern des Testprogramms, wobei 81 % diese KI Imagen Video (Google) vorziehen. Über 90 % entschieden sich für das Modell von Meta gegenüber PYOCO (Nvidia), sogar besser als für Make-A-Video von Meta (96 % entschieden sich dafür).

CogVideo (Tsinghua-Universität, China)

Im Gegensatz zu den oben genannten Modellen, die alle Produkte der weltweit führenden Technologieunternehmen sind, handelt es sich bei CogVideo um eine KI, die von einem Forschungsteam der Tsinghua- Universität entwickelt wurde – einer führenden renommierten Universität in China und Asien. Das Programm basiert auf CogView2, einem vortrainierten Text-zu-Bild-Modell.

Der Computerkunstexperte Glenn Marshall, der CogVideo getestet hat, sagte, „Regisseure könnten ihren Job verlieren.“ Der Clip mit dem Titel The Crow , den er mit Hilfe von CogVideo erstellte, erhielt großes Lob und wurde für einen British Academy Film Award (BAFTA) nominiert.

[Anzeige_2]
Quellenlink