Text-zu-Video-KIs wie Sora

Báo Thanh niênBáo Thanh niên20/02/2024

[Anzeige_1]

Sora (OpenAI)

Sora ist der neuste Name, der angekündigt wurde, hat aber für die meiste Aufregung gesorgt, teilweise weil es ein Produkt von OpenAI ist – dem berühmten Entwickler von ChatGPT – aber hauptsächlich wegen der Qualität der Videos, die das Programm nur aus Textbefehlen erstellt.

Der Erfolg mit ChatGPT verleiht der künstlichen Intelligenz des Unternehmens auch umfassende Fähigkeiten zum Sprachverständnis. Clips, die Soras Fähigkeiten illustrieren, zeigen die Bewegungen und Nuancen der Figur so lebendig wie in einem Live-Actionfilm.

Video "siêu thực" do Sora tạo từ các lệnh văn bản

„Surrealistisches“ Video, erstellt von Sora aus Textbefehlen

Aus Sicherheitsgründen ist Sora jedoch noch nicht auf dem Markt erhältlich. OpenAI wird sorgfältige Maßnahmen ergreifen, bevor dieses Produkt der breiten Öffentlichkeit zugänglich gemacht wird, insbesondere im Zusammenhang mit der Nutzung künstlicher Intelligenz durch Kriminelle für böswillige Zwecke, zur Nachahmung von Benutzern oder auf illegale Weise.

Lumiere (Google)

Lumiere ist ein Produkt von Google, das ebenfalls Videos aus eingegebenen Textbefehlen erstellen kann und auf der Grundlage des strukturierten Diffusionsmodells STUNet (Space-Time-U-Net) funktioniert. Lumiere macht sich nicht mit dem Zusammenfügen von Standbildern herum, sondern diese KI identifiziert die Details im Video (räumlicher Teil), verfolgt, wie sie sich bewegen und gleichzeitig verändern (zeitlicher Teil) und trägt so dazu bei, dass der Prozess reibungslos abläuft.

Wie Sora wurde auch Lumiere nicht der Öffentlichkeit zugänglich gemacht. Das Unternehmen führte dieses Modell erst Ende Januar 2024 ein, nachdem es Gemini auf den Markt gebracht hatte – ein großes Sprachmodell, das kürzlich mit Bard synchronisiert wurde.

VideoPoet (Google)

Dieses große Sprachmodell (LLM) wird aus einem riesigen Repository mit Videos, Bildern, Audio und Text trainiert, das 2023 von Google Search entwickelt wurde. VideoPoet kann verschiedene Aufgaben aus Eingabequellen wie Text, Bildern, Videos usw. ausführen, um Videos zu erstellen, Inhalte hervorzuheben, Videos in Audio umzuwandeln, Standbilder in Animationen umzuwandeln usw.

Die ursprüngliche Idee von VideoPoet entstand aus der Notwendigkeit, jedes autoregressive Sprachmodell in ein Videogenerierungssystem umzuwandeln. Aktuelle autoregressive Sprachmodelle können Text und Programmcode wie Menschen verarbeiten, stoßen bei Videos jedoch an ihre Grenzen. VideoPoet löst dieses Problem, indem es mithilfe der Tokenisierung Eingaben aus jedem Format in eine verständliche Sprache konvertiert.

Các công cụ tạo ra video từ văn bản đa phần đang thử nghiệm giới hạn

Tools zur Erstellung von Videos aus Text stoßen meist an ihre Grenzen

Emu-Video (Meta)

Neben Google und OpenAI ist auch Meta eines der großen Technologieunternehmen, das im Bereich der KI-Innovation aktiv ist. Das Unternehmen, dem Facebook gehört, hat außerdem eine KI zur Videoerstellung namens Emu Video entwickelt, die Bilder in Text umwandeln und diesen dann als Daten zum Erstellen von Clips verwenden kann.

Emu Video erhält positive Bewertungen von den Teilnehmern des Testprogramms, wobei 81 % diese KI Imagen Video (Google) vorziehen. Über 90 % entschieden sich für das Modell von Meta gegenüber PYOCO (Nvidia), es war sogar besser als Metas Make-A-Video (96 % entschieden sich).

CogVideo (Tsinghua-Universität, China)

Im Gegensatz zu den oben genannten Modellen, die alle Produkte der weltweit führenden Technologieunternehmen sind, ist CogVideo eine KI, die von einem Forschungsteam der Tsinghua -Universität entwickelt wurde – einer führenden und renommierten Universität in China und Asien. Das Programm basiert auf CogView2, einem vortrainierten Text-zu-Bild-Modell.

Der Computerkunstexperte Glenn Marshall, der CogVideo getestet hat, sagte, „Regisseure könnten ihren Job verlieren.“ Der Clip mit dem Titel The Crow , den er mit Hilfe von CogVideo erstellte, erhielt großes Lob und wurde für einen British Academy Film Award (BAFTA) nominiert.


[Anzeige_2]
Quellenlink

Kommentar (0)

No data
No data

Gleiches Thema

Gleiche Kategorie

Verbreitung nationaler kultureller Werte durch musikalische Werke
Lotusfarbe von Hue
Hoa Minzy enthüllt Nachrichten mit Xuan Hinh und erzählt die Geschichte hinter den Kulissen, wie „Bac Bling“ ein globales Fieber auslöste
Phu Quoc – tropisches Paradies

Gleicher Autor

Erbe

Figur

Geschäft

No videos available

Nachricht

Ministerium - Zweigstelle

Lokal

Produkt