Sora (OpenAI)
Sora ist der neuste Name, der angekündigt wurde, hat aber für die meiste Aufregung gesorgt, teilweise weil es ein Produkt von OpenAI ist – dem berühmten Entwickler von ChatGPT – aber hauptsächlich wegen der Qualität der Videos, die das Programm nur aus Textbefehlen erstellt.
Der Erfolg mit ChatGPT verleiht der künstlichen Intelligenz des Unternehmens auch umfassende Fähigkeiten zum Sprachverständnis. Clips, die Soras Fähigkeiten illustrieren, zeigen die Bewegungen und Nuancen der Figur so lebendig wie in einem Live-Actionfilm.
„Surrealistisches“ Video, erstellt von Sora aus Textbefehlen
Aus Sicherheitsgründen ist Sora jedoch noch nicht auf dem Markt erhältlich. OpenAI wird sorgfältige Maßnahmen ergreifen, bevor dieses Produkt der breiten Öffentlichkeit zugänglich gemacht wird, insbesondere im Zusammenhang mit der Nutzung künstlicher Intelligenz durch Kriminelle für böswillige Zwecke, zur Nachahmung von Benutzern oder auf illegale Weise.
Lumiere (Google)
Lumiere ist ein Produkt von Google, das ebenfalls Videos aus eingegebenen Textbefehlen erstellen kann und auf der Grundlage des strukturierten Diffusionsmodells STUNet (Space-Time-U-Net) funktioniert. Lumiere macht sich nicht mit dem Zusammenfügen von Standbildern herum, sondern diese KI identifiziert die Details im Video (räumlicher Teil), verfolgt, wie sie sich bewegen und gleichzeitig verändern (zeitlicher Teil) und trägt so dazu bei, dass der Prozess reibungslos abläuft.
Wie Sora wurde auch Lumiere nicht der Öffentlichkeit zugänglich gemacht. Das Unternehmen führte dieses Modell erst Ende Januar 2024 ein, nachdem es Gemini auf den Markt gebracht hatte – ein großes Sprachmodell, das kürzlich mit Bard synchronisiert wurde.
VideoPoet (Google)
Dieses große Sprachmodell (LLM) wird aus einem riesigen Repository mit Videos, Bildern, Audio und Text trainiert, das 2023 von Google Search entwickelt wurde. VideoPoet kann verschiedene Aufgaben aus Eingabequellen wie Text, Bildern, Videos usw. ausführen, um Videos zu erstellen, Inhalte hervorzuheben, Videos in Audio umzuwandeln, Standbilder in Animationen umzuwandeln usw.
Die ursprüngliche Idee von VideoPoet entstand aus der Notwendigkeit, jedes autoregressive Sprachmodell in ein Videogenerierungssystem umzuwandeln. Aktuelle autoregressive Sprachmodelle können Text und Programmcode wie Menschen verarbeiten, stoßen bei Videos jedoch an ihre Grenzen. VideoPoet löst dieses Problem, indem es mithilfe der Tokenisierung Eingaben aus jedem Format in eine verständliche Sprache konvertiert.
Tools zur Erstellung von Videos aus Text stoßen meist an ihre Grenzen
Emu-Video (Meta)
Neben Google und OpenAI ist auch Meta eines der großen Technologieunternehmen, das im Bereich der KI-Innovation aktiv ist. Das Unternehmen, dem Facebook gehört, hat außerdem eine KI zur Videoerstellung namens Emu Video entwickelt, die Bilder in Text umwandeln und diesen dann als Daten zum Erstellen von Clips verwenden kann.
Emu Video erhält positive Bewertungen von den Teilnehmern des Testprogramms, wobei 81 % diese KI Imagen Video (Google) vorziehen. Über 90 % entschieden sich für das Modell von Meta gegenüber PYOCO (Nvidia), es war sogar besser als Metas Make-A-Video (96 % entschieden sich).
CogVideo (Tsinghua-Universität, China)
Im Gegensatz zu den oben genannten Modellen, die alle Produkte der weltweit führenden Technologieunternehmen sind, ist CogVideo eine KI, die von einem Forschungsteam der Tsinghua -Universität entwickelt wurde – einer führenden und renommierten Universität in China und Asien. Das Programm basiert auf CogView2, einem vortrainierten Text-zu-Bild-Modell.
Der Computerkunstexperte Glenn Marshall, der CogVideo getestet hat, sagte, „Regisseure könnten ihren Job verlieren.“ Der Clip mit dem Titel The Crow , den er mit Hilfe von CogVideo erstellte, erhielt großes Lob und wurde für einen British Academy Film Award (BAFTA) nominiert.
[Anzeige_2]
Quellenlink
Kommentar (0)