Sora (OpenAI)
Sora là cái tên mới nhất được công bố nhưng lại gây xôn xao nhất, phần vì đây là sản phẩm của OpenAI – nhà phát triển ChatGPT nổi tiếng, nhưng nguyên nhân chủ yếu nhờ chất lượng video do chương trình tạo ra chỉ từ lệnh văn bản.
Thành công với ChatGPT cũng giúp trí tuệ nhân tạo của công ty có khả năng hiểu ngôn ngữ sâu sắc. Những clip minh họa cho khả năng của Sora đã thể hiện nhân vật chuyển động và sắc thái hết sức sinh động, như một thước phim người quay.
Nhưng Sora chưa có mặt trên thị trường vì các lý do an toàn. OpenAI sẽ tiến hành các biện pháp đo lường cẩn trọng trước khi đưa sản phẩm này đến tay người dùng đại chúng, đặc biệt trong bối cảnh trí tuệ nhân tạo đang bị kẻ gian lợi dụng cho các mục đích xấu, giả mạo người dùng hoặc phi pháp.
Lumiere (Google)
Lumiere là sản phẩm đến từ Google, cũng có khả năng sản xuất video từ lệnh văn bản nhập vào, hoạt động dựa trên mô hình khuếch tán cấu trúc STUNet (Space-Time-U-Net). Lumiere không loay hoay với việc ghép các khung hình tĩnh với nhau mà thay vào đó, AI này xác định những chi tiết có trong video (phần không gian), theo dõi cách chúng chuyển động, thay đổi cùng lúc (phần thời gian), từ đó giúp quá trình vận hành trôi chảy.
Cũng như Sora, Lumiere chưa được đưa tới công chúng. Hãng mới giới thiệu mô hình này từ cuối tháng 1.2024 sau khi ra mắt Gemini – mô hình ngôn ngữ lớn vừa được đồng bộ với Bard.
VideoPoet (G0ogle)
Mô hình ngôn ngữ lớn (LLM) này được đào tạo từ kho video, ảnh, âm thanh và văn bản khổng lồ do Google Search phát triển năm 2023. VideoPoet có thể thực hiện nhiều nhiệm vụ khác nhau từ nguồn vào là văn bản, ảnh, video… để tạo video, làm nổi bật nội dung, chuyển video thành âm thanh, biến ảnh tĩnh thành ảnh động…
Ý tưởng ban đầu của VideoPoet bắt nguồn từ yêu cầu chuyển mọi mô hình ngôn ngữ tự hồi quy sang một hệ thống tạo video. Các mô hình ngôn ngữ tự hồi quy hiện tại có thể xử lý văn bản và mã lập trình như con người, nhưng vướng rào cản khi chuyển sang video. VideoPoet giải quyết điều này bằng cách sử dụng mã thông báo để chuyển dữ liệu nhập vào từ bất cứ định dạng nào thành ngôn ngữ nó có thể hiểu.
Emu Video (Meta)
Ngoài Google, OpenAI thì Meta cũng là một trong những Big Tech tích cực trong việc sáng tạo AI. Công ty sở hữu Facebook cũng phát triển AI làm video là Emu Video, có khả năng chuyển hình ảnh thành văn bản rồi từ đó sử dụng làm dữ liệu để tạo ra clip.
Emu Video đang nhận được nhiều đánh giá tích cực từ những người tham gia chương trình thử nghiệm, khi có tới 81% thích AI này hơn Imagen Video (Google). Trên 90% chọn mô hình của Meta thay vì PYOCO (Nvidia), thậm chí còn tốt hơn Make-A-Video cũng của Meta (chọn 96%).
CogVideo (Đại học Thanh Hoa, Trung Quốc)
Không giống với các mô hình trên đều là sản phẩm từ những doanh nghiệp công nghệ hàng đầu thế giới, CogVideo là AI được phát triển bởi nhóm nghiên cứu đến từ đại học Thanh Hoa – trường danh tiếng hàng đầu tại Trung Quốc cũng như châu Á. Chương trình dựa trên CogView2, một mô hình chuyển văn bản thành hình ảnh huấn luyện trước.
Chuyên gia sáng tạo nghệ thuật trên máy tính Glenn Marshall từng thử nghiệm CogVideo đã cho rằng “giới đạo diễn có thể mất việc”. Clip có tên The Crow do ông tạo với sự trợ giúp của CogVideo đã nhận được nhiều đánh giá cao và từng dự giải thưởng Điện ảnh Viện Hàn lâm Anh (BAFTA).