![]() |
Google vừa phát hành rộng rãi tính năng tạo ảnh gốc từ mô hình ngôn ngữ Gemini 2.0 Flash. Với khả năng này, mô hình có thể sáng tác, chỉnh sửa ảnh hiện có dựa trên đầu vào văn bản. Ảnh: Google. |
![]() |
Không giống những công cụ tạo ảnh khác khi kết hợp mô hình khuếch tán (diffusion) với mô hình ngôn ngữ lớn (LLM), Gemini 2.0 Flash là mô hình đa phương thức (multimodal), có thể xử lý đầu vào và đầu ra với nhiều định dạng (văn bản, âm thanh, hình ảnh...). Về lý thuyết, kỹ thuật này giúp cải thiện chất lượng ảnh, cho phép công cụ hiểu ngữ cảnh và tiếp tục chỉnh sửa trong cùng đoạn hội thoại. Ảnh: Google. |
![]() |
Để dùng thử công cụ, người dùng và lập trình viên cần truy cập Google AI Studio, chuyển sang mô hình Gemini 2.0 Flash (Image Generation) Experimental. Trong phần Output format, chọn Images and text. Khu vực tương tác với công cụ nằm giữa màn hình. Dưới đây là một số công dụng chính của Gemini 2.0 Flash. |
![]() |
Tạo ảnh và văn bản cùng lúc. Theo Google, Gemini 2.0 Flash hỗ trợ tạo văn bản và ảnh cùng lúc. Ví dụ, có thể yêu cầu mô hình kể câu chuyện và vẽ ảnh minh họa. Theo trải nghiệm, tốc độ tạo ảnh và văn bản khá nhanh, trung bình 5-10 giây/ảnh (tùy độ dài và phức tạp). |
![]() |
Chỉnh sửa ảnh trong cùng đoạn hội thoại. Nhờ khả năng hiểu ngữ cảnh, Gemini 2.0 Flash hỗ trợ nhận phản hồi và chỉnh sửa ảnh. Nếu không hài lòng về màu sắc, đồ vật hay bất kỳ chi tiết trong ảnh, chỉ cần nhập câu lệnh để công cụ thay đổi mà không ảnh hưởng đến yếu tố khác. |
![]() |
Chỉnh sửa ảnh hiện có. Tương tự, chỉ cần tải ảnh bất kỳ để yêu cầu công cụ sửa các chi tiết trong ảnh, chẳng hạn như đổi màu, thêm vật thể hay chỉnh phông nền. Người dùng có thể phản hồi liên tục đến khi công cụ tạo kết quả ưng ý. |
![]() ![]() |
Tách vật thể. Khả năng tách vật thể của Gemini 2.0 Flash khá tốt, song vẫn còn điểm yếu liên quan đến bàn tay người. Công cụ hiểu rõ nghĩa tiếng Việt, cho phép tách và thay phông nền theo nhiều chủ đề khác nhau. |
![]() ![]() |
Mở rộng/thay đổi khung cảnh. Trong trường hợp này, người dùng có thể yêu cầu công cụ thu nhỏ ảnh hiện có, lấp chỗ trống với khung cảnh mới dựa trên mô tả. Do còn trong giai đoạn thử nghiệm, công cụ đôi khi gặp lỗi hoặc không tạo ảnh như mong muốn. |
![]() |
Tạo ảnh với nhiều văn bản. Theo Google, Gemini 2.0 Flash có thể tạo ảnh gồm văn bản dài mà không bị sai chính tả hay chữ kỳ dị. Đây là một trong nhiều điểm yếu trên những mô hình tạo ảnh khác. Dù vậy, trải nghiệm cho thấy chữ ngôn ngữ tiếng Việt còn một số chỗ khó đọc. Công cụ cũng không thể dịch chữ trong văn bản nếu không có gợi ý cụ thể. |
![]() ![]() |
Thêm người vào ảnh. Công cụ hỗ trợ thêm người vào ảnh hiện có, với hình dáng đúng theo mô tả. Do đang phát hành thử nghiệm miễn phí, mỗi chuỗi hội thoại có giới hạn khoảng 30.000 token. Dù vậy, người dùng không phải lo lắng bởi một lần hỏi/trả lời chỉ tốn khoảng 300-500 token, không quá nhiều nếu chỉ chỉnh sửa, tạo ảnh cơ bản. |
![]() ![]() |
Thay đổi góc chụp. Người dùng có thể yêu cầu đổi các góc chụp khác nhau của cùng một ảnh. Tất nhiên, công cụ hỗ trợ chỉnh các chi tiết khác nhau cho đến khi tạo ảnh ưng ý. |
![]() |
Khai thác kiến thức. Theo Google, Gemini 2.0 Flash được đào tạo dựa trên lượng kiến thức lớn với khả năng lý luận (reasoning). Ví dụ, có thể yêu cầu công cụ lên công thức món ăn dựa trên kiến thức hiện có, sau đó vẽ hình minh họa cho dễ hiểu. Tương tự những công cụ khác, Google lưu ý Gemini 2.0 Flash chỉ có kiến thức chung, không quá chuyên sâu hay chính xác tuyệt đối. |
![]() |
Công dụng gây tranh cãi. Sau khi phát hành rộng rãi, nhiều người phát hiện Gemini 2.0 Flash có thể loại bỏ dấu bản quyền (watermark) khỏi ảnh. Khả năng này không được chấp nhận bởi những công cụ AI như GPT-4o. Do vẫn còn thử nghiệm, Google có khả năng khắc phục tình trạng này trong thời gian tới. Ảnh: @deedydas/X. |
Nguồn: https://znews.vn/gemini-20-flash-lam-duoc-gi-post1539018.html
Bình luận (0)