Việc Google đã kết hợp Bard vào nhiều ứng dụng như Gmail, YouTube, Google Maps và Flights là một lợi thế lớn so với ChatGPT. Vì vậy, OpenAI mới đây thông báo ChatGPT phiên bản miễn phí sẽ sớm cho phép nhập lệnh bằng giọng nói và hình ảnh.
Điều này có nghĩa là người dùng có thể yêu cầu ChatGPT theo cách tự nhiên hơn là phải gõ nội dung trên iPhone và Android, hay thậm chí có thể sử dụng hình ảnh để có được câu trả lời tốt hơn. Điểm chính là người dùng sẽ không phải trả tiền mua ChatGPT Plus để nhận được các cập nhật, dù những tài khoản trả phí sẽ là nhóm đầu tiên được dùng thử.
Người dùng tài khoản Plus và Enterprise sẽ nhận được cập nhật này trong hai tuần tới, kế đến là các nhóm người dùng khác, bao gồm cả nhà phát triển. Việc sử dụng hình ảnh để nhập vào ChatGPT là cách các mô hình AI đa phương thức hoạt động. Nó tương tự như cách gã khổng lồ tìm kiếm sử dụng Google Lens với AI.
Trong khi đó, tính năng hỗ trợ giọng nói sẽ chỉ có trên ứng dụng ChatGPT dành cho iPhone và Android. Người dùng chỉ cần bật trong phần cài đặt của ứng dụng sau khi tính năng này được mở. OpenAI cho biết ChatGPT chỉ cần vài giây lời nói mẫu để tạo ra âm thanh giống con người từ văn bản, hãng đang sử dụng mô hình chuyển văn bản thành giọng nói mới cho việc đó.
Công nghệ này có khả năng tạo ra giọng nói tổng hợp thực tế chỉ từ lời nói thực trong vài giây, nó mở ra cánh cửa cho nhiều ứng dụng sáng tạo và tập trung vào khả năng tiếp cận. Tuy nhiên điều này cũng tiềm ẩn những rủi ro mới, chẳng hạn như khả năng mạo danh nhân vật nổi tiếng hoặc thực hiện hành vi lừa đảo. OpenAI cũng cho biết đang hợp tác với Spotify để thử nghiệm tính năng dịch giọng nói cho podcast, cho phép nhà sáng tạo dịch nội dung của họ sang các ngôn ngữ khác bằng giọng nói của chính họ.