Phóng viên Joanna Stern của WSJ đã thử dùng AI để tạo ra một phiên bản mô phỏng chính mình. Kết quả, bản sao này đánh lừa được cả gia đình cô và hệ thống ngân hàng.
Ứng dụng trí tuệ nhân tạo để ghép mặt vào video hay giả giọng nói, thường được gọi là deepfake, đang ngày càng phổ biến và nguy hiểm hơn. Đây là một hiểm họa thực sự trên Internet.
Bên cạnh những video nhạy cảm, deepfake còn có thể tạo ra tác hại nghiêm trọng nếu được sử dụng cho mục đích chính trị. Đoạn video ghép mặt cựu Tổng thống Mỹ Barack Obama, từng được lan truyền năm 2018, cho thấy những nhân vật chính trị hàng đầu cũng có thể trở thành nạn nhân.
Deepfake khiêu dâm đang trở thành vấn đề nhức nhối toàn cầu. Ảnh: Wired. |
Để chứng thực sự hiệu quả của AI, phóng viên Joanna Stern của WSJ đã thử dùng Synthesia, công cụ chuyên về deepfake để tạo ra một phiên bản mô phỏng chính mình. Kết quả, bản sao này đánh lừa được cả gia đình cô và hệ thống ngân hàng.
Bản sao hoàn hảo
Kể về hành trình nhân bản chính mình, Stern cho biết đã dành nhiều tháng để trải nghiệm Synthesia và huấn luyện AI từ những video và file âm thanh gốc của cô.
Cách dùng công cụ này cũng rất đơn giản khi người dùng chỉ cần nhập văn bản bất kỳ và sẽ nhận lại một video mới kèm giọng của họ nói về nội dung đó.
“Do tính chất công việc yêu cầu làm việc nhiều với lời thoại và lên hình nên tôi nghĩ rằng AI có thể giúp mình làm việc hiệu quả hơn và bớt đi một số công việc cực nhọc”, Stern cho biết.
Joanna Stern thu âm giọng nói của mình để huấn luyện cho AI của Synthesia. Ảnh: WSJ. |
Để huấn luyện công cụ này, phóng viên của tờ WSJ đến một phòng thu và dành khoảng 30 phút để ghi hình bản thân, 2 tiếng để thu âm giọng nói. Chỉ mất vài tuần, phiên bản ảo của Stern, được cô đặt cho cái tên Joanna AI, đã sẵn sàng để làm việc thay cô.
Stern dùng ngày nghỉ phép của mình và thử để Joanna AI làm việc. Ở nhiệm vụ đầu tiên, phóng viên của WSJ dùng ChatGPT để viết kịch bản cho video TikTok về mẹo trên iOS.
Sau đó, Stern dán phần văn bản vào Synthesia. Sau bước khởi tạo, giọng nói của cô vang lên trên video. “Nó giống như nhìn vào hình ảnh phản chiếu của tôi trong gương vậy, dù cử chỉ tay và biểu cảm khuôn mặt hơi khác một chút. Mọi thứ rất thuyết phục”, nữ phóng viên nhận xét.
Stern cho biết, Joanna AI có khả năng bắt chước ấn tượng đối với những mẫu câu ngắn. Tuy nhiên, điểm yếu của AI này sẽ bộc lộ khi thời lượng càng kéo dài.
Đó cũng là lý do vì sao mà những nền tảng video ngắn được Stern nhận xét là môi trường thích hợp nhất cho AI. Theo cô, người dùng thường ít chú ý đến những chi tiết trong video TikTok, khiến những đặc điểm giống như máy tính có thể dễ dàng bị bỏ qua.
Với những cuộc gọi bằng điện thoại, Stern dùng một ứng dụng AI khác có tên ElevenLabs để thay thế Synthesia. Phần mềm giọng nói AI này có ưu điểm là người dùng chỉ cần tải các tệp âm thanh của mình lên công cụ mà không cần đến phòng thu.
Stern cho biết, Joanna AI có khả năng bắt chước ấn tượng đối với những mẫu câu ngắn. Ảnh: WSJ. |
Phóng viên của WSJ tỏ ra bất ngờ khi ElevenLabs chỉ cần hai phút là đã có thể nhân bản giọng nói của cô. Đặc biệt, mức phí dùng ứng dụng này chỉ rơi vào khoảng 5 USD/tháng.
So với Synthesia, Stern nhận xét giọng nói nhân bản của mình trên ElevenLabs nghe giống con người hơn, với ngữ điệu và phát âm tốt.
Để kiểm tra tính thuyết phục, nữ phóng viên đã thử dùng giọng nói này để nói chuyện với người thân. Em gái Stern cho rằng giọng nói AI nghe rất giống cô, ngoại trừ việc nó không dừng lại để lấy hơi.
Trong khi đó, khi Stern dùng giọng nói AI để gọi cho bố hỏi về số an sinh xã hội, ông lập tức nhận ra có điều gì đó không ổn vì nghe giống như một file âm thanh thu âm.
Đánh lừa cả ngân hàng
Đặc biệt nhất, AI còn hiệu quả đến mức đánh lừa được hệ thống sinh trắc học bằng giọng nói trên thẻ tín dụng Chase của Stern.
Bước đầu, phóng viên của WSJ gợi ý cho Joanna AI một số câu mà phía Chase sẽ hỏi. Sau đó, cô quay số dịch vụ khách hàng và để AI trả lời.
AI còn hiệu quả đến mức đánh lừa được hệ thống sinh trắc học bằng giọng nói trên thẻ tín dụng Chase của Stern. Ảnh: WSJ. |
Ở bước sinh trắc học, khi được hệ thống tự động hỏi tên và địa chỉ, Joanna AI đã trả lời chính thức. Ngay sau khi nghe thấy giọng nói của AI, hệ thống của Chase lập tức nhận diện đó là Stern và kết nối nó với người đại diện của ngân hàng.
Sau khi thử nghiệm thành công, Stern đã liên lạc trực tiếp với Chase để nói mình không có giao dịch nào với ngân hàng.
Một phát ngôn viên của Chase sau đó cho biết ngân hàng sử dụng sinh trắc học giọng nói, cùng với nhiều công cụ khác, để xác minh người gọi.
Phía Chase cho biết thêm tính năng này nhằm giúp khách hàng nhận dạng chính mình một cách nhanh chóng và an toàn. Tuy nhiên, để hoàn thành giao dịch và các yêu cầu tài chính khác, khách hàng phải cung cấp thêm thông tin.
Mặc dù vậy, điều đáng lo ngại nhất là những ứng dụng như ElevenLabs đã tạo ra một bản sao rất tốt mà không gặp nhiều trở ngại. Người dùng chỉ cần đồng ý với điều khoản chịu trách nhiệm là sẽ có thể tải lên các tệp âm thanh và tạo bản sao của mình.
Sau thử nghiệm của tờ WSJ, phía ElevenLabs cho biết sẽ khóa các tài khoản có dấu hiệu tạo nội dung lừa đảo hoặc vi phạm pháp luật. Bên cạnh đó, startup này cũng đang nghiên cứu công cụ dán nhãn AI cho video tạo từ nền tảng của hãng.
Trong khi đó, Synthesia yêu cầu file âm thanh và video phải có sự đồng ý bằng lời nói của người dùng. Đó cũng là lý do vì sao mà Stern phải tới phòng thu để quay phim và ghi âm trực tiếp với công ty.
Cách dùng Synthesia rất đơn giản khi nhập văn bản bất kỳ, người dùng sẽ nhận lại một video mới kèm giọng của họ nói về nội dung đó. Ảnh: WSJ. |
Theo Siobhan Johnson, phát ngôn viên của Cục Điều tra Liên bang Mỹ (FBI), trung bình các gia đình tại Mỹ đã mất khoảng 11.000 USD cho mỗi cuộc gọi lừa đảo.
Trong năm 2022, dữ liệu từ Ủy ban Thương mại Liên bang Mỹ (FTC) thống kê cho thấy người Mỹ đã mất tổng cộng 2,6 tỷ USD vì các cuộc gọi lừa đảo.
Sự phát triển của các chương trình AI rẻ tiền, dễ tiếp cận đã cho phép những kẻ lừa đảo thoải mái sao chép giọng nói và tạo ra các đoạn hội thoại nghe giống hệt như bản gốc.
“Mối đe dọa này không đơn thuần chỉ là giả thuyết. Chúng tôi đang chứng kiến những kẻ lừa đảo vũ khí hóa các công cụ này. Chúng có thể tạo ra một bản sao giọng nói tương đối tốt chỉ với đoạn âm thanh chưa đầy một phút. Thậm chí, với một số người, chỉ cần vài giây cũng là đủ”, Hany Farid, giáo sư ngành khoa học máy tính tại Đại học Berkeley ở California của Mỹ nhận xét.