Gần đây, Baidu Baike – dịch vụ tương tự Wikipedia bằng tiếng Trung đã cập nhật tệp robots.txt – tệp hướng dẫn các công cụ tìm kiếm về những địa chỉ web nào có thể truy cập – và hoàn toàn chặn Googlebot và Bingbot không được phép lập chỉ mục nội dung từ nền tảng này.
Động thái này cho thấy Baidu đang nỗ lực bảo vệ tài sản trực tuyến của mình trong bối cảnh nhu cầu sử dụng dữ liệu lớn tăng cao để phát triển các mô hình và ứng dụng trí tuệ nhân tạo (AI).
Sau bản cập nhật robots.txt của Baidu Baike, khảo sát của SCMP cho thấy nhiều mục từ nền tảng này vẫn xuất hiện trên kết quả tìm kiếm của Google và Bing, có thể là từ nội dung cũ đã được lưu trữ trước đó.
Hơn hai năm sau khi OpenAI ra mắt ChatGPT, nhiều nhà phát triển AI lớn trên thế giới đang ký thỏa thuận với các nhà xuất bản nội dung để truy cập nội dung chất lượng cho các dự án GenAI của họ.
OpenAI đã ký thỏa thuận với tạp chí Time vào tháng 6 để truy cập vào toàn bộ nội dung lưu trữ trong hơn 100 năm lịch sử của tạp chí này.
Cao Phong (theo SCMP)
Nguồn: https://www.congluan.vn/baidu-chan-google-va-bing-thu-thap-noi-dung-truc-tuyen-post309081.html