Proof Newsの調査により、これらの企業は、EleutherAIという非営利団体が作成したデータセットを使用していたことが判明しました。このデータセットには、コンテンツの所有者や作成者に許可を求めることなく、48,000を超えるチャンネルのYouTube動画コンテンツの録画が含まれていました。

データセットには画像や動画は含まれていませんが、コンテンツは、Marques Brownlee や MrBeast などプラットフォーム上のトップコンテンツクリエイターや、The New York Times、BBC、ABC News などの主要なニュース出版社から収集されています。さらに、Engadget が所有するビデオの字幕もあります。

8d541010 38d9 11ef b7fd 2183e5dd7ce6.jpg
Apple IntelligenceがYouTubeのクリエイティブコミュニティのデータを違法に使用したとして告発された。写真: Yahoo Tech

「AppleはAI用のデータを複数の企業から入手している」と人気YouTuberのブラウンリーはXに投稿した。「その1つは、私のものも含め、YouTube動画からの大量のデータや録画だ」

以前、YouTubeのCEOであるニール・モハン氏は、企業がYouTubeのデータを使用してAIモデルをトレーニングすることは、同プラットフォームの利用規約に違反するものであると主張していた。

現在、AI 企業はアルゴリズムのトレーニングに使用されるデータについて透明性を保っていません。今月初め、アーティストや写真家らは、今年何百万台ものAppleデバイスで利用可能になる新しいAI機能「Apple Intelligence」のトレーニングデータソースをAppleが開示していないと批判した。

世界最大の動画リポジトリである YouTube は、トランスクリプト、音声、動画、画像など、AI をトレーニングするためのデータの宝庫でもあります。

今年初め、OpenAIの最高技術責任者ミラ・ムラティ氏は、同社が今後リリース予定のAI動画作成ツール「Sora」のトレーニングにYouTube動画を使用したかどうかについてのウォール・ストリート・ジャーナルの質問を避けた。

「使用されたデータの詳細については触れないが、ライセンスを受けたデータ、もしくは公開されているデータだった」とムラティ氏は当時語った。一方、アルファベットのCEO、サンダー・ピチャイ氏も、YouTubeのデータを使ってAIモデルを訓練する企業は同プラットフォームの利用規約に違反していると強調した。

(Proof News、WSJによると)

Apple、Samsungが中国のスマートフォンブランドを上回るCounterpoint Researchのデータによると、世界のスマートフォン市場は2024年第2四半期に6%成長し、AppleとSamsungがトップ2の座を獲得し、Xiaomi、Vivo、Oppoなどの中国ブランドがそれに続いた。