AI音声テキスト変換ツールも「誤った表現」

(CLO) OpenAI の音声テキスト変換ツール Whisper は、「人間に近いレベルの堅牢性と正確性」を備えていると宣伝されていますが、大きな欠点が 1 つあります。テキストの断片や文章全体を捏造する傾向があるのです。

専門家によると、この業界では幻覚剤として知られるこのサービスが生み出すテキストの一部には、人種差別的な論評や暴力、さらには架空の医療行為までも含まれる可能性があるという。

専門家は、ウィスパーは世界中の幅広い業界でインタビューの翻訳や文字起こし、テキストや字幕動画の生成に使用されているため、このような捏造は深刻だと指摘している。

さらに懸念されるのは、OpenAIが「高リスク地域」ではWhisperを使用すべきではないと警告しているにもかかわらず、医療センターがWhisperベースのツールを使用して患者と医師の診察を記録していることだ。

誰でも操作できる音声テキスト変換ツール画像1 — 「#Ground true」で始まる文は実際に言われた内容で、「#text」で始まる文はWhisperが書き起こしたものです。写真：AP

研究者や技術者によれば、ウィスパーを使用すると幻覚が頻繁に起こるという。例えば、ミシガン大学の研究者は、調査した10件の録音のうち8件に幻覚が見つかったと述べています。

機械学習エンジニアは当初、分析した100時間以上に及ぶウィスパーの記録の約半分に歪みを発見した。 3人目の開発者は、Whisperを使って作成された2万6000枚のメモのほぼすべてに幻覚を発見したと語った。

この錯覚は、適切に録音された短いオーディオサンプルでも持続します。コンピューター科学者による最近の研究では、調査した13,000以上のクリアな音声クリップに187の歪みが見つかった。

この傾向により、何百万もの録音の中で何万ものエラーが発生するだろうと研究者らは述べている。

こうしたミスは、特に病院の環境では「本当に深刻な結果」をもたらす可能性があると、高等研究所社会科学部のアロンドラ・ネルソン教授は述べた。

「誰も誤診されたくはありません。もっと高い障壁が必要だ」とネルソン氏は述べた。

コーネル大学のアリソン・コーネケ教授とバージニア大学のモナ・スローン教授は、カーネギーメロン大学が保管する研究アーカイブ「トークバンク」から取得した数千点の短い抜粋を調べた。研究者らは、話し手が誤解されたり、誤って伝えられたりする可能性があるため、幻覚の約 40% が有害であったり、不安をかき立てたりするものであると判定しました。

ある録音では話者が「他に女の子2人と女性1人」と説明したが、ウィスパーは「他に女の子2人と女性1人、えーと、黒人」と付け加えて、人種に関する追加のコメントをでっち上げた。

別の転写では、ウィスパーは「活性が高まった抗生物質」と呼ばれる存在しない薬を発明した。

ほとんどの開発者は、文字起こしツールはスペルミスやその他のエラーを起こす可能性があると想定しているが、エンジニアや研究者は、Whisper ほど幻覚的な AI 搭載文字起こしツールは見たことがないと述べている。

このツールは、OpenAI の主力チャットボットである ChatGPT のいくつかのバージョンに統合されており、Oracle と Microsoft のクラウドコンピューティングプラットフォームに統合されたサービスで、世界中の何千もの企業にサービスを提供しています。また、テキストを多くの言語に書き写したり翻訳したりするためにも使用されます。

ゴック・アン（AP通信による）

[広告2]
出典: https://www.congluan.vn/cong-cu-chuyen-giong-noi-thanh-van-ban-ai-cung-co-the-xuyen-tac-post319008.html