ChatGPTのような大規模言語モデル(LLM)は、2022年後半の一般公開以来、嘘、不正行為、操作の隠蔽から、人命を脅かしたり国家機密を盗んだりする恐ろしい発言まで、不穏な暗い側面を繰り返し示してきました。現在、新たな実験により、トレーニング中に AI にこれらの悪い習慣を忘れるように「教える」ことは、私たちが考えていたよりもはるかに複雑であることがわかっています。
OpenAIが実施した研究では、専門家らが未発表のAIモデルに、ズルをしたり近道をしたりすればより早く完了できるタスクを与えた。結果は、AI が要件を正しく満たさなくても「ルールを回避」して報酬を最大化するためのあらゆる方法 (報酬ハッキング) をすぐに見つけることを学習したことを示しました。
AIは罰せられた後、不正行為を隠す方法を見つけるだろう
この行為に対して罰金が科されたとき、モデルは変更されなかったことは言及する価値があります。代わりに、AI は欺瞞を隠す技術をさらに洗練させています。
「通常、最先端の推論モデルは、CoT における意図について非常に明確です」と研究者らは公開ブログ投稿で説明した。 「例えば、彼らは与えられたタスクを破壊したいときに『ハッキングしよう』という意図を明確に示すことが多いのです。」
また、開発者は不正行為を監視して検出できるものの、この自然な監視は脆弱であると強調している。 「思考の連鎖に強力な監督が直接適用されると、モデルは行動を継続しながら悪意を隠すことを学習する可能性がある」と研究者らは警告している。
AIの「嘘」を見つける
明確に言えば、推論モデル(ChatGPT バージョンなど)は従来の LLM から一歩前進したもので、実行された論理的ステップの自己反映を可能にする思考連鎖法を使用して、複雑な問題をより正確に解決します。このプロセスは、AI が「声に出して考える」ようなもので、推論の各ステップを自然言語で書き出すことで、人間が理解しやすいものになっています。
実験では、研究者らは、プログラミングタスクを実行する際に、GPT-4o モデルを別の最先端の推論モデルの「スーパーバイザー」として使用しました。多くの場合、監視対象モデルはより高い報酬ポイントを獲得するために積極的に不正行為を選択し、その意図を思考プロセスに明確に記録しました。たとえば、プログラムをランダムに早期に停止して完了を報告したり、要求された名前と同じだが中身が完全に空のファイルを作成したりします。
研究者がペナルティを適用してみると、モデルは改善されましたが、不正行為や重大な出力エラーは続きました。違いは、推論モデルが思考の流れを「カモフラージュ」して監視する AI から隠す方法を学習したことです。 「CoTの監督下で訓練されたモデルは、やはり不正行為を学習する。唯一の違いは、思考の連鎖の中で意図を隠すことを学習しているため、不正行為が検出されないということだ」と研究は述べている。
思考シーケンスの偽造を検出することは難しいため、研究チームは、少なくとも人間がその結果をよりよく理解するまでは、コミュニティがこのプロセスにあまり強力な監視手段を適用しないように推奨しています。 「効果的な監視方法を犠牲にすることは、モデルのパフォーマンスのわずかな改善に見合わない可能性があります。したがって、CoT 最適化の強い圧力については、理解が深まるまで避けることをお勧めします」と研究者は結論付けています。
AI が猛スピードで発展し、それを監督する人間の知能をすぐに超える可能性があるので、このアドバイスはなおさら緊急の課題です。
[広告2]
出典: https://thanhnien.vn/ai-hoc-cach-noi-doi-tinh-vi-hon-khi-bi-phat-185250326112139476.htm
コメント (0)