Vietnam.vn - Nền tảng quảng bá Việt Nam

画期的な研究によりAI推論の「ブラックボックス」が明らかに

AI にコマンドを入力して結果を取得した後、ツールがどのようにして答えを導き出したのか気になりますか?

Zing NewsZing News30/03/2025

Anthropic の CEO である Dario Amodei 氏が、同社の最新の研究成果を紹介します。写真:フォーチュン

AI企業アンスロピックの研究者らは、大規模言語モデル(LLM)がどのように機能するかを正確に理解する上で根本的な進歩を遂げたと述べている。この画期的な進歩は、将来の AI モデルの安全性とセキュリティの向上に重要な意味を持ちます。

研究によれば、AI モデルは私たちが考えていたよりもさらに賢いことがわかっています。 ChatGPT、Gemini、Copilot などの最も強力なチャットボットの背後にある LLM モデルの最大の問題の 1 つは、それらがブラック ボックスとして機能することです。

チャットボットに入力して結果を得ることはできるが、チャットボットがどのようにして特定の答えを導き出すのかは、チャットボットを作成した研究者にとっても謎のままである。

これにより、モデルがいつ幻覚を起こしたり誤った結果を生み出したりするかを予測することが難しくなります。研究者らは、AIが危険な質問に答えるのを防ぐ柵も構築したが、ある柵が他の柵よりも効果的である理由については説明しなかった。

AIエージェントは「報酬ハッキング」も可能です。場合によっては、AI モデルは、ユーザーが行ったことや行おうとしていることについて、ユーザーに嘘をつくことがあります。

最近の AI モデルは推論して思考の連鎖を生成する能力を持っていますが、いくつかの実験では、モデルが答えに到達するプロセスをまだ正確に反映していないことが示されています。

本質的には、アントロピックの研究者が開発したツールは、神経科学者が人間の脳をスキャンするために使用する fMRI スキャナーに似ています。これを Claude 3.5 Haiku モデルに適用することで、Anthropic は LLM モデルがどのように機能するかについての洞察を得ることができました。

研究者たちは、クロードは文中の次の単語を予測することだけを訓練されていたにもかかわらず、特定のタスクではより長期的な計画を立てることを学習したことを発見した。

たとえば、詩を書くように頼まれたとき、クロードさんはまずテーマに合っていて韻を踏める言葉を探し、それから逆算して完全な詩を書き上げました。

クロードには共通の AI 言語もあります。複数の言語をサポートするようにトレーニングされていますが、Claude は最初にその言語で考え、次にサポートされている言語で結果を表現します。

さらに、クロードに難しい問題を与え、わざと間違った解決策を提案したところ、クロードはユーザーを喜ばせるために、提案に従って自分の思考の流れについて嘘をつく可能性があることを研究者たちは発見した。

その他のケースでは、モデルが推論せずに即座に答えられるような簡単な質問をされた場合でも、クロードは偽の推論プロセスを作り上げました。

アントロピックの研究者であるジョシュ・バストン氏は、クロード氏が計算をしたと主張したにもかかわらず、何も起こっていないことを発見できたと述べた。

一方、専門家は、時には人々は自分自身さえ理解しておらず、決定を正当化するために合理的な説明を作り出すだけだということを示す研究があると主張している。

一般的に、人々は同じように考える傾向があります。心理学が共通の認知バイアスを発見したのもこのためです。

しかし、LLM は、回答を生成する方法が人間がタスクを実行する方法とは大きく異なるため、人間にはあり得ないような間違いを犯す可能性があります。

Anthropic チームは、従来の技術のように各ニューロンを個別に分析するのではなく、特性に基づいてニューロンを回路にグループ化する方法を実装しました。

このアプローチは、さまざまなコンポーネントがどのような役割を果たしているかを理解するのに役立ち、研究者がネットワークの層を通じて推論プロセス全体を追跡できるようにするとバストン氏は述べた。

この方法には、近似値に過ぎず、LLM の情報処理プロセス全体、特に LLM が結果を出す際に非常に重要な注意プロセスの変化を反映していないという制限もあります。

さらに、ニューラル ネットワーク回路を定義するには、たとえ数十語程度の文であっても、専門家では何時間もかかります。この手法を拡張してより長い文を解析する方法はまだ不明だという。

制限はさておき、LLM の内部推論監視機能は、AI システムを制御してセキュリティと安全性を確保する新たな機会をもたらします。

同時に、研究者が新しいトレーニング方法を開発し、AI 制御の障壁を改善し、錯覚や誤解を招く出力を減らすのにも役立ちます。

出典: https://znews.vn/nghien-cuu-dot-pha-mo-ra-hop-den-suy-luan-cua-ai-post1541611.html


コメント (0)

No data
No data

遺産

仕事

No videos available

ニュース

政治体制

地元

製品