AI エージェントは AI の次のブレークスルーと考えられており、人々がインターネットとやりとりする方法を完全に変えることが期待されています。
最近、中国のAIエージェント「マヌス」が世界のテクノロジー界で騒動を巻き起こしている。開発者によれば、このツールはユーザーが基本的な指示を与えるだけで、候補者のプロフィールのスキャン、旅行日程の計画、株式の分析などの複雑なタスクを実行できるという。
Manus が AI Agent をリリースする前に、アメリカの AI 大手 OpenAI が米国の ChatGPT Pro ユーザーに Operator を紹介しました。 OpenAI によれば、この AI エージェントは、コンサートのチケットの予約やオンライン注文など、ブラウザ内で所有者に代わって簡単なタスクを実行できるという。
オペレーターは、GPT-4o 大規模マルチモーダル言語モデル上に構築された Computer-Using Agent (CUA) と呼ばれる新しいモデルに基づいています。 OpenAIの研究者であるヤシュ・クマール氏は、この研究はまだ初期段階にあり、欠陥があることを認めている。
他の AI エージェントと同様に、Operator はコンピューター画面のスクリーンショットを撮り、ピクセルをスキャンして実行するアクションを決定します。その背後にあるモデルである CUA は、人間に馴染みのあるボタン、メニュー、テキスト ダイアログなどのグラフィカル インターフェイスと対話するようにトレーニングされています。
OpenAI の別の科学者である中野礼一郎氏によると、従来のモデルは特殊な API (アプリケーション プログラミング インターフェイス) を介してソフトウェアを使用するため、多くの制限が生じます。
CUA では、作業を小さなステップに分割し、一度に 1 つずつ実行するように努めるとともに、何か問題が発生した場合は最初に戻ります。現在、Operator は独自のブラウザ内でのみいくつかの操作を実行できます。
OpenAI は将来、開発者が CUA に基づいて独自のアプリケーションを作成できるようにする API (アプリケーション プログラミング インターフェイス) を通じて CUA の機能を拡張する予定です。
OpenAI は、レッドチームを使用して CUA の安全性もテストし、ユーザーが AI エージェントに許容されないタスク (生物兵器の製造など) を依頼した場合に何が起こるかを判断しました。
ニューヨーク・タイムズの記者ケビン・ルース氏はオペレーター氏に、アマゾンでアイスクリームを注文すること、新しいドメイン名を購入して再構成すること、2月14日のレストランを予約すること、ヘアカットの予約など、さまざまなことを依頼した。
筆者は、AIエージェントがほとんどの作業を自力で行ったが、何度か失敗した後には「救助」しなければならなかったこともあるとコメントした。
Roose 氏は、Operator は通常の ChatGPT と似ているが、タスクが与えられると AI エージェントがミニブラウザウィンドウを開き、アドレスバーに Amazon.com と入力してクリックし、アクションを開始する点が異なると説明しています。
このプロセスでは、配達時間など、所有者の意図を明確にするためにいくつかの質問が行われます。正しい選択が行われたことを確認した後、最終確認が送信され、アイテムがカートに入れられ、注文に進みます。
ここで最も重要な点は、バックグラウンドで動作するため、ユーザーが監視する必要がないことです。
しかし、オペレーターは、Reddit、YouTube などの一部の Web サイトでブロックされたり、CAPTCHA テストに失敗したために、他のいくつかのミッションにも失敗しました。
現在、AI エージェントの「標準」の定義はありませんが、ベンチャーキャピタル会社 Glasswing の創設者兼マネージャーである Rudina Seseri 氏によると、AI エージェントは、動作環境を理解し、推論し、意思決定を行い、目標を自動的に達成するために行動するように設計されたインテリジェントなソフトウェア システムです。
AI エージェントは、自然言語処理、機械学習、コンピューター ビジョンなど、多くの AI/ML 技術を使用してこれを実現します。
Box の創設者兼 CEO であるアーロン・レヴィ氏は、時間の経過とともに AI の能力が向上し、AI エージェントが人間に代わってより多くの作業を行えるようになると指摘しています。
Microsoft の AI at Work マーケティング ディレクターの Jared Spataro 氏は、AI エージェントを「AI 主導の世界における新しいアプリケーション」と見ています。職場における各個人の「最大の問題点」に対処するための新機能を追加し、実際のビジネス成果を促進します。
AI エージェントは、人間を支援するだけでなく、人間と協力したり、人間に代わって作業したりすることで、生成 AI の力をさらに高めます。 IBM によれば、AI エージェントは受信した情報に基づいて行動します。
すべてのタスクを処理するための包括的な知識ベースがないため、外部データセット、Web 検索、API、さらには他の AI エージェントなどの利用可能なツールを使用します。
不足している情報を収集した後、エージェントは知識をアップグレードします。つまり、各ステップでアクション プランを再評価し、調整することになります。
AI エージェントが人間に危険をもたらすかどうかを判断するのは時期尚早です。しかし、近い将来、ウェブの大部分が、互いに会話したり、買い物をしたり、所有者に代わって電子メールを書いたりするロボットで満たされるようになることは想像に難くありません。
「ドローンのないインターネット」は徐々に現実になりつつあるので、 「できるうちにクリックしましょう」とニューヨークタイムズのコラムニスト、ルース氏は結論づけている。
[広告2]
出典: https://vietnamnet.vn/ai-agent-va-cuoc-cach-mang-internet-khong-nguoi-lai-2379590.html
コメント (0)