私はChatGPTやClaudeなどのチャットボットをほぼ毎日使用して、簡単な質問に答えたり、問題を解決したり、ひどいコードを修正したり、口に出そうとしている言葉を理解したりしています。しかし、現在のAI チャットボットの大きな欠点の 1 つは、会話インターフェースに大きく制限されていることです。
クロードのコンピューター使用と ChatGPT オペレーターは、それを変えることを約束します。
組み込みの言語モデル、スクリーンショット、仮想マシンを組み合わせて使用し、人間がコンピューターを使用する方法を模倣し、ユーザーの許可を得てコンピューターを効果的に制御します。まだ完全に自律的というには程遠いですが、これは、独立して行動できる、アクセスしやすい汎用AI エージェントの作成に向けた最初の現実的な一歩です。
知っておくべきことは次のとおりです。
クロードのコンピュータ使用とOpenAIのOperatorが重要な理由は何ですか?
Claude や OpenAI Operator (新しいComputer-Using Agent [CUA]モデルを使用) などの AI コンピュータ AIエージェントがますます目立つようになってきているので、AIエージェントなしではどうなるかを理解するのは価値があります。これは、これらの進歩がいかに大きなものであるかを理解する上で役立ちます。
メインのチャットボット機能を除いて、AI チャットボットのほぼすべての機能はAPIに依存しています。これらは、 ChatGPT Searchなどのチャットボットの開発者が構築することも、 カスタム GPTなどのツールを使用してサードパーティの開発者が構築することもできます。
たとえば、旅行予約サービスである Kayak には、自分で試すことができる カスタム GPT があります 。かなり必要最低限のものです。ChatGPT を使用してプロンプトから関連する詳細を取得し、API を使用して Kayak に送信し、結果を表示します。機能はしますが、あまり柔軟性がなく、ChatGPT に別の航空券比較サイトをチェックするように依頼することも、航空会社から直接予約した場合の価格を確認することもできません。

API のみに依存する AI ツールには、他にもいくつか欠点があります。まず、アクセスしようとしているサイトまたはサービスに API が必要であり、さらにそのサイトまたはサービスが API を通じて必要なすべての機能を提供していることが必要です。Kayak の GPT でフライトを表示することはできますが、実際にフライトを予約したり、アカウントの電子メールアドレスを変更したり、ウェブサイトから実行できる他の無数の操作を実行したりすることはできません。
あらゆるウェブサイトを閲覧し、あらゆるアプリを使用し、あらゆるファイルを操作できるAIコンピュータエージェントがあれば、驚くべき進歩となるでしょう。たとえば、AI エージェントに Kayak で 3 つの異なる週末の旅行を検索させて料金を計算し、どれが一番安いかを教えてもらうこともできます。あなたに代わって旅行を予約することもできるかもしれないが、それは現在の AI コンピューター エージェントが実行できる範囲をはるかに超えるものだ。
AI コンピュータエージェントはどのように機能しますか?
AI コンピュータ エージェントは、単なるテキスト以上のものを理解できるマルチモーダル モデルや、より複雑な問題を解決できる推論モデルなど、AI の最近の進歩をいくつか統合します。
仕組みは次のとおりです。
彼らはスクリーンショットを使用してコンピューター画面を見て、何が起こっているのかを理解します。
複雑な指示を一連の論理的なステップに分解し、それを試してみて、期待どおりに動作しない場合は自己修正します。
仮想マウスとキーボードを使用して、仮想マシン内の通常のユーザー インターフェイスを操作できます。
これは、シンプルで繰り返し可能な AI ワークフローに分解されます。
スクリーンショットを撮ります。
目標に近づくための次のコンピュータアクションを決定します。
アクションを実行します。
スクリーンショットを撮ります。
目標に近づくための次のコンピュータアクションを決定します。
アクションを実行します。
目標に到達するまで繰り返します。
もちろん、内部では物事はもっと複雑です。AI エージェントは人間とコンピューターのインタラクションの基礎についてトレーニングする必要があり、これらの作業が機能し始める前に、スクリーンショットのピクセルを正確に数えて AI がカーソルをどこに移動してクリックするかを判断できるようにする技術を開発する必要がありました。
AIエージェントはUber、OpenTable、DoorDashなどの特定のプラットフォームでもトレーニングされており、「 確立された規範を尊重しながら」現実世界のサービスと連携できるようになる。(これは一度に 4 台の Uber を注文しないという意味だと思います。
現在、Claude のコンピュータ使用と ChatGPT Operator はどちらもベータ版の段階です。AI コンピュータ エージェントの構成要素はまとまり始めていますが、実際の主要な用途に使用できるほど信頼できるレベルには程遠いです。
AI コンピュータエージェントは何ができますか?
大きな進歩は、AI コンピューター エージェントが、速度と精度は劣るものの、人間のようにコンピューターを使用できるようになったことです。これらはテイラー・スウィフトのチケットを転売するような種類のチャットボットではありません。それでもデモでも多くの可能性を見せる。
Anthropic と OpenAI が、コンピューターを使用するエージェントがテキスト プロンプトから実行できることをいくつか示しました。
Windows、Mac、Linux システムをナビゲートし、ブラウザやその他のアプリを起動し、Web をナビゲートおよび検索します。
スプレッドシート、CRM、さまざまなデータ ソースからデータを取得してフォームに入力します。
Google で日の出ハイキングの情報を検索し、Google マップを使用して距離を計算し、出発に必要な時間に Google カレンダー イベントを作成します。
ToDoアプリでプロジェクトと買い物リストを作成します。
Allrecipes でレシピを見つけ、材料を Instacart ショッピング カートに追加します。
ファイルのダウンロード、PDF の結合、画像のエクスポート。
オンラインクイズを解く。
模擬eコマースバックエンドで特定の顧客情報を検索します。
これは、Claudeのコンピューター使用のデモの例です。
しかし、これは彼ら が今できることにすぎません。エキサイティングなのは、彼らが十分に上達したら何 ができるかということです。私の頭のてっぺんから、それは次のようなものです。
請求書発行、勤務時間の記録、アカウントの調整、経費の提出など、想像できるあらゆる退屈な経理業務。
スプレッドシートを操作して、さまざまなソースからデータを取得します。
オンラインストアで在庫切れの商品を確認し、在庫が入ったら注文します。
映画のチケットを予約したり、レストランが開いたらすぐに予約したりできます。
スパムフォルダをスキャンして、見逃した重要なものがないことを確認します。
オンラインサポートエージェントとチャットボットとの取引。
正直に言うと、これらは私が 30 秒間のブレインストーミングで思いついたことにすぎません。AI コンピュータ エージェントが役立つ方法は文字通り無数にあります。
AI コンピュータエージェントは現在どの程度優れているのでしょうか?
OpenAI は、Computer-Using Agent (CUA) の発表において、そのモデルが38 . 1 % を達成し、 OSWorld ベンチマークで新たな最先端のパフォーマンスを達成したと主張しています。Claudeのコンピューター使用率は、昨年10月に同じベンチマークで 22%に達しました。
落とし穴:普通の人間が 72。4%。
同様に、Anthropic は発売発表の中で、デモ ビデオを準備していたときに、Claude のコンピューターが誤って長時間の画面録画を停止するクリックをしてしまい、すべての映像が消去されたことを強調しました。
そして、スピードに関しても状況は似ています。現在、コンピューターを使用するエージェントは、一連の講義のダウンロード、PDFの結合、eコマースポータルでキャンセルが最も多い顧客の検索など、比較的単純なアクションを実行するために、数十または数百のステップを踏んでいます。これらのアクションを実行できること自体が非常に印象的ですが、既存のツール (または自分で行う) の方が間違いなく高速です。これらの AI エージェントを有用なものにするのは、スピードではなく、手間がかからない柔軟性です。
また、Anthropic と OpenAI の両社が安全性を重視していることも注目に値しますが、その理由は簡単に理解できます。チャットボット インターフェースに制限されている場合でも、これまでの AI モデルは間違った種類の見出しを作成してきました。ウェブブラウザへのフルアクセスにより、制限のないAIモデルがどのような敵対的な行動をとるか、またその誤りによってどのような損害を引き起こすかについては、実質的に制限がありません。
どちらもまだ完全に自律的に動作することはできません。ChatGPT Operator は、ログイン、CAPTCHA、または支払いの詳細を検出すると、仮想コンピューターの制御をユーザーに返します。この状況で、開発者の動きが遅いのは良いことだと感じます。
そして、これが AI コンピュータ エージェントが現在到達している核心です。これらは非常に印象的で、大きな将来性を示していますが、非常に遅く、特になじみのないインターフェースや複雑なタスクでは、依然として多くの間違いを犯します。安全上の懸念も非常に現実的です。低リスクのタスクで実際に役立つようになるまで、おそらくそう長くはかからないでしょうが、クレジットカードの詳細を子供に渡して Amazon で買い物をさせるのが賢明になるまでには、まだしばらく時間がかかると思います。
あらゆる警告にもかかわらず、これは私が最も興奮している AI 開発です。
Claude のコンピューター使用または ChatGPT オペレーターを試すことはできますか?
Claude Computer Use と ChatGPT Operator はどちらも一般に公開されていますが、テストするのはそれほど簡単ではありません。
クロードコンピュータの使用は API 経由でのみ可能です。技術的なスキルがあれば、開発環境で実行して楽しむことができます。
ChatGPT Operator は現在パブリックプレビュー中ですが、 ChatGPT Proサブスクライバーのみが対象です。その場合、月額 $ 200がかかります。
関連資料: