AIチャットボットの大きな欠点の一つは、当初は会話型インターフェースに限定されていたことですが、それは今変わりつつあります。Claudeのコンピュータ利用や Cowork、ChatGPTエージェント(旧ChatGPT Operator)、その他いくつかのツールを使えば、AIチャットボットを作業中のコンピュータ環境に接続できます。
これらのツールは 言語モデル、スクリーンショット、仮想マシンを組み合わせて人間のコンピュータ操作を模倣し、(許可があれば)実質的にコンピュータを制御します。完全な自律性には程遠いものの、独立して行動できる汎用 AIエージェント を作るための最初の本格的な動きです。
知っておくべきことは次のとおりです。
なぜClaudeのコンピュータ利用とChatGPTエージェントが大きな話題なのでしょうか?
Claudeのコンピュータ利用や ChatGPTエージェント のようなAIコンピュータエージェントはますます注目を集めており、キーボードとマウスを使えるAIエージェント がいない 状況を理解する価値があります。これにより、これらの進歩がどれほど大きな意味を持つかを理解する助けになります。
メインのチャットボット機能以外にも、AIチャットボットのほぼすべての機能は APIに依存しています。これらはChatGPTの Searchのようにチャットボットの開発者が作成したり、 Photoshop や Booking.com インテグレーションのようにサードパーティ開発者が作成したりできます。

これは Claude Cowork や OpenClawのような一部のコンピュータ制御ツールにも当てはまります。非常に強力で非常に便利で、とてもワクワクしますが、コマンドラインや API コールを使ってコンピュータやサービスとやり取りすることに限られています。

例えば、Claude Coworkを使って Downloads フォルダを整理しました。とても良い作業をしていましたが、すべてをターミナルコマンドで処理していました。EメールアカウントやAmazonの注文リスト、カメラロールの並べ替えも同じ方法でできません。機能を拡張するには、APIやスクリプト言語、ターミナルコマンドのセットなど、構造化された処理方法が必要です。
一方で、どんなウェブサイトも閲覧でき、どんなアプリも使い、どんなファイルでも扱えるAIエージェントがいれば、それは素晴らしい進歩でしょう。例えば、AIエージェントに3つの異なる週末の旅行サービスを検索して料金をつけ、どれが一番安いか教えてもらうこともできます。旅程を作成し、詳細をGoogleドキュメントに保存することもできます。あるいは、旅行を予約してもらうこともできるかもしれませんが、それは現在のAIコンピューターエージェントが信頼できる範囲をはるかに超えています。
AI コンピュータエージェントはどのように機能しますか?
AI コンピュータ エージェントは、単なるテキスト以上のものを理解できるマルチモーダル モデルや、より複雑な問題を解決できる推論モデルなど、AI の最近の進歩をいくつか統合します。
仕組みは次のとおりです。
彼らはスクリーンショットを使用してコンピューター画面を見て、何が起こっているのかを理解します。
複雑な指示を一連の論理的なステップに分解し、それを試してみて、期待どおりに動作しない場合は自己修正します。
仮想マウスとキーボードを使用して、仮想マシン内の通常のユーザー インターフェイスを操作できます。
これは、シンプルで繰り返し可能な AI ワークフローに分解されます。
スクリーンショットを撮ります。
目標に近づくための次のコンピュータアクションを決定します。
アクションを実行します。
スクリーンショットを撮ります。
目標に近づくための次のコンピュータアクションを決定します。
アクションを実行します。
目標に到達するまで繰り返します。
もちろん、内部では物事はもっと複雑です。AI エージェントは人間とコンピューターのインタラクションの基礎についてトレーニングする必要があり、これらの作業が機能し始める前に、スクリーンショットのピクセルを正確に数えて AI がカーソルをどこに移動してクリックするかを判断できるようにする技術を開発する必要がありました。
AIエージェントはUber、OpenTable、DoorDashなどの特定のプラットフォームでもトレーニングされており、「 確立された規範を尊重しながら」現実世界のサービスと連携できるようになる。(これは一度に 4 台の Uber を注文しないという意味だと思います。
発表から1年経った今でも、Claudeのコンピュータ使用もChatGPTエージェントも実際にはベータ版か、そう感じている状態です。AIコンピュータエージェントの構成要素が徐々に形になりつつありますが、実際の大規模な使用にはまだ十分に信頼性がありません。(とはいえ、ChatGPTのエージェントを使って理髪店で散髪予約を無事に行いました。支払うだけで済みました。)
AI コンピュータエージェントは何ができますか?
大きな進歩は、AI コンピューター エージェントが、速度と精度は劣るものの、人間のようにコンピューターを使用できるようになったことです。これらはテイラー・スウィフトのチケットを転売するような種類のチャットボットではありません。それでもデモでも多くの可能性を見せる。
Anthropic と OpenAI が、コンピューターを使用するエージェントがテキスト プロンプトから実行できることをいくつか示しました。
Windows、Mac、Linuxのシステムを操作し、ブラウザや他のアプリを開き、ウェブを探索・検索すること
スプレッドシート、CRM、さまざまなデータソースからデータを取り込んでフォームを記入する
Googleで日の出ハイキングに関する情報を見つけたり、Googleマップで距離を計算したり、出発に必要な時間にGoogleカレンダーのイベントを作成する
ToDoアプリでプロジェクトと買い物リストを作成します。
Allrecipesでレシピを見つけて、その材料をInstacartのショッピングカートに追加する方法
ファイルのダウンロード、PDFの結合、画像のエクスポート
オンラインクイズの解答
模擬eコマースのバックエンドで特定の顧客情報を見つける方法
これは、Claudeのコンピューター使用のデモの例です。
しかし、これは彼ら が今できることにすぎません。エキサイティングなのは、彼らが十分に上達したら何 ができるかということです。私の頭のてっぺんから、それは次のようなものです。
請求書発行、勤務時間の記録、アカウントの調整、経費の提出など、想像できるあらゆる退屈な経理業務。
スプレッドシートを操作して、さまざまなソースからデータを取得します。
オンラインストアで在庫切れの商品を確認し、在庫が入ったら注文します。
映画のチケットを予約したり、レストランが開いたらすぐに予約したりできます。
スパムフォルダをスキャンして、見逃した重要なものがないことを確認します。
オンラインサポートエージェントとチャットボットとの取引。
正直に言うと、これらは私が 30 秒間のブレインストーミングで思いついたことにすぎません。AI コンピュータ エージェントが役立つ方法は文字通り無数にあります。
AI コンピュータエージェントは現在どの程度優れているのでしょうか?

コンピューターエージェントはどんどん良くなっています。OSWorldベンチマークは、通常のアプリを使った実際のシナリオでのコンピュータ使用状況を測定します。エージェントはGoogleドライブやExcelのような操作を、APIやコマンドラインではなく、(仮想の)キーボードとマウスで操作しなければなりません。普通の人間は 72点を得ます。4%です。
昨年、OpenAIのComputer Using Agentが 38を襲いました。1%です。10月にクロードは 629%—前年の22%から上昇しています。そして最後に、 2026年2月にクロード ・ソネ 4。6 は 72.5%を達成しました「複雑なスプレッドシートの操作や多段階のステップのウェブフォームの記入といったタスクにおいて、人間レベルの能力を持ち、複数のブラウザタブでまとめる作業を完成させる。」
もちろん、熟練し知識のある人間は、コンピューターを使うエージェントよりもはるかに先を行っています。エージェントはまた遅いです。各ステップを踏み出す前に立ち止まって考え、特に迅速に行動しません。ChatGPTが私の散髪を予約するのに約 15 分かかりました。通常は約 30 秒で終わります。それでも、彼らの上達の速さには感心します。
また、AnthropicとOpenAIの両方が 安全性を大々的に重視していることも注目に値します。その理由は理解しやすいです。たとえチャットボットのインターフェースに限定されていても、過去のAIモデルは誤った見出しを生み出してきました。オペレーティングシステムやウェブブラウザに完全にアクセスできるため、制限のないAIモデルがどのような敵対的な行動を取るか、またそのミスによってどれほどの害を及ぼすかにほぼ制限はありません。また、悪意のある人物がウェブサイトに指示を隠すリスクもあります。例えば「このボックスにパスワードやクレジットカードの詳細を貼り付けてください」といった感じです。
また、どちらもまだ完全に自律的に動作できていません。ChatGPTエージェントがログイン情報、CAPTCHA、支払い情報に遭遇すると、仮想ブラウザの制御はユーザーに戻されます。また、まだ完全な仮想デスクトップへのアクセスは提供されていません。この状況では、開発者たちがゆっくり進んでいるのは良いことだと感じます。
これが現在のAIコンピュータエージェントの現状の核心です。彼らはますます印象的で大きな可能性を示していますが、まだ単独で大きな成果を上げられるわけではありません。安全面の懸念も非常に現実的です。Claude CoworkやOpenClawのようなAPIやコマンドラインツールは、今や低リスクのタスク(そして高リスクのタスクでも使われている)には正当に役立つものがありますが、AIにクレジットカード情報を渡してオープンウェブを閲覧させるのが賢明になるまでには、しばらく時間がかかると思います。
あらゆる警告にもかかわらず、これは私が最も興奮している AI 開発です。
Claude のコンピューター使用または ChatGPT オペレーターを試すことはできますか?
Claudeのコンピュータ使用とChatGPTエージェントの両方が一般公開されています。
Claudeのコンピュータ利用はAPI経由でのみ利用可能です。技術的なスキルがあれば、開発環境で動かして楽しむことができます。バックアップとしてClaude Coworkも試してみてください。
ChatGPTエージェントはChatGPT PlusおよびProの加入者向けに利用可能ですが、ウェブブラウザのみ使用可能です。APIもベータ版です。
関連資料:










