ウェビナー

ワークフローに最適なAIモデルの選び方:ワークフローとエージェントのパフォーマンスについて深く掘り下げる

Wednesday, June 24
1 PM ET

「一つのモデルを選んで、すべてで最高であることを願うわけではありません。異なる研究を異なるモデルにルーティングし、その違いを測定しているのです。」 — ブライアン・ヘルミグ、CTO兼Zapier 共同創業者

新しいモデルのリリースはいつも同じ疑問を投げかけます:乗り換えるべきか?

その質問の下には、どのワークフローについて?エージェント?そして、最新モデルはトークンを使い切る価値があるのでしょうか?

ほとんどのチームは推測するか、フロンティアモデルでトークンを燃やすしかありませんが、安価なモデルでも問題ありません。

AutomationBenchこそがZapierがこれらの疑問に明確に答える方法です。それは、Anthropicのようなフロンティアラボがモデルシステムカードで引用する実行基準であり、モデルがハードで実際のビジネスワークフローを完了できるかどうかを測定しています。AutomationBenchは、営業、マーケティング、オペレーション、サポート、財務、人事の6つのビジネス領域にわたるモデルを、共通するユースケースパターンに基づいて選定したモデルを評価 3。7M企業と 2B月のタスクをZapierが見ています。

Zapierの技術リーダーが参加し、さまざまな役割やワークフローに最適なモデルの選び方をライブセッションにご参加ください。主な内容は以下の通りです:

– 同じビジネスタスクにおけるフロンティアプロバイダー間の並べた成果比較
– コスト重視のルーティング:プレミアムモデルが必要な場合と予算を無駄にしている場合
– ドットが船をリリースした際の実用的な再評価パターン――つまり、影響をテストしているのであって、雰囲気をテストしているわけではありません
– AutomationBenchの結果を証明:Zapier(およびAnthropicのようなラボ)が難しいワークフローの実行をどのように測定しているか

Opus 4を使うべきタイミングについて、よりよく理解できるはずです。8,ChatGPT 5。5、または双子座 3。5フラッシュ。

もしあなたがAIの責任者、イノベーションやITリーダー、あるいは組織でエージェントを運営するビルダーであれば、このウェビナーはあなたのためのものです。

席を確保してください。登録者と共有された録音。

Bryan Helmig

共同創業者兼CTO, Zapier

Lukas Bergstrom

Lead Product Manager, Zapier

ライアン・クインドレン

リードソーシャルメディアマーケター、ザピア

This webinar will be packed with lots of live examples, real cost data, and side-by-side use case breakdowns. We'll go deep on:

– What AutomationBench actually measures: Why it's the benchmark labs use to validate model quality on business workflows (not abstract reasoning or coding tests)

– Side-by-side model comparisons on the same workflows: See how outputs, accuracy, and costs differ across OpenAI, Anthropic, and Google on real tasks

– Domain-by-domain winners: Which models excel at department-specific workflows (HR vs. marketing vs. sales)—and where you're overpaying for capability you don't need

– Cost vs performance tradeoffs: Real examples of $6/task vs $0.65/task on hard execution work—and how to route workflows to avoid token burn

– Monday takeaway: A repeatable framework for auditing your workflows, mapping them to models, and setting re-eval triggers when new releases ship

Can’t attend live?

今すぐ登録