
Simular AIが、コンピュータ操作を自動化するAIエージェントの最新版「Agent S3」を発表しました。わずか1年前の20%から69.9%への飛躍的な性能向上を実現し、人間の72%に迫る精度を達成。この発表は、業務の完全自動化に向けた重要なマイルストーンとして業界に大きなインパクトを与えています。
この発表の最重要ポイント
- 人間レベルに迫る性能:OSWorldベンチマークで69.9%を達成(人間は72%)
- 従来技術を10%上回る性能向上:前回SOTA(State-of-the-Art)の59.9%から大幅改善
- 完全オープンソース:研究コミュニティに全コードとモデルを公開
- 新手法「Behavior Best-of-N」:複数の実行結果から最適解を選択する革新的アプローチ
現時点で判明していること
ユーザーへの具体的なメリット
Agent S3は、ブラウザ操作からアプリケーション操作まで、これまで人間が手動で行っていた複雑なコンピュータ操作を自動化できます。チケット予約、フォーム入力、アプリ間でのデータ移動など、長時間にわたる作業も高い精度で実行可能です。
主要な技術的進化点
最大の革新は「Behavior Best-of-N(bBoN)」手法の導入です。従来のように1回の実行結果に依存するのではなく、複数の実行を並列で行い、その中から最も適切な結果を選択します。また、Agent S2の階層的なマネージャー・ワーカー構造を簡素化し、ネイティブなコーディングエージェントを導入することで、効率性と多様性を大幅に向上させました。
性能の詳細データ
- OSWorld単体性能:62.6%(従来SOTA 61.4%を上回る)
- bBoN適用後:69.9%(7.3%の絶対的改善)
- WindowsAgentArena:50.2%→56.6%(6.4%向上)
- AndroidWorld:68.1%→71.6%(3.5%向上)

提供形態と利用方法
Agent S3は完全オープンソースとして公開されており、GitHubから無料でアクセス可能です。研究者や開発者は、論文、コード、ブログ記事のすべてにアクセスでき、独自のアプリケーションに統合できます。
公式発表へのリンク
論文:http://arxiv.org/abs/2510.02250
GitHub:http://github.com/simular-ai/Agent-S
公式サイト:https://simular.ai/articles/agent-s3
