特集
FEATURE
ビジネス
BUSINESS
ラーニング
LEARNING
エンジニアリング
ENGINEERING
学術&研究
ACADEMICS & STUDY
公共
PUBLIC
エンタメ&アート
ENTERTAINMENT & ART
1~13 / 2671件
Anthropicは2026年2月18日、公式ブログ「Measuring AI agent autonomy in practice」を公開し、自社のコーディングエージェント「Claude Code」および公開API経由で収集した数百万件規模の人間―AI対話データを分析した結果を[発表]{target=“_blank”}した。 実社会で稼働するAIエージェントがどの程度の自律性を発揮しているのかを、実運用ログに基づいて定量的に示した初の包括的分析となる。 ## 自律稼働時間は3カ月で約2倍に Claude Codeにおける最長稼働セッション(99.9パーセンタイル)のターン時間は、2025年秋時点で25分未満だったが、2026年1月には45分超へと拡大した。約3カ月でほぼ2倍に伸びた計算となる。 一方、中央値は約45秒で安定しており、大多数の利用は短時間に集中している。自律性の拡張は、長時間稼働の“尾部”で進行している構造が示された。 **■ 99.9パーセンタイルのターン時間推移。2025年秋から2026年初頭にかけて約2倍に拡大** ![how long does claude code work before stopping.jpg] :::small 画像の出典:[Anthropic]{target=“_blank”} ::: Anthropicは、この増加がモデル更新ごとの急激な跳ね上がりではなく、滑らかな推移を示している点に注目している。これは能力向上のみならず、ユーザー側の信頼形成や利用スタイルの変化も影響している可能性を示唆するものだとしている。 ## 経験者ほど「任せるが、割り込む」 ユーザーの行動変化も確認された。新規ユーザーでは約20%のセッションがフル自動承認(auto-approve)を利用しているのに対し、750セッション以上利用する経験者では40%超に上昇した。 一方で、途中でAIの処理を中断する「割り込み率」も、経験者のほうが高い。新規ユーザーの割り込み率が約5%であるのに対し、経験者は約9%だった。 Anthropicはこれを、監督戦略の変化と説明する。初心者は各ステップを逐次承認する傾向が強いが、経験者は一括で自律実行を許可し、必要な場合のみ介入する「監視型」へと移行していると分析している。 ## AIが自ら停止するケースも増加 人間による監督だけでなく、AI自身が不確実性を認識して停止するケースも確認された。複雑度が高いタスクでは、Claude Codeが人間よりも頻繁に処理を停止し、確認や追加情報を求める傾向がみられた。 **■ タスク複雑度が高まるほど、Claudeの自己停止率は上昇。人間の割り込みを上回る** ![clarification and interruption rates by goal complexity.jpg] :::small 画像の出典:[Anthropic]{target=“_blank”} ::: 停止理由としては、方針の選択提示(35%)、診断情報の収集(21%)、曖昧な指示の確認(13%)などが挙げられている。Anthropicは、自己不確実性の表出を安全設計上の重要な特性と位置づけ、モデルが自ら確認を求める訓練を行っていると説明している。 ## リスクと自律性の分布 公開API経由の約100万件のツール呼び出しについては、リスク(1~10)と自律性(1~10)の2軸で評価を実施した。 その結果、 ・80%は何らかのセーフガードが存在 ・73%は人間が関与 ・不可逆的行為は0.8% という分布が示された。 **■ リスク(縦軸)と自律性(横軸)の分布。高リスク×高自律領域は少数だが存在** ![what is the risk-autonomy tradeoff in practice.jpg] :::small 画像の出典:[Anthropic]{target=“_blank”} ::: 高リスクかつ高自律性に分類される事例は少数ながら存在し、セキュリティ関連操作、金融取引、医療情報の取得などが含まれていた。ただしAnthropicは、これらの一部は評価やレッドチーム用途である可能性もあると注記している。 ## 利用はソフトウェア分野に集中 ツール利用の約50%はソフトウェアエンジニアリング分野が占めている。その他、ビジネスインテリジェンス、カスタマーサポート、営業、金融などでの利用も確認されたが、いずれも数%規模にとどまる。Anthropicは、エージェント活用は依然として初期段階にあり、今後高リスク領域での利用拡大が進む可能性があるとしている。 **■ ツール呼び出しの約50%がソフトウェアエンジニアリング用途** ![in what domains are agents deployed.jpg] :::small 画像の出典:[Anthropic]{target=“_blank”} ::: エージェント型AIの活用は近時、ソフトウェア開発のみならず、業務自動化やセキュリティ領域などへと拡大している。複数のツールを組み合わせて長時間にわたり自律的に動作するエージェント型プロダクトも登場しており、実運用環境での振る舞いを定量的に把握する必要性は高まっている。今回の分析は、こうした動向を背景に、実社会におけるエージェントの自律性と監督構造の実態を示す試みと位置づけられる。 AIエージェントの自律性が段階的に拡張する中で、実運用データに基づく継続的な測定と監視の枠組み構築が、今後の焦点となりそうだ。 :::box [関連記事:GitHubコミットの4%がAI生成──Claude Codeは2026年末に20%へ?SemiAnalysisが「エージェント化」の転換点と分析] ::: :::box [関連記事:Anthropic、Claude 3.7 Sonnetと Claude Codeを発表──ハイブリッド推論モデルの市場投入] ::: :::box [関連記事:Anthropic、非エンジニア向け業務 AIエージェント「Cowork」公開──Claude Codeの仕組みを一般業務へ拡張] ::: :::box [関連記事:Anthropic、AIエージェント標準「MCP」を Linux Foundation へ移管──エージェント実装の共通基盤づくり加速] ::: :::box [関連記事:AIに自動販売機の経営を任せると何が起きるのか──Anthropic「Project Vend」報告(Phase 2)] :::
Ledge.aiにソリューション情報を掲載しませんか?
使い方や具体的な目標などを詳しくご説明します
お問い合わせ