特集
FEATURE
ビジネス
BUSINESS
ラーニング
LEARNING
エンジニアリング
ENGINEERING
学術&研究
ACADEMICS & STUDY
公共
PUBLIC
エンタメ&アート
ENTERTAINMENT & ART
1~13 / 2491件
Anthropicは2025年11月24日(米国時間)、最新フラッグシップモデル「Claude Opus 4.5」を[発表]{target=“_blank”}した。同社はOpus 4.5を「コーディング、エージェント、コンピュータ利用において世界最高水準のモデル」と位置付けており、ソフトウェア開発から長時間のリサーチ、マルチツールを用いたエージェントタスクまで幅広い領域で性能が向上したと説明している。 ## ソフトウェアエンジニアリング分野で主要モデルを上回るスコア Opus 4.5はソフトウェアバグ修正タスクのベンチマークである SWE-bench Verified(n=500) で、正答率80.9%を記録した。これは、前世代モデルのOpus 4.1やSonnet 4.5に加え、他社のフラッグシップモデルであるGemini 3 ProやGPT-5.1 Codex-Maxなどを上回るスコアだという。 **SWE-bench VerifiedにおけるOpus 4.5(左端)の正答率は80.9%と主要モデルを上回った** ![opus4-5_1.jpg] :::small 画像の出典:[Anthropic]{target=“_blank”} ::: ## 総合ベンチマークでも全面的に強化 ソフトウェアエンジニアリング以外の評価でも幅広くスコアを伸ばしている。Anthropicが公開した比較表では、エージェント的なコーディング、ターミナル操作、ツール利用、PC操作、さらに大学院レベルの推論(GPQA Diamond)や視覚推論(MMMU)、多言語QA(MMMLU)など、多くの項目でOpus 4.1やSonnet 4.5からスコアを更新していることが示されている。 **Opus 4.5は広範な評価指標で前世代を上回り、複数の領域でSOTA(state of the art)を獲得した** ![opus4-5_2.jpg] :::small 画像の出典:[Anthropic]{target=“_blank”} ::: ## 多言語コーディングでも広範に改善 Opus 4.5は、SWE-bench Multilingual にも対応し、C / C++ / Go / Java / JS/TS / PHP / Ruby / Rust など8言語で前世代を上回るPASS@1を記録した。 **多言語コーディング評価(SWE-bench Multilingual)。Opus 4.5(赤)は8言語の多くで最高スコアを記録した** ![opus4-5_3.jpg] :::small 画像の出典:[Anthropic]{target=“_blank”} ::: ## エージェント行動・PC操作・ツール利用能力も大幅向上 Opus 4.5は、エージェント行動やマルチツールを扱うタスクでも大幅に性能を向上させている。 - Terminal-bench 2.0(ターミナル操作)で59.3% - t2-bench(ツール利用)でRetail 88.9%、Telecom 98.2% - OSWorld(PC操作)で66.3% これらのスコアは前世代からの大きな改善で、実務的なエージェントタスクに必要な能力が全体的に底上げされている。 **Sonnet 4.5 vs Opus 4.5 のパズル解法デモ** Opus 4.5のエージェント能力を示す例として、Anthropicは「Sonnet 4.5とOpus 4.5に同じパズルゲームを解かせた」デモ動画も公開している。Opus 4.5は条件制約のある環境でも自律的に手順を探索し、より安定してクリアする様子が示されている。 @[YouTube] ## 安全性評価:「懸念行動」を抑えたモデル設計 AnthropicはOpus 4.5を「安全性に最も優れたモデル」と位置付けている。内部評価では、危険行動や望ましくない自律動作につながる可能性を測る Concerning behavior(懸念行動) の指標で、Opus 4.5が最も低い値となった。 **懸念行動の内部評価。Opus 4.5が最も低く、安全性指標で優位性を示す** ![opus4-5_4.jpg] :::small 画像の出典:[Anthropic]{target=“_blank”} ::: ## プロンプトインジェクション攻撃への耐性 外部評価機関Gray Swanによる強力なプロンプトインジェクション攻撃テストでも、Opus 4.5は攻撃成功率が最も低く抑えられた。Gemini 3 Pro Thinking、GPT-5.1 Thinking、Haiku 4.5 Thinkingなどと比較しても、相対的に高い安全性が確認されている。 **プロンプトインジェクション攻撃への耐性(低いほど安全)。Opus 4.5 Thinkingが最も低い攻撃成功率を示した** ![opus4-5_5.webp] :::small 画像の出典:[Anthropic]{target=“_blank”} ::: ## 長時間タスクとツール連携を支える「advanced tool use」 今回の発表では「advanced tool use」についても触れられている。これはDeveloper Platformにおける機能群で - 必要なタイミングでツール定義を検索・読み込む **Tool Search Tool** - Pythonコードの中で複数のツールを連携させる **Programmatic Tool Calling** などにより、長時間タスクや複数ツールを扱うエージェントの効率を高める。 Opus 4.5はこうした基盤を前提に設計されており、企業利用・実務エージェント運用への対応を強化したモデルと位置付けられる。 AnthropicはOpus 4.5の開発背景や設計思想をまとめた公式動画も公開している。同社が強調する「エージェント運用」「高い安全性」「コーディング性能の向上」といったポイントを視覚的に確認できる。
Ledge.aiにソリューション情報を掲載しませんか?
使い方や具体的な目標などを詳しくご説明します
お問い合わせ