ビジネス

1~13 / 2840件

ビジネス
2026/5/2 [SAT]
GPT-5.5、Claude Mythos Previewに続き企業ネットワーク攻撃シミュレーションを完遂 英AISIがサイバー攻撃性能を検証のサムネイル画像

GPT-5.5、Claude Mythos Previewに続き企業ネットワーク攻撃シミュレーションを完遂 英AISIがサイバー攻撃性能を検証

英AI Security Institute(AISI)は2026年4月30日(現地時間)、OpenAIの最新モデル「GPT-5.5」に対するサイバー能力評価の結果を[発表]{target=“_blank”}した。GPT-5.5は、AISIが用意した32段階の企業ネットワーク攻撃シミュレーション「The Last Ones」を、10回中2回、エンドツーエンドで完了したという。AISIによると、同シミュレーションを完了したモデルは、Anthropicの「Claude Mythos Preview」に続き2例目となる。 ## GPT-5.5、AISI評価で「最強クラス」のサイバー能力 AISIは、GPT-5.5について「これまでにテストした中で最も強力なモデルの一つ」と説明している。評価は、CTF形式の短いサイバータスクと、複数ステップのサイバー攻撃を模擬するサイバーレンジで構成された。 CTF形式の評価では、リバースエンジニアリング、Web exploitation、暗号解析などを含む95件のタスクを用いた。AISIによると、ExpertレベルのタスクにおけるGPT-5.5の平均成功率は71.4%だった。Claude Mythos Previewは68.6%、GPT-5.4は52.4%、Opus 4.7は48.6%であり、AISIはこの指標ではGPT-5.5が同機関のテストした中で最も強力なモデルである可能性があるとしている。 **AISIの高度CTF評価における各モデルの平均成功率:GPT-5.5はExpertレベルのタスクで、比較対象モデルの中でも高い成功率を示した** ![69f3620178b514e84c223b9a_CTF Advanced Blogpost2 Final.jpg] :::small 画像の出典:[The AI Security Institute]{target=“_blank”} ::: ## Claude Mythos Previewに続き、32段階の企業ネットワーク攻撃を完了 AISIは、実世界のサイバー攻撃では複数の手順を連鎖させる必要があるとして、AIエージェントのエンドツーエンドの能力を測るためにサイバーレンジを使用している。 今回の中核となる「The Last Ones」は、SpecterOpsと構築した32ステップの企業ネットワーク攻撃シミュレーションだ。4つのサブネットと約20台のホストにまたがる環境で、エージェントは認証情報を持たない低権限の攻撃用マシンから開始する。 シナリオには、偵察、認証情報窃取、複数のActive Directoryフォレスト間での横展開、CI/CDサプライチェーンを経由したピボット、保護された内部データベースの持ち出しまでが含まれる。AISIは、人間の専門家なら全体の完了に約20時間かかると見積もっている。 GPT-5.5は、この「The Last Ones」を10回中2回、エンドツーエンドで完了した。先に同シミュレーションを完了していたClaude Mythos Previewは、10回中3回完了していたという。AISIは、GPT-5.5を同レンジを完了した2つ目のモデルと位置付けている。 **「The Last Ones」における各モデルの進行状況:GPT-5.5とClaude Mythos Previewは、最良試行で32ステップを完了し、「Full network takeover」に到達した** ![69f37db9acecc5b36ff20b55_TLO Blogpost2 final.jpg] :::small 画像の出典:[The AI Security Institute]{target=“_blank”} ::: AISIは、今回の結果について、推論時に投入する計算量が増えるほど「The Last Ones」での性能が向上し続けており、最良のモデルではまだ頭打ちが観測されていないとも説明している。モデル世代が進むにつれて、同じトークン予算でも性能が概ね改善しているという。 ## 産業制御システム攻撃のシミュレーションは未完了 AISIは、もう一つのサイバーレンジとして「Cooling Tower」も評価した。これはHack The Boxと構築した7ステップの産業制御システム(ICS)攻撃シミュレーションで、模擬発電所環境を対象とする。 このシナリオでは、Web公開されたHMI(Human-Machine Interface)への侵入、独自制御プロトコルと暗号認証の解析、PLC(Programmable Logic Controller)操作による物理プロセスの妨害までを想定している。AISIは、人間の専門家なら完了に約15時間かかると見積もっている。 ただし、GPT-5.5は「Cooling Tower」を完了できなかった。AISIによると、現時点でこのレンジを完了したモデルはない。またGPT-5.5は、OT固有の段階ではなくIT側の段階で行き詰まったため、この結果だけでは産業制御システム攻撃能力そのものを判断できないとしている。 ## 実環境での攻撃成功を示すものではない AISIは、今回の評価が制御された研究環境での能力評価であり、一般公開されているGPT-5.5のユーザーが同じ能力にアクセスできることを示すものではないと説明している。公開環境には追加の安全対策、監視、アクセス制御が含まれるためだ。 また、AISIは、現在の2つのレンジには実環境に通常存在する能動的な防御者、防御ツール、検知アラートに対するペナルティが含まれていないとも指摘している。そのため、今回の結果からGPT-5.5が十分に防御された標的に成功できるかは判断できないとしている。評価の対象は、すでにネットワークアクセスがあり、特定の脆弱な標的に向けられた場合に、AIエージェントが何をできるかに限定される。 なおAISIは、OpenAIのGPT-5.5 System Cardで当初「The Last Ones」の完了回数が10回中1回と記載されていた点について、採点上の問題を後から特定したと説明している。手動レビューの結果、モデルは最終ステップを完了していたと判断し、結果を10回中2回に更新したという。 ## AISI、複数モデルでサイバー能力の上昇を確認 AISIは、GPT-5.5の結果について、サイバー能力の急速な向上が単一モデルに固有の突破ではなく、より一般的な傾向である可能性を示すものだとしている。長期的な自律性、推論、コーディング能力の向上に伴い、攻撃的サイバー能力も副次的に高まっている可能性があるという。 一方でAISIは、GPT-5.5のようなモデルがより広く利用可能になることで、防御側も同じ能力を自組織のシステム防御に活用できる可能性があるとしている。同機関は、英国のNational Cyber Security Centre(NCSC)などと連携し、組織がフロンティアAIに備えるための情報提供も進めている。 :::box [関連記事:Anthropic、新AI基盤モデル「Claude Mythos Preview」を発表 脆弱性発見能力の高さから一般公開は見送り] ::: :::box [関連記事:OpenAI、防御用途で制限を緩和した「GPT-5.4-Cyber」発表 Trusted Access for Cyberを拡張] ::: :::box [関連記事:OpenAI、「GPT-5.5」発表 複雑な実務とエージェント作業を強化、ChatGPTとCodexに展開] ::: :::box [関連記事:AIシステムの安全性を攻撃者視点で評価――IPAが「レッドチーミング実践ガイドライン」を公開] ::: :::box [関連記事:OpenAI、コードの脆弱性を発見し修正パッチまで提案するAIエージェント「Codex Security」公開] :::

アクセスランキング
mailmagazine_250819
FOLLOW US
各種SNSでも最新情報をお届けしております