特集
FEATURE
ビジネス
BUSINESS
ラーニング
LEARNING
エンジニアリング
ENGINEERING
学術&研究
ACADEMICS & STUDY
公共
PUBLIC
エンタメ&アート
ENTERTAINMENT & ART
1~13 / 2531件
OpenAIは2025年12月11日(現地時間)、ChatGPTおよびAPI向けの新モデル「GPT-5.2」を公開したと[発表]{target=“_blank”}した。同社の公式ブログ「Introducing GPT-5.2」では、推論能力や長文コンテキスト処理、コード生成、知識労働タスクなどの幅広い能力が前世代のGPT-5.1から大幅に向上したと説明している。 GPT-5.2は「 Instant」「Thinking」「Pro」 の3モデルで構成される。Instantは応答速度を重視した軽量モデル、Thinkingは複雑な数学・論理・科学タスクに特化した深い推論モード、Proは拡張コンテキストと高推論能力を備えた上位モデルとして位置付けられる。 ChatGPTでは、新たに「GPT-5.2 Auto」を導入し、InstantとThinkingをタスク内容に応じて自動で切り替える仕様となった。ユーザーは用途に応じてモデルを手動選択する必要がなく、質問の難易度に応じて適切な推論モードが選択される。 性能面では、GPT-5.2 ThinkingはGPT-5.1 Thinkingと比較して、匿名化されたChatGPTのクエリセットにおける「誤りを含む回答」が相対的に38%減少したとされる。加えて、UIコンポーネントの生成や複数ツールを組み合わせてコードを実行する、いわゆる「エージェント型コーディング」が安定し、問題設定から実装、検証までの一連の開発ワークフローを高精度に遂行できるようになったという。長文処理の安定性も向上した。 **GPT-5.2 Thinking の主要ベンチマーク結果:** (SWE-Bench Pro、GPQA、ARC-AGI、GDPvalなど)。GPT-5.1比で複数指標が大幅に向上した。 ![G76Fh4WagAAE_Ec.jpg] :::small 画像の出典:[OpenAIのXアカウントより]{target=“_blank”} ::: ### ARC-AGI-1でSOTAを更新、推論力の“質”を測る指標で高評価 GPT-5.2の推論性能を示す指標のひとつが「ARC-AGI-1」だ。 ARC-AGI(Abstraction and Reasoning Corpus)は、人間が持つ抽象的な推論能力を測ることを目的に設計されたベンチマークで、単なる知識量やパターン暗記では解けない問題で構成されている。 具体的には 少数の例からルールを推測する 見慣れない問題に対して柔軟に考え方を切り替える といった能力が求められ、「AIが本当に“考えているか”」を測るテストとして知られている。 このARC-AGI-1(Verified)において、GPT-5.2 Pro(X-High)は90.5%のスコアを記録した。この結果は第三者機関である [ARC Prize]{target=“_blank”} によって検証されており、同団体は、1年前に検証された未公開モデルと比較して約390倍の効率改善が達成されたと評価している。 この結果は、GPT-5.2が単に正解率を積み上げたモデルではなく、未知の問題に対して抽象的に考え、解決策を導く能力が大きく向上していることを示している。 **ARC-AGI-1における各モデルのスコアとタスクあたりのコスト:** GPT-5.2 Pro(X-High)は90.5%を記録し、推論能力とコスト効率の両面で最高水準に達した。 ![G76GGZwagAUn7ub.jpg] :::small 画像の出典:[ARC PrizeのXアカウントより]{target=“_blank”} ::: 知識労働タスクにおける性能も強化された。業界専門家の回答と比較評価する「GDPval」では、GPT-5.2 Thinkingが70.9%、GPT-5.2 Proが74.1%を記録し、前世代のGPT-5(38.8%)を大きく上回った。 ![G76FiHkaAAEDmuH.png] :::small 画像の出典:[OpenAI]{target=“_blank”} ::: さらにGPT-5.2 Thinkingでは、スプレッドシートやプレゼンテーション資料など、「整形済みのファイル」を直接生成する機能も強化されている。OpenAIは、人員計画(ワークフォースプランニング)を例に、部門別のコスト計算や集計まで含めたスプレッドシートを自動生成する事例を公開した。 **左:GPT-5.2 Thinking が生成した部門別人員計画のスプレッドシート。集計・比較表まで自動生成されている。** **右:複数部門のコスト、給与、採用費などが整形済み表として出力される。** ![G76FiaoagAAH_i8-side.jpg] :::small 画像の出典:[OpenAIのXアカウントより]{target=“_blank”} ::: OpenAI CEOのサム・アルトマン氏は、自身のX(旧Twitter)でGPT-5.2について「現時点で一般提供されている中で最も賢いモデル」と述べ、特に知識労働タスクにおける性能向上を強調した。 ![GPT-5-2 is here by sama.jpg] :::small 画像の出典:[Sam Altman氏のXアカウントより]{target=“_blank”} ::: 安全性面では、GPT-5系で用いられてきた既存の安全性フレームワークを引き継ぎつつ、GPT-5.2向けに調整した新版のシステムカードが公開されている。リスク緩和策や評価項目の更新が行われたとしている。 OpenAIはGPT-5.2を「GPT-5シリーズの中心モデル」と位置づけ、今後のChatGPTおよびAPIの基盤として、継続的な改善を進めていく方針だ。 :::box [関連記事:OpenAI、最新AI基盤モデル『GPT-5』を発表 — 誤差性能を大幅向上させ、既存製品ラインを統合した成熟の新エンジン、無料ユーザーを含む全ユーザーに提供開始] ::: :::box [関連記事:OpenAI、「GPT-5.1」をリリース──会話性とトーン設定を強化したChatGPT最新版] ::: :::box [関連記事:OpenAI、o3-proをリリース──高度な推論と精度で従来モデルを上回る性能] ::: :::box [関連記事:OpenAI、ChatGPT品質改善に全集中「非常事態(code red)」宣言──CEOサム・アルトマン氏が他社LLMの進化に危機感で社内指示] ::: :::box [関連記事:GPT-5のIQはどこまで高くなった?──GPT・Claude・Geminiを“メンサ式IQテスト”で比較する『Tracking AI』] :::
Ledge.aiにソリューション情報を掲載しませんか?
使い方や具体的な目標などを詳しくご説明します
お問い合わせ