ラーニング

1~13 / 394件

ラーニング
2026/1/22 [THU]
共通テスト2026、ChatGPT最新モデルが9科目満点──LifePrompt検証、精度の先で浮かぶ“弱点の質”
のサムネイル画像

共通テスト2026、ChatGPT最新モデルが9科目満点──LifePrompt検証、精度の先で浮かぶ“弱点の質”

AIベンチャーのライフプロンプトは2026年1月20日、大学入学共通テスト(2026年度)の問題を複数の最新生成AIに解かせた検証結果を公式noteで[公開]{target=“_blank”}した。OpenAIのGPT-5.2 Thinkingが、受験させた科目のうち9科目で満点を獲得したという。 同社は同一条件下で、Gemini 3 Pro、Claude Opus4.5 にも同テストを受験させ、得点だけでなく解答に要した時間や誤答の傾向まで比較した。ライフプロンプトが「AI vs 共通テスト」の年次検証を行うのは2023年からで、今回が4年目となる。 ![1768868571-lsp4EjCy6DWLX1rB8AcThYZb.webp] :::small 画像の出典:[株式会社LifePrompt]{target=“_blank”} ::: ## 共通テストを「そのまま解かせる」ための検証方法 今回の検証では、人為的なコピペミスや恣意性を排除するため、共通テスト専用の自動受験システムを構築し、API経由で試験を実施した。 具体的には、共通テストの問題PDFをシステムに投入し、全ページを画像化すると同時にテキスト解析を行う。問題構造を自動判定したうえで大問ごとに分割し、各AIモデルにAPI経由で出題。AIが出力した自由記述の回答を、別のAIプロセスでマークシート形式に変換し、自動採点する仕組みだ。 例外措置として、英語リスニングは試験センターが公開している読み上げスクリプト(台本)をテキスト入力で使用した。また、国語の縦書き文章については、外部ツールで文字起こししたテキストを用いている。 今回比較したモデルは以下の3種だ。 - ChatGPT系列:GPT-5.2 Thinking - Gemini 3 Pro - Claude Opus 4.5 ## 満点9科目、得点はGPT、速度はGeminiとClaude 検証の結果、文系・理系いずれの合計点でもGPT-5.2 Thinkingが最も高得点を記録し、満点科目は9科目に達した。Gemini 3 ProとClaude Opus4.5 も900点台前半の高得点で続いた。 一方、解答に要した時間では明確な差が出た。GeminiとClaudeは約1時間40分前後で全科目を解き終えたのに対し、GPT-5.2 Thinkingは約5時間30分を要した。ライフプロンプトは、GPTが深い推論と検算を繰り返す「熟考型」であることが、高得点と引き換えに時間がかかった理由だとしている。 同社は、昨年の検証でAIが東京大学の合格水準に到達したと報告しており、今年は「合格できるかどうか」ではなく、「満点を取れるか」「どれだけ速く解けるか」といった次の段階に焦点を移したと位置付けている。 ## なぜAIは間違えたのか──誤答に共通するパターン これほど高得点を記録したAIだが、3モデルすべてが共通して誤答した問題も存在した。ライフプロンプトは、誤答の傾向から現在の生成AIに残る課題が見えるとしている。 一つは図表やイラストの読み取りだ。英語リスニングの「バスの乗り方」を問う問題では、音声スクリプトの内容は正確に理解できていたものの、選択肢として示されたバスのイラスト(矢印の向き)を正しく判定できず、全モデルが誤答した。 次に挙げられるのが、国語(小説)の心情理解である。主人公が現状を正当化しようとしつつも割り切れない思いを抱える場面で、正解は「現状への妥協」を示す選択肢だったが、AIはいずれも「過去の過ちへの反省」を選んだ。ライフプロンプトは、一般論的な道徳観に引き寄せられ、人間特有の曖昧な感情を読み違えたと分析している。 さらに、地理などの視覚情報も弱点として浮かび上がった。色の濃淡で分布を示した地図問題では、ヒートマップの微妙な違いを識別できず、全モデルが誤答した。 ## それでも差は出た──Geminiだけが正解した問題 一方で、すべての問題で同じ結果になったわけではない。地理の別問題では、Gemini 3 Proのみが地図上の地形(アンデス山脈)と気候グラフを正しく結びつけ、唯一正解したケースもあった。 ライフプロンプトは、GPT-5.2 ThinkingやClaudeが画像を「文字情報の集合」として処理しようとする傾向があるのに対し、Geminiは画像を視覚情報として捉える能力が強く、地図やグラフの相関関係を直感的に把握できたと説明している。 ## 「AI入試挑戦」を巡る論点の変化 同社はこれまで、毎年のように生成AIが入試に挑戦する検証を取り上げてきた。2024年頃は、共通テストでどのモデルが最も高得点を取るのか、人間の合格水準にどこまで迫ったのかが主な関心事だった。 2025年には、共通テストに加えて東大二次試験なども対象とした検証が登場し、「難関大学に通用する水準かどうか」が焦点となった。そして2026年の今回、論点はさらに一段階進み、満点科目の数、解答速度、誤答の質へと移っている。 AIが「解けるかどうか」ではなく、「どこで、なぜ落とすのか」が具体的に示される段階に入ったことを、今回の検証は示している。 共通テストで9科目満点という結果は、生成AIの推論能力が標準化試験レベルでは極めて高い水準に到達したことを示す。一方で、図表の読み取りや感情理解といった領域では、人間とは異なるつまずき方をすることも明らかになった。 今後も同社は同様の検証を続けるとしており、AIが入試問題を通じてどのように進化していくのかは、引き続き注目される。 :::box [関連記事:LLMを最新の大学入試共通テストで比較 GPT-4がTOPも医師国家試験合格の実力にしては若干物足りない?] ::: :::box [関連記事:生成AI、東京大学理科三類合格水準に到達 ChatGPT o1とDeepSeek R1が2025年入試で実証] ::: :::box [関連記事:LLMは日本の司法試験を突破できるのか──慶應義塾大研究、短答式で合格点に到達] ::: :::box [関連記事:中国、大学入試「高考」期間中に主要AIチャットサービスを一斉停止 不正対策で公平性確保狙う] ::: :::box [関連記事:大学入試の記述式対策もAI活用 駿台、AI学習教材「スルメ」で特許を取得] :::

アクセスランキング
mailmagazine_Benefit_260109
FOLLOW US
各種SNSでも最新情報をお届けしております