特集
FEATURE
ビジネス
BUSINESS
ラーニング
LEARNING
エンジニアリング
ENGINEERING
学術&研究
ACADEMICS & STUDY
公共
PUBLIC
エンタメ&アート
ENTERTAINMENT & ART
1~13 / 402件
AIスタートアップのLifePromptは2026年4月27日、OpenAIおよびGoogleのAIモデルに東京大学と京都大学の入試問題を解かせた検証結果を[公開]{target=“_blank”}した。東大理科三類ではChatGPTとGeminiが合格者最高点を上回るスコアを記録し、数学では満点が相次いだという。河合塾講師が記述式答案を採点し、AIの実力と課題が科目別に明らかになった。 ## 東大理三で合格者最高点を上回るスコア LifePromptの検証によると、2026年度の東京大学二次試験において、AIモデルは合格水準を大きく上回る結果を示した。 最難関とされる理科三類では、合格者最高点453.60点(550点満点)に対し、ChatGPT 5.2 Thinkingは503.59点、Gemini 3 Pro Previewは496.54点を記録した。いずれも首席相当の得点を約50点上回る結果となった。 Claude 4.5 Opusは最高点には届かなかったものの、すべての科類で合格最低点を100点以上上回ったとされる。 ![1777178018-ACauSjsR1n3m59xY4hKzcgv6.webp] :::small 画像の出典:[LifePrompt公式noteより]{target=“_blank”} ::: ## 京大医学部でも同様の傾向 京都大学医学部医学科においても同様の傾向が確認された。 2026年度の合格者最高点は未公表のため、2025年度の最高点(1105.87点)との比較となるが、ChatGPTは1176.25点、Geminiは1122.25点を記録し、いずれも上回る結果となった。 Claudeも合格最低点を超えており、最難関レベルの記述式試験においてもAIが高い得点を獲得する結果となっている。 ![1777253793-fejbKUBIComickvHxp0qrulQ.webp] :::small 画像の出典:[LifePrompt公式noteより]{target=“_blank”} ::: ## 数学で満点続出、1年で飛躍的進化 今回の検証で特に顕著だったのが数学の成績だ。 東大理系数学(120点満点)および京大理系数学(200点満点)では、ChatGPTとGeminiが満点を記録。さらに京大化学でもChatGPTが満点を達成した。 [昨年の検証]{target=“_blank”}では、ChatGPT o1が東大理系数学で38点にとどまっていたが、今回の結果では満点に到達しており、わずか1年で大幅な性能向上が見られたとしている。 ![1777181729-hXa0kFznp1IbUYEBLic8w9CZ.webp] :::small 画像の出典:[LifePrompt公式noteより]{target=“_blank”} ::: ## 記述式試験で検証、河合塾講師が採点 今回の検証では、共通テストのような選択式ではなく、東大・京大の二次試験(記述式)を対象とした。 入試問題のPDFを画像化し、API経由で各AIモデルに入力。ブラウジングは使用せず、学習済みの知識と推論能力のみで解答させた。記述式答案は河合塾講師が人間の受験生と同じ基準で採点しており、論述力や思考過程も含めた評価が行われている。 ## 科目別で明確になったモデル差 科目別の分析では、AIモデルごとの特性も明らかになった。 英語では全モデルが安定した高得点を示し、特に画像内の下線部認識ではChatGPTが優位とされた。数学ではChatGPTが構造理解に基づく解法を選ぶ傾向がある一方、Geminiは計算量を伴う手法で正解に到達するケースが見られた。 物理では東大でClaudeが満点を記録し、日本史や世界史といった論述科目ではClaudeの評価が高かった。一方で世界史ではChatGPTが15点にとどまるなど、モデルごとの得意・不得意が明確に分かれる結果となっている。 **東大 各科目点数** ![1777179054-g8ifQr7UczTxOVj0ZqdH5KEn.webp] :::small 画像の出典:[LifePrompt公式noteより]{target=“_blank”} ::: ## 画像理解・論述・出力制御に課題 一方で、AIの弱点も複数の科目で確認された。 グラフや構造式、地図などの画像情報の読み取りでは誤認が見られたほか、字数制限を守れないケースや、日本語の論述における不自然な表現も指摘されている。 また、国語では比喩や文脈理解を要する問題で全モデルが苦戦し、「知識」と「それを適切に伝える能力」の間にギャップがあることが示された。 ## 「首席超え」でも万能ではない 今回の検証は、AIが知識や計算、推論といった領域では人間のトップ層を上回る水準に達しつつあることを示した一方で、出力制御や文脈理解、視覚情報の処理といった領域では依然として課題が残ることも明らかにした。 LifePromptは、AIの能力を最大限に活用するためには、こうした弱点を踏まえた上で人間が適切に補完することが重要だと指摘している。 :::box [関連記事:共通テスト2026、ChatGPT最新モデルが9科目満点 LifePrompt検証、東大理三合格水準を大きく上回る] ::: :::box [関連記事:生成AI、東京大学理科三類合格水準に到達 ChatGPT o1とDeepSeek R1が2025年入試で実証] ::: :::box [関連記事:OpenAI、AIエージェントが最先端研究論文を理解し実験を再現できるか検証するベンチマーク「PaperBench」発表] ::: :::box [関連記事:ChatGPTを使うと脳がサボる?──MIT、エッセイ執筆中に脳活動が最大55%低下することを確認] ::: :::box [関連記事:カリフォルニア大学サンディエゴ校の研究でGPT-4.5がチューリングテスト合格——73%の確率で人間と誤認され、実際の人間以上の「人間らしさ」を示す] :::
Ledge.aiにソリューション情報を掲載しませんか?
使い方や具体的な目標などを詳しくご説明します
お問い合わせ