特集
FEATURE
ビジネス
BUSINESS
ラーニング
LEARNING
エンジニアリング
ENGINEERING
学術&研究
ACADEMICS & STUDY
公共
PUBLIC
エンタメ&アート
ENTERTAINMENT & ART
1~13 / 491件
2025年7月3日、Nature系列の学術誌『Communications Psychology』に掲載された研究によると、11歳児が授業で書いた約250語の作文を大規模言語モデル(LLM)で分析することで、22年後の最終学歴や認知・非認知能力を高精度で予測できることが[明らかになった]{target=“_blank”}。 英国で1958年に生まれた約1万人を追跡する縦断研究のデータを用い、GPT-3.5による文章埋め込みと機械学習を組み合わせた予測モデルは、教師による評価とほぼ同等の精度を達成したという。 ## 従来の予測手法の限界 これまでの研究では、社会調査データや遺伝情報を用いた将来予測の精度には限界があった。2020年に米国で実施された「Fragile Families Challenge」では、160の研究チームが1万2942項目の社会調査データを活用したが、中学生時点の成績(GPA)の予測精度は約20%にとどまった。 一方、トランスフォーマー型のLLMの発展により、文章から個人の能力や性格傾向を高精度に捉える可能性が注目されている。本研究は、短い作文が将来をどの程度予測できるかを実証的に検証した。 ## 研究の概要:1958年英国出生コホートデータを活用 研究に用いられたのは、1958年に英国で生まれた1万7415人を追跡する「National Child Development Study(NCDS)」のデータである。参加者が11歳の時点で「25歳の自分を想像して」という課題で書いた作文(1~1239語、平均約250語)を分析対象とした。 研究チームは以下の手法で作文を分析した: - OpenAIのtext-embedding-ada-002モデルによる1536次元の文章埋め込み - 534項目の言語的特徴(語彙の多様性、洗練度、感情表現) - 31種類の読みやすさ指標 - 文法・スペルミスの比率 これらの特徴量を、11歳時点の教師による評価22項目、33種類のポリジーンスコア(遺伝的指標)と組み合わせ、アンサンブル学習手法「SuperLearner」で予測モデルを構築した。 ![44271_2025_274_Fig1_HTML.png] :::small 画像の出典:[Large language models predict cognition and education close to or better than genomics or expert assessment]{target=“_blank”} ::: ## 予測精度:AIと教師評価がほぼ同等 分析の結果、作文のみでも高い予測精度が得られた。11歳時点の能力予測では以下の精度(R²値)を達成した: - 読解力:作文分析 0.59、教師評価 0.57 - 言語能力:作文分析 0.55、教師評価 0.57 - 数学的能力:作文分析 0.55、教師評価 0.57 - 非言語能力:作文分析 0.37、教師評価 0.45 33歳時点の最終学歴の予測精度は、作文分析が0.26、教師評価が0.29、遺伝情報が0.19となった。作文・教師評価・遺伝情報をすべて統合したモデルでは、最終学歴の予測精度が0.38に達した。 特に認知能力の予測では、3つの情報源を統合したモデルの精度が0.70に達し、標準的な知能検査の再検査信頼性に迫る水準となった。 **認知能力(11歳時点)と最終学歴(33歳時点)に対する各予測モデルおよびその組み合わせの精度比較** :3つの情報源(作文、教師評価、遺伝情報)をすべて統合したモデルは、認知能力で0.70、最終学歴で0.38という高い予測精度を達成。単独の予測手法と比較して、統合による相乗効果が確認された。 ![cognitive and not cognitive abilities.jpg] :::small 画像の出典:[Large language models predict cognition and education close to or better than genomics or expert assessment]{target=“_blank”} ::: ## GPT埋め込みが予測精度の大部分を担う 研究チームは、予測モデルの各要素の貢献度を分析した。その結果、1536次元のGPT埋め込みが予測精度の大部分を担っていることが判明した。 **作文から抽出した各種特徴量による認知能力・非認知能力の予測精度** 赤:文法・スペルミス、オレンジ:読みやすさ指標、黄:言語的特徴(語彙多様性・洗練度・感情表現)、緑:埋め込み以外の全特徴、青:GPT-3.5埋め込み、紫:全特徴の統合。GPT埋め込みが予測精度の向上に最も貢献していることが分かる。 ![Prediction of highest attained education.jpg] :::small 画像の出典:[Large language models predict cognition and education close to or better than genomics or expert assessment]{target=“_blank”} ::: 従来の読みやすさ指標や文法的特徴のみでは、作文の長さのみを用いた予測と比べて5~10倍程度の改善にとどまったが、GPT埋め込みを追加することで大幅な精度向上が見られた。 ## 他の予測要因との比較 研究では、教育達成度の予測において一般的に用いられる他の要因とも比較を行った: **33歳時点の最終学歴に対する各予測モデルの精度比較** :従来の予測要因(出生時体重、身長、社会学的モデル)と比較して、作文・教師評価・遺伝情報を統合したモデルは大幅に高い予測精度(R²=0.38)を達成した。エラーバーは交差検証における最小・最大値を示す。 ![A model containing all three information sets.gif] :::small 画像の出典:[Large language models predict cognition and education close to or better than genomics or expert assessment]{target=“_blank”} ::: - 両親の教育水準:予測精度 0.12 - 出生時体重:予測精度 0.01 - 身長:予測精度 0.03 - 社会経済的背景を含む従来の社会学的モデル:予測精度 0.18~0.19 これらと比較して、作文分析による予測は大幅に高い精度を示した。 ## 研究の限界と今後の課題 研究チームは、以下の限界を指摘している: 1. **一般化可能性** :サンプルは1958年に英国で生まれた世代に限定されており、現代の児童や他の文化圏への適用可能性は未検証 2. **因果関係** :予測の成功は、作文と結果の間の関連性を示すが、その背後にあるメカニズムは不明 3. **技術の進歩** :より新しいLLMモデルや、より洗練された遺伝的予測手法を用いれば、さらなる精度向上の可能性がある 4. **倫理的配慮** :予測技術の教育選抜や信用評価への応用には、偏見の固定化や自己成就的予言のリスクがあり、慎重な議論が必要 ## 研究の意義 この研究は、適切なデータと手法を用いれば、人間の将来をある程度予測可能であることを示した。これは「人間の生活は本質的に予測不可能」とする従来の見解に再考を促すものといえる。同時に、AIによるテキスト分析が教師評価に匹敵する精度を持つことから、教育現場における「第3の評価視点」として活用できる可能性を示唆している。ただし研究チームは、これらの予測はあくまで教育支援のための参考情報として用いるべきであり、決定的な選別の根拠とすべきではないと強調している。 :::box [関連記事:ハルシネーション(事実誤認)より深刻なAIの「わかったふり」を暴く:MITなどが発見したLLMの“ポチョムキン理解”とは] ::: :::box [関連記事:AI生成テキスト検出ツール、英語が母語でない人の文章をAIと誤判定──教育分野で懸念] ::: :::box [関連記事:UAE、2025年にAI教育を全国の公立校で必修化へ ― 国家戦略と連動] ::: :::box [関連記事:千葉工業大学が「AI大学講師」を導入──ChatGPTと連携した個別最適化学習] ::: :::box [関連記事:AI活用に現れる「格差」の実態調査 収入・学歴で使い方に明確な違い] :::
Ledge.aiにソリューション情報を掲載しませんか?
使い方や具体的な目標などを詳しくご説明します
お問い合わせ