学術&研究

1~13 / 620件

学術&研究
2026/1/18 [SUN]
LLMは日本の司法試験を突破できるのか──慶應義塾大研究、短答式で合格点に到達のサムネイル画像

LLMは日本の司法試験を突破できるのか──慶應義塾大研究、短答式で合格点に到達

慶應義塾大学の研究者は2026年1月6日、日本の司法試験(短答式)において、大規模言語モデル(LLM)が実際の出題形式と公式の採点基準を変更せずに、合格水準の得点を記録したとする研究成果を[発表]{target=“_blank”}した。出題を簡略化せず、採点ルールも変更しない条件下で合格水準に達した例は、研究チームによると初めてだという。 ## 評価を変えずに測る──「日本の司法試験」という高い壁 研究の対象となったのは、日本の司法試験における短答式試験である。短答式は多肢選択式ではあるものの、単純な一問一答ではなく、複数の命題を同時に評価し、その正誤の組み合わせ全体を一つの解答として選択させる形式を取る。 採点は厳格で、部分点は存在するものの、複数の命題がまとめて評価されるため、1つの判断ミスで大きく減点され、条件によっては0点となる。さらに、合否判定には総合点に加え、憲法・民法・刑法の各科目で40%以上の得点を求める要件が設けられている。 従来のAI研究では、こうした設問を○×形式に分解して学習・評価する手法が多く用いられてきた。しかしこの場合、本来の組み合わせ評価や採点ルールが再現されず、実際の試験形式で通用するかは不明確だった。同研究は、評価方法を簡略化せず、実試験と同一条件で検証する点を特徴としている。 ## 自己検証を用いた単一モデルによるアプローチ 同研究を主導したのは、Andrew Shin氏で、成果は論文「Self-Verification is All You Need To Pass The Japanese Bar Examination」として公開されている。 研究では、OpenAIのGPT-4.1をベースモデルとし、日本の司法試験短答式の過去問を用いてファインチューニングを行った。特徴的なのが、「自己検証(Self-Verification)」と呼ばれる手法だ。 モデルはまず通常どおり解答を生成し、その後、同一モデルが別のプロンプトを用いて自らの解答を再確認する。この追加推論は1回のみで、外部ツールや別モデルは使用しない。再検証の段階では、形式的な誤りや明確な不整合がある場合に限り、保守的に修正を行う設計となっている。 研究では、マルチエージェント型の推論手法や、問題分解型データセット(JBE-QA)を用いた手法とも比較を行ったが、いずれも単一モデル+自己検証の成績を下回ったとしている。 ## 検証結果の位置づけ 2024年(令和6年)司法試験の短答式問題を用いた評価では、自己検証を組み込んだモデルが平均94.7点、最高96点を記録した。同年の合格基準は93点であり、科目別の最低得点要件も満たしている。一方、GPT-4.1をそのまま用いたゼロショット推論や、問題分解型の手法では合格水準に達しなかった。 もっとも、同研究は短答式試験に限定した検証であり、論文式(記述式)試験や、実務における法的判断能力を示すものではない。論文でも、その点については明確に留保が付されている。 同研究は、日本の司法試験という厳格な形式を対象に、評価条件を変更しない形でLLMの到達点を検証した事例として位置づけられる。 :::box [関連記事:日本の法律特化AI、司法試験短答式で汎用AIを圧倒― LegalscapeのAIが全科目で高得点、法律文献の活用が差を生む] ::: :::box [関連記事:AIによる問題作成が司法試験の公平性に波紋 カリフォルニア州で制度見直しの動き] ::: :::box [関連記事:最高裁長官「AIは司法手続改革の一環として検討すべき」──民事訴訟のデジタル化と連動] ::: :::box [関連記事:OpenAI、業界特化と検索エージェントのAI評価のためのベンチマーク「Pioneers Program」「BrowseComp」を相次ぎ発表] ::: :::box [関連記事:慶應義塾大学、レポートの生成AI対策に物議 :課題資料にAIトラップを仕掛ける手法「プロンプトインジェクション」を教育目的で使う是非] :::

mailmagazine_Benefit_260109
FOLLOW US
各種SNSでも最新情報をお届けしております