特集
FEATURE
ビジネス
BUSINESS
ラーニング
LEARNING
エンジニアリング
ENGINEERING
学術&研究
ACADEMICS & STUDY
公共
PUBLIC
エンタメ&アート
ENTERTAINMENT & ART
1~13 / 584件
コロンビア大学やスタンフォード大学などの研究者らによるチームは2025年11月21日、脳の活動データを直接テキストに変換する新しいAIフレームワーク「BIT (BraIn-to-Text)」を[発表]{target=“_blank”}した。 このシステムは、発声しようとした言葉だけでなく、声を出さずに心の中で唱えた「内なる声(inner speech)」も一定の精度で文章化できることを示した。従来の類似手法と比べ、単語誤り率(WER)を24.69%から10.22%へと半分以下に抑えた点が特徴で、麻痺などによって話すことが難しい人のコミュニケーション支援技術としての応用も期待される。 なお、研究で使用されたのはUtahアレイと呼ばれる脳表面に埋め込む侵襲型電極であり、非侵襲の脳波(EEG)とは異なる。 ## 脳波を「音声」と見なしてLLMが解読 従来の脳内音声解読システム(BCI)では、多くが「脳活動 → 音素 → 単語 → 言語モデル」という複数段階の“カスケード型”処理を採用していた。この構造では、各工程が独立しているため、システム全体をまとめて最適化できない点が課題とされていた。 今回発表された「BIT」は、脳活動の特徴を捉えるTransformerエンコーダーと、大規模言語モデル(LLM)を結合させたEnd-to-End型(統合的最適化)フレームワークである。 ヒトやサルの脳活動データ約367時間分を用いて事前学習を行い、神経活動のパターンから直接テキストを生成する。この仕組みにより、従来必要だった音素への変換ステップを省き、脳活動から直接文章を出力できるようになった。 **図1:BIT(BraIn-to-Text)フレームワークの全体構成** 脳に埋め込んだ電極から取得した神経活動をAIが処理し、最終的に文章として出力するまでの流れを示す図。 ![x1 (11).png] :::small 画像の出典:[Decoding inner speech with an end-to-end brain-to-text neural interface]{target=“_blank”} ::: ## 単語誤り率を大幅に低減 このEnd-to-Endのアプローチによる精度の変化について、論文では以下の数値が報告されている。従来の同様のシステムと比較し、単語の読み取りミスを示す「単語誤り率(WER)」は低下した 。 - **従来のEnd-to-End手法** : 単語誤り率 24.69% - **新技術「BIT」(音声LLM統合版)** : 単語誤り率 10.22% さらに、脳活動エンコーダーを用いて「Brain-to-Text Benchmark」に参加したところ、カスケード型設定を含む全カテゴリで最も低い誤り率を記録した。 アンサンブル(複数モデル併用)設定でのWERは以下の通りである。 - **Brain-to-Text '24 ベンチマーク** : 単語誤り率 5.10% - **Brain-to-Text '25 ベンチマーク** : 単語誤り率 2.21% **図2:BITの性能比較と解読例** 従来手法と比較した誤り率の低減、および実際に生成された文章の例を示す図。内言においても意味的に近い文章を生成できている点が示されている。 ![x2.png] :::small 画像の出典:[Decoding inner speech with an end-to-end brain-to-text neural interface]{target=“_blank”} ::: ## 「想像発話」の読み取りにも成功 研究では、筋肉を動かして発話しようとする「試行発話(attempted speech)」だけでなく、声を出す動作を伴わずに頭の中で言葉を思い浮かべる「想像発話(imagined speech)」のデータセットを用いた検証も行われた。 解析の結果、実際に話そうとする時と心の中で話す時の脳内活動には、共通する意味的構造が存在することが示唆された。AIはこの共通性を利用することで、データの少ない想像発話においても文章変換を可能にしている。 **図3:音声LLMとの比較──脳活動の文章化に適したモデル** 複数の音声LLM・テキストLLMを比較し、どのモデルが脳活動からの文章生成に適しているかをまとめた図。音声を扱う小規模モデルが高い適性を示した。 ![x3 (4).png] :::small 画像の出典:[Decoding inner speech with an end-to-end brain-to-text neural interface]{target=“_blank”} ::: ## 話せない人のコミュニケーション支援へ 発話が困難なALS患者や脳損傷患者にとって、頭の中で言葉を思い浮かべるだけで意思を伝えられる技術は大きな可能性を持つ。 論文では、将来的な臨床応用を見据えつつ、次のような課題を整理している。 - 神経信号の非定常性への適応 - 電極の長期安定性 - オンデバイス実行に向けた効率化 また、特に内言の解読は倫理的に慎重な扱いが求められ、研究チームも「利用者の明確な同意を欠いた読心的用途は許されない」と明記している。 ## 今後の展望──神経データ版“基盤モデル”へ BITで用いられたNeural Encoderは、サルを含む多様な神経活動から学習されている。論文では、近年さまざまな分野で「foundation models」と呼ばれる大規模事前学習モデルが提案されていることを紹介し、こうした方向性がBCIの性能向上にも有効である可能性を挙げている。 研究チームは、今後の課題として、電極の非定常性への適応、長期的な記録の安定性、インターフェースの効率化などを明確にし、改善を重ねることで「ユーザーとシステムが互いに適応しながら利用可能な、より柔軟なBCIの開発につながる」とまとめている。 :::box [関連記事:NTT、人が見た映像や思い浮かべた光景を文章化する「マインド・キャプショニング」開発──脳活動から非言語思考をテキスト化] ::: :::box [関連記事:Meta、脳波からリアルタイムで文章を生成するAIモデル「Brain2Qwerty」を発表– 非侵襲的BCIの新時代へ] ::: :::box [関連記事:中国がイーロンマスクのNeuralinkに続く──侵襲型BCI(ブレイン・コンピュータ・インターフェース)臨床試験で四肢麻痺患者が“思考”操作に成功] ::: :::box [関連記事:イーロン・マスク率いるNeuralinkの競合Paradromicsが初のヒト脳インプラント記録に成功――NeuralinkはシリーズEラウンドで6億5,000万ドルを調達、ブレイン・コンピュータ・インターフェース(BCI)競争が加速] ::: :::box [関連記事:「念じて動かす」iPhone—— AppleデバイスがSynchronの埋め込み型脳コンピュータインターフェース対応へ] :::
Ledge.aiにソリューション情報を掲載しませんか?
使い方や具体的な目標などを詳しくご説明します
お問い合わせ