学術&研究

1~13 / 642件

学術&研究
2026/3/1 [SUN]
鳥類音声で学習したAI、クジラやイルカ分類でも高精度──Google DeepMind「Perch 2.0」のサムネイル画像

鳥類音声で学習したAI、クジラやイルカ分類でも高精度──Google DeepMind「Perch 2.0」

Google DeepMindが開発した生物音響基盤モデル「Perch 2.0」が、主に鳥類など陸生生物の鳴き声で事前学習されているにもかかわらず、クジラやイルカといった海洋哺乳類の分類タスクでも高い性能を示したことが分かった。研究成果は未査読論文としてarXivで[公開]{target=“_blank”}されている。 ## 鳥類中心で事前学習された生物音響基盤モデル Perch 2.0は、Google DeepMindが開発した大規模生物音響基盤モデルだ。主に鳥類を中心とする陸生動物の鳴き声データを用いて事前学習されており、音声波形やスペクトログラムから抽象的な音響特徴を抽出する埋め込み(embedding)を生成する。 この埋め込みは、線形分類器の適用や少量データによる微調整(ファインチューニング)を通じて、多様な分類タスクに転用できる設計となっている。 ## なぜ“鳥で学習”したAIが“クジラ”に効くのか 今回の論文で焦点となるのは「陸上生物中心の事前学習が、なぜ未知のドメインである水中環境のタスクにこれほど有効だったのか」という点だ。 Perch 2.0は、線形プローブ(linear probing)を前提とした転移性能を重視して設計されている。これは、事前学習済みの埋め込みを固定したまま単純な分類器のみを学習させる手法で、計算資源やラベル付きデータへの要求を大幅に抑えられる。論文は、この設計がクラスタリングや近傍探索、少量データによる迅速なモデル構築を支えていると指摘する。 陸上中心の学習が海洋哺乳類に転移した理由について、論文は以下の観点から考察している。 - **“Bittern Lesson”:** 鳥類の鳴き声のように、種間で極めて微妙な差異を持つ難度の高い分類タスクで大規模学習を行ったことが、結果として汎用性の高い、精緻な音響表現の獲得につながった可能性 - **スケーリングの恩恵:** 大規模データとモデル規模の拡張が、ドメイン外のタスクに対するロバスト性を向上させた - **発声メカニズムの共通性:** 鳥類と海洋哺乳類の発声構造に一定の物理的類似性が存在する可能性 ## 海洋哺乳類データでの検証結果 論文では、Perch 2.0の音響埋め込みを用い、クジラやイルカを含む海洋哺乳類の水中音響データに対する分類性能を評価した。評価指標にはF1スコアや平均適合率(mAP)などが用いられている。 その結果、複数の海洋哺乳類データセットにおいて、Perch 2.0は既存の専用モデルや他の音響基盤モデルと比較して同等、あるいはそれを上回る数値を記録したと報告されている。特に、事前学習済み埋め込みに対して線形分類器のみを学習させる線形プローブ設定でも高いスコアを示した点が強調されている。 ![Table 2 Marine learning transfer tasks.jpg] :::small 画像の出典:[論文「Perch 2.0 transfers 'whale' to underwater tasks」より]{target=“_blank”} ::: **■ 埋め込み空間の可視化** ![tsne_32_combined.png] :::small 画像の出典:[論文「Perch 2.0 transfers 'whale' to underwater tasks」より]{target=“_blank”} ::: さらに、少数のラベル例のみを用いたfew-shot条件でも性能低下は限定的で、限られたデータから分類器を構築する場合においても実用的な精度が得られたとしている。論文は、こうした結果を踏まえ、少量データ環境下で海洋哺乳類分類器を構築する用途にPerch 2.0の利用が有効であるとの見解を示している。 ![22193247_m.jpg] :::small 画像の出典:[maffy@ photoAC]{target=“_blank”} ::: ## 生物多様性モニタリングへの取り組み Google DeepMindの[公式ブログ]{target=“_blank”} では、生物音響AIを活用した絶滅危惧種の検出や生態系モニタリングへの取り組みを紹介している。 ![deepmind blog team perch.jpg] :::small 画像の出典:[Google]{target=“_blank”} ::: Perchシリーズは、保全団体や研究者と連携し、長時間の録音データから種の存在を自動検出する用途などで活用が進められていると説明している。今回の検証結果は、こうした生物音響研究の一環として位置づけられる。 :::box [関連記事:Google、イルカの“言語”解読を狙う音響モデル「DolphinGemma」公開──約4億パラメータをPixel 9上でリアルタイム実装] ::: :::box [関連記事:Google、咳音を用いた病気の早期検出を可能にするAIモデル「HeAR」を発表] ::: :::box [関連記事:AIの身体性問題に糸口、「読む」だけで「見る・聞く」も学ぶLLM──画像・音声分類に使える“汎用言語モデル”の可能性] ::: :::box [関連記事:AIは「音を想像して考える」ことができるか──韓国の研究チームがAuditoryBench++と新手法AIR-CoTを発表] ::: :::box [関連記事:Google が推進する次世代音声生成技術の最前線] :::

アクセスランキング
mailmagazine_Benefit_260109
FOLLOW US
各種SNSでも最新情報をお届けしております