学術&研究

学術&研究
2024/7/16 [TUE]
スマホ上でも高速動作可能 NICTが21言語対応のニューラル音声合成技術を開発のサムネイル画像

スマホ上でも高速動作可能 NICTが21言語対応のニューラル音声合成技術を開発

国立研究開発法人情報通信研究機構(NICT)は2024年6月25日、ユニバーサルコミュニケーション研究所において、21言語に対応した高品質なニューラル音声合成技術開発に成功したことを[発表]{target=“_blank”}した。 この技術により、CPUコア一つで1秒の音声をわずか0.1秒で高速合成することが可能となり、従来モデルの約8倍の速さを実現した。また、ネットワークに接続されていないミドルレンジスマートフォン上でも、テキスト入力からわずか0.5秒で音声を生成できるという。 @[YouTube] この新技術は、NICTが運用するスマートフォン用多言語音声翻訳アプリ「[VoiceTra]{target=“_blank”}」のサーバに搭載され、既に一般公開されている。今後は、商用ライセンスを通じて多言語音声翻訳やカーナビなど、様々な音声アプリケーションへの導入が期待される。 ## 開発の背景 NICTのユニバーサルコミュニケーション研究所では、言語の壁を超えた音声コミュニケーションを実現するため、多言語音声翻訳技術の研究開発を[進めてきた]{target=“_blank”}。特にテキスト音声合成技術は、音声認識や機械翻訳と同様に、多言語音声翻訳の実現に不可欠な技術である。従来の音声合成技術では、ネットワークに接続されていないスマートフォン上での合成が困難だったが、今回の開発によりその課題が解決されたとのこと。 ## 技術の詳細 この技術は、入力テキストを中間特徴量へ変換する「音響モデル」と、中間特徴量を音声波形へ変換する「波形生成モデル」から成り立っている。「音響モデル」には、高速・高性能なConvNeXt型エンコーダとデコーダが使用されており、従来のTransformer型モデルに比べて3倍の高速化を実現。また、「波形生成モデル」には改良型のMS-FC-HiFi-GANが導入され、合成速度を4倍に引き上げているという。 ![20240625-03.jpg] :::small 画像の出典:[NICT 波形生成モデルのみを逐次合成することにより待ち時間短縮を実現]{target=“_blank”} ::: :::box [関連記事:国産AIによる同時通訳技術開発進む 2025年大阪万博での活用ほか、国際会議想定] ::: :::box [関連記事:ポケトーク、AIが使用言語を自動判別する「ポケトーク ライブ通訳」双方向リアルタイム翻訳で10言語に対応] :::

学術&研究
2024/7/15 [MON]
10億のペルソナで合成データを生成、LLM開発に新たな可能性のサムネイル画像

10億のペルソナで合成データを生成、LLM開発に新たな可能性

論文
学術&研究
2024/7/13 [SAT]
LLMはRAGと事前知識をどう使い分けるのか マサチューセッツ大とMicrosoftの研究グループが発表のサムネイル画像

LLMはRAGと事前知識をどう使い分けるのか マサチューセッツ大とMicrosoftの研究グループが発表

論文
学術&研究
2024/7/13 [SAT]
OpenAI「現在ChatGPTはレベル1」AIシステムの進化を測定する新たな内部評価スケールを導入のサムネイル画像

OpenAI「現在ChatGPTはレベル1」AIシステムの進化を測定する新たな内部評価スケールを導入

OpenAI
学術&研究
2024/7/12 [FRI]
SelfGoal: LLMエージェントの高難易度タスク解決を飛躍的に向上させる新手法のサムネイル画像

SelfGoal: LLMエージェントの高難易度タスク解決を飛躍的に向上させる新手法

AIエージェント
論文
学術&研究
2024/7/11 [THU]
内省メカニズムで進化するLLMエージェント「悪魔の代弁者」 GoogleDeepMindなどの研究チームが発表のサムネイル画像

内省メカニズムで進化するLLMエージェント「悪魔の代弁者」 GoogleDeepMindなどの研究チームが発表

Google
AIエージェント
学術&研究
2024/7/10 [WED]
神経系と連携し「義足が自分の体の一部と感じられる」自然な歩行を可能に MITの研究チームが発表のサムネイル画像

神経系と連携し「義足が自分の体の一部と感じられる」自然な歩行を可能に MITの研究チームが発表

論文
近未来
学術&研究
2024/7/9 [TUE]
Meta 従来の3~10倍速、60秒以内で高品質3Dアセットを生成する「Meta 3D Gen」を発表のサムネイル画像

Meta 従来の3~10倍速、60秒以内で高品質3Dアセットを生成する「Meta 3D Gen」を発表

Meta
論文
学術&研究
2024/7/7 [SUN]
長尺のビデオを理解する「LongVA」大規模マルチモーダルモデルの進化 シンガポールの研究グループが発表のサムネイル画像

長尺のビデオを理解する「LongVA」大規模マルチモーダルモデルの進化 シンガポールの研究グループが発表

マルチモーダルAI
学術&研究
2024/7/4 [THU]
NICTとKDDI、ハルシネーション抑制とマルチモーダルデータ対応の高性能LLM共同研究を開始のサムネイル画像

NICTとKDDI、ハルシネーション抑制とマルチモーダルデータ対応の高性能LLM共同研究を開始

国内企業事例
基盤モデル
学術&研究
2024/7/1 [MON]
AIがAIを訂正する世界への一歩ーーOpenAIが「CriticGPT」を発表 ChatGPTのエラー検出を支援のサムネイル画像

AIがAIを訂正する世界への一歩ーーOpenAIが「CriticGPT」を発表 ChatGPTのエラー検出を支援

OpenAI
学術&研究
2024/6/30 [SUN]
最高時速510kmを達成した世界最速ドローン、ギネス認定のサムネイル画像

最高時速510kmを達成した世界最速ドローン、ギネス認定

モビリティ×AI
学術&研究
2024/6/28 [FRI]
ロボットに生きた皮膚を密着させる技術 東京大学研究チームが開発 ソフトロボット・美容整形医療にものサムネイル画像

ロボットに生きた皮膚を密着させる技術 東京大学研究チームが開発 ソフトロボット・美容整形医療にも

論文
ロボティクス
近未来
アクセスランキング
優勝はモロッコのAI美女 世界初のAIビューティーコンテスト「Miss AI 2024」の受賞者発表
Google ダークウェブ監視機能を全ユーザーに無料開放 7月下旬より
LLMはRAGと事前知識をどう使い分けるのか マサチューセッツ大とMicrosoftの研究グループが発表
4
10億のペルソナで合成データを生成、LLM開発に新たな可能性
5
安達寛高(乙一)ら原作・監督 全編生成AI制作の映画「generAIdoscope:ジェネレイドスコープ」2024年公開予定
TokyoSaunist
FOLLOW US
各種SNSでも最新情報をお届けしております