エヌビディア合同会社が主催する「NVIDIA 秋のHPC Weeks」が開催された。HPC Weeksは、3週にわたり、HPC(ハイ・パフォーマンス・コンピューティング)の各分野や、機械学習の第一人者たちが登壇し、研究成果やGPUの活用どころ、今後の展望についての話を聞けるイベントだ。
本稿ではHPC Weeksで実施されたさまざまな講演のなかから、Ledge.ai読者にイチオシの講演をレポートする。
今回の記事では、Week3「GPU Applications」の講演のなかから、東京工業大学 情報理工学院 教授 秋山 泰氏による基調講演「次世代ペプチド創薬における未解決課題に深層学習と大規模分子シミュレーションで挑む」と、東京大学 地震研究所 計算地球科学研究センター センター長・教授 市村 強氏による基調講演「スケーラブルかつ高速なデータ駆動型大規模物理シミュレーション」の2本をお届けする。
深層学習で“間引き”をして創薬に貢献
まずお届けするのは、秋山氏による基調講演「次世代ペプチド創薬における未解決課題に深層学習と大規模分子シミュレーションで挑む」。
最初に秋山氏から講演の前提になる「創薬研究の現状」について解説があった。
「創薬にはお金と時間がかかります。安くても3000億円程度かかり、期間は10年どころか14,5年かかることも多くあります。お金と時間がかかる理由は『人間の体のなかに入れるものだから』が最も大きな要因になっています。これは、命にかかわるから大切に、だけではなく、体のなかでは3万弱の遺伝子が10万種類程度の少しずつ異なるタンパク質を作っているため、想定していない動き(=副作用)を出す可能性があるためです。
材料開発にも難しさはありますが、薬は狙った1点だけでなく、その箇所にたどり着くまでの“旅”もすべて考えなければいけないため、非常に失敗が多く、コストや期間がかかってしまうのです」(同氏)
いま、研究開発分野において「ペプチド医薬」が注目を集めているそうだ。製造コストが安価な低分子医薬品に比べ期待される効果は高い傾向になりつつも、高価な高分子医薬品よりも製造コストを比較的安価に抑えられるからだ。
ペプチド医薬とは、アミノ酸がおよそ2~50個連なった分子のこと。ちなみに、タンパク質はアミノ酸がおよそ50~3万個連なった分子だ。ペプチド創薬とは、薬剤設計の標準的骨組みとしてペプチド分子を活用することが「次世代ペプチド創薬」だという。
しかし、ペプチド医薬には課題がある。ペプチド医薬は、優れた薬効を持ち、工業的合成が可能である点から大きな期待を集めているが、細胞膜透過性や血中安定性などの薬物動態に優れた設計を得る手段が未解決だったのだ。そこで、最先端のITテクノロジー技術を駆使し、次世代のペプチド創薬を目指す研究発表が今回の基調講演で語られた内容だ。
秋山氏は次世代ペプチド創薬について未解決問題をいくつか掲げた。
最初に取り上げたのは「体内持続性」。体内持続性が悪いペプチドでは、PPB値が低く、すぐに体外に排出されてしまうため薬としての役目を果たせない可能性がある。だが、先述のとおり体内持続性を事前に予測できず、ペプチドを設計し、合成したのちに計測してからはじめて持続性が判明するため、やってみないと分からない、という課題があったのだ。
そこで、設計データを計算し、機械学習によって回帰モデルを作成し、ペプチドの設計段階から体内持続性を判明させる取り組みを開始した。
2016年から開始した機械学習を活用する初期の研究では、環状ペプチドのPPBデータが世の中に数十件しかない状況だった。データが少ないなかでの取り組みだが、まず着目したのは1000件以上のこれまでの別の薬での実験データの活用だ。最初に、データが豊富な従来の薬に対して、分子を予測する機械学習モデルを作った。そのなかで重要だといわれる部分の骨組みを、環状ペプチドの分析に転換させて使ってみたという。この取り組みに対し、秋山氏は「そこそこうまくいった」と振り返る。
最近では、環状ペプチドのPPBデータを500件程度収集でき、さらにData Augumentationの方法も開発したことで深層学習の運用も可能になったそうだ。いまでは深層畳み込み学習に移行し、徐々にPPB予測性能は向上しているという。
「予測性能が向上したことで、予測値を一瞬で出せるので、(ペプチドの体内持続性が)悪そうなものをあらかじめ間引き、良さそうなものを残すことが可能になりました。1ヵ月かけて計測する必要もなくなりました」(秋山氏)
体内持続性の課題をテクノロジーによって解決する兆しが見えたことを受け、ペプチド創薬での次なる課題である「細胞膜透過性」の解決へと取り組み始めた。秋山氏は細胞膜透過性について「ペプチド創薬の最大の未解決問題」としている。その問題とは、サイズが大きいため細胞膜を通過しにくいことだ。
薬は細胞膜を通過しないと、細胞内標的に到達できない。しかも、薬効の高い大型ペプチドほど、膜透過性の良いものは見つけにくいという。
最近では深層学習の利用をスタートした。データ収集に進展があったことをうけ、機械学習が可能なレベルになっている。ただ、それでもデータ量は十分とは言えず、データベースはなく、個別論文や特許情報などから個別に収集しているそうだ。いくつかハードルはあるものの、深層学習で良好な結果は出つつある。ただし、学習データに引きずられるため、慎重にデータ集めをしているとのこと。
現在では、さくらインターネットと共同でシミュレーションによる細胞膜透過性予測も進めているそうだ。シミュレーションに関する論文は下記にて公開中とのことなので興味のある方は、下記画像に掲載の二次元バーコードや、下記URLからアクセスしてみてほしい。
ハイ・パフォーマンス・コンピューティングで「夢物語を実現させた」
続いて、本稿でレポートするのは東京大学 地震研究所 計算地球科学研究センター センター長・教授 市村 強氏による基調講演「スケーラブルかつ高速なデータ駆動型大規模物理シミュレーション」。この基調講演では、スケーラブルかつ高速な物理ベースの大規模シミュレーションのための、シミュレーション手法自体の高度化、シミュレーション過程で生成されるデータに基づく学習による一次方程式求解高速化について概説された。また、大規模なCPU/GPU計算機環境上で大規模な地震シミュレーションへ開発手法を適用することで、幅広いアーキテクチャにおける開発手法の有効性を示した。
市村氏らが取り組むのは「京コンピュータを用いた首都圏の大規模地震シミュレーション」だ。
「やるのは大変ですが、やろうとしていることは単純です。
地震が怖いと言っても、どこがどのように怖いのかがよくわからないことばかりなので、空間情報などさまざまなデータを駆使し、詳細な地震シミュレーションを実現することです。つまりは、市民、行政、技術者の共通認識構築のために、起こりうる震災をわかりやすく可視化した震災情報の提供を目指しています。
デジタルツインを用いて都市の地震シミュレータを作ります。計算機上にデジタルデータから都市を構築し、地震動を計算します。さらに、都市内の各種構造物のシミュレーションをし、緊急対応や復旧対応のシミュレーションをします。
計算に取り組む人にとっては非常に素直な話ですが、計算規模は非常に大きなものになります」(同氏)
市村氏の基調講演では、同氏が携わる研究について幅広く触れられたが、本メディアがAI専門メディアということで人工知能関連の話に沿った部分をお届けする。具体的には、HPC物理シミュレーションの高度化と人工知能の融合に向けた取り組みの発表だ。
「東京などには非常に硬い建物が地盤のなかに埋め込まれています。そのため、地上構造物と地下構造物、そして地盤を含む超高分解能シミュレーションを実現する必要があります。ただ、各段に収束性が悪くなるため、なかなか手が出ない問題でした。この収束性を改善するために、人工知能を使って何とかできないか、という取り組み内容です」(同氏)
この取り組みでは、人工知能によって“系”を学習し、方程式求解を高速化するもの。微分方程式がもつ情報を用いることで、支配方程式では解くことが難しい特定部分をAIが抽出し優先して解くという流れだそうだ。
また、人工知能用アーキテクチャの活用にも期待をかけていると市村氏は話す。
さて、最後に人工知能の話題から逸れHPC分野での話になるが、非常に興味深かったので紹介したい。
市村氏らの研究では、富岳全系(7,312,896並列)までスケールする超並列計算物理シミュレーション、データハイブリッド手法による超詳細断層 都市系の大規模地震シミュレーションを進めている。これはGPUを使ったデータ駆動型のシミュレーションをさらに進めたもので、世界初の都市超詳細解析を実現しているという。
この規模と性能の地震シミュレーションは日本でのみ実現したそうで、計算機では性能が出にくい非構造低次有限要素解析において独自技術があるため、ものづくりなどの非構造低次有限要素解析を使う分野への波及効果も期待されている。市村氏は「地震工学のなかで夢物語だったものが、富岳によって実現した」と話す。性能比でいえば、京コンピュータよりも1070倍の性能が向上したという。
全3回にわたって、NVIDIA 秋のHPC Weeksのなかから、読者に注目の講演をお届けしてきたが、もしまだweek1・week2の記事を読んでいない方はぜひともチェックしてみてほしい。