マテリアルズ・インフォマティクス(MI)を進める際のつまずきやすい点と解決策 日立ハイテクソリューションズらが解説

このエントリーをはてなブックマークに追加

化学品などの材料開発には膨大な時間や費用がかかる。そこで、材料開発にAI(人工知能)やビッグデータ等を活用し、効率化させようとする「マテリアルズ・インフォマティクス(以下、MI)」が注目を集めている。
しかし、MIの活用の一歩目になるデータ整備をはじめ、滞りなく進められる企業は少ないのも実情だ。それでは、MI活用を実現するにはどのような勘所があり、MIはどういったユースケースがあるのだろうか。

レッジは2021年12月に、MIを活用した戦略的な研究開発を支援する、株式会社日立ハイテクソリューションズ / Hitachi High-Tech America, Inc. / 株式会社日立製作所を招き、3社によるMI活用に関するウェビナーを開催した。本稿ではこのウェビナーの模様をレポートする。

開発期間の短縮やコスト低減につながるのがMI

最初に株式会社日立ハイテクソリューションズ 黒川氏はMIについて紹介してくれた。

―― 黒川氏
「従来の材料開発プロセスは、新しい材料の目標性能を設定し、研究者の方が開発事例を調査したり経験や知見に基づいたりして材料の材料を設計します。この設計した材料すべてに対して、シミュレーションし、実験、性能評価をしていました。

一方でMIを活用すると、目標性能を設定したあと、技術調査や材料設計の段階でAI技術を使い、材料候補をある程度絞り込めます。そして、AIによって選定された候補素材だけに対してシミュレーションや評価をするため、開発期間の短縮やコストの低減につながることが期待されています」

このMIを活用したフローに合わせ、日立ハイテクソリューションズが開発した「Chemicals Informatics(以下、CI)」について紹介された。

―― 黒川氏
「CIは、材料開発プロセスの初期の技術調査や、材料設計の段階で活用いただくことで、有望な候補材料を絞り込むスクリーニングを支援いたします。

CIには、特許や論文などの公開文献に対して自然言語処理技術を施し、幅広いデータを揃えています。そのなかから、独自のAIアルゴリズムで網羅的かつ効率的に材料を絞り込み、特許未取得の化合物や材料の組み合わせを提示できます。そのため、CIをご活用いただくことで、手戻りの少ない戦略的な研究開発を支援できるのではないかと考えています」

MIを活用したい企業が“頓挫”しやすいポイントとは

ここからは、黒川氏に加え、Hitachi High-Tech America, Inc. 磯部氏、株式会社日立製作所 岩崎氏の3名で「化学業界での課題」「MI活用で頓挫しやすいポイント」「CIの活用事例」などについて語られたディスカッションをレポートする。

cap:写真左上から、Hitachi High-Tech America, Inc. 磯部氏、レッジ 大久保(モデレーター)、株式会社日立ハイテクソリューションズ 黒川氏、株式会社日立製作所 岩崎氏

まず、現在の化学業界の課題について、3名それぞれの視点から語られた。

―― 黒川氏
「研究開発が属人的になっていると言う課題があるかと思います。

経験豊富で勘の良い研究者の方ですと、『このあたりに良い化合物がありそう』『このような配合にすれば良さそう』と感覚的に抽出し導き出すことができるそうですが、経験が浅い場合はなかなか難しいとお聞きしています。

研究開発機能が属人的になってしまうと、企業の競争力にも影響を及ぼすため、リスクが高い状態と言えるのではないでしょうか」

―― 岩崎氏
「5Gなどの技術をはじめ、工業分野では技術革新がとても進んでいます。しかし、化学や材料分野での研究開発においては、旧来型の研究開発手法から大きな変化ができていません。

私が研究を進めている『分子動力学シミュレーション』の分野では少しずつ成果が出始めているものの、研究開発プロセス全体をデータドリブンとするにはもう少し時間がかかりそうです」

―― 磯部氏
「計算科学や情報システム工学と、化学の両方を理解されている人材がなかなかいないことも課題に挙がるかと思われます。

MI分野に限った話ではございませんが、アメリカと比較すると日本企業のデータ活用や情報システム活用は、遅れを取っている印象を受けます。日本企業でもデータサイエンティストの育成を進めたり、MI推進組織を立ち上げたりされているものの、肝心の人材が不足している状況です。

また、データがなかったり、データはあるけどどのように活用すればいいかわからなかったりと、MIの活用になるとハードルが高く、非常に長い時間がかかっている状態です」

磯部氏の話を踏まえ、MIを活用する過程で、どういった点で“頓挫”してしまう企業が多いのだろうか。

―― 岩崎氏
「研究開発において、課題感が強く出るのが実験回数です。

従来は材料候補を使って実際に合成評価をし、目的の特性が出なければ、別の条件で実験することを繰り返していました。実験回数を減らすため、シミュレーション技術を利用し、ある程度の実験結果をバーチャルに予測する取り組みもあります。

しかし、シミュレーションは時間や手間もかかりますし、コンピュータの性能も求められるため、シミュレーションにかけられる回数自体も実際は限られてしまうのです。

シミュレーションの回数を抑えるためには、候補となる材料を絞り込む必要が出てきます。絞り込む作業は、化学者の知見や経験をもとに進めるものの、網羅性が下がったり見落としたりする可能性も発生すると考えています。

データをもとに材料を絞り込めれば良いのですが、このデータを揃える部分でお困りになられているとよく聞きます」

―― 黒川氏
「MIシステムは自社でデータを持っていることが前提となっている場合がほとんどです。そのため、データが少ない状態で始めてしまうと、精度が上がらず実用化に至らない『PoC止まり』になってしまうケースをよく聞きます。

ただ、データ量は企業によって大きな差があり、以前から実験データを豊富に蓄積されているお客様もいらっしゃいます。このような企業様は、社外データも加えて活用することで精度をさらに高めたり、研究領域を拡大されたりしていますね」

―― 磯部氏
「自社のデータをもとにして進めるMIは、限られた分野の予測精度を高めることに有効な場合がございます。しかし、既存の材料の配合比をチューニングすることに固執してしまう状況を招くこともあり、結果的に特性値や物性値を高めるうえで制約が出てしまうケースがございます。

このようなケースを解決するには、バイアスのない社外のデータを追加し、より幅広い候補材料のなかから選定されることをオススメいたします。社外のデータを活用することで、いままでの材料だけでは達成できなかった特性を得られる場合があります」

オープンデータを活用したユニークなサービス

それでは、本ウェビナーのテーマとしているMI(マテリアルズ・インフォマティクス)には、どのようなサービスがあるのだろうか。黒川氏から紹介された。

1.技術調査・材料設計の支援
多くの企業の知財関係者が特許業務で活用されている「特許検索サービス」や、公的機関からも提供されており化合物全般を扱ったものから分野を絞ったデータベースまで幅広く提供される「化合物データベース」、指定の文献からキーワード同士のつながりを可視化する「自然言語処理サービス」など。

2.物性検討
構造や元素組成などをベースとした物性予測。岩崎氏から紹介のあった「分子動力学シミュレーション」もこれに該当する。

3.配合比検討(チューニング)
使用する材料が決まったあとに最適な配合比を予測する「配合比チューニング」の技術も出てきている。過去の実験結果をもとにしたもので、逆問題解析という手法を使用されるケースが多い。

黒川氏は「上記の技術を組み合わせて、お客様ご要望のMIシステムを作り上げる『オーダーメイドMI』も出てきています」と話す。

そして同氏は次のように続けた。

―― 黒川氏
「関連したサービスとして、研究開発から製品化、量産化へと移行する際の『製法検討』をご支援するサービスも出てきました。(配合比チューニングのように)実験結果や過去の製造結果をもとにした製法予測で、逆問題解析と呼ばれる手法が多用されています。日立ハイテクソリューションズの製造条件最適化Informaticsなどがこれに当たります。

また、MIでの利用に留まりませんが、データを統合し、データ分析やAIモデル作成などに使われる『データ分析プラットフォームサービス』もございます。弊社(日立ハイテクソリューションズ)では、AutoMLプラットフォーム『AIモデラー』を提供しています。

日立ハイテクソリューションズが提供する『CI(Chemicals Informatics)』は、特許や論文を自然言語処理技術で解析し、独自のDBを構築、また化合物の構造式も特徴ベクトル化してデータベースに収録しています。つまり、化合物、材料の構造や元素組成をベースにあらたな有望な材料候補を提示したり、その材料候補の特性値を過去の文献値を基に予測したりするサービスで、弊社オリジナルの非常にユニークなサービスです」

黒川氏はこれらのMIやCIを使った活用事例を紹介してくれた。本ウェビナーにあわせ、スライド画像にてまとめていただいているため、下記画像にてそれぞれの事例をチェックしてみてほしい。

・キナーゼ阻害剤(生化学)

・LIB溶媒

・スマホ樹脂レンズ

・生分解性プラスチック触媒

・CI活用事例

これらの活用事例にあわせ黒川氏は「電子部品系や工学系など幅広くお使いいただけます。有機材料だけでなく無機材料にも対応していますし、単一化合物の探索はもちろん複合材の探索も可能です」と補足した。

ここで視聴者から「逆に、うまくいかなかったり、難しかったりした事例はあるか」と質問が寄せられ、登壇者から回答があった。

―― 磯部氏
「組み合わせの数が非常に多いものですね。たとえばペプチドなどが該当します。組み合わせる数が1万通りなど膨大なものは難しい状況です」
―― 岩崎氏
「組み合わせの数が多い場合は、2段階程度に分割して進めてトライすると解決できるかもしれません。とはいえ、磯部さんがおっしゃるように難しい部類であることに違いはありません」
―― 黒川氏
「難しいものはあるものの、探索の進め方のコツがわかれば対応できるものは多いです」

CIはデータを準備済みなので「すぐに使える」

すでに豊富な事例をもつ日立ハイテクソリューションズのCI。なぜ同社のサービスが選ばれるのか。その優位性はどこにあるのか。黒川氏は、つまずきやすい点を減らし、顧客要望に合わせて機能を追加している点を評価いただいているのでは、と語る。

―― 黒川氏
「CIには、化合物データベースに、インターネット上の公開データベースや特許、論文などの公開文献を自然言語処理技術を用いて解析し、データを蓄積させています。また、新規化合物を生成するAIも実装しています。

CIを使用されるお客様が既存の化合物や目的とする特性などを“探索の条件”として指定するだけで、独自の探索AIが有望な化合物材料やそれらの特性の予測などを出力する仕組みです

多くのMI技術は、お客様側でデータを揃える作業から始めることが多いのですが、弊社のCIはすでに公開データをもとにしたデータを準備済みですので、クラウドに接続したらすぐにお使いいただけるのも特徴のひとつです」

CIを実現するための技術的な特徴のひとつに、黒川氏はデータベースを例に挙げた。

―― 黒川氏
「活用しているデータベースは大きく分けてふたつございます。

ひとつは、外部の公開化合物のデータベース情報を扱っています。こちらからは、化合物や関連特許情報を取得しています。

もうひとつは先に挙げた外部のデータベースから取得した情報と連携させ、特許文献およそ3000万件に対して自然言語処理技術を用い、特性値や分野、用途などを抽出してデータベース化したものです。現在、分野・用途が119種類、特性は61種類、これらの特性値の情報は4億100万ほど揃えています。実は特性値ひとつを追加するのにも、数ヵ月単位の時間がかかることもございますが、CIではすでに61種類の特性を備えています。

もちろん、お客様のご要望にお応えして、随時追加をしていきたいとも考えております」

さらに、CIに備わっているAIについても紹介があった。

―― 黒川氏
「CIでは既存の化合物を起点にし、少し構造を変えた新たな構造の化合物を作成することも可能です。

くわえて、CIの肝になっている探索AI技術についても紹介させてください。既知の化合物や新規の化合物の構造を解析し、目的の特性を持つ可能性の高い化合物や材料を探索できます。

化合物をその構造的特徴や元素組成の特徴をもとに、有機であれば40種類、無機は71種類、合計で111次元の特徴ベクトルに変換していまして、111次元の化合物空間に配置しています。図の『111次元空間』の点のひとつひとつが化合物を表しており、この距離が近いほど構造的、元素組成的に似た化合物という意味合いです。お客様が化合物をひとつ指定するだけで、111次元ベクトルから類似化合物を網羅的に探索AIによって見つけてきてくれる仕組みです。さらに化合物は複数指定することも可能であり、複合材の探索も可能となっています」


MI活用の勘所 これから企業が取り組むべきことは?

ウェビナーでは、登壇者の方からMI活用で抑えておくべきポイントについても語られた。本稿の最後にそれぞれ紹介していきたい。

まず、MI活用の勘所についてだ。

―― 岩崎氏
「シミュレーションをはじめ、さまざまな技術が出てきていますが、それらをどのように組み合わせて目的を実現するのか。材料開発プロセス全体をデザインすると良いと思います。

とくに、『上流工程でどこまで戦略をうまく立てられるか』『特許戦略も含めてどこを狙うのか』ということを十分なデータをもとに検討し、シミュレーションや実験を進めれば効率的な材料開発が可能になるでしょう」

―― 磯部氏
「最終的な理想像を見据えつつも、できることから始めることが重要だと思います。

どれだけデータサイエンティストを増やしても、データが少なければ成果は限られます。データが少ない状態でAI開発をスタートしたため失敗するケースを多く見てきました。

まずはデータを取得・統合する仕組みを整えるなど、データなしでも使える製品を使いつつ、ひとつずつ成果を積み重ね、周囲の理解を得ながら最終的な目的地を目指すのが良いと考えています」

―― 黒川氏
「マネジメント層の方針も重要だと感じます。

MIに限った話ではないですが、AIの活用はデータを揃える段階からシステム化、活用に至るまで、通常のシステム導入以上に時間と手間がかかるケースが多いです。

高付加価値な製品を作るため新しいテクノロジーを活用される企業様は、新たな組織を作られるなど、トップが積極的な対応姿勢を見せているように感じています。

我々システム会社にも導入のハードルを下げるような「すぐに使えるAI」を作り出し、技術面のみならず使い勝手や価格体系なども含めた製品の作りこみをしていく努力が必要だと思いますし、そのように取り組んでいます」

では、これからMIに取り組む企業は何からスタートするべきなのだろうか。最後に登壇者の方からメッセージが寄せられた。

―― 黒川氏
「研究開発のプロセス全体を見てもらい、どこをどのように変えたいのかイメージしていただくことが最初の一歩かと思います。

今回紹介させていただいたCI(Chemicals Informatics)は、お伝えしているとおり、データを広く集めデータベース化していますし、クラウドサービスなのですぐにご利用いただけます。MI活用をはじめる一歩目というお客様でも、上流の工程から効率化をはかれるサービスでございますし、すでにMI活用を進められているお客様についても、データの幅を広げることにお役立ていただけるサービスだと思っています」

―― 磯部氏
「CIは非常に幅広い分野や用途ごとに特性値を探索できます。用途や分野ごとにフィルタリングして除外したり、包含させたりもできますので、お客様が求める分野や用途ごとに発見する手助けをさせていただけます。

類似化合物4000万通りの組み合わせから、一気に探せるのはほかにはないサービスだと思いますので、ぜひともMI活用を進めたい方には使っていただきたいです」

―― 岩崎氏
「上流・中流・下流とあったとき、上流の段階でデータが豊富にそろっているCIのようなもので絞り込みをする戦略を作り、絞られたものに対してシミュレーションして組成を選定することが最も効率的だと思います。そして選定されたものの配合比については、ハイスループット実験で最適化するなどで進めていけば良いのではないでしょうか。

この一連の流れに載せることができたら、材料開発はとても効率的になると思います。もし、ハイスループット実験の導入に時間がかかる場合は、CIから入ってシミュレーションを導入する部分から構築いただくことが良いと思います」

登壇者紹介

株式会社日立ハイテクソリューションズ ICT事業統括本部 事業企画部部長代理
黒川 麗 氏

日立ハイテクソリューションズにSEとして入社後、製造業顧客を中心にシステム開発導入に携わる。その後インフラSE、データセンター運用・セキュリティ管理を経験し、システム全体提案を行う技術営業として活動。2018年にシリコンバレーのデータ分析ソフトウェア企業へ出向、帰国後はAI関連の新規事業開発とマーケティングに従事。

Hitachi High-Tech America, Inc. Director of Software/AI Development
磯部 隆史 氏

AIおよびネットワークの関連技術が専門で、多数の論文を執筆している。近年は米国にて、日立ハイテクソリューションズ向けAIソリューションの研究開発を主導しており、リハビリテーション病院での診断支援AI、および、化学材料の研究開発を支援するChemicals Informaticsを独自開発、実用化した。システム情報工学博士。

株式会社日立製作所 研究開発グループ 主管研究員
岩崎 富生 氏


1990年筑波大学大学院物理学研究科修了(理学博士)。1990年(株)日立製作所に入社。分子シミュレーションを活用した材料設計に従事。技術賞(日本材料学会、エレクトロニクス実装学会)、論文賞(IEEE、日本材料学会、機械学会、エレクトロニクス実装学会、電気学会)、高分子学会パブリシティ賞等を受賞。2015年より機械学会フェロー。