30日のデータ統合作業を1時間で。NECが多様なデータの意味推定が可能な独自AI技術を開発

このエントリーをはてなブックマークに追加

Photo by Mika Baumeister on Unsplash

NECは、多種多様なデータの本質的な意味をAIで推定する「データ意味理解技術」を開発したと発表した。従来、専門家が膨大な時間をかけて行っていた分野や業種の異なる複数の表データの統合作業を、高速・高品質に自動化するもの。

多様なデータ統合に膨大な時間がかかっていた

近年、データ流通基盤や情報銀行など、データを部門間、企業間、業界間で共有、統合することで、横断的な分析を行う取り組みが活発化している。

保有者の異なるデータを横断的に分析するには、表名や列名が統一されていない多様なデータを結合することが必要だ。

作業者、企業、業界毎の違いから表名/列名には大きな表記揺れがある。そのため、これまではデータ管理の専門家が膨大な量の表データを精査し、何のための表データか、その表データの各行や列が何を表しているかを見極め、人手で統合を行っていた。

その結果、データ統合に膨大な時間がかかり、分析がすぐに開始できない、担当者ごとのスキルにばらつきが出て分析精度が悪化するなどの問題が顕在化していた。

ナレッジグラフを活用した機械学習技術

NECが発表した本技術は、表データの構造と数値特性を含む、さまざまな単語のナレッジグラフを活用した機械学習技術。同社のAI技術群「NEC the WISE」のひとつだ。

本技術をオープンデータに適用したところ、専門家が30日かけていたデータ統合作業を、1時間で同等品質にて実現することを確認したという。

データ意味理解技術の特徴

以下が「データ意味理解技術」の特徴だ。

データ分布の傾向をとらえる特徴量に基づいてナレッジグラフと紐づけ

本技術は、もともと付与されている表名や列名を手がかりとするのではなく、各データ列の数値分布の統計的な傾向を手がかりとする。

事前にナレッジグラフ内の各単語について、その単語と共起する数値を収集し、単語の数値分布を含む独自のナレッジグラフを構築。同じ意味を持つ数値データは統計的な分布傾向が類似することから、数値データ列から数値の出現頻度の分布傾向を示す特徴量を算出し、ナレッジグラフ上の単語毎の数値分布と比較する。

これにより、たとえば列名のないデータについても、「売上高」といった意味の推定が可能になる。

ナレッジグラフ上での意味の共起関係を活用し、高精度な意味推定を実現

表データにおける数値データ列では、たとえば「29、24、23」など、単独では「年齢」や「気温」などさまざまな意味が当てはまるため、文字データ列と比べて正しい意味の推定はより困難だ。

今回開発した技術は、「推定対象のデータ列の意味候補」と「同一表データにある他のデータ列の意味」の共起関係をナレッジグラフ上のネットワーク距離(=データの意味間の共起関係の強度)を活用し推定し、高い精度での推定を実現する。

たとえば、データ列において同じ表データに「氏名」の項目が含まれていれば、ナレッジグラフから「気温」データではなく、より関係性の強い「年齢」データであることを推定する。

今後は汎用的な活用を目指し研究開発を推進

同社は今後、本技術をサプライチェーンに加え、

  • データレイク(さまざまな分野の形式が異なるデータが集まるデータベース)
  • データを一元管理するデータマネジメント基盤(DMP…データマネジメントプラットフォーム)
  • 情報銀行
  • データ流通プラットフォーム

など、情報共有基盤への汎用的な活用を目指し、研究開発を進めていくとしている。

Source:NEC、多種多様なデータの意味を推定するAI技術「データ意味理解技術」を開発