企業に眠る「ダークデータ」を宝の山に 日立がデータ自動抽出ソリューション開始

このエントリーをはてなブックマークに追加

※この記事はデータサイエンス専門メディア「Da-nce」からの転載です

株式会社日立製作所(以下、日立)は、企業に埋もれている「ダークデータ」に新たな価値を見いだす、データ抽出ソリューションを6月23日から販売開始した。一般的なOCRやAI-OCRでは解析が難しい、非定型ドキュメントからのデータ抽出が可能になる。

AIで「人が読むように」文書の構造を解析

昨今、IoTの進展により加速度的にデータが生み出される反面、活用されないまま企業に眠っているデータも増え続けている。本ソリューションはそうしたダークデータからの抽出作業を自動化・高度化することで、これまで利活用できなかったドキュメントから意味のある情報を引き出していくという。

このソリューションの強みは、請求書や診療明細書といった発行元によって様式や表記が異なる非定型ドキュメントでも、データの抽出作業を自動化・高度化できることだ。たとえば、日付の表記が「発行日」と「診察日」など、発行元によって異なる用語が使われている場合にも、文書の構造から同じ意味をさす単語として認識できる。情報が複数ページにまたがるドキュメントにも対応する。

診療明細書を使ったデータ抽出のイメージ。ひとつの区分に対し複数の項目が紐づく”1:Nの関係”も正しく認識するため、複雑な表のデータ抽出ができる

人が文書を読む際に、テキストだけでなく、全体のレイアウトや単語の出現位置など視覚的な情報から文書を捉えるように、AIが、表や図、テキストの座標といったドキュメント内のさまざまな特徴から文書の構造全体を解析し、非定型の多種多様なドキュメントのデータ抽出に対応します。また、少ない教師データからAIモデルを生成できる自動ラベリング機能により、導入時のモデル構築や、追加学習・再学習といったモデルの改修にも柔軟に対応できます。
(プレスリリースより)

また少ないデータからAIモデルを作る「弱教師学習技術」によって、データのラベリングが自動化できる。モデル構築のための期間短縮やコスト削減が可能となるのに加え、追加学習や再学習といったモデルの継続的な改善にも柔軟に対応できるということだ。

リリースによると、日立は今後、画像や映像、音声といった、企業が持つダークデータ全般に対応するソリューションの実現に向けてAIの抽出機能をさらに強化していくという。

「データ抽出ソリューション」情報

>>プレスリリース