DXの推進にともなって、注目を集めている「データ基盤」という概念。事業のDX化には不可欠な存在だが、いまいち、その重要性が腑に落ちていないという方もいるのではないだろうか。
DATAFLUCTの久米村隼人氏(代表取締役)、石田和也氏【左から順に】
データビジネスを提供する株式会社DATAFLUCTの久米村隼人氏(代表取締役)と石田和也氏に、データ基盤の基礎知識から、現代のデータ基盤を取り巻く状況、企業の活用状況について、広く話を聞いた。
なぜ「データ基盤」に注目が集まっている?
──まず、率直にうかがいます。「データ基盤」とは何を意味するワードでしょうか。
石田氏:一般的には、社内外のデータを集めて、データの活用や分析に使っていくためのシステムのことを指します。大きく機能を分けると、データの「収集」、「蓄積」、蓄積したデータの「加工や統合」、BIで可視化したり、AIで検証する「分析」という4つのフェーズから成り立つシステムだと、私たちは捉えています。
データ基盤の機能を提供するプレイヤーはたくさんいますが、基本的にはフェーズごとの機能に特化したサービスが提供されています。ですが、4つのフェーズを意識して一連の流れを構築しようと思うと、それぞれのサービスをうまく組み合わせていかないといけませんし、ここにもっとも難しさがあります。DATAFLUCTは、企業の姿から要件を抽出し、“最終的にデータをどう活用していくか”という出口戦略まで見た基盤構築が得意な企業です。
──データ基盤というワード自体には、聞きなじみのある人も多いと思います。しかし、なぜ重要だとされているのか、またどう使われるべきかまでを知っている人は少ないようにも感じます。
久米村氏:「なぜデータ基盤が必要なのか」という説明をするためには、これまでのデータの活用範囲の歴史を振り返るとわかりやすいです。
過去の歴史を4段階に分けて考えると、フェーズ1として「BI」というものがあります。これは、過去のデータを収集・可視化して、何が起きたのかを把握する段階です。この段階では、データは、過去のデータを元にした意思決定に役立てられていました。
フェーズ2は「BA」で、データを分析し、“現状がなぜ生じているのか”という原因を分析していた段階です。想像しやすいのは、営業活動でのスコアリングなどでの活用ですね。
フェーズ3は、「AI/ML」で、収集したデータから何が起きるのかという、未来の事象を予測していく段階です。いまはちょうどこの分野のサービスが高度化し始めた段階で、0.5%前後の企業が、ここにたどり着いていると私たちは読んでいます。
フェーズ4はDXで、精度の高い分析から、新たな価値を創造していくという段階ですが、ここに至っている企業はまだほとんどいないというのが、私たちの考えです。
その上で、なぜデータ基盤の重要性が増しているのかというと、ひと言で表せば、データのクオリティが上がり、その種類と活用範囲が広がっているからです。
以前は、顧客や品目のマスターデータなど、「構造化データ」が扱えれば十分でした。その処理方法も、一定期間データを蓄積してからまとめて処理する「バッチ処理」の考え方が通用しました。しかしDXを推進しようと思えば、画像や動画、ドキュメントなど、AIによる構造化が必要な「非構造化データ」を扱えないといけませんし、IoTセンサーなどからの情報を、時系列で連続的に処理する「リアルタイム処理」が求められます。
IoTやモバイルアプリなどのSoE(System of Engagement)や、人材管理システムやサプライチェーンマネジメントシステムなどのSoR(System of Record)だけに注力をしても不十分です。それらを分析するためのアナリティクスがないと、データ分析はうまくいきません。
僕たちはSoI(System of Insight)と呼んでいますが、SoEとSoRのあいだをつなぐものがSoIです。DXを進めるためにはもっとも重要な投資領域で、このSoIこそがデータ基盤において重要なポイントなのです。
「良いデータ基盤」とはどんなもの?
──データ基盤の良し悪しを見分ける指針は、どこにあるのでしょうか。
石田氏:データ基盤を構築しても十分に活用されていなかったり、使いにくいものができたりしてしまうことは、しばしば起こり得ます。
取得していくデータは、基本的にRAWデータ(無加工のデータ)です。単にRAWデータを貯めていくだけでは、どうしても運用面に課題が出てくるんですね。“データがどこに置いてあるか”というデータカタログをメンテナンスしないと、どのデータがどこに置いてあるかわからなくなりますから、使えないデータ基盤になってしまいます。
また、データガバナンスが整備されておらず、本来の用途とは間違った使い方や、各組織で異なる手順による利用など、構築だけでなく運用面でも組織にガバナンスが浸透していないと良い基盤とは言えません。
運用も含めてデータ基盤を構築していける担当者が企業にいるかどうかが、重要になると思います。
──そうした人材の重要性はたびたび話題になりますね。DATAFLUCTからみて、企業のDXにかかわる人材は、十分に確保されていると言える状態ですか。
石田氏:事業会社のクライアントさんで、データ基盤に関する高い知見を持っている方は、それほど多くないというのが正直なところです。サービスの導入が決まってから短期間で実装まで持っていく中で、データ基盤の重要性をメッセージとして発信していくことも、データ基盤を用いたDXを推進していく鍵になると思っています。
現代のデータ基盤に必要なのは、データを「貯めていく」という発想
──御社のソリューションを活用して、データ基盤を効果的に導入できた企業様の事例を教えてください。
石田氏:酒類や食品の卸売業者である国分グループさんに、最適な仕入れや生産を実現するサプライチェーンマネジメントサービス「Perswell」を導入していただきました。Perswellは、機械学習と外部データを組み合わせて、高い精度で需要を自動的に予測するというソリューションです。それに統合する形で、データ基盤の「AirLake」も導入していただいています。
国分グループさんの倉庫からは、日々、発注された商品が出荷されていきます。その傾向はさまざまな条件によって変化していきますが、PerswellとAirLakeの組み合わせで、毎日、出荷実績を学習させ、毎日分析し、毎日モデルを作っていくという仕組みを構築しました。PerswellとAirLakeの導入前は、運用面やコスト面で、実現が難しいことでした。2月に本番環境で稼働し始め、順調に稼働しています。
──AirLakeは、昨年末リリースのサービスですね。このサービスは、DATAFLUCTが推し進める次世代のデータ基盤構築の中で、どのような役割を担うものですか。
久米村氏:現代はデータの種類も多く、処理のリアルタイム性も求められます。サービスがSaaS化し、クラウド化していく中で、WebサービスはIDサービスに変化してきています。それだけでなく、位置情報、気象情報、SNSから得られる情報など、多岐にわたるさまざまなデータを貯めていく必要があります。
それには、現在十分に普及している、従来型のデータ基盤であるCDP(Customer Data Platform)では対応できません。オープンなデータをどんどん引っ張ってきて、“貯めていく”という発想が必要になってきました。“データレイク”が必要な時代になってきているんです。
この次世代型のデータ基盤をDataLake+DWH型と呼んでいますが、CDPの時代と比較して、3つの大きな変化があります。ひとつは、「クエリ型」である点です。データベースからデータを抜き出してきて分析するのではなく、リアルタイムにクエリをかけられるようになってきています。
ふたつ目は、機械学習による自動化です。個人情報もビッグデータも混ざっている状態の、膨大なデータレイクを処理するために、エッジAIのディープラーニングを適用し、AutoMLやMLOpsで最適化、リアルタイムに処理をします。
そして、それを実現するために非構造化データを構造化して格納するデータレイクがAirLakeです。僕たちが目指す次世代型のデータレイクの軸は、本質的には「基盤を充実させること」と「処理を早くすること」。AIクエリエンジンを「Thryving」として、ディープラーニングプラットフォームを「Comler」として提供していますが、AirLakeはこれらを含んだアーキテクチャーのコア技術です。
日本では、現在もCDPの考え方がもっとも世の中に浸透していると言えます。販売管理システムや生産管理システム、顧客管理システムなどのSoRと、主にWeb、モバイル、メールなどのSoEから取得したデータを統合して、マーケティングに活用していこうという考え方ですが、僕たちが目指しているのは、現代型のデータ基盤であるCDPの、さらに次の時代です。
DXにまつわる失望を、テックの力で希望に変える最強データ集団
──データ基盤を用いたDXを推進しようとする動きが活性化する一方で、「思うようにプロジェクトが進まない」「導入してみたが、効果が実感できない」といった意見も聞かれます。この原因はどこにあるのでしょう。
久米村氏:現在は“DXブーム”ともいえる状況で、ディープラーニングに興味を持っている企業さんはたくさんいると思います。さらに言えば、興味を持って、実験して、失敗して、がっかりしている人が多い“幻滅期”です。全体の流れとして、大勢の興味がある状態から、本当の普及に向けて進んでいくための、“谷”に位置しているんですよね。
データ基盤が整っていないと、このようなことが起こり得ます。データレイクの必要性を認識していないからアノテーションができないし、クレンジングができない。必要なデータも思うように集められない。各企業の要件に応じて、必要なデータ基盤の構造を構築し、分析のパフォーマンスが追いつけば、“普及期”につながっていくと考えています。
──実際に、データ基盤を用いたDX化に取り組もうとしている企業さんは、どのような課題を抱えていますか。
石田氏:「こんな風に取り組んでいるけど、うまくいかない」とか「こんなことを実現したいけど、今の状態ではできない」といったニーズは多いです。
久米村氏:そんなときに、僕たちが「この方法では無理ですが、この方法ならできます」と提案できることは多いです。「非構造化データを活用するべきかどうか」「どうデータを取り込んで、予測精度を上げていくか」「どんなアーキテクチャならサステナブルに回るのか」など、僕たちはデータ基盤にまつわる課題を、最先端の技術で解消しようと日々試している会社です。それが支持していただけている理由ではないかと思います。