無料で使えるデータ分析ツール「KNIME」 プログラミング不要で機械学習による予測も可能

このエントリーをはてなブックマークに追加

【PR】本記事はインフォコム株式会社のスポンサードコンテンツです。

「Excelの集計業務を自動化したい」
「いくつもあるデータを集約して、分析のための前処理をしたい」
「機械学習を活用して予測やシミュレーションしたい」

さまざまな場所で「デジタル化」や「データ活用」の必要性が叫ばれている。しかし、データはあるものの、どのように使えばいいのわからない、といった人も少なくないはず。

これからデータ活用を進めていきたい企業のデータソフトウェア開発者やエンジニア、データサイエンティストなどにオススメしたいのが、インフォコム株式会社が提供している「KNIME(ナイム)」というツールだ。KNIMEは無料で利用できるツールで、あらかじめ用意されている機能(ノード)を線でつなげて組み合わせるだけでワークフローを構築できる。このワークフローを使うことで、「システムや工場での異常検出」「価格決定」「商品などの在庫の最適化」などをノーコード……つまりはプログラミング不要で実行可能だ。

「数週間かけていた作業を数分で」多種多様な業務に使えるKNIME

最初に、KNIMEを使うことで業務に役立てられるいくつかの活用シーンを紹介したい。

請求書チェックの自動化
作業時間の削減、チェック体制の向上

取引先企業との請求書のやり取りにおいて、自動化されたプロセスがないとメールなどをすべて手動で確認し、整合性のチェックが必要になる。数が少なければ問題はないものの、膨大な数の処理が必要な場合、請求書対応の作業に担当者は追われてしまう。

そこでKNIMEを使えば、手動化されていた請求書チェックの業務を自動化させられる。具体的には、作業時間の削減はもちろんのこと、チェック体制の品質向上やデータベースと請求書間における不整合の早期発見などに役立つ。

KNIMEでの請求書チェックの自動化には以下の手順を実行するだけだ。
1.日付を適切な形式で抽出するためにフラットファイルの形式を変換する
2.データベースのデータをそれぞれの月と相手先でフィルタリングする
3.同じデータを見つけるために両方のソースのデータを照合する
4.不足しているデータを計算する

在庫管理を最適化
数週間かかっていた作業を数分に

次に紹介するのは、オーストラリアの企業であるAutomotive Holdings Group(AHG)での事例だ。AHGは180以上の自動車やトラックのフランチャイズを所有しており、メンテナンスやアフターケア、保険、整備などの幅広いサービスを提供している。

AHGでは、使用されずに経年劣化した部品の評価損を最小限に抑えるために、販売店間でスペアパーツを移動する機会の特定を目的とした分析を定期的に実施していた。しかし、この分析は手作業によるものだったため、数週間のプロセスを経て、CSV抽出によって対応していた。

そんなAHGはKNIMEを使うことで、データ解釈プロセスを自動化することに成功している。分析作業の担当者は、これまで数週間かけていた分析作業をわずか数分の時間まで短縮できたのだ。これにより、在庫の潜在的な移転機会の特定も容易になったという。

意思決定
異なるデータソースを分析、顧客からの評価の分析

KNIMEはさまざまなデータソースをマージしてデータ分析することも可能だ。

たとえば、顧客による評価分析をする際は、プレスリリースや記者などによる記事、各種企業データなど、多岐に渡るデータをまたぐ必要がある。つまりは、公開されているデータを多角的に分析する作業が発生してしまう。

異なるデータソースを分析する場合でもKNIMEが役に立つ。KNIMEと統合されたPythonスクリプトを使えば、公開されているさまざまなデータソースをクロールし、包括的なデータベースの作成が可能だ。

この分析は、顧客からの評価をレポーティングしてくれるだけでなく、データ統合や自社製品の改善や劣化のアラートにも使える。

KNIMEで実現するデータ活用

KNIMEを使えば、データの理解や分析フローの設計、分析構成要素の可視化などが可能になる。具体的な流れは以下だ。

1.ワークフローの構築


マウス操作によってビジュアルワークフローを構築。さらには、R&Pythonでのスクリプト作成、機械学習、AWSやGoogleといったクラウドサービスなど、ひとつのワークフローでさまざまなドメインのツールをKNIMEネイティブノードとブレンドできる。2000以上のモジュールがあらかじめ用意されているのも特徴のひとつ。

2.データのブレンド


CSVやPDFなどのテキストフォーマットはもちろん、画像やドキュメント、ネットワークなどの非構造化データタイプ、さらには時系列データなどもフロー内で結合できる。また、Twitter、AWS S3、Google Sheets、Azureなどのソースへのアクセス機能も用意されている。

3.データ整形


平均値、分位数、標準偏差などの統計量の算出、また統計的検定を適用して仮説を検証できる。次元削減や相関分析などをワークフローに盛り込むことも可能だ。異常値検出のアルゴリズムを使用することで、範囲外の値を検出したり、機械学習用のデータセットの準備のために特徴を抽出して選択したりできる。

4.機械学習とAIの活用


ディープラーニング、ツリーベースの手法、ロジスティック回帰などのアルゴリズムを使用して、分類、回帰、次元削減、クラスタリングのための機械学習モデルを構築可能。

5.洞察の発見・共有


棒グラフや散布図などと、並行座標やネットワークグラフ、ヒートマップ等を使用してデータを視覚化する。視覚化したデータの内容はカスタマイズ可能で、レポートをPDFやPowerPointなどの形式でエクスポートできるので、社内での結果の共有などにも役立てられる。

6.動的な規模拡張


インメモリストリーミングとマルチスレッドデータ処理によってワークフローのパフォーマンスを向上させられる。計算パフォーマンスを向上させるため、Apache Sparkでデータベース内処理、または分散コンピューティングの機能も可能。

KNIMEで利用できるファイル形式やデータプレパレーション、分析手法、アウトプット方式などについては、KNIME紹介サイトにある機能紹介ページをチェックしてほしい。

ワークフローの実行を自動化させる有償パッケージ

ここまで紹介してきたKNIMEの事例や機能はすべて無償で使える「KNIME Analytics Platform」だ。

KNIMEではKNIME Analytics Platformのほかに、「KNIME Server」というチームベースのコラボレーション、ワークフローのスケジュール実行、ワークフローのバージョン管理、そしてガイド付きの機械学習自動化等を実現する有償版も提供されている。

KNIME Serverの特徴は、ワークフロー実行の自動化やワークフローのWEBアプリケーション化といった点だ。

ワークフローが自動的に実行できるようにスケジュールすることで、担当者はデータサイエンス作業に集中できるようになる。また、リモードワークフローエディタ機能を活用すれば、KNIME Server上でワークフローを設計し修正や実行が可能だ。

また、WebPortal機能では、データサイエンティストがKNIME Serverにワークフローを構築および展開すると、エンドユーザーはWebインターフェースを介して、実験結果のシミュレーションや分析モデルの構築など、より簡単に解析結果を取得できるようになる。さらには、詳細なレポートを作成することで、メールでの配信やWebPortalからオンデマンドでアクセスできるようにもなる。

KNIME Serverでは3つのライセンスプランが用意されている。それぞれの価格は利用するユーザー数やKNIME Serverが使用するサーバーのCore数によって変動される。

KNIMEを実際に使ってデータ分析した記事は後日公開予定

Ledge.ai編集部では、今回紹介したKNIMEを使い、画像分類と、テーブルデータからの分析をそれぞれ実施した。実際にKNIMEを使ったレポート記事は後日公開予定なので、楽しみに待っていてほしい。

また、インフォコム株式会社では、2021年4月21~22日の二日間にわたり、「KNIME Data Talks Japan 2021」と題したデータトークイベントをオンラインで開催する。

KNIMEの最新情報はもちろん、KNIME ServerユーザーによるDX(デジタルトランスフォーメーション)事例の発表、KNIME Analytics Platformを業務で利用するためのKNIMEトレーニング口座の配信などを予定しているそうだ。登録は無料なので、KNIMEの利用を検討されている読者の方は、「KNIME Data Talks Japan 2021」も合わせてチェックしてほしい。

KNIME Data Talks Japan 2021のお申し込みはこちら
>> https://knime-infocom.jp/data-talks-japan-2021/