ノーコードでタイタニックの予測モデルを作成してみた「KNIME機械学習自動化パッケージ」レポ

このエントリーをはてなブックマークに追加

【PR】本記事はインフォコム株式会社のスポンサードコンテンツです。

「KNIME Analytics Platform」はインフォコム株式会社が提供する、データ連携・統合・分析ができるエンドツーエンドのデータ分析プラットフォームです。

・Excelの集計業務に時間がかかっており、自動化したい
・点在するデータを集約し、分析のための前処理をしたい
・機械学習を活用し、予測やシミュレーションをしたい

など、データ分析だけでなく、データの統合や分析のための前処理などさまざまな処理を実現します。

また、KNIME機械学習自動化パッケージはKNIME Server上で予測モデルの構築を自動化(AutoML)可能です。KNIMEおよび、インフォコムが10年以上におよぶ機械学習の取り組みで蓄積した、人工知能(AI)・機械学習のノウハウを組み込んだ予測モデル自動構築ワークフローをKNIME Serverにセットして提供しています。

これまではデータサイエンティストが時間をかけて実施してきた予測モデルの構築作業を、 画面のガイドに従って設定するだけで、KNIMEが自動でしてくれるため、誰でも手軽に予測モデルを作成できます。

KNIME機械学習自動化パッケージはヘルスケアや製造、金融、小売など、業種・業界を問わずさまざまなシーンで利用できます。たとえば、ヘルスケア業界における「化合物の物性予測モデルを構築したい」「医学文献を疾患ごとにタグ付けしたい」といった声や、製造業界における「不良品を検知したい」「需要を予測したい」といった声にも対応します。

「オートモード」と「カスタムモード」を用意している

KNIME機械学習自動化パッケージの魅力の1つは「オートモード」と「カスタムモード」を用意していることです。

オートモードでは、簡単な3ステップで予測モデルを構築できます。予測モデル構築に必要な各種設定はKNIMEの推奨値で実施するため、機械学習モデルの構築知識がない方や自身でのチューニング前にどのような結果が出るかをまずは試してみたいという方にオススメです。

一方で、カスタムモードでは、除外設定や学習の設定、ハイパーパラメータの設定など、詳細な設定できます。データサイエンティストの方や完全オートではなく自分自身で手を加えたい方にオススメです。

今回はカスタムモードにチャレンジしてみた!

今回は「KNIME 分析自動化フロー_カスタムモード」の使い方を紹介します。


まずは「KNIME Webportal」にアクセスして、ログインします。


「KNIME分析自動化フロー」を選択します。


「KNIME分析自動化フロー_カスタムモード」を選択します。


「Run」をクリックします。

「Select file」をクリックし、データセットを選択します。データセットは、KNIMEテーブルまたはCSVファイルである必要があります。今回はkaggleのタイタニックのデータをアップロードし、右下の「Next」をクリックします。

ターゲットの列を設定します。今回は生存結果を予測するので、「Survived」を選択し、「Next」をクリックします。

次に、学習に使う列の選択をします。KNIMEでは、以下の2つの設定方法があります。

1.フィルターを使う
2.手動で選択する

機械学習では、すべての列が最終的な予測に対して、同じ重要性または関連性を持つわけではありません。 列が情報を提供しないか、誤った情報を含む可能性があるので、 決定を助けるために不要な列を削除します。

フィルターを使う方法では、自動で計算された列同士の関連度(Overall Column Relevance)をもとに学習に使う列を決定します。初期設定ではすべての列が学習に使用されますが、スライダーを右に動かすと関連度が低い列から削除されていきます。

下へスクロールすると、手動で設定できます。「Exclude Column」にチェックを入れることで、学習時にその列が除外されます。

次に、学習に使うモデルを選択します。利用可能なモデルには、さまざまな種類がありますが、KNIMEでは大きく「単純なモデル」と「複雑なモデル」に分けています。「単純なモデル」は学習時間が短く、効率的にモデルを作成でき、「複雑なモデル」は細かいレベルでの学習が可能ですが、多くの学習時間を必要とします。

モデルパラメータの微調整をチェックしないと、選択したモデルと機能エンジニアリングのすべてのパラメータが自動的に完全に最適化されます。

チェックすると、選択したモデルのパラメータの最適化オプションが表示されます。さらに、追加のフィーチャ列を作成するためのオプションも表示されます。

外れ値の処理をチェックすると、外れ値は自動的に置き換えられます。このオプションをオフにすると、外れ値は置き換えられません。

次に、各モデルのパラメータを設定します。各モデルには独自のパラメータが存在するので、モデルに合わせて、パラメータの最適化に適切な範囲を設定します。

特徴量エンジニアリングの設定をします。特徴量エンジニアリングによって、既存の列から新しい列を作り出すことで、多くの場合、モデルを改善できます。今回はすべての項目にチェックを入れてみます。


ワークフローを実行する環境を選択します。

学習が終わると、結果を確認できます。4種類のグラフと、各モデルのパフォーマンスの概要が表示されます。

下へスクロールすると、モデルの情報をまとめた表が表示されます。チェックをつけて「Next」をクリックするとモデルをデプロイできます。

「デプロイ先を選択」で任意の場所を選択します。「Workflow Name」の下のテキストをダブルクリックすることで、モデル名の編集も可能です。デプロイが完了したら、ホーム画面に戻ります。

さきほどのデプロイ先にアクセスし、モデルを選択します。

今回は「Prediction_dec_tree」というモデルを選択し、「Run」をクリックします。

テストデータをアップロードし、「Next」で予測を開始します。

見事、生存結果を予測できました。

誰でも手軽に予測モデルを作成できるKNIME機械学習自動化パッケージ

今回はKNIME機械学習自動化パッケージの「分析自動化フロー_カスタムモード」を使い、簡単にデータ分析ができました。本パッケージを使うと、ヘルスケアや製造、金融、小売など、さまざまな業種・業界の方が誰でも手軽に予測モデルを作成できると思います。

また、最初に触れたとおり、KNIME機械学習自動化パッケージには簡単な3ステップで、予測モデルを構築可能なオートモードもあります。機械学習モデルの構築知識がない方や、自分自身でのチューニング前にどのような結果が出るかをまずは試してみたいという方は、ぜひオートモードも試してみてください。