Orangeは、プログラミングの知識がなくても、簡単に機械学習を使った予測の体験ができるアプリです。リリースされてから少し時間はたっていますが、今でも十分実用的なアプリだと思います。
アプリはこちらからインストールできます。
1.データの設定
アプリを起動するとこのような画面が表示されるので、「New」をクリックします。
左側にオレンジ色で表示されている「Data」の欄から「File」を選択すると、右側のスペースに丸いノードが現れるので、こちらをダブルクリックします。
Orangeではもともと数種類のデータが備わっています。今回は「titanic.tab」を選択します。今回は、「status」「age」「sex」のデータをモデルに学習させて「survived」の値の予測をします。
2.データの可視化
次は、データを可視化して、概要を把握します。
左側の赤い「Visualize」の欄から「Distributions」を選択します。ノードが現れたら「File」のノードをドラッグして「Distributions」のノードへ矢印を伸ばし、「Distributions」のノードをダブルクリックします。
このように、各データの分布が確認できます。画像は「status」の値の分布で、「survived」の値が「no」の場合は水色、「yes」の場合は赤色で表示されています。この辺りの細かい設定は自由に変更できます。
3.モデルの作成
次に、モデルを作成します。「Model」の欄から今回は「SVM」を使ってみます。
「File」のノードから「SVM」のノードへ矢印を引いた後、「SVM」のノードをダブルクリックします。
ここではモデルのパラメータの設定ができますが、今回は初期設定のままにします。
4.精度の確認
作成したモデルの精度を確認します。
水色の「Evaluate」の欄から「Test and Score」を選択します。今回は「File」と「SVM」のノードから「Test and Score」に矢印を引き、ダブルクリックします。
モデルの精度を確認できました。
最後に
今回は、Orangeを使い、ドラッグ&ドロップの操作のみで、タイタニックの生存者予測のモデルを作成しました。もちろん、実際にコードを書ければさらに細かい設定も可能ですが、「エンジニアではないものの、機械学習のモデルの作成から精度の見方などの流れを確認したい」という方は、このような簡単なアプリを利用すると役立つと思います。