ヒノマルク
データマイニングを教わったときにCRISP-DMが基本概念にありました。ClementineというIBMのSPSS Modelerの前身のデータイニングツールで分析キャリアを始めました。ClementineでCRISP-DMが導入されていたので自然と手順が身についたのかも知れません。
ヒノマルクは分析の進め方として、CRoss Industry Standard Process for Data Mining (CRISP-DM)という方法論を学び活用しています。
CRISP-DMでは下記の手順で分析が進められます。
(自己流の解釈も入っているかも知れません 笑)
CRISP-DMの手順
本ブログでは基本的にCRISP-DMに沿って分析を進めていきたいと思います。
- ビジネスの理解
・業務で困っていることは何か、解決したいことは何か
・業務プロセスやビジネスモデルの理解 - データの理解
・どんなデータがあるのか、問題を解決するのにどんなデータが必要か
・データの取得のされ方の理解 (センサー?ビーコン?レジ?手打ち?DB登録?)
・データの基礎俯瞰やクロス集計 (欠損値ある?分析に耐えうるデータか?) - データの準備・(加工)
・分析/モデリング用データの作成
・必要であれば分析データの取得 (分析やモデリングするのに必要なデータの取得を実施) - モデリング
・モデルを作成する - 評価
・作成したモデルが業務利用に耐えうるかどうかを検証 - デプロイ
・モデリング結果を業務適用する。どう適用するかは要検討。
・エンジニアリングが必要なことも多い。
他にも色々な方法論がありますので、自分にあった分析方法を見つけられるといいですね。
CRISP-DMに関しては下記がよくまとめられています。
What is CRISP DM? - Data Science Process Alliance
The CRoss Industry Standard Process for Data Mining (CRISP-DM) is a process model with six phases that naturally describ...