自分のキャリアをあれこれ考えながら、Pythonで様々なデータを分析していくブログです

データマイニングのフレームワークであるCRISP-DMとは

Data Analytics
ヒノマルク
ヒノマルク

データマイニングを教わったときにCRISP-DMが基本概念にありました。ClementineというIBMのSPSS Modelerの前身のデータイニングツールで分析キャリアを始めました。ClementineでCRISP-DMが導入されていたので自然と手順が身についたのかも知れません。

ヒノマルクは分析の進め方として、CRoss Industry Standard Process for Data Mining (CRISP-DM)という方法論を学び活用しています。

CRISP-DMでは下記の手順で分析が進められます。
(自己流の解釈も入っているかも知れません 笑)

スポンサーリンク

CRISP-DMの手順

本ブログでは基本的にCRISP-DMに沿って分析を進めていきたいと思います。

  1. ビジネスの理解
    ・業務で困っていることは何か、解決したいことは何か
    ・業務プロセスやビジネスモデルの理解
  2. データの理解
    ・どんなデータがあるのか、問題を解決するのにどんなデータが必要か
    ・データの取得のされ方の理解 (センサー?ビーコン?レジ?手打ち?DB登録?)
    ・データの基礎俯瞰やクロス集計 (欠損値ある?分析に耐えうるデータか?)
  3. データの準備・(加工)
    ・分析/モデリング用データの作成
    ・必要であれば分析データの取得 (分析やモデリングするのに必要なデータの取得を実施)
  4. モデリング
    ・モデルを作成する
  5. 評価
    ・作成したモデルが業務利用に耐えうるかどうかを検証
  6. デプロイ
    ・モデリング結果を業務適用する。どう適用するかは要検討。
    ・エンジニアリングが必要なことも多い。

他にも色々な方法論がありますので、自分にあった分析方法を見つけられるといいですね。

CRISP-DMに関しては下記がよくまとめられています。

What is CRISP DM? - Data Science Process Alliance
The CRoss Industry Standard Process for Data Mining (CRISP-DM) is a process model with six phases that naturally describ...
タイトルとURLをコピーしました