自分のキャリアをあれこれ考えながら、Pythonで様々なデータを分析していくブログです

Data Analytics

Data Analytics

(その4-3) タイタニックの乗客の生存有無をSVMで予測してみた

前回、ロジスティック回帰のモデルで75%の精度でした。 今回はSupport vector machine(SVM)を使って予測してみようと思います。 評価指標 タイタニックのデータセットは生存有無を正確に予測できた乗客の割合(Accura...
Data Analytics

(その4-2) タイタニックの乗客の生存有無をロジスティック回帰分析で予測してみた。

前回、決定木モデルで70%の精度でした。 今回はロジスティック回帰を使って予測してみようと思います。 私が一番好きなモデルで実業務でもよく使っています。 評価指標 タイタニックのデータセットは生存有無を正確に予測できた乗客の割合(Accur...
Data Analytics

(その4-1) タイタニックの乗客の生存有無を決定木分析で予測してみた

とうとうモデリング作業になります。 ここまでが長かったですね。 タイタニックの乗客の生存有無を予測するモデルを作成しようと思います。 1:生存か0:非生存かを予測するいわゆる分類問題(Classification Problem)になります...
Data Analytics

(その3-5) タイタニックのデータセットの変数選択

前回の記事ではタイタニックのデータセットの特徴量エンジニアリングの作業をしました。 今回は 4 変数選択 (Feature Selection)の作業をしようと思います。 こちらの記事で変数選択では相関係数とVIFの値算出をしようと考えてい...
Data Analytics

(その3-4) タイタニックのデータセットの特徴量エンジニアリング

前回の記事ではタイタニックのデータセットの外れ値の処理をまとめていました。 今回は 3 特徴量エンジニアリング (Feature Engineering)の作業をしようと思います。 特徴量エンジニアリングに関してはKaggleの下記コードが...
Data Analytics

(その3-3) タイタニックのデータセットの外れ値の処理

前回の記事ではタイタニックのデータセットの欠損値処理をまとめていました。 今回は 2. 外れ値処理 (outlier processing)の作業をしようと思います。 外れ値処理に関してはKaggleの下記コードが参考になりました。 外れ値...
Data Analytics

Pythonで外れ値の検定を2種類試してみた

以前の記事にて外れ値の検定として下記三つを挙げました ・Grubbs' Test ・Tietjen-Moore Test ・Generalized Extreme Studentized Deviate (ESD) Test 今回、外れ値の...
Data Analytics

(その3-2) タイタニックのデータセットの欠損値処理

前回の記事ではタイタニックのデータセットでのデータ加工案をまとめていました。 今回は 1. 欠損値処理 (missing value processing)の作業をしようと思います。 Embarkedは最頻値で補完し、Ageは回帰モデルで欠...
Data Analytics

(その3-1) タイタニックのデータセットのデータ加工の計画

前回はそもそもデータの加工作業では何をするのかをまとめていました。 手順として下記のような作業が発生すると書きました。 欠損値処理 (missing value processing) 外れ値処理 (outlier processing) ...
Data Analytics

データ分析のデータ加工パートでやる5つのこと

データの理解が進んだら次はデータの加工作業に入ります。 具体的にやる事を洗い出してみました。 主な作業としては下記が考えられます。 欠損値処理 (missing value processing) 外れ値処理 (outlier proces...