自分のキャリアをあれこれ考えながら、Pythonで様々なデータを分析していくブログです

2022-05

Data Analytics

(その4-8) タイタニックの乗客の生存有無をXGBoostで予測してみた

前回はRandom Forestで分類モデルを作成しました。 精度はデフォルト設定のままだったのか、0.73205でした。 暫定1位はロジスティック回帰CVで作成してモデルで、Kaggleの精度は0.76794です。 今回はお待ちかねのXG...
Data Analytics

タイタニックのモデリング用データの作成まとめ

(その3-5) タイタニックのデータセットの変数選択にてモデリング用のデータを作成し、エクスポートするコードを記載していましたが分かりずらかったので簡略しまとめました。 上から順に流していけばtitanic_train.csvとtitani...
Data Analytics

(その4-7) タイタニックの乗客の生存有無をランダムフォーレストで予測してみた

前回はナイーブベイズで分類モデルを作成しました。 複数のナイーブベイズのモデルを試しましたが、CategoricalNBが0.76315でナイーブベイズのモデルの中では一番精度がよかったです。 暫定1位はロジスティック回帰CVで作成してモデ...
Data Analytics

(その4-6) タイタニックの乗客の生存有無をナイーブベイズで予測してみた

前回、ロジスティック回帰CVで76.7%の精度でした。 今回はナイーブベイズを使って予測してみようと思います。 The sklearn.naive_bayes module implements Naive Bayes algorithms...
Data Analytics

(その4-5) タイタニックの乗客の生存有無をロジスティック回帰CVで予測してみた。

前回、KNNで76.5%の精度でした。 今回はロジスティック回帰CVを使って予測してみようと思います。 (その4-2) タイタニックの乗客の生存有無をロジスティック回帰分析で予測してみたと似ていますが今回はロジスティック回帰CVを使ってみま...
Data Analytics

(その4-4) タイタニックの乗客の生存有無をKNNで予測してみた

前回、SVMのモデルで77%の精度でした。 今回はk-Nearest Neighbor(KNN)を使って予測してみようと思います。 論文を読んでいるとKNNがよかったみたいな内容も読んだことがあるので少し期待をしています。 評価指標 タイタ...
Data Analytics

(その4-3) タイタニックの乗客の生存有無をSVMで予測してみた

前回、ロジスティック回帰のモデルで75%の精度でした。 今回はSupport vector machine(SVM)を使って予測してみようと思います。 評価指標 タイタニックのデータセットは生存有無を正確に予測できた乗客の割合(Accura...
Data Analytics

(その4-2) タイタニックの乗客の生存有無をロジスティック回帰分析で予測してみた。

前回、決定木モデルで70%の精度でした。 今回はロジスティック回帰を使って予測してみようと思います。 私が一番好きなモデルで実業務でもよく使っています。 評価指標 タイタニックのデータセットは生存有無を正確に予測できた乗客の割合(Accur...
Data Analytics

(その4-1) タイタニックの乗客の生存有無を決定木分析で予測してみた

とうとうモデリング作業になります。 ここまでが長かったですね。 タイタニックの乗客の生存有無を予測するモデルを作成しようと思います。 1:生存か0:非生存かを予測するいわゆる分類問題(Classification Problem)になります...
Data Analytics

(その3-5) タイタニックのデータセットの変数選択

前回の記事ではタイタニックのデータセットの特徴量エンジニアリングの作業をしました。 今回は 4 変数選択 (Feature Selection)の作業をしようと思います。 こちらの記事で変数選択では相関係数とVIFの値算出をしようと考えてい...