自分のキャリアをあれこれ考えながら、Pythonで様々なデータを分析していくブログです

Data Analytics

Data Analytics

(その4-12) タイタニックの乗客の生存有無をAutoMLで予測してみたまとめ

タイタニックのデータセットで色々なモデルを作成してきました。 精度がよかったモデルは全てAutoMLを使ったものでした。 今までは欠損値処理・変数選択・特徴量エンジニアリングをした訓練データの一部を使ってモデリングをしていました。 (混合行...
Data Analytics

(その4-11) タイタニックの乗客の生存有無をAutoML(auto-sklearn)で予測してみた

前回はAutoGluonでモデルを作成した。 今回はauto-sklearnでモデルを作成しようと思います。 MacでAutoMLの環境をする方法は下記記事にまとめています。pipでインストールしているのがほとんどですので、Linuxでも同...
Data Analytics

(その4-10) タイタニックの乗客の生存有無をAutoML(AutoGluon)で予測してみた

前回はautomlのmljarを使って予測モデルを作成しました。 精度は作成したモデルの中で1番という結果になりました。 今回は違うautomlのAutoGluonを利用して結果がどうなるか確認してみようと思います。 MacでAutoMLの...
Data Analytics

(その4-9) タイタニックの乗客の生存有無をAutoML(mljar)で予測してみた

前回はXgBoostで分類モデルを作成しました。 暫定1位はロジスティック回帰CVで作成してモデルで、Kaggleの精度は0.76794です。 今回はAutoMLを試してみようと思います。 色々なモデルを作成して一番良い精度のものを探索して...
Data Analytics

(その4-8) タイタニックの乗客の生存有無をXGBoostで予測してみた

前回はRandom Forestで分類モデルを作成しました。 精度はデフォルト設定のままだったのか、0.73205でした。 暫定1位はロジスティック回帰CVで作成してモデルで、Kaggleの精度は0.76794です。 今回はお待ちかねのXG...
Data Analytics

タイタニックのモデリング用データの作成まとめ

(その3-5) タイタニックのデータセットの変数選択にてモデリング用のデータを作成し、エクスポートするコードを記載していましたが分かりずらかったので簡略しまとめました。 上から順に流していけばtitanic_train.csvとtitani...
Data Analytics

(その4-7) タイタニックの乗客の生存有無をランダムフォーレストで予測してみた

前回はナイーブベイズで分類モデルを作成しました。 複数のナイーブベイズのモデルを試しましたが、CategoricalNBが0.76315でナイーブベイズのモデルの中では一番精度がよかったです。 暫定1位はロジスティック回帰CVで作成してモデ...
Data Analytics

(その4-6) タイタニックの乗客の生存有無をナイーブベイズで予測してみた

前回、ロジスティック回帰CVで76.7%の精度でした。 今回はナイーブベイズを使って予測してみようと思います。 The sklearn.naive_bayes module implements Naive Bayes algorithms...
Data Analytics

(その4-5) タイタニックの乗客の生存有無をロジスティック回帰CVで予測してみた。

前回、KNNで76.5%の精度でした。 今回はロジスティック回帰CVを使って予測してみようと思います。 (その4-2) タイタニックの乗客の生存有無をロジスティック回帰分析で予測してみたと似ていますが今回はロジスティック回帰CVを使ってみま...
Data Analytics

(その4-4) タイタニックの乗客の生存有無をKNNで予測してみた

前回、SVMのモデルで77%の精度でした。 今回はk-Nearest Neighbor(KNN)を使って予測してみようと思います。 論文を読んでいるとKNNがよかったみたいな内容も読んだことがあるので少し期待をしています。 評価指標 タイタ...