自分のキャリアをあれこれ考えながら、Pythonで様々なデータを分析していくブログです

titanic

Data Analytics

(その1) タイタニックのデータセットの分析計画

ヒノマルクレオナルド・ディカプリオ主演の映画タイタニックをご覧になったことがある方はイメージがつくと思います。テレビでもよく金曜ロードショーで放映されますね。ヒノマルクは好きでもう何回も見ています。Wikipediaのタイタニックの記事を一...
Data Analytics

(その2-1) タイタニックのデータ俯瞰

前回の記事からの続きです。今回はタイタニックのデータの中身を俯瞰しようと思います。単純にクロス集計をして表を眺めるだけでもいいのですが、ヒストグラムや散布図などで可視化してあげるとより理解しやすくなると思います。タイタニックのデータぐらいの...
Data Analytics

(その2-2) タイタニックのデータ俯瞰 クロス集計

データの理解の後半パートは目的変数と説明変数の関係性を中心にして集計や可視化をしていきたいと思います。今回は生存するかどうかを当てるモデルを作成するつもりなので、目的変数は生存有無フラグ(Survived)にします。分析の目的により対象変数...
Data Analytics

(その2-3) タイタニックのデータ俯瞰 グラフ描画

これまで表形式でタイタニックのデータの中身を俯瞰してきましたが、今回はグラフで可視化をして確認したいと思います。グラフにすることによって色の違いや棒グラフの長さの違いなどが表現できることにより情報量が増え、よりデータ理解がしやすくなると思い...
Data Analytics

(その3-1) タイタニックのデータセットのデータ加工の計画

前回はそもそもデータの加工作業では何をするのかをまとめていました。手順として下記のような作業が発生すると書きました。欠損値処理 (missing value processing)外れ値処理 (outlier processing)特徴量エ...
Data Analytics

(その3-2) タイタニックのデータセットの欠損値処理

前回の記事ではタイタニックのデータセットでのデータ加工案をまとめていました。今回は 1. 欠損値処理 (missing value processing)の作業をしようと思います。Embarkedは最頻値で補完し、Ageは回帰モデルで欠損値...
Data Analytics

(その3-3) タイタニックのデータセットの外れ値の処理

前回の記事ではタイタニックのデータセットの欠損値処理をまとめていました。今回は 2. 外れ値処理 (outlier processing)の作業をしようと思います。外れ値処理に関してはKaggleの下記コードが参考になりました。外れ値かどう...
Data Analytics

(その3-4) タイタニックのデータセットの特徴量エンジニアリング

前回の記事ではタイタニックのデータセットの外れ値の処理をまとめていました。今回は 3 特徴量エンジニアリング (Feature Engineering)の作業をしようと思います。特徴量エンジニアリングに関してはKaggleの下記コードが参考...
Data Analytics

(その3-5) タイタニックのデータセットの変数選択

前回の記事ではタイタニックのデータセットの特徴量エンジニアリングの作業をしました。今回は 4 変数選択 (Feature Selection)の作業をしようと思います。こちらの記事で変数選択では相関係数とVIFの値算出をしようと考えていまし...
Data Analytics

(その4-1) タイタニックの乗客の生存有無を決定木分析で予測してみた

とうとうモデリング作業になります。ここまでが長かったですね。タイタニックの乗客の生存有無を予測するモデルを作成しようと思います。1:生存か0:非生存かを予測するいわゆる分類問題(Classification Problem)になります。最初...