自分のキャリアをあれこれ考えながら、Pythonで様々なデータを分析していくブログです

hinomaruc

Data Analytics

(その3-3) タイタニックのデータセットの外れ値の処理

前回の記事ではタイタニックのデータセットの欠損値処理をまとめていました。 今回は 2. 外れ値処理 (outlier processing)の作業をしようと思います。 外れ値処理に関してはKaggleの下記コードが参考になりました。 外れ値...
Data Analytics

Pythonで外れ値の検定を2種類試してみた

以前の記事にて外れ値の検定として下記三つを挙げました ・Grubbs' Test ・Tietjen-Moore Test ・Generalized Extreme Studentized Deviate (ESD) Test 今回、外れ値の...
Data Analytics

(その3-2) タイタニックのデータセットの欠損値処理

前回の記事ではタイタニックのデータセットでのデータ加工案をまとめていました。 今回は 1. 欠損値処理 (missing value processing)の作業をしようと思います。 Embarkedは最頻値で補完し、Ageは回帰モデルで欠...
Data Analytics

(その3-1) タイタニックのデータセットのデータ加工の計画

前回はそもそもデータの加工作業では何をするのかをまとめていました。 手順として下記のような作業が発生すると書きました。 欠損値処理 (missing value processing) 外れ値処理 (outlier processing) ...
Data Analytics

データ分析のデータ加工パートでやる5つのこと

データの理解が進んだら次はデータの加工作業に入ります。 具体的にやる事を洗い出してみました。 主な作業としては下記が考えられます。 欠損値処理 (missing value processing) 外れ値処理 (outlier proces...
Data Analytics

(その2-3) タイタニックのデータ俯瞰 グラフ描画

これまで表形式でタイタニックのデータの中身を俯瞰してきましたが、今回はグラフで可視化をして確認したいと思います。 グラフにすることによって色の違いや棒グラフの長さの違いなどが表現できることにより情報量が増え、よりデータ理解がしやすくなると思...
Data Analytics

(その2-2) タイタニックのデータ俯瞰 クロス集計

データの理解の後半パートは目的変数と説明変数の関係性を中心にして集計や可視化をしていきたいと思います。 今回は生存するかどうかを当てるモデルを作成するつもりなので、目的変数は生存有無フラグ(Survived)にします。 分析の目的により対象...
Data Analytics

(その2-1) タイタニックのデータ俯瞰

前回の記事からの続きです。 今回はタイタニックのデータの中身を俯瞰しようと思います。 単純にクロス集計をして表を眺めるだけでもいいのですが、ヒストグラムや散布図などで可視化してあげるとより理解しやすくなると思います。 タイタニックのデータぐ...
Python

seabornでヒストグラムを描いてみる

今日はseabornでヒストグラムを描いてみようと思います。 ライブラリのインポートと描画設定 ライブラリのインポートと描画設定 import numpy as np import pandas as pd import seaborn a...
Python

seabornで棒グラフ作成 (大量データ対応)

今日はseabornで棒グラフを作成しようと思います。 試してみましたが、大量データを表示すると重かったり、X軸がラベルで真っ黒になってしまうかと思います。 対応方法としてデータを特定条件で間引いて表示するようにしました。 今回は表示したい...