自分のキャリアをあれこれ考えながら、Pythonで様々なデータを分析していくブログです

hinomaruc

Data Analytics

(その2-3) タイタニックのデータ俯瞰 グラフ描画

これまで表形式でタイタニックのデータの中身を俯瞰してきましたが、今回はグラフで可視化をして確認したいと思います。 グラフにすることによって色の違いや棒グラフの長さの違いなどが表現できることにより情報量が増え、よりデータ理解がしやすくなると思...
Data Analytics

(その2-2) タイタニックのデータ俯瞰 クロス集計

データの理解の後半パートは目的変数と説明変数の関係性を中心にして集計や可視化をしていきたいと思います。 今回は生存するかどうかを当てるモデルを作成するつもりなので、目的変数は生存有無フラグ(Survived)にします。 分析の目的により対象...
Data Analytics

(その2-1) タイタニックのデータ俯瞰

前回の記事からの続きです。 今回はタイタニックのデータの中身を俯瞰しようと思います。 単純にクロス集計をして表を眺めるだけでもいいのですが、ヒストグラムや散布図などで可視化してあげるとより理解しやすくなると思います。 タイタニックのデータぐ...
Python

seabornでヒストグラムを描いてみる

今日はseabornでヒストグラムを描いてみようと思います。 ライブラリのインポートと描画設定 ライブラリのインポートと描画設定 import numpy as np import pandas as pd import seaborn a...
Python

seabornで棒グラフ作成 (大量データ対応)

今日はseabornで棒グラフを作成しようと思います。 試してみましたが、大量データを表示すると重かったり、X軸がラベルで真っ黒になってしまうかと思います。 対応方法としてデータを特定条件で間引いて表示するようにしました。 今回は表示したい...
Python

plotlyで棒グラフを描いてみる

今回はplotlyというライブラリを使って、データの可視化をしてみたいと思います。 plotlyの特徴はインタラクティブに操作できるグラフを作成できるという点です。 BIツールのように全体を表示した後、気になる箇所を拡大表示することが可能で...
Python

Seabornでboxenplot (letter-value plot)を描く

今日はseabornのboxenplot(letter-value plot)を使ってpythonのグラフを描画してみようと思います。 私はよくデータをセグメントごとに見るときに分布に違いがあるか確認するときに使います。 boxenplot...
Python

PythonでExcelみたいなグラフを描いてみる

Pythonでグラフを描画するとどうしてももう少し綺麗にならないかなと常々考えていました。 seabornという優秀なライブラリを使えば、見た目が綺麗なグラフを作成できますが、Excelと比べてしまうとどうしても違和感がありました。 なので...
Data Analytics

(その1) タイタニックのデータセットの分析計画

ヒノマルク レオナルド・ディカプリオ主演の映画タイタニックをご覧になったことがある方はイメージがつくと思います。 テレビでもよく金曜ロードショーで放映されますね。 ヒノマルクは好きでもう何回も見ています。 Wikipediaのタイタニックの...
Data Analytics

データマイニングのフレームワークであるCRISP-DMとは

ヒノマルク データマイニングを教わったときにCRISP-DMが基本概念にありました。ClementineというIBMのSPSS Modelerの前身のデータイニングツールで分析キャリアを始めました。ClementineでCRISP-DMが導...