自分のキャリアをあれこれ考えながら、Pythonで様々なデータを分析していくブログです

hinomaruc

Python

seabornで棒グラフ作成 (大量データ対応)

今日はseabornで棒グラフを作成しようと思います。 試してみましたが、大量データを表示すると重かったり、X軸がラベルで真っ黒になってしまうかと思います。 対応方法としてデータを特定条件で間引いて表示するようにしました。 今回は表示したい...
Python

plotlyで棒グラフを描いてみる

今回はplotlyというライブラリを使って、データの可視化をしてみたいと思います。 plotlyの特徴はインタラクティブに操作できるグラフを作成できるという点です。 BIツールのように全体を表示した後、気になる箇所を拡大表示することが可能で...
Python

Seabornでboxenplot (letter-value plot)を描く

今日はseabornのboxenplot(letter-value plot)を使ってpythonのグラフを描画してみようと思います。 私はよくデータをセグメントごとに見るときに分布に違いがあるか確認するときに使います。 boxenplot...
Python

PythonでExcelみたいなグラフを描いてみる

Pythonでグラフを描画するとどうしてももう少し綺麗にならないかなと常々考えていました。 seabornという優秀なライブラリを使えば、見た目が綺麗なグラフを作成できますが、Excelと比べてしまうとどうしても違和感がありました。 なので...
Data Analytics

(その1) タイタニックのデータセットの分析計画

ヒノマルク レオナルド・ディカプリオ主演の映画タイタニックをご覧になったことがある方はイメージがつくと思います。 テレビでもよく金曜ロードショーで放映されますね。 ヒノマルクは好きでもう何回も見ています。 Wikipediaのタイタニックの...
Data Analytics

データマイニングのフレームワークであるCRISP-DMとは

ヒノマルク データマイニングを教わったときにCRISP-DMが基本概念にありました。ClementineというIBMのSPSS Modelerの前身のデータイニングツールで分析キャリアを始めました。ClementineでCRISP-DMが導...
Python

Macでkaggleのデータをターミナルからダウンロードできるようにする

ヒノマルク ここまでの記事でデータの読み込みから加工方法まで基本的なところを学べてきたと思います。 今回から様々なデータを使ってデータ分析をしていきたいなと思っています。 分析データの取得元の一つにKaggleというコンペサイトがあります。...
Python

pandasに新しいカラムを追加する5つの方法

ヒノマルク 今回はDataFrameに新しいカラムを追加する方法をまとめました。 例えば全て1という値のカラムを追加したり、特定のルールにしたがって区分値を付与し直す時などに新規カラムを追加することになります。 ボストンの住宅価格データセッ...
Python

[pandas] その3 evalとqueryでのデータ抽出方法をまとめてみた

ヒノマルク 前回はセルの値を条件にして抽出する方法をまとめました。 今回はpandasのevalメソッドとqueryメソッドでの抽出方法をまとめてみたいと思います。 evalメソッドについて evalメソッドはdf.eval("抽出条件")...
Python

[pandas] その2 条件式でのデータ抽出方法をまとめてみた

ヒノマルク 前回は行の番号や列のラベルでデータを抽出していました。 今回はセルの値を条件にして抽出する方法を調べて見ます。 下記記事の続きになります。 Boolean Indexing (ブール索引) によるデータ抽出 ある行や列を特定の値...