自分のキャリアをあれこれ考えながら、Pythonで様々なデータを分析していくブログです

Data Analytics

Data Analytics

(その4-3) エイムズの住宅価格を多項式回帰で予測してみた

今日は多項式回帰でエイムズの住宅価格を予測したいと思います。 多項式回帰は、従属変数と独立変数とが非線形的な関係で表現されるような場合に適しており 引用: 多項式回帰 多項式回帰についてはWikipediaをご覧ください。 多項式回帰ですが...
Data Analytics

(その4-2) エイムズの住宅価格を重回帰分析で予測してみた

今回はみんな大好き重回帰分析を行いと思います。 結果が分かりやすく企画側のメンバーにも説明しやすいので私は好んで使っています。 精度はXgBoostなどのアルゴリズムには敵わないと思いますが、係数や切片さえ出してしまえばシステムにも組み込み...
Data Analytics

(その4-1) エイムズの住宅価格を単回帰分析で予測してみた

評価指標 住宅IdごとのSalePrice(販売価格)を予測するコンペです。 評価指標は予測SalePriceと実測SalePriceの対数を取ったRoot-Mean-Squared-Error(RMSE)の値のようです。 単回帰分析 分析...
Data Analytics

(その3-3) エイムズの住宅価格のデータセットのデータ加工②

下記記事の続きになります。 データ加工をする場合は「(その3-2) エイムズの住宅価格のデータセットのデータ加工①」から実施してくださいね。 変数選択 変数選択をして行きます。実業務ではたくさんの説明変数を作成することが多いですので、「次元...
Data Analytics

(その3-2) エイムズの住宅価格のデータセットのデータ加工①

前回、(その3-1) エイムズの住宅価格のデータセットのデータ加工の計画ということでどう進めて行こうか計画を立てました。 今回は欠損値処理、外れ値処理、特徴量エンジニアリング① (追加変数作成、データ型変更)を実施しました。 変数選択や特徴...
Data Analytics

(その3-1) エイムズの住宅価格のデータセットのデータ加工の計画

前回までの記事でデータの俯瞰をやったので、今回からは欠損値処理、外れ値処理、特徴量エンジニアリングをしてモデリング用データを作成したいと思います。 まずはどう加工するか計画を練りました。 ちなみに下記Kaggleのノートブックを参考にしてい...
Data Analytics

(その2-2) エイムズの住宅価格の目的変数との相関関係を確認

前回データを一通り俯瞰してみました。 今回は相関係数を確認するのと、目的変数と従属変数の関係をグラフで可視化してみようと思います。 エイムズの住宅価格のデータセットの読み込み import pandas as pd # エイムズの住宅価格の...
Data Analytics

(その2-1) エイムズ の住宅価格のデータ俯瞰

前回エイムズの住宅価格データセットの分析計画を練りました。 今回はデータ俯瞰パートに入りたいと思います。 エイムズの住宅価格のデータセットのダウンロード # amesのデータセットをダウンロード my-venv/bin/kaggle com...
Data Analytics

(随時更新) 企業発信のデータ分析ブログを読んでまとめてみた

いつも必要な知識だけ検索して理解しているだけでしたので、今後のためにもデータ分析に関することが書かれているブログをまとめておこうと思います。(そこそこ更新があるブログに限定) 企業でどのような分析が行われているか、もしくはどのようなテクノロ...
Data Analytics

(その1) エイムズの住宅価格のデータセットの分析計画

住宅価格のデータセットは他に有名なものだとボストンの住宅価格のデータセットがあります。 旧ブログで取り上げているのでご一緒にご確認ください。 今回はエイムズの住宅価格のデータセットを分析していこうと思います。 データマイニングプロセスについ...