Python Macでkaggleのデータをターミナルからダウンロードできるようにする ヒノマルク ここまでの記事でデータの読み込みから加工方法まで基本的なところを学べてきたと思います。 今回から様々なデータを使ってデータ分析をしていきたいなと思っています。 分析データの取得元の一つにKaggleというコンペサイトがあります。... 2022.03.05 Python
Python pandasに新しいカラムを追加する5つの方法 ヒノマルク 今回はDataFrameに新しいカラムを追加する方法をまとめました。 例えば全て1という値のカラムを追加したり、特定のルールにしたがって区分値を付与し直す時などに新規カラムを追加することになります。 ボストンの住宅価格データセッ... 2022.02.27 Python
Python [pandas] その3 evalとqueryでのデータ抽出方法をまとめてみた ヒノマルク 前回はセルの値を条件にして抽出する方法をまとめました。 今回はpandasのevalメソッドとqueryメソッドでの抽出方法をまとめてみたいと思います。 evalメソッドについて evalメソッドはdf.eval("抽出条件")... 2022.02.23 Python
Python [pandas] その2 条件式でのデータ抽出方法をまとめてみた ヒノマルク 前回は行の番号や列のラベルでデータを抽出していました。 今回はセルの値を条件にして抽出する方法を調べて見ます。 下記記事の続きになります。 Boolean Indexing (ブール索引) によるデータ抽出 ある行や列を特定の値... 2022.02.20 Python
Python [pandas] その1 行と列の選択でのデータ抽出の方法をまとめてみた ヒノマルク pandasの使い方をまとめていきます。 まずは行と列のデータの抽出方法です。 中々忘れがちですよね。pandasのバージョンによって非推奨になる機能もあります。 事前に下記記事ご覧になっておくとより理解が深まると思います。 条... 2022.02.13 Python
Python [Python] Numpyとは何かまとめてみました。 ヒノマルク pandasの使い方を書く前に、numpyの知識も必要だと思い調べました。 自分があまり理解できていなかったことを痛感しました。 記事をまとめるのにそれなりに時間がかかりましたが、勉強になりました。 Numpyとは何か Nump... 2022.02.09 Python
Python [pandas] read_csvでUnicodeDecodeErrorが出る場合の解決方法 ヒノマルク 今まで動いていたコードが動かなくなったことありますよね。 read_csvでウェブ上のテキストファイルを読み込んでいたのですが、なぜかUnicodeDecodeErrorというエラーが出るようになってしまいました。今回解決できた... 2022.01.31 Python
Python PythonでSQLAlchemyを使ってpostgreSQLを操作してみる ヒノマルク pythonからデータベースに接続するライブラリでSQLAlchemyというものがあります色々な記事で使い方が載っていますが、よく理解せずに利用していました。今回公式ページをきちんと読んでまとめてみました。 SQLAlchemy... 2022.01.29 Python
Python hiveのデータをpandasに読み込んでみる ヒノマルク 今回はhiveのデータをpandasのデータフレームに読み込めるようにします。 hiveを使うということはかなり大きなデータを扱っていると思います。 データクリーニングやサマリデータの作成はなるべくhive側でさせてからpyth... 2022.01.28 Python
Python PostgreSQLのデータをpandasに読み込んでみる ヒノマルク 今日はpostgreSQLのデータをpandasのデータフレームに読み込めるようにします。 データベースからCSVに吐き出したものをpandasに読み込んでいる方はぜひ直接DBから読み込んでみてください。 psycopg2をイン... 2022.01.28 Python