自分のキャリアをあれこれ考えながら、Pythonで様々なデータを分析していくブログです

Data Analytics

Data Analytics

データアナリストやデータサイエンティストになるためのおすすめの勉強は?何を学べばいいの?

※ 本記事にはアフィリエイトリンクが含まれています。 デジタル時代の到来に伴い、データは私たちの日常生活やビジネスにおいてますます不可欠な存在となっています。 この大量に溢れたデータで企業や組織は情報を有益な知識に変え、意思決定をより賢明に...
Python

StepMixを使って潜在クラス分析をPythonでやってみた。

PCA、クラスタリングとやってきて、とうとう潜在クラス分析(Latent Class Analysis、LCA)の順番がやってきました。 私は機械学習やディープラーニングのモデルを作成してシステムやサイトに組み込む業務が多かったので、実業務...
Python

Pythonでソフトクラスタリングを混合ガウスモデルでやってみた

ソフトクラスタリング(Soft Clustering)とは、各データポイントが単一のクラスタに所属するのではなく、複数のクラスタに対する所属度を持つ手法です。ソフトクラスタリングは、データが明確に単一のクラスタに属さない場合や、クラスタ間の...
Python

Pythonで主成分分析とクラスタリング(階層型、非階層型)をやってみた。

クラスタリング・主成分分析・潜在モデル分析などを試してみる上で適切なデータセットはなんだろうと考えていました。アイリスのデータセットでさくっとやるのも良かったのですが、熟考した結果「動物」の分類だ!と閃きました 笑 なぜ動物かというと以前ヒ...
Data Analytics

クラスタリング・主成分分析・潜在クラス分析についてまとめてみた。

データ解析は、現代のビジネスや科学の世界において不可欠なスキルとなりました。多くの情報がデジタルフォーマットで蓄積され、これからの意思決定や洞察を導く際には、その情報から価値ある知見を引き出す能力が重要です。その中でも、クラスタリング、主成...
Data Analytics

(その2-3) Heart Disease(Cleveland)のデータセットで心臓病かどうかをAutoMLで予測してみた。

前回はニューラルネットワークを使ってモデリングをしました。 今回はAutoMLを使ってモデリングをしたいと思います。 AutoMLに慣れてしまうとインデータさえきちんとしていれば簡単に精度の出せるモデルが作成出来てしまうので、少し戸惑ってし...
Data Analytics

(その2-2) Heart Disease(Cleveland)のデータセットで心臓病かどうかをニューラルネットワークで予測してみた。

前回の記事ではロジスティック回帰で心臓病かどうかを当てるモデルを作成しました。 (その2-1) Heart Disease(Cleveland)のデータセットで心臓病かどうかをロジスティック回帰分析で予測してみた。 今回はKaggleのhe...
Data Analytics

(その2-1) Heart Disease(Cleveland)のデータセットで心臓病かどうかをロジスティック回帰分析で予測してみた。

前回Heart Disease(Cleveland)のデータ俯瞰を実施しました。 本記事では続きで下記を実施したいと思います。 モデリング用データの準備 モデリング モデリングでは心臓病かどうかを当てるモデルを作成したいと思います。 色々候...
Data Analytics

(その1) Heart Disease(Cleveland)のデータ俯瞰

このブログも幅広くデータ分析に関する情報をまとめて来ました。 Python環境構築からデータ操作の方法、機械学習でのモデル作成とディープラーニングによる物体検知まで手広くやってみました。 そろそろ原点である「様々なデータを分析する」に戻ろう...
Python

imgaugで画像のデータ拡張(data augumentation)を試してみる

データ拡張(Data Augmentation)は、機械学習やコンピュータビジョンにおいて使用される手法であり、既存の画像データに対して様々な変換や修正を行うことで、トレーニングデータセットのサイズと多様性を人工的に増やす手法です。データが...