データ解析入門
このページでは、ビッグデータ解析の基礎となる知識を解説しています。
高校数学の復習
まずはデータ解析入門以前の基礎的な数学を復習しましょう。
以下のキーワードを全て説明できますか?
数1:データの分析
- データの平均値・中央値・最頻値
- 四分位数、箱ひげ図
- 分散と標準偏差
- 共分散
- 相関係数
数B: 確率分布と統計的な推測
- 確率変数
- 連続分布、確率密度関数
- 二項分布、正規分布
- 母集団と標本調査
- 中心極限定理
- 母平均の推定、信頼区間
データ解析の流れ
データ解析は、必ずビジョンを持って行わなければいけません。
ただ何となくデータをこねくり回しても、望んだ結果は得られず、
事実とは異なる結論を導く可能性すらあります。
ビジョンを持って解析を行うための手順を説明します。
目的と仮説を立てる
まずは、○○と××の定量的な関係性が知りたい!とか、
△△の変化が□□の増加をもたらしているのではないか?のような、
仮説を立ててみましょう。
ニュースなどで情報収集して、「こんなデータとこんなデータには関連性があるんじゃないか?」
と考えてみるのが非常に大切だと思います。
ここで重要なのは、先にデータを見ながら考えないことです。
単一のデータでなくても、時刻や場所がデータに入っていれば複数のデータを組み合わせることもできます。
データを確認してしまうと、どうしても「その中でできること」を考えてしまいがちです。
思考の幅を狭めないようにしてください。
データを集める
データを可視化する
さらなる知見を得る
高度なデータ解析の方法
github.com/ohashi-gnct/exp4e/blob/master/datascience/datascience.ipynb