統計学の基礎
主な用語
- 母集団:研究対象となる全体
- 標本:母集団から抽出された一部
- 変数:測定される特性や属性
- データ:収集された情報や測定値
データの種類
🔢
量的データ
🏷️
質的データ
📏
連続的
🔢
離散的
統計の分類
記述統計 | データを要約・視覚化する方法 |
---|---|
推測統計 | 標本から母集団の特性を推測する方法 |
統計学はデータから意味のある情報を引き出し、不確実性を管理するための学問です。
記述統計
中心傾向の指標
- 平均値:データの合計をデータ数で割った値
- 中央値:データを順に並べた時の中央の値
- 最頻値:最も頻繁に出現する値
平均値 (μ) = Σx / n
xはデータ値、nはデータ数
xはデータ値、nはデータ数
散布度の指標
- 範囲:最大値と最小値の差
- 分散:データ値が平均からどれだけ離れているかの平均的な大きさ
- 標準偏差:分散の平方根
分散 (σ²) = Σ(x - μ)² / n
標準偏差 (σ) = √σ²
標準偏差 (σ) = √σ²
データの分布形
分布の対称性
歪度 データの偏りを示す指標
- 正の歪度:右に長い尾を持つ
- 負の歪度:左に長い尾を持つ
確率の基礎
基本概念
- 確率:事象が起こる可能性の数値表現(0~1)
- 標本空間:可能な全ての結果の集合
- 事象:標本空間の部分集合
確率の計算
加法則:P(A ∪ B) = P(A) + P(B) - P(A ∩ B)
乗法則:P(A ∩ B) = P(A) × P(B|A)
乗法則:P(A ∩ B) = P(A) × P(B|A)
条件付き確率
事象Bが起きたという条件下で事象Aが起きる確率
P(A|B) = P(A ∩ B) / P(B)
ベイズの定理
P(A|B) = P(B|A) × P(A) / P(B)
確率は統計的推論の基礎となる重要な概念です。
確率分布
離散確率分布
二項分布 | 成功確率pの試行をn回繰り返す |
---|---|
ポアソン分布 | 一定期間内に発生する事象の回数 |
連続確率分布
正規分布 | 自然界の多くの現象を表す分布 |
---|---|
t分布 | 小標本における推定に使用 |
カイ二乗分布 | 分散の検定などに使用 |
F分布 | 二つの分散の比較に使用 |
正規分布の特性
- 平均を中心に左右対称
- 68-95-99.7法則が成立
統計的推測
母数の推定
- 点推定:単一の値で母数を推定
- 区間推定:信頼区間で母数を推定
信頼区間
95%信頼区間 = 推定値 ± 1.96 × 標準誤差
仮説検定
帰無仮説 (H₀)
対立仮説 (H₁)
有意水準 (α)
第1種の誤り
第2種の誤り
主な検定
t検定 | 二つの平均の差の検定 |
---|---|
カイ二乗検定 | カテゴリカルデータの独立性検定 |
ANOVA | 3つ以上のグループの平均比較 |
p値が有意水準より小さい場合、帰無仮説を棄却します。
相関と回帰
相関係数
二つの変数間の線形関係の強さを-1から+1の値で表す
ピアソンの相関係数 (r) = Σ((x - μₓ)(y - μᵧ)) / (n·σₓ·σᵧ)
📈
正の相関
📉
負の相関
📊
無相関
単回帰分析
y = a + bx + ε
yは目的変数、xは説明変数
yは目的変数、xは説明変数
決定係数 (R²)
モデルによって説明される変動の割合(0~1)
多変量解析
- 重回帰分析:複数の説明変数を使用
- 主成分分析:データの次元削減
- クラスター分析:データのグループ化
相関は因果関係を意味するものではありません。