統計学入門向けチートシート

データを理解するための基本的な統計的概念と手法

2025年3月30日

F-Circle 統計学セミナー

統計学の基礎

主な用語

  • 母集団:研究対象となる全体
  • 標本:母集団から抽出された一部
  • 変数:測定される特性や属性
  • データ:収集された情報や測定値

データの種類

🔢
量的データ
🏷️
質的データ
📏
連続的
🔢
離散的

統計の分類

記述統計 データを要約・視覚化する方法
推測統計 標本から母集団の特性を推測する方法
統計学はデータから意味のある情報を引き出し、不確実性を管理するための学問です。

記述統計

中心傾向の指標

  • 平均値:データの合計をデータ数で割った値
  • 中央値:データを順に並べた時の中央の値
  • 最頻値:最も頻繁に出現する値
平均値 (μ) = Σx / n
xはデータ値、nはデータ数

散布度の指標

  • 範囲:最大値と最小値の差
  • 分散:データ値が平均からどれだけ離れているかの平均的な大きさ
  • 標準偏差:分散の平方根
分散 (σ²) = Σ(x - μ)² / n
標準偏差 (σ) = √σ²

データの分布形

尖度(高) 正規分布 尖度(低)

分布の対称性

歪度 データの偏りを示す指標

  • 正の歪度:右に長い尾を持つ
  • 負の歪度:左に長い尾を持つ

確率の基礎

基本概念

  • 確率:事象が起こる可能性の数値表現(0~1)
  • 標本空間:可能な全ての結果の集合
  • 事象:標本空間の部分集合

確率の計算

加法則:P(A ∪ B) = P(A) + P(B) - P(A ∩ B)
乗法則:P(A ∩ B) = P(A) × P(B|A)

条件付き確率

事象Bが起きたという条件下で事象Aが起きる確率

P(A|B) = P(A ∩ B) / P(B)

ベイズの定理

P(A|B) = P(B|A) × P(A) / P(B)
確率は統計的推論の基礎となる重要な概念です。

確率分布

離散確率分布

二項分布 成功確率pの試行をn回繰り返す
ポアソン分布 一定期間内に発生する事象の回数

連続確率分布

正規分布 自然界の多くの現象を表す分布
t分布 小標本における推定に使用
カイ二乗分布 分散の検定などに使用
F分布 二つの分散の比較に使用

正規分布の特性

  • 平均を中心に左右対称
  • 68-95-99.7法則が成立
μ 68% 95% 99.7%

統計的推測

母数の推定

  • 点推定:単一の値で母数を推定
  • 区間推定:信頼区間で母数を推定

信頼区間

95%信頼区間 = 推定値 ± 1.96 × 標準誤差

仮説検定

帰無仮説 (H₀)
対立仮説 (H₁)
有意水準 (α)
第1種の誤り
第2種の誤り

主な検定

t検定 二つの平均の差の検定
カイ二乗検定 カテゴリカルデータの独立性検定
ANOVA 3つ以上のグループの平均比較
p値が有意水準より小さい場合、帰無仮説を棄却します。

相関と回帰

相関係数

二つの変数間の線形関係の強さを-1から+1の値で表す

ピアソンの相関係数 (r) = Σ((x - μₓ)(y - μᵧ)) / (n·σₓ·σᵧ)
📈
正の相関
📉
負の相関
📊
無相関

単回帰分析

y = a + bx + ε
yは目的変数、xは説明変数

決定係数 (R²)

モデルによって説明される変動の割合(0~1)

多変量解析

  • 重回帰分析:複数の説明変数を使用
  • 主成分分析:データの次元削減
  • クラスター分析:データのグループ化
相関は因果関係を意味するものではありません。