データの種類
データは大きく質的データ(カテゴリデータ)と量的データ(数値データ)に分けられます。さらにその中でデータ尺度という分類がされます。
データの種類を正しく理解することは、適切な分析方法を選ぶための第一歩です。
データの大分類
質的データは名前や種類を表し、血液型や性別などが例です。量的データは数値で表され、身長や体重などの連続量と、個数や回数などの離散量に分類されます。
| 種類 | 特徴 | 例 |
| 量的変数 | 数値で表され、数学的な操作が可能。 | 身長(170cm)、体重(60kg)、子どもの数(1人) |
| 質的変数 | カテゴリーや属性を表し、数値の大小に意味はない。 | 性別(男性、女性)、血液型(A型、B型) |
データ尺度
データ尺度は下記の通り、更に細かく分けられます。
1, 2, 3, 4とデータが並んでいても、実際にはデータの作られ方や性質によって尺度が異なります。
| 種類 | 特徴 | 例 |
| 名義尺度 | データに順序や大小の概念がない。カテゴリー間に数学的な意味はなく、識別のためだけのもの。 | 血液型(A型、B型、O型)、動物の種類(犬、猫) |
| 順序尺度 | データ間に順序があるが、間隔が一定ではないため、数値間の差には意味がない。 | レストランの評価(★1~★5)、学歴(中卒、高卒) |
| 間隔尺度 | 順序と数値間の差に意味があり、数値が等間隔に並んでいる。 | 気温(摂氏や華氏)、西暦(2000年、2023年) |
| 比例尺度 | 絶対的なゼロ点を持ち、順序・間隔・比率すべてに意味がある。 | 身長(170cm)、体重(60kg) |

統計値
統計値とは、データの特徴を数値で表したものです。代表的なものには、データの中心を示す平均値・中央値・最頻値、ばらつきを示す分散・標準偏差などがあります。
これらの統計値を使うことで、データの傾向や特徴を客観的に把握でき、比較や分析がしやすくなります。
| 統計値 | 説明 | 例 |
| 平均値 | データの合計を個数で割った値 | (2+4+6)÷3 = 4 |
| 中央値 | データを並べたときの中央の値 | 1, 3, 5 → 中央値は3 |
| 最頻値 | 最もよく出現する値 | 1, 2, 2, 3 → 最頻値は2 |
| 分散 | 平均からのズレの2乗の平均 | データの散らばりの大きさを数値化 |
| 標準偏差 | 分散の平方根(元の単位に戻したもの) | 数値が平均からどれだけ離れているか |

グラフ
統計グラフは、データを視覚的に理解するための有効な手段です。データの特徴や傾向を直感的に把握でき、比較や分析がしやすくなります。
代表的なグラフには棒グラフ、折れ線グラフ、円グラフ、ヒストグラム、箱ひげ図などがあり、データの種類や目的に応じて使い分けることが大切です。
| データタイプ | 用途 | オススメのグラフ |
| カテゴリデータ | 比較、分布の確認 | 棒グラフ、円グラフ |
| 数値データ(単変量) | 分布や範囲の確認 | ヒストグラム、箱ひげ図 |
| 数値データ(多変量) | 関係性や傾向の確認 | 散布図、バブルチャート |
| 時系列データ | 時間的な変化の視覚化 | 折れ線グラフ |

相関と回帰
相関とは、2つの変数の間に関係があるかを表すもので、相関係数によって関係の強さや向きを数値で示します。
一方、回帰は、ある変数から別の変数を予測するための分析方法で、回帰直線を使ってデータの傾向を数式で表します。相関は関係の有無を知り、回帰は予測や説明に使うのがポイントです。
相関が強いデータは下記左図のようにx軸とy軸のデータポイントが一直線に近いグラフとなり、相関がは相関係数が+1(もしくは-1)に近くなります。
また、x-yの散布図に対して、フィットするような直線が回帰です。



確率
確率とは、「ある事象が起こる可能性」を数値で表したもので、0〜1の間で表現されます。基本的な確率には和事象(または)、積事象(かつ)、排反事象(同時に起こらない)などがあり、さらに条件付き確率を使えば、ある条件のもとでの確率も求められます。
確率の考え方は、統計的推測の基盤にもなります。


確率分布
確率分布とは、ある確率変数が取りうる値と、それぞれの値が起こる確率を対応づけたものです。
正規分布の説明
正規分布はデータが平均値を中心に左右対称の釣鐘型(ベルカーブ)の形状を持つ確率分布で最も一般的な分布となります。
| 項目 | 内容 |
| 試行の種類 | 連続的な値を取る確率変数(例:身長、テストの点数など) |
| 分布の形 | 平均(μ)と標準偏差(σ)で分布が決まる |
| 確率の計算式 | \( \frac{1}{\sqrt{2\pi\sigma^2}} \exp\left( -\frac{(x-\mu)^2}{2\sigma^2} \right) \) |
| 例 | テストの点数が平均70点、標準偏差10点のときの分布 |

二項分布の説明
たとえば、試行の成功・失敗のような2択の繰り返しに使われるのが二項分布です。サイコロやくじ引きなど、日常でも登場する場面が多く、基本的な計算パターンとしてよく出題されます。
| 項目 | 内容 |
| 試行の種類 | 成功 or 失敗など、2つの結果しかない試行 |
| 試行の回数 | 決まった回数(n回) |
| 成功の確率 | 各試行で一定(p) |
| 確率の計算式 | \( P(X = k) = {n \choose k} p^k (1-p)^{n-k} \) |
| 例 | コインを10回投げて表が出る回数の分布 |

統計的な推測
統計的な推測とは、標本(サンプル)から得たデータをもとに、母集団(全体)の特徴を推測する方法です。母平均や母割合などの推定を行ったり、区間に絞って信頼区間を求めたりします。
すべてのデータを集めるのが難しい現実において、限られたデータから全体を予測するのが統計の力です。
| 用語 | 意味 | 例 |
| 母集団 | 調査や分析の対象となる全体 | 日本全国の高校生全体など |
| 標本(サンプル) | 母集団の一部から抽出したデータ | 高校生100人を無作為に選んだデータ |
| 点推定 | 標本から1つの値で母集団の特徴を推定する | 標本平均 = 母平均の推定値 |
| 区間推定 | 母集団の値がある範囲内にあると推測する方法 | 母平均は「95%の確率でこの範囲内」 |
| 信頼区間 | 推定した値が含まれると考えられる範囲 | 例:50±3 → [47, 53] |




コメント