「カイ二乗検定」とその算出方法とは。カテゴリ間の有意性を確認しよう

カイ二乗検定 統計

はじめに

統計学は、異なるカテゴリや群間での差異を評価し、その差が統計的に有意であるかどうかを検証するための手法を提供しています。その中でも、「カイ二乗検定」はカテゴリ間の優位性を確認する際に頻繁に利用される強力な統計手法の一つです。

カイ二乗検定の基本

カイ二乗検定の背景

カイ二乗検定は、観測度数と期待度数の差異を検定する手法です。特に、質的な変数やカテゴリにおいて、観測された度数が期待度数と異なるかどうかを確認するのに有用です。例えば、異なる地域での製品の好みや選好、治療法の有効性など、カテゴリを比較する際にカイ二乗検定が利用されます。

データ数が少ない場合は「フィッシャーの正確確率検定」というのも使用されるので、そちらも学習しましょう。

カイ二乗検定のアプローチと例

ステップ1:帰無仮説と対立仮説の設定

まずは検定を行う前に帰無仮説と対立仮説を設定します。これは実際に持っている仮説が正しいかどうかを確認するための課題設定のようなものです。まずはこれらを設定するとともに、得られたデータをクロス集計表の形にまとめ、計算をしていきます。

ある地域で、コーヒーと紅茶の好みが年齢層によって異なるかどうかを調査したいとします。以下の表は、各年齢層の人々がどちらの飲料を好むかを示しています。帰無仮説と対立仮説と用いるデータは以下とします。

  • 帰無仮説(\( H_0 \)​​):年齢層と飲料の好み(コーヒーまたは紅茶)には関連がない。
  • 対立仮説(\( H_1 \)​​):年齢層と飲料の好み(コーヒーまたは紅茶)には関連がある。
年齢層コーヒーが好き紅茶が好き合計
20-29歳301040
30-39歳251540
40-49歳202040
合計7545120

ステップ2:期待度数の計算

期待度数は帰無仮説のもとでの予測される度数であり、通常は全体の度数をカテゴリの割合で掛けて求めます。期待度数は以下の通りです。

$$ E = \frac{行の合計×列の合計}{全体の合計} $$
年齢層コーヒーが好き紅茶が好き
20-29歳\( (40×75) / 120 = 25 \)​​\( (40×45) / 120 = 15 \)​​
30-39歳\( (40×75) / 120 = 25 \)​​\( (40×45) / 120 = 15 \)​​
40-49歳\( (40×75) / 120 = 25 \)​​\( (40×45) / 120 = 15 \)​​

ステップ3:カイ二乗値の計算

カイ二乗値は次の式で計算されます。

$$ \chi^2 = \sum{\frac{(観測度数−期待度数)^2}{期待度数}} $$
年齢層コーヒーが好き紅茶が好き
20-29歳\( (30-25)^2 / 25 = 1 \)\( (10-15)^2 / 15 = 1.67 \)
30-39歳\( (25-25)^2 / 25 = 0 \)\( (15-15)^2 / 15 = 0 \)
40-49歳\( (20-25)^2 / 25 = 1\)\( (20-15)^2 / 15 = 1.67 \)

$$ \chi^2 = 1+1.67+0+0+1+1.67 = 5.34 $$

ステップ4:自由度の計算

自由度は以下の通り計算されます。

$$ 自由度 = (行の数 – 1)×(列の数-1) = (3-1) × (2-1) = 2 $$

ステップ5:カイ二乗分布表を用いたp値の確認

カイ二乗分布表を用いて、自由度2でカイ二乗値5.34に対応するp値を確認します。一般的な有意水準(例えば0.05)でカイ二乗値がその閾値を超えるかどうかを確認します。

カイ二乗分布表によると、自由度2での閾値は次の通りです:

  • p = 0.05 の場合の閾値は 5.991
  • p = 0.01 の場合の閾値は 9.210

カイ二乗値5.34は p = 0.05 の閾値5.991を下回るため、有意水準5%のもとでは年齢層と飲料の好みに有意な関連性はないと判断されます。

カイ二乗検定の有用性

カテゴリ間の比較

カイ二乗検定は、質的なデータやカテゴリデータにおいて、異なるグループや条件間の統計的な有意性を確認する際に有用です。例えば、市場調査での商品選好、医学研究での治療法の効果比較など、さまざまな分野で応用されています。

仮説検定の手法としての優位性

カイ二乗検定は非常にシンプルで理解しやすい手法でありながら、統計的な差異を検証するための有力なツールです。そのため、研究やビジネスの現場で広く利用されています。

まとめ

カイ二乗検定は、異なるカテゴリや群間での差異を統計的に評価するための強力な統計手法です。観測度数と期待度数の差異を検証し、有意な差異があるかどうかを判断することができます。そのシンプルな手順と解釈のしやすさから、広範な分野で利用されています。研究や意思決定の際に、カイ二乗検定を駆使してデータの背後に隠れた優位性を明らかにすることが期待されます。

また、似たような手法として「フィッシャーの正確確率検定」という手法も存在します。こちらは分布を仮定しないため小さなサンプル数で実施できるため、非常におススメです。

「フィッシャーの正確確率検定」とは。小さいサンプルでもカテゴリ間差異を確認しよう
はじめにデータ分析では、異なるカテゴリ間の有意性を確認するために、「フィッシャーの正確確率検定」や「カイ二乗検定」がよく使われます。しかし、特に小さなサンプル数に対して有効なフィッシャーの正確確率検定は、医療分野や小規模な...

カイ二乗検定におススメの勉強方法

書籍:データ分析に必須の知識・考え方 統計学入門

こちらの書籍は初学者向けの書籍となっていますが、カイ二乗検定だけでなく、t検定など幅広く統計に関する知識が記載されています。もしカイ二乗検定を含む様々な知識を学びたい方にはおススメの書籍となります。

勉強法:網羅的に学習する

今回はカイ二乗検定を学習しましたが、統計学には様々な検定が存在します。実際に多くの学習を学んだうえで適切な手法を選択することがビジネスに重要となります。こちらに網羅的に勉強する方法をまとめているので参考にしてください。

独学で統計学を習得する勉強法とは。レベル感ごとに書籍などを紹介
はじめに統計学はデータを理解し、分析するための強力なツールです。ビジネス、科学研究、マーケティングなど、多くの分野で統計学の知識が求められています。私は10年近くAIや統計の学習をしてきましたが、独学で勉強することも多かったため、...

コメント

Copied title and URL