はじめに
データ分析を行う際に、変数間の関係を理解することは重要です。相関係数は、その関係を数値で表すための手法です。
この記事では、最もよく使われる2つの相関係数である「ピアソンの積率相関係数」と「スピアマンの順位相関係数」の違いについて、例を交えてわかりやすく紹介します。
今回紹介する相関係数は分析の際に多く使われます。しかし今回紹介する2つの手法を間違って使ってしまったりするとビジネスが正しい方向に進まない可能性もあります。経験豊富な方とマンツーマンで学習していくのもオススメです。
相関係数のイメージ
下記に3つのグラフを示しています。
左から強い相関、中くらいの相関、弱い相関を示しています。見て分かる通り、散布図が1直線に近いグラフになっていると相関が強いといいます。
こちらはピアソンの積率相関係数を使っていますが、今回は外れ値にも強いスピアマンの順位相関係数も紹介します。

ピアソンの積率相関係数
ピアソンの積率相関係数は、連続変数間の線形関係を測定するための指標です。この相関係数は、以下のような特性を持っています。
- 範囲: -1から1の間の値を取ります。1は完全な正の相関、-1は完全な負の相関、0は相関がないことを示します。
- 前提条件: データが正規分布に従っていることや、変数間に線形関係があることが前提とされています。このため、ピアソンの相関係数はパラメトリックな手法と呼ばれます。
ピアソンの積率相関係数\( r \)は次の数式で表されます。
こちらが一般的に「相関係数」とよばれるもので、右上がりならば1、右下がりならば-1になります。
スピアマンの順位相関係数
数式
一方、スピアマンの順位相関係数は、データの順位に基づいて相関を測定する方法です。以下のような特性があります。
- 範囲: ピアソンと同様に-1から1の間の値を取ります。
- 前提条件: データの分布形状に関わらず使用でき、異常値の影響を受けにくいです。そのため、スピアマンの順位相関係数はノンパラメトリックな手法とされています。
スピアマンの順位相関係数\( \rho \)は次の数式で表されます。
ここで、\( d_i \)は各データの順位差、\( n \)はデータの総数です。
\( d_i \)と\( \rho \)の計算
スピアマンの順位相関係数は、各データ点を順位付けして、その順位を用いて相関を計算します。具体的には以下のステップで計算されます。以下のデータセットを考えわかりやすく説明します。
- X: [106,108,110,115,130]
- Y: [7,6,12,15,10]
ステップ1. 順位付け
XとYそれぞれにおいて、大きい順で順位を付けます。
- Xの順位: [5,4,3,2,1]
- Yの順位: [4,5,2,1,3]
ステップ2. 順位の差\( d_i \)
それぞれのX, Yにおいて差分を取ります。
ステップ3. 順位差の二乗合計\( \sum d_i^2 \)
それぞれ算出したものを足し合わせます。
ステップ4. スピアマンの順位相関係数\( \rho \)
最後にスピアマンの順位相関係数を算出します。
ピアソンの積率相関係数とスピアマンの順位相関係数の比較
特徴をまとめると以下のようになります。ピアソンの積率相関係数の方が有名ですが、データによってはスピアマンの順位相関係数を使った方がよい可能性もあります。
| 特徴 | ピアソンの積率相関係数 | スピアマンの順位相関係数 |
| データの前提条件 | 正規分布 | 特に無し |
| パラメトリック/ノンパラメトリック | パラメトリック | ノンパラメトリック |
| 異常値への頑健性 | 低い | 高い |
分かりやすく説明するため、実際に異常値が含むデータを下記のように示します。ほとんどのデータは右上がりであり相関があるように見えます。
ピアソンの積率相関係数は-0.16となっていますが、スピアマンの順位相関係数は0.58となっており、イメージに合った算出が出来ています。
このように状況によって使い分けが必要なことが分かります。

まとめ
ピアソンの積率相関係数とスピアマンの順位相関係数は、それぞれ異なる性質を持つデータや関係性に適しています。データの性質や分析の目的に応じて、適切な相関係数を選ぶことが重要です。この記事を通じて、2つの相関係数の違いを理解し、データ分析においてより効果的な選択ができるようになれば幸いです。


コメント