決定係数R2とは。使い方を理解しよう

機械学習

はじめに

決定係数(R2) とは、回帰分析においてモデルがデータどれだけ説明できるかを示す指標です。R2の値は 0から1 の範囲にあり、 1に近いほどモデルがデータをよく説明していることを意味します。

決定係数を含め、様々なモデルの評価方法は非常に多く複雑であるため、分かりにくいと感じる場合は様々な講師と相談しながら進める等もオススメです。

R2の計算式

R2は次の数式で計算されます。

$$ R^2 = 1 – \frac{\sum_{i=1}^{n} (y_i – \hat{y}_i)^2}{\sum_{i=1}^{n} (y_i – \bar{y})^2} $$
  • \( y_i \)​は実測値
  • \( \hat{y_i} \)​はモデルの予測値
  • \( \bar{y} \)​は実測値の平均値

このように、 R2はモデルが分子の残差(誤差)をどれだけ減らせたか を測定しており、1に近づくほど、モデルがデータをうまく説明しており、逆に0に近づくほど、モデルがデータを表せてないことになります。

例として、身長と体重において回帰直線を引いてみると、下記の例ではR2は0.710となりました。よく予測できていることが分かります。

決定係数R2を使う際の重要なポイント

R2は回帰モデルを評価するための基本的な指標ですが、使用する際には次の点に注意が必要です。

多重共線性の影響

説明変数同士が強く相関している状態を多重共線性と呼びます。多重共線性が存在すると、モデルのR2が高くても、実際にはモデルが適切に動作していない可能性があります。この場合、VIFを用いて多重共線性の存在を確認し、問題がある場合は変数の選定を調整する必要があります。

決定係数R2だけで評価しない

R2が高いからといって、モデルが良好であるとは限りません。特に、パラメータが増えてモデルの複雑さや過剰適合を防ぐために、 AIC(赤池情報量基準)などの情報量基準といった他の指標と組み合わせて評価することが重要です。自由度を調整した自由度調整済R2の導入も必要です。

外れ値の影響

R2はデータの全体的な分散に基づくため、 外れ値の影響を受けやすいという欠点があります。外れ値がモデルのフィットに大きく影響してしまうと、R2が高くてもモデルの予測精度が実際には低い可能性があるため、外れ値の処理が必要になることがあります。

まとめ

決定係数R2は、モデルの説明力を評価するための強力な指標ですが、 多重共線性や外れ値、モデルの複雑さ に注意しながら使用することが大切です。さらに、他の指標を併用することで、モデルの適合度をより正確に評価できます。

決定係数R2を学ぶのにオススメの方法

書籍:多変量解析法入門

決定係数だけでなく、回帰分析を体系的に学びたい方には以下の書籍がオススメです。実際の数式が分かりやすく記載されており、しっかりと理解することができます。

スクール:現役のデータサイエンティストに教えてもらう

決定係数も含め、予測した際の評価指標は様々なものが存在し、全てを理解するのは非常に難しいです。その途中で挫折してしまうことを避けるには現役のデータサイエンティストが教えてくれるスクールに通うのもオススメです。

データサイエンティストになるためにオススメのスクールを紹介。
はじめに近年、多くの企業でデータ活用が進み、AIやデータ分析への期待がますます高まっています。そのため、データサイエンティストは現代のビジネス界で最も需要のある職業の一つです。データ分析、機械学習、統計学、プログラミングなど多岐に...

コメント

Copied title and URL