回帰タスクの評価指標RMSLE(対数平方平均二乗誤差)とは

RMSLE 時系列

はじめに

回帰タスクにおいてモデルの精度を評価するための指標は多数あります。その中で、RMSLE(Root Mean Squared Logarithmic Error、対数平方平均二乗誤差)は、特定の状況で非常に有用な評価指標として広く利用されています。この記事では、RMSLEの定義やその計算方法、そして対数を取る理由について詳しく紹介します。

RMSLEは、評価指標の一つとなりますが、機械学習の精度をきちんと把握するには機械学習と評価指標を網羅的に知ることが必要です。これらについて理解が難しい場合は、経験豊富な方とマンツーマンで学習していくのもオススメです。

RMSLEの定義

RMSLEは、実際の値と予測値の間の誤差を評価する指標の一つです。その計算式は以下の通りです。RMSEにかなり似ていますが、このRMSLEでは対数を用いています。

$$ RMSLE = \sqrt{\frac{1}{n}\sum{(\log(y_i + 1) – \log(\hat{y_i}+1))^2}} $$

ここで、

  • \( n \)はサンプルの数
  • \( y_i \) は実際の値
  • \( \hat{y_i} \) は予測値
  • \( log \) は自然対数を表します

RMSLEの例

下記にRMSLEの計算例を示します。

実測値 \( y_i \)予測値 \( \hat{y_i} \)\( log(y_i + 1) \)\( log(\hat{y_i}+ 1) \)差の2乗
10122.39792.56490.0279
20183.04452.94440.0100
30333.43393.52640.0086
40363.71363.61090.0106
50553.93184.02540.0088

これらの差の2乗を平均し平方根することでRMSLEの結果を得ることができます。

$$ RMSLE = \sqrt{(0.0279+0.0100+0.0086+0.0106+0.0088)/5} \sim 0.1148 $$

RMSLEで対数を扱う理由

RMSLEが他の評価指標と異なる点は、対数を取るステップにあります。この対数変換にはいくつかの重要な理由があります。

  1. スケールの調整実際の値と予測値の間に大きなスケールの差がある場合、対数変換を行うことでこれらの差を小さくし、過剰に大きな誤差の影響を軽減します。例えば、値が1,000,000と10の間にある場合、そのままの誤差よりも対数変換後の誤差の方が直感的な比較がしやすくなります。
  2. 対称性の確保対数変換を行うことで、実際の値と予測値の比率が等しい場合に、誤差が対称的に評価されます。つまり、予測値が実際の値よりも同じ比率で高いか低いかに関わらず、同じ誤差として扱われます。これにより、モデルの予測のバランスを公平に評価できます。
  3. 異常値の影響の軽減対数変換は異常に大きな値や外れ値の影響を減らします。これにより、モデルが極端な値に引っ張られてしまうリスクを軽減し、全体的なパフォーマンスの評価がより現実的になります。

似た指標にRMSEもありますが、こちらを参考ください。

評価指標RMSE(平均二乗誤差)とは。MAE(平均絶対誤差)との違いも解説
はじめに機械学習や統計学において、モデルの性能を評価するための指標は極めて重要です。その中でも、RMSE(Root Mean Square Error、平均二乗誤差)はよく使われる評価指標の一つです。本記事では、RMSEと...

まとめ

RMSLEは、特定の回帰タスクにおいて非常に有用な評価指標です。対数変換を取り入れることで、スケールの調整、対称性の確保、異常値の影響の軽減など、多くのメリットがあります。特にデータの範囲が広く、外れ値が存在する場合や、相対的な誤差を重視する場合に適しています。モデルの評価を行う際には、データの特性に応じて最適な評価指標を選ぶことが重要であり、RMSLEはその一つの有力な選択肢となるでしょう。

RMSLEなどの評価指標を学ぶのにおススメの方法

書籍:評価指標入門〜データサイエンスとビジネスをつなぐ架け橋

こちらの書籍では様々な評価指標が記載されており、RMSLEと合わせて様々な指標を学ぶことができます。実際のビジネス場面では複数指標の検討をする必要があるため、この書籍を通して様々な知識を得ることをおススメします。

スクール:現役のデータサイエンティストに教えてもらう

評価指標は多く存在し、勉強し始めのころは何が何だか分からないかもしれません。その際は現役のデータサイエンティストに教えてもらいながら適切な手法を学んでいくこともおススメです。ビジネスを適切に進めていくには適切に学んでいくことが大切です。

データサイエンティストになるためにオススメのスクール5選。
はじめに近年、多くの企業でデータ活用が進み、AIやデータ分析への期待がますます高まっています。そのため、データサイエンティストは現代のビジネス界で最も需要のある職業の一つです。データ分析、機械学習、統計学、プログラミングなど多岐に...

コメント

Copied title and URL