RAPMをベーシックスタッツで重回帰する@NBA
こんにちは、らんそうるいです(@rnsr0371)。NBAでは5年分のデータを使ったRAPMが公開されていることに気づいたので、ベーシックスタッツで重回帰分析をしてみました。 結論としては、RAPMのばらつきを得点・リバウンド・アシスト・スティール・ブロック・ターンオーバー(全て48分換算)で20%程度説明できることが分かりました。この20%というのが、トップダウン型のデータ分析のベースラインで、ここからどれだけ改善できるかが問題になると思います。
先日「トップダウンなデータ分析とボトムアップなデータ分析」という記事を公開しました。この記事では「個々のプレーに得点期待値を付ける分析」をボトムアップ型、「インパクトメトリクスを解釈できるようにするに分解する分析」をトップダウン型という整理をしました。その上で、らんそうるいの技術力の制約から「トップダウンな分析を行っていきたい」という意思表明をいたしました。
NBAでは熱狂的なファンが5年分のデータを用いたRAPMを公開してくれていることに気づいたので、この記事ではRAPMを解釈できるように分解する、というトップダウンなデータ分析のデモンストレーションをしたいと思います。先日書いたメタな話で「トップダウン型の分析は教師あり学習です」と言われても、ピンと来る人は少ないと思うので、具体的にどんなことをするのか示します。
分析に使ったコードはGitHubにアップされています。
RAPMと+/-の大きな違いの一つは、+/-がラインナップの影響を受けるのに対し、RAPMは受けないということです(この特徴はRAPMがAPMの特徴を引き継いでいることになります)。ラインナップの影響を受けるというのは、3 Kings時代のマイアミ・ヒートで、ジェームス・ウェイド・ボッシュと一緒にプレーする時間の長いマリオ・チャルマースという選手の+/-の値が異常な値を示していたという例が有名です。+/-は優れたプレイヤーと一緒にコートに立つ味方を高く評価してしまう、という弱点があります。この問題を統計的に解決したのがAPM(Adjusted Plus-Minus)というスタッツです。
APMの進化系がRAPMです。APMの弱点は、推定される値の標準誤差(ブレ)が大きくなる傾向があることです。RAPMはRelgularized(正則化)という名前の通り、機械学習の正則化という手法を利用して、APMの弱点をカバーしたスタッツです。
RAPMにも弱点はあります。それは、RAPMを安定させるためには3~5年分のデータが必要なことです。そのため、オールインワンメトリックのPIPMやLEBRONはボックススコアのデータを適切に重み付けることで、1年分のデータから、3~5年分のデータを使ったRAPMの値に近いものが出せるように工夫しています。
RAPMには巨大なデータが必要になるという弱点がありますが、その値は割と正確に選手の貢献を反映していると思っています。「バスケの完全理解」を目指す時に、RAPMがバスケの進化のスピードについて行けるのか? という問題はありますが、バスケの本質(?)はそう早く変化しないと思われるので、RAPMのばらつきをスタッツから説明するというアプローチ(トップダウン型のデータ分析)は有用だとらんそうるいは考えています。また、RAPMはボックススコアのデータを使っていないという点もらんそうるいは高く評価しています。
先日「トップダウンなデータ分析とボトムアップなデータ分析」という記事を公開しました。この記事では「個々のプレーに得点期待値を付ける分析」をボトムアップ型、「インパクトメトリクスを解釈できるようにするに分解する分析」をトップダウン型という整理をしました。その上で、らんそうるいの技術力の制約から「トップダウンな分析を行っていきたい」という意思表明をいたしました。
NBAでは熱狂的なファンが5年分のデータを用いたRAPMを公開してくれていることに気づいたので、この記事ではRAPMを解釈できるように分解する、というトップダウンなデータ分析のデモンストレーションをしたいと思います。先日書いたメタな話で「トップダウン型の分析は教師あり学習です」と言われても、ピンと来る人は少ないと思うので、具体的にどんなことをするのか示します。
分析に使ったコードはGitHubにアップされています。
RAPMとは?
Regularized Adjusted Plus-Minusの頭文字を取ったオールインワンメトリックの一種です。NBA stufferに簡単な紹介があります。RAPMは、出場時間中の得失点差を表すスタッツ +/-(プラスマイナス)の発展形です。RAPMと+/-の大きな違いの一つは、+/-がラインナップの影響を受けるのに対し、RAPMは受けないということです(この特徴はRAPMがAPMの特徴を引き継いでいることになります)。ラインナップの影響を受けるというのは、3 Kings時代のマイアミ・ヒートで、ジェームス・ウェイド・ボッシュと一緒にプレーする時間の長いマリオ・チャルマースという選手の+/-の値が異常な値を示していたという例が有名です。+/-は優れたプレイヤーと一緒にコートに立つ味方を高く評価してしまう、という弱点があります。この問題を統計的に解決したのがAPM(Adjusted Plus-Minus)というスタッツです。
APMの進化系がRAPMです。APMの弱点は、推定される値の標準誤差(ブレ)が大きくなる傾向があることです。RAPMはRelgularized(正則化)という名前の通り、機械学習の正則化という手法を利用して、APMの弱点をカバーしたスタッツです。
RAPMにも弱点はあります。それは、RAPMを安定させるためには3~5年分のデータが必要なことです。そのため、オールインワンメトリックのPIPMやLEBRONはボックススコアのデータを適切に重み付けることで、1年分のデータから、3~5年分のデータを使ったRAPMの値に近いものが出せるように工夫しています。
RAPMには巨大なデータが必要になるという弱点がありますが、その値は割と正確に選手の貢献を反映していると思っています。「バスケの完全理解」を目指す時に、RAPMがバスケの進化のスピードについて行けるのか? という問題はありますが、バスケの本質(?)はそう早く変化しないと思われるので、RAPMのばらつきをスタッツから説明するというアプローチ(トップダウン型のデータ分析)は有用だとらんそうるいは考えています。また、RAPMはボックススコアのデータを使っていないという点もらんそうるいは高く評価しています。