RAPMをベーシックスタッツで重回帰する@NBA

こんにちは、らんそうるいです（@rnsr0371）。NBAでは5年分のデータを使ったRAPMが公開されていることに気づいたので、ベーシックスタッツで重回帰分析をしてみました。結論としては、RAPMのばらつきを得点・リバウンド・アシスト・スティール・ブロック・ターンオーバー（全て48分換算）で20%程度説明できることが分かりました。この20%というのが、トップダウン型のデータ分析のベースラインで、ここからどれだけ改善できるかが問題になると思います。
先日「トップダウンなデータ分析とボトムアップなデータ分析」という記事を公開しました。この記事では「個々のプレーに得点期待値を付ける分析」をボトムアップ型、「インパクトメトリクスを解釈できるようにするに分解する分析」をトップダウン型という整理をしました。その上で、らんそうるいの技術力の制約から「トップダウンな分析を行っていきたい」という意思表明をいたしました。
NBAでは熱狂的なファンが5年分のデータを用いたRAPMを公開してくれていることに気づいたので、この記事ではRAPMを解釈できるように分解する、というトップダウンなデータ分析のデモンストレーションをしたいと思います。先日書いたメタな話で「トップダウン型の分析は教師あり学習です」と言われても、ピンと来る人は少ないと思うので、具体的にどんなことをするのか示します。
分析に使ったコードはGitHubにアップされています。

RAPMとは？

Regularized Adjusted Plus-Minusの頭文字を取ったオールインワンメトリックの一種です。NBA stufferに簡単な紹介があります。RAPMは、出場時間中の得失点差を表すスタッツ +/-（プラスマイナス）の発展形です。
RAPMと+/-の大きな違いの一つは、+/-がラインナップの影響を受けるのに対し、RAPMは受けないということです（この特徴はRAPMがAPMの特徴を引き継いでいることになります）。ラインナップの影響を受けるというのは、3 Kings時代のマイアミ・ヒートで、ジェームス・ウェイド・ボッシュと一緒にプレーする時間の長いマリオ・チャルマースという選手の+/-の値が異常な値を示していたという例が有名です。+/-は優れたプレイヤーと一緒にコートに立つ味方を高く評価してしまう、という弱点があります。この問題を統計的に解決したのがAPM(Adjusted Plus-Minus)というスタッツです。
APMの進化系がRAPMです。APMの弱点は、推定される値の標準誤差（ブレ）が大きくなる傾向があることです。RAPMはRelgularized（正則化）という名前の通り、機械学習の正則化という手法を利用して、APMの弱点をカバーしたスタッツです。
RAPMにも弱点はあります。それは、RAPMを安定させるためには3~5年分のデータが必要なことです。そのため、オールインワンメトリックのPIPMやLEBRONはボックススコアのデータを適切に重み付けることで、1年分のデータから、3~5年分のデータを使ったRAPMの値に近いものが出せるように工夫しています。
RAPMには巨大なデータが必要になるという弱点がありますが、その値は割と正確に選手の貢献を反映していると思っています。「バスケの完全理解」を目指す時に、RAPMがバスケの進化のスピードについて行けるのか？　という問題はありますが、バスケの本質（？）はそう早く変化しないと思われるので、RAPMのばらつきをスタッツから説明するというアプローチ（トップダウン型のデータ分析）は有用だとらんそうるいは考えています。また、RAPMはボックススコアのデータを使っていないという点もらんそうるいは高く評価しています。

データセット

Ahmed Cheema様が公開されている5-year RAPMを従属変数にしました。独立変数にはNBA公式HPのスタッツから、得点・リバウンド・アシスト・スティール・ブロック・ターンオーバーを取得し、これらを独立変数としました。独立変数は全て48分換算のものを使いました。分析期間は、NBA 2016-17 ~ 2020-21の5シーズンです。

結果

5年分のデータを用いたRAPMを従属変数、48分換算の得点・リバウンド・アシスト・スティール・ブロック・ターンオーバーを標準化した上で独立変数に、重回帰分析を行いました。その結果が次のテーブルです。5%水準で有意なスタッツは、得点・リバウンド・アシスト・ブロックでした。得点・リバウンド・アシストは大きければ大きいほどRAPMが大きくなるという関係でしたが、ブロックは逆に大きいほどRAPMは小さくなるという関係が見られました。また、6つのスタッツでRAPMのばらつきを20%程度説明できることが分かりました（テーブル上部のAdj. R-squaredという値を参照しています）。

なお、このモデルに出場時間を加えると、自由度調整済み決定係数（Adj. R-squared）は0.34まで向上します。出場時間はヘッドコーチの選手への評価を表していると考えられるので、妥当な結果だと思います。ヘッドコーチがどんな基準で選手を評価しているのかを教えてもらえれば、RAPMをより良く説明できるスタッツを探したり、スタッツを新たに算出する時のヒントになる可能性が高いです。やっぱ、ドメイン知識は大事なんだよなぁ〜〜。

終わりに

この記事では、らんそうるいが提案しているトップダウン型のデータ分析のデモンストレーションを行いました。具体的には「RAPMをスタッツで重回帰分析して、自由度調整済み決定係数を調べる」ということをしました。先日書いたトップダウンなデータ分析とボトムアップなデータ分析」という記事よりも具体的で（私の気づいていない）このアプローチの問題点が分かりやすいと思いますので、ぜひコメントやアドバイスをいただけると嬉しいです。よろしくお願いいたします。

Follow me!