【キャリアハイの統計学】極値統計学をバスケのデータに適用する

こんにちは、らんそうるい(@rnsr0371)です。この記事では、極値統計学という分野の手法をバスケのデータ分析に応用して、1試合に50点を1人であげる選手(50点ゲーム達成者)の珍しさを分析しました。

B1 2016-17~2021-22の6シーズン(レギュラーシーズンのみ)の間では、実際に50点ゲームを達成したことがある選手は635人中ライアン・ロシターただ1人で、分析の結果50点ゲームは500人に1人しか残せない大記録であることが分かりました。

極値統計学とは?

西郷・有本『Rによる極値統計学』によると「極値統計学は繰り返し数値が記録される現象の中で、その最大や最小に関心がある場合に必要な学問」(p.2)です。インプットとなるデータは、東京の毎年の最高気温やオリンピック男子100m走金メダル記録で、アウトプットとして「東京の最高気温は何度まで上がるか」「オリンピック男子100mの記録は20xxまでにどれくらいの値が可能か」といった推測を得ることができます。こうした推測は防災や製造物の品質管理、保険・金融商品の開発に役立てられているようです。

インターネットで公開されている分析としては、以下のようなものがあります。

分析

データセット

B1 2016-17~2021-22シーズンの6つのレギュラーシーズンのボックススコアが生データです。生データに一つでも記録があった選手は全部で635名でした。その635名一人一人の一試合最多得点(キャリアハイ)を集計し、分析用のデータとしました。

キャリアハイの記述的な分析(EDA)

選手635名のキャリアハイのヒストグラムは次のようになりました。この図から、50点ゲームの達成者は1人だけあることが分かります。ライアン・ロシターです。

ライアン・ロシターの期間中の全ての試合の得点のヒストグラムを以下に示します。50点ゲームがロシターにとっても会心のゲームであったのがよく分かると思います。

結果

キャリアハイのデータを選手一人一人をブロックとみなしたブロック最大値データと考え、一般極値分布モデルでの分析を行いました。その結果、得られた確率プロット(probability plot)、分位プロット(quantile plot)、再現レベルプロット(return level plot)、密度関数プロット(density plot)を示します。

これらのプロットから言えることは、キャリアハイデータは一般極値分布でうまく説明できているということです。この中でも特に注目したいのが再現レベルプロットです。再現レベルプロットを拡大して示します。

再現レベルプロットによると「500人に1人はキャリアハイが50点を超える」と解釈できます。

考察

以上、極値統計学のバスケデータへの適用でした。理屈の上では、最多3Pシュートの成功数記録の珍しさなども分析できるはずです。

分析の不備や解釈におかしさがあったら、ぜひTwitterのDMなどで教えてください!

Follow me!

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です

CAPTCHA