【統計学】弱小チームのエースを勝たせたい【度数分布票】
人生に悩んでる? じゃあ統計学だ!
統計学にハッタリは通じない。
しっかりデータを集め、それらを適切な形で統計化したものはとんでもないポテンシャルを秘めている。いわゆるひとつのビッグデータ。
どういう層がどんなモノを買ってる?
その客層は他にどんなモノを買ってる?
こういうデータを集めると、顧客の中に「あれ、このお客さんの層的にこの商品売れそうだな……ちょっとセールスしてみっか!」なんて行動をとれたりする。実際、それでよく売れるのが現状のようです。
ビジネスのみならずスポーツ方面でも統計学が大活躍してるね。たとえば、今ワールド・ベースボール・クラシックが盛り上がってるけど、野球だって『セイバーメトリクス』っていう統計学を全活用した分析手法が流行ってるよね。
「常に長打やホームランを狙えるバッターになりたい!」という選手がいたとする。そんな人には『どのような打球が長打やホームランになったか?』というデータをすべて集めたデータを渡す。その結果『バレルゾーン』ということばが生まれた。
・バレルゾーンとは?
打球速度:時速98マイル(約150キロメートル)
打球角度:26~30度
:MLB:
ttps://www.mlb.com/glossary/statcast/barrel
上記はいち例です。打球速度が上がればより低い、もしくは高い角度でも長打やホームランになりやすくなる。こういうのが統計学でわかってきて、選手たちはこのデータをもとに、その打球を実現しやすいバッティングフォームを研究する。その結果、今は縦振りと呼ばれるスタイルが主流になってるね。
社会的なあれこれだけじゃなく、キミの生活そのものを変えることだってできる。毎日体重を測って記録すれば「げっ! ここ一週間増え続けてるじゃん! やっばダイエットしよ」なんて行動もとれるし、何にどの程度時間を使ってるのかデータ化すれば「この時間ムダだよなぁ……ちょっと削ってみるか」と時短化することもできる。
すごくない?
すごいよね?
今すぐ統計学を知りたくなってきたよね?
とはいえ、なんか統計学って難しそうじゃない? 数学の知識とは必要なんでしょ? などなど不安があると思います。実際の統計学はぜんぜんシンプルで難しい数式も使いません。今回はアナタが安心して統計学に触れられるような、入門者向けに『統計学の始め方』について書いていきましょう。
:集めてまとめりゃ統計学:
たぶんね、アナタが思ってる以上にメタクソ簡単だと思うよ? ざっくり書けば、統計学って『データを集めてまとめたもの』だもん。
アナタが通ってる学校のクラスメート、会社通いの方はその会社で働いてる人を思い出してみて……思い出したら次は『性別と身長』を人数分書いてみてちょ。あ、これはたとえばの話だからテキトーな数値でいいよ。
ただ情報を書き出しただけのもの。それを『生データ』と呼びます。じゃあ次は、それを身長の高い順番に並べてみましょう……すると『身長の高い人には男性が多い』って気づくよね?
はい、この時点でアナタは統計を使いこなしました。おめでとう!
いやマジで、これが正真正銘の統計なの。何かしらのデータを集めて、それをテーマ別に整理して「このデータ、よく見ると〇〇じゃね?」みたいに分析するのを統計学と言うんですわ。
やってることはシンプルだけど、これをするだけで色んなことがわかってくる。たとえば『この動画を観てる人は、他にどんな動画を観てるだろう?』的な問題。YouTubeなどの動画共有サイトはAIにその分析をさせて、ある動画を観てる人に対し「もしかしてこの動画も好きじゃない?」といった形で提案するんだ。
統計にかけるとき、データは『質と量』のふたつに分けることができる。。
・質
数値にできないデータ
性別、血液型、商品名、今日の天気など
・量
数値にできるデータ
テストの点数、年収、売上金額、気温など
統計学はこのふたつを軸にする。最初の例でやった『クラスメートの性別と身長』なんかまさにそうだよね? 性別はカテゴリー、つまり〝質〟的なデータであるに対し、身長は〝量〟的なデータになってる。それを比較した結果、身長が高い人は男性が多いという結果が見えてきたわけだ。
ここまでが統計学の基本中の基本。ここまでわかったら次は「統計学ってどう使えばええの?」って話になってくるよね。だってさ、ただ知識をもつだけじゃなくて統計学でなにかしたいじゃん?
統計はただの道具だからね。目的があるからこそ道具は輝く。ってことで「人それぞれ目的をもって統計学を使いこなしましょう!」と終幕になるわけですが……いきなり言われても、じゃあどういう目的で使えばええんや? って話になるので、ひとつの例として目的を設定してみましょう。わたしは野球が好きなので野球を例にするよ。
とある弱小チームの投手「アカン、内野ゴロに打ち取っても守備がエラーしまくってどうにもならへん……せや! ワイが全員三振に打ち取ればええんや!」
はてさて、悲しき運命を背負った投手の『打者を三振に打ち取りたい』という目的を、統計学でどう実現していけば良いのでしょうか?
:奪三振率ナンバーワン:
野球。本場アメリカでは180年、日本では150年くらいの歴史があります。その歴史の中技術の研鑽が行われ続け、現代野球はデータと共に飛躍的進化を続けております。
冒頭で書いたバレルゾーンもそうだけど、今の野球ってマジ統計学全盛期的な? 感じでね。チームや個々の選手のデータはちょっと調べりゃすぐ出てくる。コースごとの打率まで知られちゃ選手としては商売上がったりよね。
が、弱小チームを背負った投手としては、このデータをいかんなく発揮していきたい。他人の弱点を探るどうこうも重要ですが、まずは『自分自身のデータ』と向き合ってみましょう。たとえば、彼のステータスがこんな感じだとしますかね。
・投手のステータス
球速 150 km
カットボール
スライダー
カーブ
フォーク
親しみやすいよう名前を設定しましょうか。そうだなぁ……弱小チームのエース……では三浦、なんていかがでしょう?
本人のステータスをもっと調べるため「実際の試合でどんくらい投げてるんだ?」を理解したいですね。そこで使えるのは『度数分布票』です。これはデータをソートしたい時に使える方法で、今回の場合は球種ごとの投球数と、その球種を全体の何パーセント使っていたか? を表にまとめることができます。細かい専門用語は後でご紹介するので見比べてみてね。
・年間合計投球数
2500球
・ストレート
1000球
40%
累積 1000球
累積 40%
・カットボール
800球
32%
累積 1800球
累積 72%
・カーブ
400球
16%
累積 2200球
累積 88%
・スライダー
200球
8%
累積 2400球
累積 96%
・フォーク
100球
4%
累積 2500球
累積 100%
・球種名
度数 (投球数。この値が〝量〟となる
相対度数 (全体のうち何パーセントか
累積度数 (要素が大きい順を足した値
累積相対度数(要素が大きい順を足したパーセンテージ
現在の自分が、どの球種をどの程度使い分けてるかがうかがえるようになりました。自分を知ったところで目的の『打者を三振に打ち取りたい』の本題。球種ごとの空振り率を見てみましょう。
・ストレート
1000球
ゴロ率:45%
空振り率:5%
・カットボール
800球
ゴロ率:75%
空振り率:3%
・カーブ
400球
ゴロ率:65%
空振り率:12%
・スライダー
200球
ゴロ率:35%
空振り率:8%
・フォーク
100球
ゴロ率:10%
空振り率:65%
まさにゴロを打たせて取るタイプ。そのかわり空振り率が残念なことになってるという事実。しかし弱小チームのエース三浦は気付いた。
三浦D輔「あれ……フォークの空振り率高くない?」
まさかの100球中65球である。この数値はお化けフォーク言われる千賀投手のそれより高い数値である。投球数は少ないけどこの空振り率はすばらしい。この時点でもはや〝こたえ〟が見えたのではないでしょうか?
これが統計の強さであります。こうなれば弱小チームのエース三浦がやるべきはフォークの強化と投球割合の増加でありましょう! ――と言いたいところだけどちょっとまって。
さっきも書いたけど、統計学は道具なのよ。
統計はいろんな事実を教えてくれる。けど事実は事実でしかないんだ。実際の野球は配球があり、投手や打者の調子があり、状況に合わせたバッティングなども関係してくる。もし、三振を軸にしたいと実践でフォークを増やしたり変化量やキレを鍛えようとすれば、逆に他の変化球が曲がらなくなるかもしれないし、投球スタイル自体も変えなきゃいけなくなるかもしれない。
統計は事実を教えてくれるけど、その事実を踏まえてどう動くかは個々の判断が求められるんだね。さて、上記例の三浦くんはどのような判だ「みんなエラーばかりだもん! 三振が必要なんだもん!」 ――なるほど、どうやらフォークPにクラスチェンジするようです。
このデータが示されたとき、キミはどうするか教えてね。
ダイエットしたいけど続かない。そんな時は日にち(質)と体重(量)をまとめて自分の体重と向き合ってみましょう。イヤでもダイエットする気持ちになれるのでぜひぜひ活用してみてください。そうでなくても日々の勉強、お仕事はたまたプライベートに恋愛事情まで統計学を使えない場所はないかもしれない。まあ、なんか統計とれそうじゃね? と思ったらやってみてください。
野球で例えてたらなんかWBCのことが気になってきたわ。なんだって今年はネトフリ限定になってしまったのか、まあラジオあるしいいけど。これを書いてる12日時点で日本は予選全勝。前回準優勝のアメリカさんはまさかのイタリアに敗北からの予選敗退かもしれないっていうね。
まあ、他にも野球大国あるし、アメリカが敗退するならそれはそれで他の国と対戦できるのだから日本にとっては善き経験になるんじゃなかろうか……えっと本題に戻ろう。
みんな! 統計学たっぷり活用してこーぜ! WBCの勝敗予想とかコメントしてってね!
しっかりデータを集め、それらを適切な形で統計化したものはとんでもないポテンシャルを秘めている。いわゆるひとつのビッグデータ。
どういう層がどんなモノを買ってる?
その客層は他にどんなモノを買ってる?
こういうデータを集めると、顧客の中に「あれ、このお客さんの層的にこの商品売れそうだな……ちょっとセールスしてみっか!」なんて行動をとれたりする。実際、それでよく売れるのが現状のようです。
ビジネスのみならずスポーツ方面でも統計学が大活躍してるね。たとえば、今ワールド・ベースボール・クラシックが盛り上がってるけど、野球だって『セイバーメトリクス』っていう統計学を全活用した分析手法が流行ってるよね。
「常に長打やホームランを狙えるバッターになりたい!」という選手がいたとする。そんな人には『どのような打球が長打やホームランになったか?』というデータをすべて集めたデータを渡す。その結果『バレルゾーン』ということばが生まれた。
・バレルゾーンとは?
打球速度:時速98マイル(約150キロメートル)
打球角度:26~30度
:MLB:
ttps://www.mlb.com/glossary/statcast/barrel
上記はいち例です。打球速度が上がればより低い、もしくは高い角度でも長打やホームランになりやすくなる。こういうのが統計学でわかってきて、選手たちはこのデータをもとに、その打球を実現しやすいバッティングフォームを研究する。その結果、今は縦振りと呼ばれるスタイルが主流になってるね。
社会的なあれこれだけじゃなく、キミの生活そのものを変えることだってできる。毎日体重を測って記録すれば「げっ! ここ一週間増え続けてるじゃん! やっばダイエットしよ」なんて行動もとれるし、何にどの程度時間を使ってるのかデータ化すれば「この時間ムダだよなぁ……ちょっと削ってみるか」と時短化することもできる。
すごくない?
すごいよね?
今すぐ統計学を知りたくなってきたよね?
とはいえ、なんか統計学って難しそうじゃない? 数学の知識とは必要なんでしょ? などなど不安があると思います。実際の統計学はぜんぜんシンプルで難しい数式も使いません。今回はアナタが安心して統計学に触れられるような、入門者向けに『統計学の始め方』について書いていきましょう。
:集めてまとめりゃ統計学:
たぶんね、アナタが思ってる以上にメタクソ簡単だと思うよ? ざっくり書けば、統計学って『データを集めてまとめたもの』だもん。
アナタが通ってる学校のクラスメート、会社通いの方はその会社で働いてる人を思い出してみて……思い出したら次は『性別と身長』を人数分書いてみてちょ。あ、これはたとえばの話だからテキトーな数値でいいよ。
ただ情報を書き出しただけのもの。それを『生データ』と呼びます。じゃあ次は、それを身長の高い順番に並べてみましょう……すると『身長の高い人には男性が多い』って気づくよね?
はい、この時点でアナタは統計を使いこなしました。おめでとう!
いやマジで、これが正真正銘の統計なの。何かしらのデータを集めて、それをテーマ別に整理して「このデータ、よく見ると〇〇じゃね?」みたいに分析するのを統計学と言うんですわ。
やってることはシンプルだけど、これをするだけで色んなことがわかってくる。たとえば『この動画を観てる人は、他にどんな動画を観てるだろう?』的な問題。YouTubeなどの動画共有サイトはAIにその分析をさせて、ある動画を観てる人に対し「もしかしてこの動画も好きじゃない?」といった形で提案するんだ。
統計にかけるとき、データは『質と量』のふたつに分けることができる。。
・質
数値にできないデータ
性別、血液型、商品名、今日の天気など
・量
数値にできるデータ
テストの点数、年収、売上金額、気温など
統計学はこのふたつを軸にする。最初の例でやった『クラスメートの性別と身長』なんかまさにそうだよね? 性別はカテゴリー、つまり〝質〟的なデータであるに対し、身長は〝量〟的なデータになってる。それを比較した結果、身長が高い人は男性が多いという結果が見えてきたわけだ。
ここまでが統計学の基本中の基本。ここまでわかったら次は「統計学ってどう使えばええの?」って話になってくるよね。だってさ、ただ知識をもつだけじゃなくて統計学でなにかしたいじゃん?
統計はただの道具だからね。目的があるからこそ道具は輝く。ってことで「人それぞれ目的をもって統計学を使いこなしましょう!」と終幕になるわけですが……いきなり言われても、じゃあどういう目的で使えばええんや? って話になるので、ひとつの例として目的を設定してみましょう。わたしは野球が好きなので野球を例にするよ。
とある弱小チームの投手「アカン、内野ゴロに打ち取っても守備がエラーしまくってどうにもならへん……せや! ワイが全員三振に打ち取ればええんや!」
はてさて、悲しき運命を背負った投手の『打者を三振に打ち取りたい』という目的を、統計学でどう実現していけば良いのでしょうか?
:奪三振率ナンバーワン:
野球。本場アメリカでは180年、日本では150年くらいの歴史があります。その歴史の中技術の研鑽が行われ続け、現代野球はデータと共に飛躍的進化を続けております。
冒頭で書いたバレルゾーンもそうだけど、今の野球ってマジ統計学全盛期的な? 感じでね。チームや個々の選手のデータはちょっと調べりゃすぐ出てくる。コースごとの打率まで知られちゃ選手としては商売上がったりよね。
が、弱小チームを背負った投手としては、このデータをいかんなく発揮していきたい。他人の弱点を探るどうこうも重要ですが、まずは『自分自身のデータ』と向き合ってみましょう。たとえば、彼のステータスがこんな感じだとしますかね。
・投手のステータス
球速 150 km
カットボール
スライダー
カーブ
フォーク
親しみやすいよう名前を設定しましょうか。そうだなぁ……弱小チームのエース……では三浦、なんていかがでしょう?
本人のステータスをもっと調べるため「実際の試合でどんくらい投げてるんだ?」を理解したいですね。そこで使えるのは『度数分布票』です。これはデータをソートしたい時に使える方法で、今回の場合は球種ごとの投球数と、その球種を全体の何パーセント使っていたか? を表にまとめることができます。細かい専門用語は後でご紹介するので見比べてみてね。
・年間合計投球数
2500球
・ストレート
1000球
40%
累積 1000球
累積 40%
・カットボール
800球
32%
累積 1800球
累積 72%
・カーブ
400球
16%
累積 2200球
累積 88%
・スライダー
200球
8%
累積 2400球
累積 96%
・フォーク
100球
4%
累積 2500球
累積 100%
・球種名
度数 (投球数。この値が〝量〟となる
相対度数 (全体のうち何パーセントか
累積度数 (要素が大きい順を足した値
累積相対度数(要素が大きい順を足したパーセンテージ
現在の自分が、どの球種をどの程度使い分けてるかがうかがえるようになりました。自分を知ったところで目的の『打者を三振に打ち取りたい』の本題。球種ごとの空振り率を見てみましょう。
・ストレート
1000球
ゴロ率:45%
空振り率:5%
・カットボール
800球
ゴロ率:75%
空振り率:3%
・カーブ
400球
ゴロ率:65%
空振り率:12%
・スライダー
200球
ゴロ率:35%
空振り率:8%
・フォーク
100球
ゴロ率:10%
空振り率:65%
まさにゴロを打たせて取るタイプ。そのかわり空振り率が残念なことになってるという事実。しかし弱小チームのエース三浦は気付いた。
三浦D輔「あれ……フォークの空振り率高くない?」
まさかの100球中65球である。この数値はお化けフォーク言われる千賀投手のそれより高い数値である。投球数は少ないけどこの空振り率はすばらしい。この時点でもはや〝こたえ〟が見えたのではないでしょうか?
これが統計の強さであります。こうなれば弱小チームのエース三浦がやるべきはフォークの強化と投球割合の増加でありましょう! ――と言いたいところだけどちょっとまって。
さっきも書いたけど、統計学は道具なのよ。
統計はいろんな事実を教えてくれる。けど事実は事実でしかないんだ。実際の野球は配球があり、投手や打者の調子があり、状況に合わせたバッティングなども関係してくる。もし、三振を軸にしたいと実践でフォークを増やしたり変化量やキレを鍛えようとすれば、逆に他の変化球が曲がらなくなるかもしれないし、投球スタイル自体も変えなきゃいけなくなるかもしれない。
統計は事実を教えてくれるけど、その事実を踏まえてどう動くかは個々の判断が求められるんだね。さて、上記例の三浦くんはどのような判だ「みんなエラーばかりだもん! 三振が必要なんだもん!」 ――なるほど、どうやらフォークPにクラスチェンジするようです。
このデータが示されたとき、キミはどうするか教えてね。
ダイエットしたいけど続かない。そんな時は日にち(質)と体重(量)をまとめて自分の体重と向き合ってみましょう。イヤでもダイエットする気持ちになれるのでぜひぜひ活用してみてください。そうでなくても日々の勉強、お仕事はたまたプライベートに恋愛事情まで統計学を使えない場所はないかもしれない。まあ、なんか統計とれそうじゃね? と思ったらやってみてください。
野球で例えてたらなんかWBCのことが気になってきたわ。なんだって今年はネトフリ限定になってしまったのか、まあラジオあるしいいけど。これを書いてる12日時点で日本は予選全勝。前回準優勝のアメリカさんはまさかのイタリアに敗北からの予選敗退かもしれないっていうね。
まあ、他にも野球大国あるし、アメリカが敗退するならそれはそれで他の国と対戦できるのだから日本にとっては善き経験になるんじゃなかろうか……えっと本題に戻ろう。
みんな! 統計学たっぷり活用してこーぜ! WBCの勝敗予想とかコメントしてってね!