赤目無冠のぶろぐ

アニメ、将棋・麻雀、音楽(作曲、DTM、ベース)、思想など

帰ってきたニートの一日の作者。詳しくははじめにへ。

競馬・競艇はどれぐらいのサンプルが必要か?

Q:競馬・競艇はどれぐらいのサンプルが必要なの?

A:私は以下を参照している

http://nabokov.blog.jp/archives/1205259.html

Q:具体的に

A:たとえばサンプル100で的中率30%、回収率120%、(平均オッズ4倍)になるやり方を発見した場合、
  上から2つ目の「yes/noを質問して比率を求めるアンケートにおいて、サンプル数から誤差を計算する。」
  にその値を代入する。
  サンプルの数に100、yes/noの比率(0~100)に30を代入するだけ(母集団は無限大とするので空欄のままでよい)。
  すると、誤差8.98%と出てくるはず。
  つまり、的中率は信頼度95%で30±8.98%。最悪の場合、約21%まで落ちる可能性がある。
  最悪の場合、的中率が7割程度になってしまうので、オッズが一定だと仮定すると、
  120%もある回収率でも7割程度の84%になってしまうおそれがある。
  したがってこの方法は信頼度95%において、勝てないやり方である。

Q:では、上の例ならどれぐらいのサンプルが必要なのだろうか?

A:上の例なら許される誤差は5%程度だと考えられる。
  これなら30%の的中率も最悪の場合でも25%はある。
  最悪の場合でも30%の6分の5(25/30)ぐらいにしかならないので、オッズが一定だと仮定すると、
  120%の回収率が6分の5倍の100%になるぐらいの被害ですむ。

  一番上の「yes/noを質問して比率を求めるアンケートにおいて、結果を誤差以内におさえるために必要なサンプル数を計算する。」
  に値を代入する。
  誤差(0~100)に5、yes/noの比率(0~100)に30を代入するだけ。
  すると、323と出てくるはず。
  要するに323程度のサンプルがないと信頼できないということが分かる。

Q:これで万全?

A:いいえ。実は偶然の高配当を警戒する必要がある。
  たとえば1回でも万馬券が出ると回収率が大きく変わる。

Q:どういうこと?具体的に

A:たとえば、さっきのサンプル100、的中率30%、回収率120%、(すなわち平均オッズ4倍)の場合。
  これは100円ずつなら10,000円出して12,000円貰えるやり方。
  しかし、もし、そのうちの1頭のオッズが100倍だったらどうか。
  それを除くだけで2,000円しか貰えないやり方になってしまう。
  これでは計算するまでもなくマイナスである。
  こういうデータは偶然の一発に頼っているだけなので、実用性はない。株やfxでいうOverfittingに近い。

Q:要するに偶然の高配当を含んでいる場合、事実上、使えないやり方だということですね。
  では、どうすればいいのでしょうか?

A:偶然の高配当を除いたデータのみを使えばよい。
  オッズ範囲を「10~20倍」などと限定してデータを抽出した方がよい。
  私はtargetなどを利用する場合は必ずオッズ範囲を指定している。
  それと、賭ける時も「10倍~20倍しか狙わない」というふうにオッズ範囲を限定する。
  これでもプラスなら、かなりの確率で勝てる再現性のあるデータになると考えられる。

以上。
要するに「サンプルや的中率や回収率は大きいほどよい」。当たり前の話。
それと「偶然の高配当はまぐれなのだから除いて考えろ」。これも大事。
この2つのテストを行って、それでも合格したもののみが、本当に使える競馬のデータとなる。
それ以外はゴミなので使えない。

因みにこの考え方を徹底すると、競馬における大多数の過去のデータは「偶然」の一言で片づけられる。
たとえば「○○記念は過去10年、△枠は勝っていません」というようなデータがあるが、
はっきり言って、10年の数十頭程度のデータは統計学上、使い物にならない。
しかもそのデータに基づいてみんなが買い方を変えてしまうことを考えると、ますます回収率は悪くなるはず。
(余談だが、私なら「過去10年、△枠は勝っていません」に抵抗してあえて△枠を買う。
 短期データなら伝説のデイトレーダーのあの男のように逆張りした方がオッズがおいしい。
 人は短期でものを考えて、長期を軽視する。そういうバイアスがある。)
さらに言えば、施行者が馬や場所の状態を変えてしまえば、それだけでレース展開が変わるので、
過去の傾向はだんだん使えないものになっていく。
だから数十頭や数十レース程度のデータはノイズだと考えて、切り捨ててしまった方がよい。
最低でも500頭(レース)ぐらい。的中数はできれば100回ぐらいはあった方がよい。
けっこう変動する世界なので、かなり慎重に考えて、厳選に厳選を重ねた方がよい。

それとどれぐらい連続不的中があるのか先に想定しておく。
たとえば10%ぐらいの的中率なら50連敗ぐらいは想定した方がよい。
1000円ずつなら5万円いる。
途中で資金が尽きるような賭け方を絶対にしてはいけない。
そのようなことは最初に考えておく。