Modelagem de jogadores de críquete e batedores

9

Eu tenho um conjunto de dados detalhando um grande número de jogos de críquete (alguns milhares). No críquete, os "jogadores de boliche" jogam repetidamente uma bola em uma sucessão de "batedores". O jogador está tentando tirar o batedor "de fora". A este respeito, é bastante semelhante aos jarros e rebatedores no beisebol.

Se eu pegasse o conjunto de dados inteiro e dividisse o número total de bolas que lançaram um batedor pelo número total de bolas lançadas, posso ver que eu teria a probabilidade média de um lançador lançar um batedor - será em torno de 0,03 ( espero que eu não tenha dado errado já?)

O que me interessa é o que posso fazer para tentar calcular a probabilidade de um batedor específico ser derrubado por um jogador específico na próxima bola.

O conjunto de dados é grande o suficiente para que qualquer jogador jogue milhares de bolas para uma grande variedade de batedores. Portanto, acredito que eu poderia simplesmente dividir o número de outs que um jogador consegue pelo número de bolas que ele jogou para calcular uma nova probabilidade de que aquele jogador específico saia da próxima bola.

Meu problema é que o conjunto de dados não é grande o suficiente para garantir que um determinado jogador jogue um número estatisticamente significativo de bolas em qualquer batedor. Então, se estou interessado em calcular a probabilidade de uma saída para um jogador específico enfrentando um batedor específico, não acho que isso não possa ser feito da mesma maneira simplista.

Minha pergunta é se a seguinte abordagem é válida:

  • Em todo o conjunto de dados, a probabilidade de uma bola sair é de 0,03.

  • Se eu calcular que, em média, o jogador A tem uma probabilidade de sair de 0,06 (ou seja, duas vezes mais que um jogador médio),

  • e, em média, o batedor B tinha uma probabilidade de estar fora de 0,01 (um terço da probabilidade de um batedor médio),

  • é então válido dizer que a probabilidade desse batedor específico estar na próxima bola para aquele jogador específico será 0,06 * (0,01 / 0,03) = 0,02?

Ravi
fonte
Se o jogador decidisse jogar a bola repetidamente , rapidamente se veriam impedidos de jogar a bola novamente no jogo.
Glen_b -Replica Monica

Respostas:

2

Se eu pegasse todo o conjunto de dados e dividisse o número total de bolas que lançaram um batedor pelo número total de bolas lançadas, posso ver que eu teria a probabilidade média de um lançador lançar um batedor - será em torno de 0,03 (esperançosamente Eu ainda não errei?)

Infelizmente, talvez isso já não seja exatamente o que você está procurando.

Suponha que tenhamos um único jogador e dois batedores: Don Bradman e eu. (Sei muito pouco sobre críquete, por isso, se estou fazendo algo fora daqui, avise-me.) Os jogos são parecidos com:

  • Don vai para o taco e sai na 99ª tigela.
  • Vou para o bastão e saio imediatamente.
  • Don vai para o taco e sai na 99ª tigela.
  • Vou para o bastão e saio imediatamente.

Nesse caso, existem quatro saídas em 200 taças, portanto a probabilidade marginal de um jogador conseguir um batedor é estimado em 4/200 = 2%. Mas, na verdade, a probabilidade de Don ficar de fora é mais de 1%, enquanto a minha é de 100%. Portanto, se você escolher um batedor e um jogador aleatoriamente, a probabilidade de que esse jogador jogue esse batedor desta vez é mais (50% de chance de você escolher Don) * (1% de chance de ele sair) + (50% de chance que você escolheu eu) * (100% de chance de sair) = 50,05%. Mas se você escolher um campo aleatoriamente, haverá 2% de chance de sair. Então, você precisa pensar cuidadosamente sobre qual desses modelos de amostragem está pensando.


De qualquer forma, sua proposta não é louca. Mais simbolicamente, deixe ser o jogador e m o batedor; deixe f ( b , m ) ser a probabilidade de que b fica m para fora. Então você está dizendo:bmf(b,m)bm

f(b,m)=Em[f(b,m)]Eb[f(b,m)]Eb,m[f(b,m)].

Isso tem a propriedade desejada que: é igualmente consistente se você usar apenas mais deboum.

Eb,m[f(b,m)]=Eb,m[f(b,m)]Eb,m[f(b,m)]Eb,m[f(b,m)]=Eb,m[f(b,m)];
bm

Observe que, neste caso, podemos atribuir Seu pressuposto é que você pode observarg(b)eh(m)razoavelmente bem a partir dos dados. Contanto que (a) você tenha jogos suficientes [o que você faz] e (b) todos os jogadores se jogam com frequências razoavelmente semelhantes, então tudo bem.

C:=Eb,m[f(b,m)]g(b):=Em[f(b,m)]/Ch(m):=Eb[f(b,m)]/Cso that f(b,m)=g(b)h(m).
g(b)h(m)

Para elaborar um pouco sobre (b): imagine que você tem dados de vários jogos profissionais e vários jogos meus jogando com meus amigos. Se não houver sobreposição, talvez eu pareça muito bem em comparação com meus amigos, então talvez você pense que sou muito melhor que o pior jogador profissional. Isso é obviamente falso, mas você não tem dados para refutá-lo. Se você tiver uma pequena sobreposição, onde joguei contra um jogador profissional uma vez e fui destruído, os dados suportam a classificação de mim e de meus amigos como piores do que os profissionais, mas seu método não explica isso. Tecnicamente, o problema aqui é que você está assumindo que possui uma boa amostra para, por exemplo, Eb[f(b,m)], mas sua distribuição é tendenciosa.b

É claro que seus dados não ficarão tão ruins assim, mas dependendo da estrutura da liga ou o que for, podem ter alguns elementos desse problema.


Você pode tentar contornar isso com uma abordagem diferente. O modelo proposto para é na verdade uma instância de modelos de fatoração de matriz de baixo escalão, comuns na filtragem colaborativa , como no problema da Netflix . Há, de escolher a função g ( b ) e h ( m ) ser de dimensão r , e representam f ( b , m ) = g ( b ) T h ( m ) . Você pode interpretar r > 1fg(b)h(m)rf(b,m)=g(b)Th(m)r>1como complexificar seu modelo de uma única pontuação de "qualidade" para ter pontuações em várias dimensões: talvez certos jogadores se saiam melhor contra certos tipos de batedores. (Isso foi feito, por exemplo, para jogos da NBA .)

A razão pela qual eles são chamados fatoração matricial é porque, se você criar uma matriz com tantas linhas quanto jogadores e tantas colunas quanto batedores, poderá escrever isso comoF

onde vocêfatorouumN×M

[f(b1 1,m1 1)f(b1 1,m2)f(b1 1,mM)f(b2,m1 1)f(b2,m2)f(b2,mM)f(bN,m1 1)f(bN,m2)f(bN,mM)]F=[g(b1 1)g(bN)]G[h(m1 1)h(mM)]THT
N×Mmatriz em um N × r um L e um H × R um H .FN×rGM×rH

Obviamente, você não consegue observar diretamente. O modelo usual é que você observe entradas ruidosas de F aleatoriamente; no seu caso, você começa a observar um empate a partir de uma distribuição binomial com um número aleatório de ensaios para cada entrada de F .FFF

Você pode construir um modelo de probabilidade como, digamos:

GEukN(0 0,σG2)HjkN(0 0,σH2)FEuj=GEuTHjREujBEunomEuumaeu(nEuj,FEuj)
nEujREujσGσH

nFEuj[0 0,1 1]GH

Dougal
fonte
11
@ Ravi Isso foi longo, provavelmente não explicado claramente, e eu não conheço seu nível de experiência com esse tipo de problema. Mas fique à vontade para fazer perguntas sobre quaisquer partes que não sejam claras. Além disso, como seus dados são individuais, você também pode considerar o uso do say Elo .
Dougal
Obrigado por escrever esta resposta de alta qualidade. É certo que agora só sei estatísticas básicas, então muito disso é novo para mim. No entanto, ele me mostra muito claramente o que ler para entender esse problema corretamente, que é exatamente o que eu queria. Espero que, depois de alguns dias (ou anos!) De estudo, eu seja capaz de entender melhor sua resposta.
Ravi
Obrigado. Eu tinha uma pergunta sobre Elo. Como é bastante longo abri uma nova pergunta [aqui] :( stats.stackexchange.com/questions/230518/... )
Ravi
0

Você não pode inferir a probabilidade correta de B sair, já que A é o jogador que A e B nunca se encontraram no campo apenas com base em suas médias com outros jogadores.

oW_
fonte
3
Embora você possa estar certo sobre o críquete, a capacidade dos sistemas de classificação em outros jogos de habilidade, como o xadrez, de prever os resultados das partidas entre pessoas que nunca competiram sugere o contrário.
whuber
2
@whuber Concordou - acho que será exatamente tão verdadeiro no críquete quanto quase qualquer outra interação competitiva. Cricket não é tão diferente.
Glen_b -Reinstala Monica 18/08/16