Eu tenho um conjunto de dados detalhando um grande número de jogos de críquete (alguns milhares). No críquete, os "jogadores de boliche" jogam repetidamente uma bola em uma sucessão de "batedores". O jogador está tentando tirar o batedor "de fora". A este respeito, é bastante semelhante aos jarros e rebatedores no beisebol.
Se eu pegasse o conjunto de dados inteiro e dividisse o número total de bolas que lançaram um batedor pelo número total de bolas lançadas, posso ver que eu teria a probabilidade média de um lançador lançar um batedor - será em torno de 0,03 ( espero que eu não tenha dado errado já?)
O que me interessa é o que posso fazer para tentar calcular a probabilidade de um batedor específico ser derrubado por um jogador específico na próxima bola.
O conjunto de dados é grande o suficiente para que qualquer jogador jogue milhares de bolas para uma grande variedade de batedores. Portanto, acredito que eu poderia simplesmente dividir o número de outs que um jogador consegue pelo número de bolas que ele jogou para calcular uma nova probabilidade de que aquele jogador específico saia da próxima bola.
Meu problema é que o conjunto de dados não é grande o suficiente para garantir que um determinado jogador jogue um número estatisticamente significativo de bolas em qualquer batedor. Então, se estou interessado em calcular a probabilidade de uma saída para um jogador específico enfrentando um batedor específico, não acho que isso não possa ser feito da mesma maneira simplista.
Minha pergunta é se a seguinte abordagem é válida:
Em todo o conjunto de dados, a probabilidade de uma bola sair é de 0,03.
Se eu calcular que, em média, o jogador A tem uma probabilidade de sair de 0,06 (ou seja, duas vezes mais que um jogador médio),
e, em média, o batedor B tinha uma probabilidade de estar fora de 0,01 (um terço da probabilidade de um batedor médio),
é então válido dizer que a probabilidade desse batedor específico estar na próxima bola para aquele jogador específico será 0,06 * (0,01 / 0,03) = 0,02?
fonte
Respostas:
Infelizmente, talvez isso já não seja exatamente o que você está procurando.
Suponha que tenhamos um único jogador e dois batedores: Don Bradman e eu. (Sei muito pouco sobre críquete, por isso, se estou fazendo algo fora daqui, avise-me.) Os jogos são parecidos com:
Nesse caso, existem quatro saídas em 200 taças, portanto a probabilidade marginal de um jogador conseguir um batedor é estimado em 4/200 = 2%. Mas, na verdade, a probabilidade de Don ficar de fora é mais de 1%, enquanto a minha é de 100%. Portanto, se você escolher um batedor e um jogador aleatoriamente, a probabilidade de que esse jogador jogue esse batedor desta vez é mais (50% de chance de você escolher Don) * (1% de chance de ele sair) + (50% de chance que você escolheu eu) * (100% de chance de sair) = 50,05%. Mas se você escolher um campo aleatoriamente, haverá 2% de chance de sair. Então, você precisa pensar cuidadosamente sobre qual desses modelos de amostragem está pensando.
De qualquer forma, sua proposta não é louca. Mais simbolicamente, deixe ser o jogador e m o batedor; deixe f ( b , m ) ser a probabilidade de que b fica m para fora. Então você está dizendo:b m f( b , m ) b m
Isso tem a propriedade desejada que: é igualmente consistente se você usar apenas mais deboum.
Observe que, neste caso, podemos atribuir Seu pressuposto é que você pode observarg(b)eh(m)razoavelmente bem a partir dos dados. Contanto que (a) você tenha jogos suficientes [o que você faz] e (b) todos os jogadores se jogam com frequências razoavelmente semelhantes, então tudo bem.
Para elaborar um pouco sobre (b): imagine que você tem dados de vários jogos profissionais e vários jogos meus jogando com meus amigos. Se não houver sobreposição, talvez eu pareça muito bem em comparação com meus amigos, então talvez você pense que sou muito melhor que o pior jogador profissional. Isso é obviamente falso, mas você não tem dados para refutá-lo. Se você tiver uma pequena sobreposição, onde joguei contra um jogador profissional uma vez e fui destruído, os dados suportam a classificação de mim e de meus amigos como piores do que os profissionais, mas seu método não explica isso. Tecnicamente, o problema aqui é que você está assumindo que possui uma boa amostra para, por exemplo,Eb′[ f( b′, m ) ] , mas sua distribuição é tendenciosa.b′
É claro que seus dados não ficarão tão ruins assim, mas dependendo da estrutura da liga ou o que for, podem ter alguns elementos desse problema.
Você pode tentar contornar isso com uma abordagem diferente. O modelo proposto para é na verdade uma instância de modelos de fatoração de matriz de baixo escalão, comuns na filtragem colaborativa , como no problema da Netflix . Há, de escolher a função g ( b ) e h ( m ) ser de dimensão r , e representam f ( b , m ) = g ( b ) T h ( m ) . Você pode interpretar r > 1f g( B ) h ( m ) r f( b , m ) = g( B )Th ( m ) r > 1 como complexificar seu modelo de uma única pontuação de "qualidade" para ter pontuações em várias dimensões: talvez certos jogadores se saiam melhor contra certos tipos de batedores. (Isso foi feito, por exemplo, para jogos da NBA .)
A razão pela qual eles são chamados fatoração matricial é porque, se você criar uma matriz com tantas linhas quanto jogadores e tantas colunas quanto batedores, poderá escrever isso comoF
onde vocêfatorouumN×M
Obviamente, você não consegue observar diretamente. O modelo usual é que você observe entradas ruidosas de F aleatoriamente; no seu caso, você começa a observar um empate a partir de uma distribuição binomial com um número aleatório de ensaios para cada entrada de F .F F F
Você pode construir um modelo de probabilidade como, digamos:
fonte
Você não pode inferir a probabilidade correta de B sair, já que A é o jogador que A e B nunca se encontraram no campo apenas com base em suas médias com outros jogadores.
fonte