Espero poder fazer esta pergunta da maneira correta. Eu tenho acesso aos dados play-by-play, por isso é mais um problema com a melhor abordagem e a construção correta dos dados.
O que pretendo fazer é calcular a probabilidade de ganhar um jogo da NHL, considerando a pontuação e o tempo restante na regulamentação. Eu acho que poderia usar uma regressão logística, mas não tenho certeza de como deve ser o conjunto de dados. Eu teria várias observações por jogo e a cada fatia de tempo que me interessa? Eu teria uma observação por jogo e caberia modelos separados por uma fatia de tempo? A regressão logística é o caminho certo a seguir?
Qualquer ajuda que você puder fornecer será muito apreciada!
Cumprimentos.
time-series
probability
logistic
Btibert3
fonte
fonte
Respostas:
Faça uma regressão logística com as covariáveis "tempo de jogo" e "gols (time da casa) - gols (time visitante)". Você precisará de um efeito de interação desses termos, pois uma vantagem de 2 gols no intervalo terá um efeito muito menor do que uma vantagem de 2 gols com apenas 1 minuto restante. Sua resposta é "vitória (time da casa)".
Não assuma apenas linearidade para isso, ajuste um modelo de coeficiente de variação suave para o efeito de "gols (time da casa) - gols (time visitante)"; por exemplo, em R, você poderia usar
mgcv
agam
função de s com uma fórmula do modelowin_home ~ s(time_remaining, by=lead_home)
. Transformelead_home
em um fator, para obter um efeito diferente detime_remaining
para cada valor delead_home
.Eu criaria várias observações por jogo, uma para cada fatia de tempo em que você estiver interessado.
fonte
win_home
é constante no nível do agrupamento (ou seja, para todos os intervalos de tempo para qualquer partida é 0 ou 1), incluindo, por exemplo, uma interceptação aleatória, para as partidas apenas resultará em enormes problemas com a separação neste contexto.Eu começaria a simular os dados de um modelo de brinquedo. Algo como:
Agora temos algo para brincar. Você também pode usar os dados brutos, mas acho que simular os dados é muito útil para refletir.
A seguir, traçaria os dados, ou seja, o tempo do jogo em relação ao lead home, com a escala de cores correspondente à probabilidade observada de vitória.
Isso o ajudará a encontrar o suporte dos seus dados e fornecerá uma idéia básica de como são as probabilidades.
fonte
Confira os nerds das estatísticas no Football Outsiders , bem como o livro Mathletics, para obter alguma inspiração.
Os caras do Outsiders do futebol fazem previsões de jogos com base em todas as jogadas de um jogo de futebol.
O Winston em Mathletics também usa algumas técnicas, como programação dinâmica.
Você também pode considerar outros algoritmos, como o SVM.
fonte