Qualquer um que siga o beisebol provavelmente já ouviu falar sobre o desempenho do nada do tipo MVP de Jose Bautista, de Toronto. Nos quatro anos anteriores, ele atingiu cerca de 15 home runs por temporada. No ano passado, ele completou 54 anos, número superado por apenas 12 jogadores na história do beisebol.
Em 2010, ele recebeu 2,4 milhões e está pedindo à equipe 10,5 milhões para 2011. Eles estão oferecendo 7,6 milhões. Se ele puder repetir isso em 2011, valerá facilmente qualquer quantia. Mas quais são as chances dele repetir? Quão difícil podemos esperar que ele volte à média? Quanto de seu desempenho podemos esperar foi por acaso? O que podemos esperar dos totais de 2010 ajustados para regressão à média? Como faço para resolver isso?
Venho brincando com o Lahman Baseball Database e fiz uma consulta que retorna o total de home runs para todos os jogadores nas cinco temporadas anteriores que tiveram pelo menos 50 tacos por temporada.
A tabela fica assim (observe Jose Bautista na linha 10)
first last hr_2006 hr_2007 hr_2008 hr_2009 hr_2010
1 Bobby Abreu 15 16 20 15 20
2 Garret Anderson 17 16 15 13 2
3 Bronson Arroyo 2 1 1 0 1
4 Garrett Atkins 29 25 21 9 1
5 Brad Ausmus 2 3 3 1 0
6 Jeff Baker 5 4 12 4 4
7 Rod Barajas 11 4 11 19 17
8 Josh Bard 9 5 1 6 3
9 Jason Bartlett 2 5 1 14 4
10 Jose Bautista 16 15 15 13 54
e o resultado completo (232 linhas) está disponível aqui .
Eu realmente não sei por onde começar. Alguém pode me apontar na direção certa? Alguma teoria relevante e comandos R seriam especialmente úteis.
Obrigado gentilmente
Tommy
Nota: O exemplo é um pouco artificial. Os home runs definitivamente não são o melhor indicador do valor de um jogador, e os totais do home run não consideram o número variável de chances por temporada em que um batedor tem a chance de acertar home runs (aparições). Também não reflete que alguns jogadores jogam em estádios mais favoráveis e que os home runs médios da liga mudam ano a ano. Etc. Etc. Se eu puder entender a teoria por trás da contabilização da regressão à média, posso usá-la em medidas mais adequadas do que os RHs.
fonte
Respostas:
Eu acho que definitivamente existe um encolhimento bayesiano ou uma correção prévia que poderia ajudar na previsão, mas você também pode considerar outra abordagem ...
Procure jogadores na história, não apenas nos últimos anos, que tiveram temporadas de breakout depois de alguns títulos importantes (aumentos dramáticos talvez 2x) e veja como eles foram no ano seguinte. É possível que a probabilidade de manter o desempenho seja o preditor certo.
Há várias maneiras de analisar esse problema, mas como mpiktas disse, você precisará de mais dados. Se você quer apenas lidar com dados recentes, terá que analisar as estatísticas gerais da liga, os arremessadores que ele enfrenta, é um problema complexo.
E há apenas considerando os próprios dados de Bautista. Sim, esse foi seu melhor ano, mas também foi a primeira vez desde 2007 que ele tinha mais de 350 ABs (569). Convém considerar a conversão do aumento percentual no desempenho.
fonte
Você pode ajustar um modelo apenas a esses dados e obter previsões que consideram a regressão à média usando modelos mistos (multiníveis). As previsões de tais modelos são responsáveis pela regressão à média. Mesmo sem saber quase nada sobre beisebol, não encontro resultados que me tornem terrivelmente críveis, pois, como você diz, o modelo realmente precisa levar em conta outros fatores, como aparências de placas.
Penso que um modelo de efeitos mistos de Poisson seria mais adequado do que um modelo linear linear, já que o número de home runs é uma contagem. Observando os dados que você forneceu , um histograma de
hr
mostras é fortemente inclinado positivamente, sugerindo que um modelo misto linear não funcione bem e inclua um número bastante grande de zeros, com ou sem a hora de transformação de log primeiro.Aqui está um código usando a
lmer
função do pacote lme4 . Depois de criar uma variável de identificação para identificar cada jogador e remodelar os dados para o formato 'longo', como mpiktas indicou em sua resposta, (fiz isso no Stata porque não sou bom em gerenciamento de dados no R, mas você poderia fazê-lo em um pacote de planilha eletrônica):Isso se encaixa em um modelo com um link de log, fornecendo uma dependência exponencial da taxa de acertos no ano, que pode variar entre jogadores. Outras funções de link são possíveis, embora o link de identidade tenha causado um erro devido a valores ajustados negativos. No entanto, um link sqrt funcionou bem e possui um BIC e um AIC mais baixos do que o modelo com o link de log, portanto pode ser um ajuste melhor. As previsões para a taxa de acertos em 2011 são sensíveis à função de link escolhida, principalmente para jogadores como Bautista, cuja taxa de acertos mudou muito recentemente.
Receio não ter conseguido realmente obter tais previsões
lme4
. Estou mais familiarizado com o Stata, o que torna muito fácil obter previsões para observações com valores ausentes para o resultado, embora o xtmelogit não pareça oferecer outra opção de função de link que não seja log, que forneceu uma previsão de 50 para Bautista. home runs em 2011. Como eu disse, não acho isso terrivelmente crível. Ficaria agradecido que alguém pudesse mostrar como gerar previsões para 2011 a partir doslmer
modelos acima.Um modelo autoregressivo como AR (1) para erros no nível do jogador também pode ser interessante, mas não sei como combinar essa estrutura com um modelo misto de Poisson.
fonte
Você precisa de dados adicionais sobre os jogadores e suas características no período em que possui dados sobre home-runs. Para o primeiro passo, adicione algumas características variáveis no tempo, como idade ou experiência dos jogadores. Em seguida, você pode usar os modelos de dados HLM ou painel. Você precisará preparar os dados no formulário:
O modelo mais simples seria então (a função lme é do pacote nlme )
Este modelo dependerá fortemente da suposição de que o número de home run de cada jogador depende apenas da experiência que permite alguma variabilidade. Provavelmente não será muito preciso, mas pelo menos você sentirá o quão improvável são os números de Jose Bautista em comparação com o jogador médio. Este modelo pode ser aprimorado ainda mais adicionando as características de outros jogadores.
fonte
Você pode conferir o Blog do livro.
Tom Tango e os outros autores de "O livro: jogando as porcentagens no beisebol" são provavelmente as melhores fontes de sabre- metria por aí. Em particular, eles amam a regressão à média. Eles criaram um sistema de previsão projetado para ser o sistema aceitável mais básico (Marcel), e depende quase exclusivamente da regressão à média.
Em primeiro lugar, suponho que um método seria usar essa previsão para estimar o verdadeiro talento e, em seguida, encontrar uma distribuição apropriada em torno desse talento médio. Depois que você tiver isso, a aparência de cada placa será como um teste de Bernoulli, para que a distribuição binomial possa levar o resto do caminho.
fonte
Para sua informação, de 2011 a 2014, ele atingiu 43, 27, 28 e 35.
Isso é bem parecido com a média de 162 jogos de 32 (que obviamente incluem esses valores) e cerca de 1 DP sob os 54 em 2010.
Parece regressão ao meio em ação: um grupo extremo construído ao capitalizar assuntos barulhentos (1 no caso) que se desvia do grupo por meio do acaso.
http://www.baseball-reference.com/players/b/bautijo02.shtml
fonte