Medindo a regressão à média na execução de execuções domésticas

11

Qualquer um que siga o beisebol provavelmente já ouviu falar sobre o desempenho do nada do tipo MVP de Jose Bautista, de Toronto. Nos quatro anos anteriores, ele atingiu cerca de 15 home runs por temporada. No ano passado, ele completou 54 anos, número superado por apenas 12 jogadores na história do beisebol.

Em 2010, ele recebeu 2,4 milhões e está pedindo à equipe 10,5 milhões para 2011. Eles estão oferecendo 7,6 milhões. Se ele puder repetir isso em 2011, valerá facilmente qualquer quantia. Mas quais são as chances dele repetir? Quão difícil podemos esperar que ele volte à média? Quanto de seu desempenho podemos esperar foi por acaso? O que podemos esperar dos totais de 2010 ajustados para regressão à média? Como faço para resolver isso?

Venho brincando com o Lahman Baseball Database e fiz uma consulta que retorna o total de home runs para todos os jogadores nas cinco temporadas anteriores que tiveram pelo menos 50 tacos por temporada.

A tabela fica assim (observe Jose Bautista na linha 10)

     first     last hr_2006 hr_2007 hr_2008 hr_2009 hr_2010
1    Bobby    Abreu      15      16      20      15      20
2   Garret Anderson      17      16      15      13       2
3  Bronson   Arroyo       2       1       1       0       1
4  Garrett   Atkins      29      25      21       9       1
5     Brad   Ausmus       2       3       3       1       0
6     Jeff    Baker       5       4      12       4       4
7      Rod  Barajas      11       4      11      19      17
8     Josh     Bard       9       5       1       6       3
9    Jason Bartlett       2       5       1      14       4
10    Jose Bautista      16      15      15      13      54

e o resultado completo (232 linhas) está disponível aqui .

Eu realmente não sei por onde começar. Alguém pode me apontar na direção certa? Alguma teoria relevante e comandos R seriam especialmente úteis.

Obrigado gentilmente

Tommy

Nota: O exemplo é um pouco artificial. Os home runs definitivamente não são o melhor indicador do valor de um jogador, e os totais do home run não consideram o número variável de chances por temporada em que um batedor tem a chance de acertar home runs (aparições). Também não reflete que alguns jogadores jogam em estádios mais favoráveis ​​e que os home runs médios da liga mudam ano a ano. Etc. Etc. Se eu puder entender a teoria por trás da contabilização da regressão à média, posso usá-la em medidas mais adequadas do que os RHs.

TMOD
fonte
2
O beisebol é a fonte favorita de exemplos de estatísticos dos EUA, de modo que uma pesquisa no Google (/ Scholar) trará vários artigos relevantes, por exemplo, Morrison e Schmittlein (1981) jstor.org/stable/2630890 . Vou deixar para alguém mais familiarizado com beisebol e R para responder à sua pergunta.
onestop
1
Também sugiro que você verifique o trabalho de JC Bradbury e seu blog, Sabernomics, sabernomics.com/sabernomics . Seu livro sobre como medir o valor de um jogador provavelmente será esclarecedor sobre quais características são preditivas de produtividade futura.
Andy W
2
O problema, como afirmado, é um pouco parecido com um problema externo , mas não da maneira normal que se pensa em outliers. Para incorporar o resultado surpreendente (ou seja, o discrepante), você precisaria de uma "distribuição de amostragem" com uma cauda pesada (o resultado de Jose bem acima de 3 desvios-padrão da média em relação aos dados anteriores), portanto, isso pode ajudar a ajustar melhor os dados e dar conta disso na previsão.
probabilityislogic
Se você considerar um atalho grosseiro, além dos comentários mais sofisticados que aparecem aqui, há o Dixon Test for Outliers, que você pode executar em uma amostra tão pequena quanto 4. Consulte cee.vt.edu/ewr/environmental/teach/smprimer / outlier /…
rolando2 23/01

Respostas:

3

Eu acho que definitivamente existe um encolhimento bayesiano ou uma correção prévia que poderia ajudar na previsão, mas você também pode considerar outra abordagem ...

Procure jogadores na história, não apenas nos últimos anos, que tiveram temporadas de breakout depois de alguns títulos importantes (aumentos dramáticos talvez 2x) e veja como eles foram no ano seguinte. É possível que a probabilidade de manter o desempenho seja o preditor certo.

Há várias maneiras de analisar esse problema, mas como mpiktas disse, você precisará de mais dados. Se você quer apenas lidar com dados recentes, terá que analisar as estatísticas gerais da liga, os arremessadores que ele enfrenta, é um problema complexo.

E há apenas considerando os próprios dados de Bautista. Sim, esse foi seu melhor ano, mas também foi a primeira vez desde 2007 que ele tinha mais de 350 ABs (569). Convém considerar a conversão do aumento percentual no desempenho.

John
fonte
3

Você pode ajustar um modelo apenas a esses dados e obter previsões que consideram a regressão à média usando modelos mistos (multiníveis). As previsões de tais modelos são responsáveis ​​pela regressão à média. Mesmo sem saber quase nada sobre beisebol, não encontro resultados que me tornem terrivelmente críveis, pois, como você diz, o modelo realmente precisa levar em conta outros fatores, como aparências de placas.

Penso que um modelo de efeitos mistos de Poisson seria mais adequado do que um modelo linear linear, já que o número de home runs é uma contagem. Observando os dados que você forneceu , um histograma de hrmostras é fortemente inclinado positivamente, sugerindo que um modelo misto linear não funcione bem e inclua um número bastante grande de zeros, com ou sem a hora de transformação de log primeiro.

Aqui está um código usando a lmerfunção do pacote lme4 . Depois de criar uma variável de identificação para identificar cada jogador e remodelar os dados para o formato 'longo', como mpiktas indicou em sua resposta, (fiz isso no Stata porque não sou bom em gerenciamento de dados no R, mas você poderia fazê-lo em um pacote de planilha eletrônica):

Year.c <- Year - 2008   # centering y eases computation and interpretation
(M1 <- lmer(HR ~ Year.c + (Year.c|ID), data=baseball.long, family=poisson(log), nAGQ=5))

Isso se encaixa em um modelo com um link de log, fornecendo uma dependência exponencial da taxa de acertos no ano, que pode variar entre jogadores. Outras funções de link são possíveis, embora o link de identidade tenha causado um erro devido a valores ajustados negativos. No entanto, um link sqrt funcionou bem e possui um BIC e um AIC mais baixos do que o modelo com o link de log, portanto pode ser um ajuste melhor. As previsões para a taxa de acertos em 2011 são sensíveis à função de link escolhida, principalmente para jogadores como Bautista, cuja taxa de acertos mudou muito recentemente.

Receio não ter conseguido realmente obter tais previsões lme4. Estou mais familiarizado com o Stata, o que torna muito fácil obter previsões para observações com valores ausentes para o resultado, embora o xtmelogit não pareça oferecer outra opção de função de link que não seja log, que forneceu uma previsão de 50 para Bautista. home runs em 2011. Como eu disse, não acho isso terrivelmente crível. Ficaria agradecido que alguém pudesse mostrar como gerar previsões para 2011 a partir dos lmermodelos acima.

Um modelo autoregressivo como AR (1) para erros no nível do jogador também pode ser interessante, mas não sei como combinar essa estrutura com um modelo misto de Poisson.

uma parada
fonte
usando a função melt da reformulação do pacote, a conversão para o formato longo é uma linha em R, melt (data, id = 1: 2).
precisa saber é o seguinte
Uma extensão / alternativa interessante para isso é ajustar um modelo hierárquico com uma distribuição de amostragem Possion com um parâmetro de taxa amostrada (1 taxa por ano), mas uma distribuição de amostra Cauchy para o parâmetro de taxa (em vez de mistura normal ou normal). A distribuição de Cauchy permitirá que o evento extremo ocorra (amostrando um parâmetro de taxa grande). Um caso intermediário (entre normal e Cauchy) é a distribuição t. (Cauchy é mais fácil de coletar amostras, pois pode usar o método CDF inverso).
probabilityislogic
2

Você precisa de dados adicionais sobre os jogadores e suas características no período em que possui dados sobre home-runs. Para o primeiro passo, adicione algumas características variáveis ​​no tempo, como idade ou experiência dos jogadores. Em seguida, você pode usar os modelos de dados HLM ou painel. Você precisará preparar os dados no formulário:

    First Last  Year HR Experience Age
1.  Bobby Abreu 2005 15     6      26

O modelo mais simples seria então (a função lme é do pacote nlme )

lme(HR~Experience,random=~Experience|Year,data=your_data)

Este modelo dependerá fortemente da suposição de que o número de home run de cada jogador depende apenas da experiência que permite alguma variabilidade. Provavelmente não será muito preciso, mas pelo menos você sentirá o quão improvável são os números de Jose Bautista em comparação com o jogador médio. Este modelo pode ser aprimorado ainda mais adicionando as características de outros jogadores.

mpiktas
fonte
Não diria que o @TMOD precisa de mais dados, apenas que as previsões provavelmente serão mais precisas se o @TMOD tiver mais dados. Há informações suficientes na pergunta para gerar uma previsão.
probabilityislogic
@probabilityislogic, sim, há informações suficientes para gerar a previsão, mas o modelo só terá interceptação.
precisa saber é o seguinte
não necessariamente, é possível ajustar um modelo AR (1) ou AR (2) a esses dados
probabilityislogic
@probabilityislogic, ah sim, você está certo.
Mvctas
2

Você pode conferir o Blog do livro.

Tom Tango e os outros autores de "O livro: jogando as porcentagens no beisebol" são provavelmente as melhores fontes de sabre- metria por aí. Em particular, eles amam a regressão à média. Eles criaram um sistema de previsão projetado para ser o sistema aceitável mais básico (Marcel), e depende quase exclusivamente da regressão à média.

Em primeiro lugar, suponho que um método seria usar essa previsão para estimar o verdadeiro talento e, em seguida, encontrar uma distribuição apropriada em torno desse talento médio. Depois que você tiver isso, a aparência de cada placa será como um teste de Bernoulli, para que a distribuição binomial possa levar o resto do caminho.

Michael McGowan
fonte
1

Para sua informação, de 2011 a 2014, ele atingiu 43, 27, 28 e 35.

Isso é bem parecido com a média de 162 jogos de 32 (que obviamente incluem esses valores) e cerca de 1 DP sob os 54 em 2010.

Parece regressão ao meio em ação: um grupo extremo construído ao capitalizar assuntos barulhentos (1 no caso) que se desvia do grupo por meio do acaso.

http://www.baseball-reference.com/players/b/bautijo02.shtml

tim
fonte