No capítulo "Regressão à média" de "Pensando, rápido e devagar", de Daniel Kahneman, um exemplo é dado e o leitor é solicitado a prever as vendas de lojas individuais, considerando a previsão geral de vendas e os números de vendas do ano anterior . Por exemplo (o exemplo do livro tem 4 lojas, eu uso 2 aqui para simplificar):
Store 2011 2012
1 100 ?
2 500 ?
Total 600 660
A previsão ingênua seria 110 e 550 para as lojas 1 e 2, aumento de 10% para cada uma. No entanto, o autor afirma que essa abordagem ingênua está errada. É mais provável que a loja com pior desempenho aumente mais de 10% e a loja com melhor desempenho aumente (ou até diminua) em menos de 10%. Portanto, talvez uma previsão de 115 (aumento de 15%) e 535 (aumento de 7%) seja "mais correta" do que a ingênua previsão.
O que não entendo é como podemos concluir que as vendas de 100 lojas 1 são necessariamente as lojas com pior desempenho? Talvez, devido às diferenças de localização, os verdadeiros meios de séries temporais das lojas 1 e 2 sejam 10 e 550, e a loja 1 tenha tido um super ano em 2011 e a loja 2 tenha tido um ano desastroso em 2011. Então não faria sentido prever uma diminuição para a loja 1 e aumentar para a loja 2?
Sei que as informações de séries temporais não foram fornecidas no exemplo original, mas tenho a impressão de que "regressão à média" se refere à média transversal e, portanto, as informações de séries temporais não importam. O que estou entendendo mal?
Com tão poucos dados, a resposta será quase inteiramente ditada pelo anterior (ou equivalente implícito). Se o autor já viu muitos desses tipos de dados antes, pode muito bem ter boas razões para pensar que é mais provável que sua resposta seja correta, dadas as observações anteriores. Eu acho que é exagero sugerir que este é um exemplo de regressão à média, pelo menos não sem especificar mais algumas informações. Por exemplo, as lojas estão em locais comparáveis ou não? Se eles existem e não existem outras diferenças óbvias entre as lojas, podemos nos sentir justificados ao pensar que fazem parte de uma população comparável e podemos pensar em regressão à média. Se houver diferenças óbvias entre as lojas que possam explicar uma diferença sistemática nas vendas, torna-se menos sensato fazê-lo.
fonte
Eu acho que uma ilustração melhor (hipotética) pode ser algo assim:
Exceto por razões sistemáticas, esperamos que o pior desempenho (de causas aleatórias) não o seja novamente. E também para o melhor artista.
Portanto, com um crescimento médio de 10%, eu esperaria que o número 1 fosse melhor que 110 e o número 6 fosse pior que 330.
Sinto que a parte duvidosa são as suposições. É muito raro o IMHO que o retardatário da matilha é realmente apenas um acaso aleatório e não uma heterogeneidade subjacente.
fonte