Regressão ao quebra-cabeça médio

9

No capítulo "Regressão à média" de "Pensando, rápido e devagar", de Daniel Kahneman, um exemplo é dado e o leitor é solicitado a prever as vendas de lojas individuais, considerando a previsão geral de vendas e os números de vendas do ano anterior . Por exemplo (o exemplo do livro tem 4 lojas, eu uso 2 aqui para simplificar):

Store    2011    2012
1        100      ?
2        500      ?
Total    600     660

A previsão ingênua seria 110 e 550 para as lojas 1 e 2, aumento de 10% para cada uma. No entanto, o autor afirma que essa abordagem ingênua está errada. É mais provável que a loja com pior desempenho aumente mais de 10% e a loja com melhor desempenho aumente (ou até diminua) em menos de 10%. Portanto, talvez uma previsão de 115 (aumento de 15%) e 535 (aumento de 7%) seja "mais correta" do que a ingênua previsão.

O que não entendo é como podemos concluir que as vendas de 100 lojas 1 são necessariamente as lojas com pior desempenho? Talvez, devido às diferenças de localização, os verdadeiros meios de séries temporais das lojas 1 e 2 sejam 10 e 550, e a loja 1 tenha tido um super ano em 2011 e a loja 2 tenha tido um ano desastroso em 2011. Então não faria sentido prever uma diminuição para a loja 1 e aumentar para a loja 2?

Sei que as informações de séries temporais não foram fornecidas no exemplo original, mas tenho a impressão de que "regressão à média" se refere à média transversal e, portanto, as informações de séries temporais não importam. O que estou entendendo mal?


fonte

Respostas:

8

Por acaso estou lendo esse livro. Você não transcreveu adequadamente as informações principais. Ele diz que "todas as lojas são semelhantes em tamanho e seleção de mercadorias, mas suas vendas diferem devido à localização, competição e fatores aleatórios". Essa é a chave, especialmente o último bit. Fatores aleatórios são necessários para que a regressão à média ocorra (se as vendas crescessem em um valor fixo, o ganho de 10% igualmente disperso nas lojas estaria correto).

Peter Flom - Restabelece Monica
fonte
2
Você está dizendo que a suposição de "todas as lojas são semelhantes" implica que os meios das séries temporais são os mesmos? Caso contrário, duas lojas idênticas ainda poderão ter meios muito diferentes devido à localização.
11
Admito que não é o melhor texto de um problema, mas é muito mais claro do que o que você tinha na sua pergunta original.
Peter Flom - Restabelece Monica
2

Com tão poucos dados, a resposta será quase inteiramente ditada pelo anterior (ou equivalente implícito). Se o autor já viu muitos desses tipos de dados antes, pode muito bem ter boas razões para pensar que é mais provável que sua resposta seja correta, dadas as observações anteriores. Eu acho que é exagero sugerir que este é um exemplo de regressão à média, pelo menos não sem especificar mais algumas informações. Por exemplo, as lojas estão em locais comparáveis ​​ou não? Se eles existem e não existem outras diferenças óbvias entre as lojas, podemos nos sentir justificados ao pensar que fazem parte de uma população comparável e podemos pensar em regressão à média. Se houver diferenças óbvias entre as lojas que possam explicar uma diferença sistemática nas vendas, torna-se menos sensato fazê-lo.

Bogdanovist
fonte
0

Eu acho que uma ilustração melhor (hipotética) pode ser algo assim:

Store    2011    2012
1        100      ?
2        180      ?
3        190      ?
4        210      ?
5        235      ?
6        300      ?

Exceto por razões sistemáticas, esperamos que o pior desempenho (de causas aleatórias) não o seja novamente. E também para o melhor artista.

Portanto, com um crescimento médio de 10%, eu esperaria que o número 1 fosse melhor que 110 e o número 6 fosse pior que 330.

Sinto que a parte duvidosa são as suposições. É muito raro o IMHO que o retardatário da matilha é realmente apenas um acaso aleatório e não uma heterogeneidade subjacente.

curious_cat
fonte