Regressão à média em "Pensar, rápido e devagar"

14

Em Thinking, Fast and Slow , Daniel Kahneman coloca a seguinte pergunta hipotética:

(P. 186) Atualmente, Julie está no último ano de uma universidade estadual. Ela leu fluentemente quando tinha quatro anos de idade. Qual é a média de notas (GPA)?

Sua intenção é ilustrar como muitas vezes deixamos de levar em consideração a regressão à média ao fazer previsões sobre determinadas estatísticas. Na discussão subsequente, ele aconselha:

(P. 190) Lembre-se de que a correlação entre duas medidas - no presente caso, leitura de idade e GPA - é igual à proporção de fatores compartilhados entre seus determinantes. Qual é o seu melhor palpite sobre essa proporção? Meu palpite mais otimista é de cerca de 30%. Assumindo essa estimativa, temos tudo o que precisamos para produzir uma previsão imparcial. Aqui estão as instruções de como chegar lá em quatro etapas simples:

  1. Comece com uma estimativa do GPA médio.
  2. Determine o GPA que corresponde à sua impressão das evidências.
  3. Estime a correlação entre precocidade da leitura e GPA.
  4. Se a correlação for 0,30, mova 30% da distância da média para o GPA correspondente.

Minha interpretação de seus conselhos é a seguinte:

  1. Use "Ela leu fluentemente quando tinha quatro anos" para estabelecer uma pontuação padrão para a precocidade da leitura de Julie.
  2. Determine um GPA que tenha uma pontuação padrão correspondente. (O GPA racional a prever corresponderia a essa pontuação padrão se a correlação entre o GPA e a precocidade da leitura fosse perfeita.)
  3. Estime qual porcentagem de variações no GPA pode ser explicada por variações na precocidade da leitura. (Presumo que ele esteja se referindo ao coeficiente de determinação com "correlação" nesse contexto?)
  4. Como apenas 30% da pontuação padrão da precocidade de leitura de Julie pode ser explicada por fatores que também podem explicar a pontuação padrão de seu GPA, apenas justificamos prever que a pontuação padrão do GPA de Julie será 30% do que seria no caso de perfeita correlação.

Minha interpretação do procedimento de Kahneman está correta? Em caso afirmativo, existe uma justificativa matemática mais formal de seu procedimento, especialmente a etapa 4? Em geral, qual é a relação entre a correlação entre duas variáveis ​​e alterações / diferenças em seus escores padrão?

Rações
fonte

Respostas:

2

Minha interpretação do procedimento de Kahneman está correta?

Isso é um pouco difícil de dizer, porque o passo 2 de Kahneman não é formulado com muita precisão: "Determine o GPA que corresponde à sua impressão das evidências" - o que exatamente isso significa? Se as impressões de alguém estiverem bem calibradas, não será necessário corrigir a média. Se as impressões de alguém são grosseiras, elas devem corrigir ainda mais.

Então, eu concordo com @AndyW que o conselho de Kahneman é apenas uma regra de ouro.

Dito isto, se você interpreta o passo 2 de Kahneman como o interpretou em seus passos de interpretação ## 1--2: ou seja, você usa o GPA com o mesmo score que o score da leitura precocidade como "correspondendo à sua impressão de a evidência ", então seu procedimento é exatamente matematicamente correto e não é uma regra prática.zz

[...] existe uma justificativa matemática mais formal de seu procedimento, especialmente a etapa 4? Em geral, qual é a relação entre a correlação entre duas variáveis ​​e alterações / diferenças em seus escores padrão?

Se você prevê partir de e ambos são convertidos em escores, ou seja, têm média zero e variância unitária e têm correlação entre si, é fácil mostrar que a equação de regressão será isto é, o coeficiente de regressão será igual ao coeficiente de correlação.yxzρ

y=ρx,

A partir daqui, segue-se imediatamente que, se você souber o valor de (por exemplo, você conhece a pontuação padrão da precocidade da leitura), o valor previsto de (pontuação padrão do GPA) será vezes o mesmo.xyρ

É exatamente isso que se chama "regressão à média". Você pode ver algumas fórmulas e derivações na discussão na Wikipedia .

ameba diz Restabelecer Monica
fonte
8

A ordem dos seus números não corresponde à citação de Kahneman. Por causa disso, parece que você pode estar perdendo o objetivo geral.

O ponto um de Kahneman é o mais importante. Significa literalmente estimar o GPA médio - para todos. O ponto por trás deste conselho é que é sua âncora. Qualquer previsão que você der deve referir-se a alterações em torno deste ponto de ancoragem. Não tenho certeza de ver esta etapa em nenhum dos seus pontos!

Kahneman usa uma sigla, WYSIATI, o que você vê é tudo o que existe. Essa é a tendência humana de superestimar a importância das informações atualmente disponíveis. Para muitas pessoas, as informações sobre a capacidade de leitura fazem as pessoas pensarem que Julie é inteligente e, portanto, calculam o GPA de uma pessoa inteligente.

Mas, o comportamento de uma criança aos quatro anos contém muito pouca informação relacionada ao comportamento do adulto. Provavelmente é melhor ignorá-lo ao fazer previsões. Só deve influenciar você da sua âncora por uma pequena quantidade. Além disso, o primeiro palpite das pessoas sobre um GPA de pessoas inteligentes pode ser muito impreciso. Devido à seleção, a maioria dos idosos na faculdade está acima da média da inteligência.

Na verdade, existem outras informações ocultas na pergunta, além da capacidade de leitura de Julie aos quatro anos de idade.

  • Julie é provável que seja um nome feminino
  • Ela está freqüentando uma universidade estadual
  • Ela é sénior

Suspeito que todas essas três características aumentem ligeiramente o GPA médio em comparação com a população estudantil geral. Por exemplo, aposto que os idosos provavelmente têm um GPA mais alto que o de Sophmores porque porque os alunos com um GPA muito ruim abandonam.

Portanto, o procedimento de Kahneman (como uma hipótese) seria algo como isto.

  1. O GPA médio para uma mulher sênior em uma universidade estadual é de 3,1.
  2. Eu acho que, com base na capacidade de leitura avançada de Julie, aos 4 anos, seu GPA é 3,8
  3. Eu acho que a capacidade de leitura aos 4 anos tem uma correlação de 0,3 com o GPA
  4. Então 30% do caminho entre 3.1 e 3.8 é 3.3 (ie 3.1 + (3.8-3.1)*0.3)

Portanto, nesta hipótese, o palpite final para o GPA de Julie é de 3,3.

A regressão para a média na abordagem de Kahneman é que a etapa 2 provavelmente será uma superestimação grosseira da importância das informações disponíveis. Portanto, uma estratégia melhor é regredir nossa previsão de volta à média geral. Os passos 3 e 4 são formas (ad-hoc) de estimar quanto regredir.

Andy W
fonte
Entendo a intuição por trás do procedimento, mas não a justificativa matemática. Minha interpretação é que o objetivo de estimar o GPA médio é permitir estimar GPAs específicos em termos de pontuações padrão; caso contrário, eles não poderiam ser comparados significativamente com a precocidade da leitura. (Cont.)
Rações
1
Kahneman menciona que a maioria das pessoas adivinha GPA = 3,7 ou 3,8, o que provavelmente corresponde à pontuação padrão que associam à precocidade de leitura de Julie, mas também supõe implicitamente que a correlação entre as duas variáveis ​​é perfeita. Estou principalmente confuso sobre se a etapa 4 é uma regra prática baseada em intuição ou um procedimento real e estatisticamente válido (ou seja, é possível tratar as pontuações padrão de maneira aditiva e tomar proporções delas com base na correlação?). Se é apenas uma regra prática do leigo, existe um método de aproximação estatisticamente mais rigoroso?
Rações
Por "aditivo", refiro-me à nossa suposição de que (1) uma parte do GPA da pontuação padrão de Julie é explicada por fatores que também podem explicar sua precocidade de leitura, que (2) a proporção restante do seu GPA da pontuação padrão é explicada por fatores exclusivo para explicar o GPA, que (3) essas contribuições somadas são iguais ao escore padrão final que prevemos para Julie e que (4) podemos corrigir nossa previsão simplesmente tomando uma proporção de nossa previsão tendenciosa. Trabalhar com proporções de desvios padrão como este - em oposição a, digamos, trabalhar com suas raízes quadradas - é válido?
Rações
É uma regra ad-hoc. Os passos dois e três não são necessariamente logicamente consistentes um com o outro. (Eles são duas formas diferentes de dizer a mesma informação, é um tamanho de efeito e o outro é um tamanho padronizado efeito.)
Andy W