Regressão: por que testar a normalidade dos resíduos gerais, em vez dos resíduos condicionais em ?

10

Eu entendo que na regressão linear os erros são assumidos como sendo normalmente distribuídos, dependendo do valor previsto de y. Então, olhamos para os resíduos como uma espécie de proxy para os erros.

É frequentemente recomendada para gerar uma saída como esta: insira a descrição da imagem aqui. No entanto, não entendo qual é o objetivo de obter o resíduo para cada ponto de dados e combiná-lo em um único gráfico.

Entendo que é improvável que tenhamos pontos de dados suficientes para avaliar adequadamente se temos resíduos normais em cada valor previsto de y.

No entanto, a questão não é se temos resíduos normais em geral como separados, e um que não se relaciona claramente à suposição do modelo de resíduos normais em cada valor previsto de y? Não poderíamos ter resíduos normais em cada valor previsto de y, embora tivéssemos resíduos totais que não eram normais?

user1205901 - Restabelecer Monica
fonte
11
Pode haver algum mérito ao conceito - talvez bootstrapping poderia ajudar aqui (para obter a replicação de resíduos)
probabilityislogic
2
Você poderia dar uma referência para que, na regressão linear, os erros sejam normalmente distribuídos, dependendo do valor previsto de y (se houver algum)?
Richard Hardy
Eu não tinha nenhuma fonte específica em mente quando postei a pergunta, mas que tal "a suposição de modelagem é que a variável de resposta é normalmente distribuída em torno da linha de regressão (que é uma estimativa da média condicional), com variação constante" a partir daqui . Gostaria de receber mais feedback se estiver errado sobre isso.
User1205901 - Restabelece Monica

Respostas:

17

Não poderíamos ter resíduos normais em cada valor previsto de y, embora tivéssemos resíduos totais que não eram normais?

Não - pelo menos, não sob a suposição padrão de que a variação dos erros é constante.

Você pode pensar na distribuição dos resíduos gerais como uma mistura de distribuições normais (uma para cada nível de ). Por suposição, todas essas distribuições normais têm a mesma média (0) e a mesma variação. Assim, a distribuição dessa mistura de normais é em si simplesmente uma distribuição normal.y^

Então, a partir disso, podemos formar um pouco de silogismo. Se as distribuições individuais dadas os valores do preditor X forem normais (e suas variações forem iguais), a distribuição dos resíduos globais será normal. Portanto, se observarmos que a distribuição dos resíduos gerais aparentemente não é normal, isso implica que as distribuições dadas X não são normais com igual variação. O que é uma violação das suposições padrão.

Jake Westfall
fonte
11
@Jake_Westfall, não tenho certeza disso. Sabemos que uma combinação linear finita de variáveis ​​com uma distribuição gaussiana conjunta tem uma distribuição gaussiana. Mas e uma combinação infinita ? Em outras palavras, Dado que , por que necessariamente normal? Isso vai depender de . Observe que, como , o condicionamento em ou não altera nada. p ( ε | x ) p ( ε ) p ( x ) y = β 0 + β 1 X y Xp(ϵ)=p(ϵ|x)p(x)dxp(ϵ|x)p(ϵ)p(x)y^=β0+β1Xy^X
264 DeltaIV
É apropriado dizer que os marginais não normais nos permitem "rejeitar" condicionais não normais, mas que os marginais normais não nos permitem "aceitar" condicionais normais?
Shadowtalker
6
@ DeltaIV, a distribuição normal possui apenas 2 parâmetros, a média e a variância. Se o erro é 1) distribuído normal, 2) com média zero e 3) com variação constante, então não há mais nada para misturar. Na sua notação . Portanto, os fatores fora da integral, a integral se integra a um e desaparece, e você fica com apenas o normal. A mistura p de é . p ( ϵ ) N ( 0 , σ 2 ) N ( 0 , σ 2 )p(ϵ|x)=p(ϵ)p(ϵ)N(0,σ2)N(0,σ2)
Bill
11
@Bill que pode realmente ser o ponto essencial necessário aqui: . Está enterrado no caminho a resposta está redigidoε | XN(0,σ2)εN(0,σ2)
shadowtalker
@ssdecontrol Da resposta: " Se as distribuições individuais dadas os valores do preditor X são normais (e suas variações são iguais), a distribuição dos resíduos gerais é normal. " Não sabe o quanto mais claro eu poderia ser?
Jake Westfall
3

Foi ditoque mínimos quadrados ordinários em y (OLS) é ideal na classe de estimadores lineares imparciais, quando os erros são homoscedásticos e serialmente não correlacionados. Em relação aos resíduos homoscedásticos, a variação dos resíduos é a mesma, independentemente de onde mediríamos a variação da magnitude residual no eixo x. Por exemplo, suponha que o erro de nossa medida aumente proporcionalmente para aumentar os valores y. Poderíamos então pegar o logaritmo desses valores y antes de realizar a regressão. Se isso for feito, a qualidade do ajuste aumenta em comparação com o ajuste de um modelo de erro proporcional sem a necessidade de um logaritmo. Em geral, para obter a homocedasticidade, podemos ter que reciprocamente os dados do eixo y ou x, logaritmos, raiz quadrada ou quadrada ou aplicar um exponencial. Uma alternativa para isso é usar uma função de ponderação, (Y-modelo)2(ymodel)2y2 funciona melhor do que minimizar .(ymodel)2

Dito isso, ocorre frequentemente que tornar os resíduos mais homocedásticos os torna mais distribuídos normalmente, mas freqüentemente a propriedade homoscedástica é mais importante. Esse último dependeria do motivo pelo qual estamos realizando a regressão. Por exemplo, se a raiz quadrada dos dados for distribuída mais normalmente do que usar o logaritmo, mas o erro for do tipo proporcional, o teste t do logaritmo será útil para detectar uma diferença entre populações ou medições, mas para encontrar o esperado valor, devemos usar a raiz quadrada dos dados, porque apenas a raiz quadrada dos dados é uma distribuição simétrica para a qual se espera que a média, modo e mediana sejam iguais.

Além disso, freqüentemente ocorre que não queremos uma resposta que nos dê um menor preditor de erro dos valores do eixo y, e essas regressões podem ser fortemente enviesadas. Por exemplo, às vezes, podemos querer regredir para obter o menor erro em x. Ou, às vezes, desejamos descobrir a relação entre yeex, que não é um problema de regressão de rotina. Poderíamos então usar Theil, isto é, inclinação mediana, regressão, como um compromisso mais simples entre x e y com menor regressão de erro. Ou, se soubermos qual é a variação das medidas repetidas para x e y, poderíamos usar a regressão de Deming. A regressão é melhor quando temos valores muito distantes, o que faz coisas horríveis com os resultados da regressão comum. E, para a regressão mediana da inclinação, pouco importa se os resíduos são normalmente distribuídos ou não.

BTW, a normalidade dos resíduos não nos fornece necessariamente nenhuma informação útil de regressão linear.Por exemplo, suponha que estamos fazendo medições repetidas de duas medições independentes. Como temos independência, a correlação esperada é zero, e a inclinação da linha de regressão pode ser qualquer número aleatório sem inclinação útil. Repetimos medições para estabelecer uma estimativa da localização, ou seja, a média (ou mediana (distribuição de Cauchy ou Beta com um pico) ou geralmente o valor esperado de uma população) e a partir disso para calcular uma variação em x e uma variação em y, que pode ser usado para regressão de Deming, ou qualquer outra coisa. Além disso, a suposição de que a superposição seja normal nessa mesma média, se a população original for normal, não nos leva a uma regressão linear útil. Para levar isso adiante, suponha que eu varie os parâmetros iniciais e estabeleça uma nova medição com diferentes locais de geração de funções Monte Carlo xe valor y e colecione esses dados com a primeira execução. Então os resíduos são normais na direção y em todo valor x, mas, na direção x, o histograma terá dois picos, o que não concorda com as suposições do OLS, e nossa inclinação e interceptação serão enviesadas porque uma não possui dados de intervalo igual no eixo x. No entanto, a regressão dos dados coletados agora tem uma inclinação e interceptação definidas, enquanto isso não ocorria antes. Além disso, como estamos realmente testando apenas dois pontos com amostragem repetida, não podemos testar a linearidade. De fato, o coeficiente de correlação não será uma medida confiável pela mesma razão,

Por outro lado, algumas vezes é assumido adicionalmente que os erros têm distribuição normal condicional nos regressores. Essa suposição não é necessária para a validade do método OLS, embora certas propriedades adicionais de amostra finita possam ser estabelecidas no caso em que ocorre (especialmente na área de teste de hipóteses), veja aqui. Quando então o OLS está em uma regressão correta? Se, por exemplo, fizermos medições dos preços das ações no fechamento diário, exatamente na mesma hora, não haverá variação no eixo t (Pense no eixo x). No entanto, o tempo da última negociação (liquidação) seria distribuído aleatoriamente, e a regressão para descobrir o RELACIONAMENTO entre as variáveis ​​teria que incorporar ambas as variações. Nessa circunstância, o OLS em y estimaria apenas o menor erro no valor de y, o que seria uma má escolha para extrapolar o preço de negociação de uma liquidação, pois o próprio tempo dessa liquidação também precisa ser previsto. Além disso, o erro normalmente distribuído pode ser inferior a um modelo de preços gama .

O que importa? Bem, algumas ações são negociadas várias vezes por minuto e outras não são negociadas todos os dias ou mesmo toda semana, e isso pode fazer uma grande diferença numérica. Portanto, depende das informações que desejamos. Se quisermos perguntar como o mercado se comportará amanhã no fechamento, que é uma pergunta do tipo "OLS", mas a resposta pode ser residual não-linear e não-normal e requer uma função de ajuste com coeficientes de forma que concordam com o ajuste das derivadas (e / ou momentos mais altos) para estabelecer a curvatura correta para a extrapolação . (Pode-se ajustar derivativos e funções, por exemplo, usando splines cúbicos, para que o conceito de contrato de derivado não seja uma surpresa, mesmo que raramente seja explorado.) Se queremos saber se ganharemos ou não dinheiro em um estoque específico, não usamos OLS, pois o problema é bivariado.

Carl
fonte
11
Você diria que a normalidade é suficiente, mas não necessária, para uma inferência válida? Por que não testar especificamente a heterocedasticidade? Certamente uma distribuição marginal de resíduos pesados ​​(por exemplo) dos resíduos não significa necessariamente que a suposição de normalidade condicional esteja errada, não é? No entanto, os resíduos de cauda pesada, por padrão, falhariam em um teste de normalidade para os resíduos.
Shadowtalker 5/05
Para o teste t, a homoscedasticidade geralmente é mais importante. Os outliers fazem com que 1.359 SD >> IQR reduzam o poder do teste t. Em seguida, tente reparameterizar ou testar Wilcoxon, que funciona na maioria das circunstâncias (talvez não quando r> 0,9999), independentemente do tipo de distribuição ou do grau de heterocedasticidade. De fato, se alguém estiver testando vários parâmetros semelhantes, o Wilcoxon ou o teste t funcionarão melhor para classificar as probabilidades baixa e alta, de modo que os próprios dados frequentemente declaram o que é mais útil.
Carl
Faça isso 1.349 SD >> IQR. 1.349 é o número de SD que uma distribuição normal possui para um intervalo interquartil (IQR). Algumas distribuições, como a distribuição de Cauchy, ou o t de Student com dois graus de liberdade, não têm SDs, os discrepantes matam isso, mas eles têm IQRs, e então usa-se Wilcoxon ou outro teste não paramétrico como testes de localização.
Carl
Pensando melhor (ver novo material em resposta) é bom ter a normalidade dos resíduos do eixo y, mas insuficiente.
Carl
Distribuições de cauda pesada fazem coisas horríveis nas equações de regressão. Por exemplo, se se examina todas as pistas possíveis em um conjunto de dados, obtém-se tipicamente uma distribuição de Cauchy de encostas, AKA Student's- t com um grau de liberdade. Para a distribuição Cauchy, não há momentos. Ou seja, é possível calcular uma média e desvio padrão e, quanto mais dados houver, mais irregular será a média e o desvio padrão. O valor esperado de uma distribuição de Cauchy é a mediana e, para calcular uma média, seria necessário censurar os valores extremos.
Carl