Por que o diagnóstico é baseado em resíduos?

11

Na regressão linear simples, geralmente se deseja verificar se certas premissas são atendidas para poder fazer inferência (por exemplo, os resíduos são normalmente distribuídos).

É razoável verificar as premissas, verificando se os valores ajustados são normalmente distribuídos?

bdeonovic
fonte

Respostas:

19

Por que o diagnóstico é baseado em resíduos?

Como muitas das suposições estão relacionadas à distribuição condicional de , não à sua distribuição incondicional. Isso é equivalente a uma suposição sobre os erros, que estimamos pelos resíduos.Y

Na regressão linear simples, geralmente se deseja verificar se certas premissas são atendidas para poder fazer inferência (por exemplo, os resíduos são normalmente distribuídos).

A suposição de normalidade real não é sobre os resíduos, mas sobre o termo do erro. O mais próximo dos que você tem são os resíduos, e é por isso que os verificamos.

É razoável verificar as suposições, verificando se os valores ajustados são normalmente distribuídos?

Não. A distribuição dos valores ajustados depende do padrão dos 's. Não diz muito sobre as suposições.x

Por exemplo, acabei de executar uma regressão nos dados simulados, para os quais todas as suposições foram especificadas corretamente. Por exemplo, a normalidade dos erros foi satisfeita. Aqui está o que acontece quando tentamos verificar a normalidade dos valores ajustados:

diagnóstico de normalidade em equipamentos

Eles são claramente não normais; na verdade, eles parecem bimodais. Por quê? Bem, porque a distribuição dos valores ajustados depende do padrão dos 's. Os erros foram normais, mas os valores ajustados podem ser quase tudo.x

Outra coisa que as pessoas costumam verificar (com muito mais frequência) é a normalidade dos s ... mas incondicionalmente em ; novamente, isso depende do padrão de s e, portanto, não diz muito sobre as suposições reais. Novamente, eu gerei alguns dados em que todas as suposições são válidas; aqui está o que acontece quando tentamos verificar a normalidade dos valores incondicionais :yxxy

diagnóstico de normalidade em valores y brutos

Novamente, a não normalidade que vemos aqui (os y's estão inclinados) não está relacionada à normalidade condicional dos .y

Na verdade, tenho um livro ao meu lado agora que discute essa distinção (entre a distribuição condicional e a distribuição incondicional de ) - isto é, explica em um capítulo anterior por que apenas olhar para a distribuição dos não é direita e, em capítulos subsequentes, verifica repetidamente a suposição de normalidade, observando a distribuição dos valores sem considerar o impacto dos 's para avaliar a adequação das suposições (outra coisa que geralmente faz é apenas olhar para histogramas para fazer essa avaliação, mas esse é outro problema ).Yyyx


Quais são as suposições, como as verificamos e quando precisamos fazê-las?

  • Os podem ser tratados como fixos (observados sem erros). Geralmente, não tentamos verificar isso com diagnóstico (mas devemos ter uma boa idéia se é verdade).x

  • A relação entre e no modelo está especificada corretamente (por exemplo, linear). Se subtrairmos o modelo linear de melhor ajuste, não deve haver padrão restante na relação entre a média dos resíduos .E(Y)xx

  • A variação constante (por exemplo, não depende de . A propagação dos erros é constante; pode ser verificada observando a propagação dos resíduos em relação a ou verificando alguma função dos resíduos quadrados contra e verificação de alterações na média (por exemplo, funções como o log ou a raiz quadrada. R usa a quarta raiz dos resíduos quadrados).Var(Y|x)xxx

  • Independência condicional / independência de erros. É possível verificar formas particulares de dependência (por exemplo, correlação serial). Se você não pode prever a forma da dependência, é um pouco difícil de verificar.

  • Normalidade a distribuição condicional de / normalidade de erros. Pode ser verificado, por exemplo, fazendo um gráfico QQ de resíduos.Y

(Na verdade, existem outras suposições que não mencionei, como erros aditivos, de que os erros têm média zero e assim por diante.)

Se você estiver interessado apenas em estimar o ajuste da linha dos mínimos quadrados e não em erros padrão, não precisará fazer a maioria dessas suposições. Por exemplo, a distribuição de erros afeta a inferência (testes e intervalos) e pode afetar a eficiência da estimativa, mas a linha LS ainda é melhor linearmente imparcial, por exemplo; portanto, a menos que a distribuição seja tão fora do normal que todos os estimadores lineares sejam ruins, não será necessariamente um grande problema se as suposições sobre o termo de erro não se mantiverem.

Glen_b -Reinstate Monica
fonte
Adicionei alguns diagramas à minha resposta.
Glen_b -Reinstala Monica 11/11
2
Esta é uma ótima resposta. Se você quiser mais, abordo aqui um território semelhante: E se os resíduos forem normalmente distribuídos, mas Y não?
gung - Restabelece Monica
@gung Eu estou me chutando por não ligar para ele primeiro.
Glen_b -Reinstala Monica 11/11
1
@ Glen: Muito boa disposição. Eu tive a mesma confusão por um longo tempo, graças ao tratamento não tão bom do tópico nos livros didáticos e quase em muitos recursos na internet. Por outro lado, a distribuição incondicional de Y é quase sempre examinada para deduzir um modelo para a distribuição condicional, especialmente no contexto de séries temporais. Existe um raciocínio teórico por trás disso? Tentei perguntar-lo como uma pergunta, mas eu acho que não podia expressá-lo corretamente: stats.stackexchange.com/questions/74886/...
Cagdas Ozgenc
@CagdasOzgenc A única razão pela qual posso pensar em fazê-lo é porque é fácil fazê-lo antes de você ter um modelo. A resposta que você tem nessa pergunta vinculada parecia uma boa resposta para mim quando foi postada.
Glen_b -Reinstala Monica 14/11