Ao ajustar um modelo de regressão, o que acontece se as suposições das saídas não forem atendidas, especificamente:
- O que acontece se os resíduos não forem homocedásticos? Se os resíduos mostrarem um padrão crescente ou decrescente na plotagem Residuais vs. Ajustados.
- O que acontece se os resíduos não forem normalmente distribuídos e falharem no teste de Shapiro-Wilk? O teste de normalidade de Shapiro-Wilk é um teste muito rigoroso e, às vezes, mesmo que o gráfico de QQ normal pareça um tanto razoável, os dados falham no teste.
- O que acontece se um ou mais preditores não são normalmente distribuídos, não parecem corretos no gráfico de QQ normal ou se os dados falham no teste de Shapiro-Wilk?
Entendo que não existe uma divisão rígida em preto e branco, que 0,94 está certo e 0,95 está errado, e na pergunta, quero saber:
- O que significa falhar na normalidade para um modelo que seja adequado de acordo com o valor do R-quadrado. Torna-se menos confiável ou completamente inútil?
- Até que ponto, o desvio é aceitável ou é aceitável?
- Ao aplicar transformações nos dados para atender aos critérios de normalidade, o modelo melhora se os dados forem mais normais (valor P mais alto no teste de Shapiro-Wilk, melhor visualização no gráfico QQ normal) ou são inúteis (igualmente bons ou ruim em comparação com o original) até que os dados passem no teste de normalidade?
regression
multiple-regression
error
assumptions
normality-assumption
SpeedBirdNine
fonte
fonte
Respostas:
Se o termo de erro não for homoscedástico (usamos os resíduos como proxy para o termo de erro não observável), o estimador OLS ainda é consistente e imparcial, mas não é mais o mais eficiente na classe de estimadores lineares. Agora é o estimador GLS que desfruta dessa propriedade.
A normalidade não é exigida pelo teorema de Gauss-Markov. O estimador OLS ainda é AZUL, mas sem normalidade, você terá dificuldade em fazer inferência, ou seja, testes de hipóteses e intervalos de confiança, pelo menos para tamanhos finitos de amostras. Ainda existe o bootstrap, no entanto.
Assintoticamente, isso é menos problemático, uma vez que o estimador OLS tem uma distribuição normal limitante sob condições de regularidade moderada.
Tanto quanto sei, os preditores são considerados fixos ou a regressão depende deles. Isso limita o efeito de não normalidade.
O R-quadrado é a proporção da variação explicada pelo modelo. Não requer a suposição de normalidade e é uma medida da qualidade do ajuste, independentemente. Se você quiser usá-lo para um teste F parcial, isso é outra história.
Desvio da normalidade, certo? Realmente depende dos seus objetivos, porque, como eu disse, a inferência se torna difícil na ausência de normalidade, mas não é impossível (inicialização!).
Em suma, se você tiver todas as suposições de Gauss-Markov mais a normalidade, o estimador OLS é o Melhor Não-enviesado (BUE), ou seja, o mais eficiente em todas as classes de estimadores - o Limite Inferior de Cramer-Rao é atingido. Isso é desejável, é claro, mas não é o fim do mundo se isso não acontecer. As observações acima se aplicam.
Com relação às transformações, lembre-se de que, embora a distribuição da resposta possa ser aproximada da normalidade, a interpretação pode não ser direta posteriormente.
Estas são apenas algumas respostas curtas para suas perguntas. Você parece estar particularmente preocupado com as implicações da não normalidade. No geral, eu diria que não é tão catastrófico como as pessoas (foram feitas para?) Acreditar e existem soluções alternativas. As duas referências que incluí são um bom ponto de partida para uma leitura mais aprofundada, sendo a primeira de natureza teórica.
Referências :
fonte