Eu gostaria de fazer um teste W de Shapiro Wilk e um teste Kolmogorov-Smirnov sobre os resíduos de um modelo linear para verificar a normalidade. Eu só estava me perguntando quais resíduos devem ser usados para isso - os resíduos brutos, os resíduos de Pearson, resíduos estudantis ou resíduos padronizados? Para um teste W de Shapiro-Wilk, parece que os resultados para os resíduos brutos e de Pearson são idênticos, mas não para os outros.
fit=lm(mpg ~ 1 + hp + wt, data=mtcars)
res1=residuals(fit,type="response")
res2=residuals(fit,type="pearson")
res3=rstudent(fit)
res4=rstandard(fit)
shapiro.test(res1) # W = 0.9279, p-value = 0.03427
shapiro.test(res2) # W = 0.9279, p-value = 0.03427
shapiro.test(res3) # W = 0.9058, p-value = 0.008722
shapiro.test(res4) # W = 0.9205, p-value = 0.02143
Mesma pergunta para KS e também se os resíduos devem ser testados contra uma distribuição normal (pnorm) como em
ks.test(res1, "pnorm") # D = 0.296, p-value = 0.005563
ou uma distribuição t-student com graus de liberdade nk-2, como em
ks.test(res3, "pt",df=nrow(mtcars)-2-2)
Algum conselho, talvez? Além disso, quais são os valores recomendados para as estatísticas de teste W (> 0,9?) E D para que a distribuição esteja suficientemente próxima da normalidade e não afete muito sua inferência?
Por fim, essa abordagem leva em consideração a incerteza nos coeficientes lm ajustados ou a funcionalidade cumres()
do pacote gof()
seria melhor nesse sentido?
Saúde, Tom
fonte
Respostas:
Cresceu muito tempo para um comentário.
Para um modelo de regressão comum (como seria ajustado por
lm
), não há distinção entre os dois primeiros tipos residuais que você considera;type="pearson"
é relevante para GLMs não gaussianos, mas é o mesmo queresponse
para modelos gaussianos.As observações às quais você aplica seus testes (alguma forma de resíduo) não são independentes; portanto, as estatísticas usuais não têm a distribuição correta. Além disso, estritamente falando, nenhum dos resíduos que você considera será exatamente normal, pois seus dados nunca serão exatamente normais. [O teste formal responde à pergunta errada - uma pergunta mais relevante seria 'até que ponto essa não normalidade afetará minha inferência?', Pergunta não respondida pela bondade usual do teste de hipótese de ajuste.]
Mesmo que seus dados fossem exatamente normais, nem o terceiro nem o quarto tipo de resíduo seria exatamente normal. No entanto, é muito mais comum que as pessoas as examinem (digamos por gráficos QQ) do que os resíduos brutos.
fonte