Refiro-me a este post, que parece questionar a importância da distribuição normal dos resíduos, argumentando que isso, juntamente com a heterocedasticidade, poderia ser potencialmente evitado usando erros padrão robustos.
Eu considerei várias transformações - raízes, logs etc. - e tudo está se mostrando inútil para resolver completamente o problema.
Aqui está um gráfico QQ dos meus resíduos:
Dados
- Variável dependente: já com transformação logarítmica (corrige problemas externos e um problema de assimetria nesses dados)
- Variáveis independentes: idade da empresa e várias variáveis binárias (indicadores) (Mais adiante, tenho algumas contagens, para uma regressão separada como variáveis independentes)
O iqr
comando (Hamilton) em Stata não determina nenhum erro grave que exclua a normalidade, mas o gráfico abaixo sugere o contrário e o teste de Shapiro-Wilk também.
normal-distribution
stata
least-squares
residuals
assumptions
Cesare Camestre
fonte
fonte
qenv
pacote.Respostas:
Uma maneira de adicionar um "sabor de teste" ao seu gráfico é adicionar limites de confiança ao seu redor. No Stata, eu faria o seguinte:
fonte
qenv
(porssc install qenv
).sd()
. É normal (sem trocadilhos) queqenv
com aoverall
opção leve muito tempo.qenvnormal
explica que você precisa instalarqplot
. Você deve ler a ajuda. Mais importante, acho que você está usando uma versão muito antiga doqplot
. Instale a partir do pacote gr42_6 em stata-journal.com/software/sj12-1Uma coisa a ter em mente ao examinar esses gráficos de qq é que as caudas tendem a se desviar da linha mesmo que a distribuição subjacente seja verdadeiramente normal e não importa o tamanho do N. Isso está implícito na resposta de Maarten . Isso ocorre porque, à medida que N aumenta, as caudas ficam cada vez mais distantes e cada vez mais raros. Portanto, sempre haverá muito poucos dados nas caudas e sempre serão muito mais variáveis. Se a maior parte da sua linha está onde o esperado e apenas as caudas se desviam, geralmente você pode ignorá-las.
Uma maneira que eu uso para ajudar os alunos a aprender como avaliar seus gráficos de qq quanto à normalidade é gerar amostras aleatórias a partir de uma distribuição conhecida como normal e examinar essas amostras. Existem exercícios em que eles geram amostras de vários tamanhos para ver o que acontece quando N muda e também aqueles em que eles pegam uma distribuição de amostra real e a comparam com amostras aleatórias do mesmo tamanho. O pacote TeachingDemos de R tem um teste de normalidade que usa um tipo semelhante de técnica.
fonte
qenv
, veria que essa técnica de simulação está no centro de como as faixas de confiança são computadas.