Na análise de regressão linear, analisamos valores extremos, investigamos a multicolinearidade, testamos a heterocedasticidade.
A questão é: existe alguma ordem para aplicá-las? Quero dizer, temos que analisar discrepantes muito primeiro e depois examinar a multicolinearidade? Ou reverter?
Existe alguma regra prática sobre isso?
Respostas:
O processo é iterativo, mas há uma ordem natural:
Você precisa se preocupar primeiro com as condições que causam erros numéricos definitivos . A multicolinearidade é uma delas, porque pode produzir sistemas instáveis de equações, resultando potencialmente em respostas incorretas (até 16 casas decimais ...) Qualquer problema aqui geralmente significa que você não pode prosseguir até que seja corrigido. A multicolinearidade é geralmente diagnosticada usando fatores de inflação de variância e exame semelhante da "matriz do chapéu". Verificações adicionais nesse estágio podem incluir a avaliação da influência de quaisquer valores ausentes no conjunto de dados e a verificação da identificabilidade de parâmetros importantes. (A falta de combinações de variáveis independentes discretas às vezes pode causar problemas aqui.)
Em seguida, você precisa se preocupar se a saída reflete a maioria dos dados ou é sensível a um pequeno subconjunto. Neste último caso, tudo o que você faz posteriormente pode ser enganoso, portanto deve ser evitado. Os procedimentos incluem o exame de valores extremos e de alavancagem . (Um dado de alta alavancagem pode não ser um erro, mas pode influenciar indevidamente todos os resultados.) Se existir uma alternativa robusta ao procedimento de regressão, é um bom momento para aplicá-lo: verifique se está produzindo resultados semelhantes e use-o para detectar valores externos.
Finalmente, tendo alcançado uma situação numericamente estável (para que você possa confiar nos cálculos) e que reflete o conjunto de dados completo, você passa a examinar as suposições estatísticas necessárias para a correta interpretação do resultado . Primeiramente, essas preocupações se concentram - em ordem aproximada de importância - na distribuição dos resíduos (incluindo heterocedasticidade, mas também estendendo-se à simetria, forma distributiva, possível correlação com valores previstos ou outras variáveis e autocorrelação), qualidade do ajuste (incluindo a possível necessidade de termos de interação), se deve reexprimir a variável dependente e se reexprimir as variáveis independentes.
Em qualquer estágio, se algo precisar ser corrigido, é aconselhável voltar ao início. Repita quantas vezes for necessário.
fonte
Eu acho que depende da situação. Se você não espera nenhum problema em particular, provavelmente poderá verificá-lo em qualquer ordem. Se você espera discrepâncias e pode ter um motivo para removê-las após detectá-las, verifique primeiro as discrepâncias. Os outros problemas com o modelo podem mudar após a remoção das observações. Depois disso, a ordem entre multicolinearidade e heterocedasticidade não importa. Eu concordo com Chris que os outliers não devem ser removidos arbitrariamente. Você precisa ter um motivo para pensar que as observações estão erradas.
Obviamente, se você observar multicolinearidade ou heterocedasticidade, poderá ser necessário alterar sua abordagem. O problema multicolinearidade é observado na matriz de covariância, mas existem testes específicos de diagnóstico para a detecção de multicolinearidade e outros problemas como pontos de alavancagem olhar para a regressão Diagnostics livro de Belsley, Kuh e Welsch ou um dos livros de regressão de Dennis Cook .
fonte