Em que ordem você deve fazer o diagnóstico de regressão linear?

24

Na análise de regressão linear, analisamos valores extremos, investigamos a multicolinearidade, testamos a heterocedasticidade.

A questão é: existe alguma ordem para aplicá-las? Quero dizer, temos que analisar discrepantes muito primeiro e depois examinar a multicolinearidade? Ou reverter?

Existe alguma regra prática sobre isso?

halil
fonte
2
Algumas regras práticas muito difíceis: você deve investigar a colinearidade antes de fazer qualquer ajuste. Se você achar que está presente, você deve (a) usar um método que lida com colinearidade, (b) remover recursos colineares ou (c) transformar seus recursos (por exemplo, usando PCA). Depois de ajustar um modelo, você pode procurar heterocedasticidade nos resíduos. Em geral, se você estiver criando um modelo preditivo, não deverá remover valores discrepantes. Em vez disso, use um método robusto à presença de discrepâncias.
21412 Chris Taylor
11
Como investigar melhor a colinearidade? Olhando para os elementos fora da diagonal da matriz de correlação dos preditores?
001 miura
11
A melhor maneira de investigar a colinearidade são os índices de condição e a proporção de variação explicada por eles. A alta correlação não é uma condição necessária nem suficiente para a colinearidade.
Peter Flom - Restabelece Monica

Respostas:

28

O processo é iterativo, mas há uma ordem natural:

  1. Você precisa se preocupar primeiro com as condições que causam erros numéricos definitivos . A multicolinearidade é uma delas, porque pode produzir sistemas instáveis ​​de equações, resultando potencialmente em respostas incorretas (até 16 casas decimais ...) Qualquer problema aqui geralmente significa que você não pode prosseguir até que seja corrigido. A multicolinearidade é geralmente diagnosticada usando fatores de inflação de variância e exame semelhante da "matriz do chapéu". Verificações adicionais nesse estágio podem incluir a avaliação da influência de quaisquer valores ausentes no conjunto de dados e a verificação da identificabilidade de parâmetros importantes. (A falta de combinações de variáveis ​​independentes discretas às vezes pode causar problemas aqui.)

  2. Em seguida, você precisa se preocupar se a saída reflete a maioria dos dados ou é sensível a um pequeno subconjunto. Neste último caso, tudo o que você faz posteriormente pode ser enganoso, portanto deve ser evitado. Os procedimentos incluem o exame de valores extremos e de alavancagem . (Um dado de alta alavancagem pode não ser um erro, mas pode influenciar indevidamente todos os resultados.) Se existir uma alternativa robusta ao procedimento de regressão, é um bom momento para aplicá-lo: verifique se está produzindo resultados semelhantes e use-o para detectar valores externos.

  3. Finalmente, tendo alcançado uma situação numericamente estável (para que você possa confiar nos cálculos) e que reflete o conjunto de dados completo, você passa a examinar as suposições estatísticas necessárias para a correta interpretação do resultado . Primeiramente, essas preocupações se concentram - em ordem aproximada de importância - na distribuição dos resíduos (incluindo heterocedasticidade, mas também estendendo-se à simetria, forma distributiva, possível correlação com valores previstos ou outras variáveis ​​e autocorrelação), qualidade do ajuste (incluindo a possível necessidade de termos de interação), se deve reexprimir a variável dependente e se reexprimir as variáveis ​​independentes.

Em qualquer estágio, se algo precisar ser corrigido, é aconselhável voltar ao início. Repita quantas vezes for necessário.

whuber
fonte
2
Na verdade, prefiro usar índices de condição do que VIFs. Eu fiz minha dissertação sobre isso, um tempo atrás.
Peter Flom - Restabelece Monica
11
@ Peter Bom ponto. Também prefiro índices de condição, mas me parece que os VIFs são muito populares agora.
whuber
whuber, eu segui aqui do seu comentário hoje cedo. Certa vez, consultei um estatístico durante meu pós-doutorado sobre algumas preocupações relacionadas à multicolinearidade. Ele afirmava que, dependendo da natureza dos IVs em uma regressão, a colinearidade poderia ser considerada estruturalmente parte dos fenômenos modelados. Provavelmente, estou confundindo sua linguagem precisa, e precisaria cavar para encontrar seu nome novamente, mas você conhece algum texto que motive um raciocínio matizado sobre a multicolinearidade nesse sentido? Apenas uma pergunta sem chance. :)
Alexis
@ Alexis Parece que o estatístico tem um conceito matizado e sofisticado de multicolinearidade. Não consigo pensar em nenhum livro que o expresse claramente.
whuber
Vou ter que localizá-lo e perguntar sobre isso. :)
Alexis
3

Eu acho que depende da situação. Se você não espera nenhum problema em particular, provavelmente poderá verificá-lo em qualquer ordem. Se você espera discrepâncias e pode ter um motivo para removê-las após detectá-las, verifique primeiro as discrepâncias. Os outros problemas com o modelo podem mudar após a remoção das observações. Depois disso, a ordem entre multicolinearidade e heterocedasticidade não importa. Eu concordo com Chris que os outliers não devem ser removidos arbitrariamente. Você precisa ter um motivo para pensar que as observações estão erradas.

Obviamente, se você observar multicolinearidade ou heterocedasticidade, poderá ser necessário alterar sua abordagem. O problema multicolinearidade é observado na matriz de covariância, mas existem testes específicos de diagnóstico para a detecção de multicolinearidade e outros problemas como pontos de alavancagem olhar para a regressão Diagnostics livro de Belsley, Kuh e Welsch ou um dos livros de regressão de Dennis Cook .

Michael R. Chernick
fonte
9
Michael, no futuro, você pode usar as opções de formatação? (a tecla correta para inserir links é ctrl-l, não ctrl-c).
user603