Relação linear entre variáveis ​​explicativas na regressão múltipla

10

Eu estava lendo o capítulo de regressão múltipla de Análise de dados e gráficos usando R: uma abordagem baseada em exemplos e fiquei um pouco confuso ao descobrir que recomenda verificar relações lineares entre variáveis ​​explicativas (usando um gráfico de dispersão) e, caso não exista ' t qualquer, transformando-os para que eles não se tornam mais linearmente relacionadas. Aqui estão alguns trechos disso:

6.3 Uma estratégia para ajustar vários modelos de regressão

(...)

Examine a matriz do gráfico de dispersão envolvendo todas as variáveis ​​explicativas. (Incluir a variável dependente é, neste momento, opcional. ) Procure primeiro evidências de não linearidade nos gráficos de variáveis ​​explicativas entre si.

(...)

Este ponto identifica uma estratégia de busca de modelos - procure modelos nos quais as relações de regressão entre variáveis ​​explicativas sigam uma forma linear "simples" . Assim, se alguns gráficos em pares mostrarem evidências de não linearidade, considere o uso de transformações para fornecer relações mais quase lineares . Embora possa não ser necessariamente possível, seguindo essa estratégia, modelar adequadamente a relação de regressão, essa é uma boa estratégia, pelas razões indicadas abaixo, a seguir no início da pesquisa.

(...)

Se os relacionamentos entre as variáveis ​​explicativas forem aproximadamente lineares, talvez após a transformação, será possível interpretar com confiança os gráficos das variáveis ​​preditoras contra a variável resposta.

(...)

Pode não ser possível encontrar transformações de uma ou mais das variáveis ​​explicativas que garantem que os relacionamentos (em pares) mostrados nos painéis pareçam lineares. Isso pode criar problemas para a interpretação dos gráficos de diagnóstico para qualquer equação de regressão ajustada e para a interpretação dos coeficientes na equação ajustada. Veja Cook e Weisberg (1999).

Não deveria me preocupar com relacionamentos lineares entre variáveis ​​dependentes (por causa do risco de multicolinearidade) em vez de persegui-las ativamente? Quais são as vantagens de ter variáveis ​​aproximadamente linearmente relacionadas?

Os autores abordam a questão da multicolinearidade mais adiante neste capítulo, mas essas recomendações parecem estar em desacordo com a prevenção da multicolinearidade.

RicardoC
fonte

Respostas:

8

Existem dois pontos aqui:

  1. A passagem recomenda transformar IVs em linearidade somente quando houver evidência de não linearidade. Relacionamentos não lineares entre IVs também podem causar colinearidade e, mais centralmente, podem complicar outros relacionamentos. Não sei se concordo com os conselhos do livro, mas não é bobagem.

  2. Certamente, relacionamentos lineares muito fortes podem ser causas de colinearidade, mas altas correlações não são necessárias nem suficientes para causar colinearidade problemática. Um bom método para diagnosticar a colinearidade é o índice de condição.

EDIT em resposta ao comentário

Os índices de condição são descritos resumidamente aqui como "raiz quadrada do valor próprio máximo dividido pelo valor próprio mínimo". Existem alguns posts aqui no CV que discutem sobre eles e seus méritos. Os textos seminais sobre eles são dois livros de David Belsley: diagnóstico de condicionamento e diagnóstico de regressão (que também tem uma nova edição, 2005).

Peter Flom - Restabelece Monica
fonte
11
+1 - boa resposta, mas você pode expandir o índice de condições? Ainda não encontrei um meio satisfatório de lidar com a colinearidade nas variáveis ​​explicativas candidatas.
BGreene
Obrigado pela resposta informativa. Você poderia, por favor, explicar quais outros relacionamentos são complicados pela não linearidade entre expl. variáveis? E agora o que os autores estão falando quando dizem que as relações não-lineares entre expl. variáveis ​​podem causar problemas na interpretação dos coeficientes e nas parcelas de diagnóstico?
RicardoC
Não posso criar um exemplo agora, mas já vi isso acontecer. Pode parecer que existem relações não-lineares entre Y e X
Peter Flom - Reinstate Monica
3

As relações lineares entre cada uma das variáveis ​​explicativas e a variável dependente também garantirão relações lineares entre as variáveis ​​explicativas. O contrário não é verdade.

É verdade que as transformações projetadas para fornecer linearidade aproximada aumentarão a colinearidade. Na ausência de tais transformações, no entanto, a colinearidade está oculta. Insistir em manter a colinearidade assim oculta pode resultar em uma equação de regressão complicada e ininterpretável, onde uma forma simples de equação está disponível.

Suponha que yesteja próximo de uma função linear de log(x1), em um caso em que xvaria acima de valores que diferem por um fator de 10 ou mais. Então, se xfor usado como um regressor, outras variáveis ​​explicativas serão, se possível, invocadas para explicar a não linearidade na relação com x1. O resultado pode ser uma relação de regressão muito complicada, com coeficientes ininterpretáveis, no lugar de uma forma simples de equação de regressão que captura todo o poder explicativo disponível.

As consequências bizarras que podem resultar da falha em encontrar e trabalhar com variáveis ​​linearmente relacionadas são bem ilustradas no artigo recente que alegou uma feminilidade do efeito do nome do furacão nos dados sobre as mortes de 94 furacões do Atlântico que atingiram os EUA nos anos 1950-2012. Veja http://www.pnas.org/content/111/24/8782.abstract . Os dados estão disponíveis como parte das informações suplementares. Observe que trabalhar com log(deaths)e usar um modelo linear da teoria normal (função de R lm()) é aproximadamente equivalente ao uso de Jung e cols. De um modelo de regressão binomial negativo.

Se um regride log(E[deaths])sobre log(NDAM), não há mais nada para a variável pressão mínima, a variável feminilidade e interações, para explicar. A variável log(NDAM), não NDAM, aparece em uma matriz de gráfico de dispersão como linearmente relacionada à variável de pressão mínima. Sua distribuição também é muito menos inclinada, muito mais próxima da simétrica.

Jung et al. Regrediram log(E[deaths])em NDAM(dano normalizado), além dessas outras variáveis ​​e interações. A equação que emergiu foi usada para contar uma história em que a feminilidade do nome tem um grande efeito.

Para ver como é bizarro usar NDAMcomo variável explicativa em uma regressão em que a variável de resultado é log(E[deaths]), plotada log(deaths+0.5)ou log(deaths+1)contrária NDAM. Em seguida, repita o gráfico com log(NDAM)no lugar de NDAM. O contraste é ainda mais impressionante se Katrina e Audrey, que Jung et al. Omitiram como outliers, forem incluídos na trama. Ao insistir em usar NDAMcomo variável explicativa log(NDAM), Jung e outros passaram a oportunidade de encontrar uma forma muito simples de relação de regressão.

Nota: E[deaths]é o número de mortes previsto pelo modelo.

Nos dados de Jung et al., As transformações necessárias podem ser identificadas a partir de uma matriz de dispersão de todas as variáveis. Tente talvez a função R spm()na versão mais recente do pacote veicular para R, com transform=TRUEe (com deathscomo uma variável) family="yjPower". Ou experimente as transformações sugeridas por uma matriz de gráfico de dispersão inicial. Em geral, o conselho preferido pode ser procurar primeiro variáveis ​​explicativas que atendam aos requisitos de preditores lineares e, em seguida, atender à variável de resultado, talvez usando a função car invTranPlot().

Consulte, além de "Análise de dados e gráficos usando R", que foi referenciada pelo questionador:

  • Weisberg: Regressão Linear Aplicada. 4th edn, Wiley 2014, pp.185-203.
  • Fox e Weisberg: um companheiro R para regressão aplicada. 2nd edn, Sage, 2011, pp.127-148.
John Maindonald
fonte
1

Acho toda essa passagem um tanto enigmática, se não totalmente questionável. Idealmente, você deseja que suas variáveis ​​independentes sejam o menos correlacionadas possível entre si, de modo a fornecer informações adicionais e incrementais ao modelo na estimativa da variável dependente. Você levanta a questão da multicolinearidade por meio de altas correlações entre variáveis ​​independentes e tem toda a razão de levantar essa questão nessa circunstância.

É mais crítico examinar o gráfico de dispersão e a relação linear relacionada entre cada uma das variáveis ​​independentes e a variável dependente, mas não entre as variáveis ​​independentes. Ao examinar esses gráficos de dispersão (independentes no eixo X e dependentes no eixo Y), nesse momento, pode haver oportunidades para transformar a variável independente para observar um melhor ajuste, seja através de um log, um expoente ou uma forma polinomial.

Sympa
fonte
11
Em sua segunda sentença: Se variáveis ​​independentes fossem totalmente não correlacionadas, grande parte da lógica da regressão se tornaria discutível. Cada relação bivariada de um preditor com Y apareceria como a mesma quando todos os outros preditores fossem controlados. Nesse caso, por que controlar?
Rolando2