Eu estava lendo o capítulo de regressão múltipla de Análise de dados e gráficos usando R: uma abordagem baseada em exemplos e fiquei um pouco confuso ao descobrir que recomenda verificar relações lineares entre variáveis explicativas (usando um gráfico de dispersão) e, caso não exista ' t qualquer, transformando-os para que eles não se tornam mais linearmente relacionadas. Aqui estão alguns trechos disso:
6.3 Uma estratégia para ajustar vários modelos de regressão
(...)
Examine a matriz do gráfico de dispersão envolvendo todas as variáveis explicativas. (Incluir a variável dependente é, neste momento, opcional. ) Procure primeiro evidências de não linearidade nos gráficos de variáveis explicativas entre si.
(...)
Este ponto identifica uma estratégia de busca de modelos - procure modelos nos quais as relações de regressão entre variáveis explicativas sigam uma forma linear "simples" . Assim, se alguns gráficos em pares mostrarem evidências de não linearidade, considere o uso de transformações para fornecer relações mais quase lineares . Embora possa não ser necessariamente possível, seguindo essa estratégia, modelar adequadamente a relação de regressão, essa é uma boa estratégia, pelas razões indicadas abaixo, a seguir no início da pesquisa.
(...)
Se os relacionamentos entre as variáveis explicativas forem aproximadamente lineares, talvez após a transformação, será possível interpretar com confiança os gráficos das variáveis preditoras contra a variável resposta.
(...)
Pode não ser possível encontrar transformações de uma ou mais das variáveis explicativas que garantem que os relacionamentos (em pares) mostrados nos painéis pareçam lineares. Isso pode criar problemas para a interpretação dos gráficos de diagnóstico para qualquer equação de regressão ajustada e para a interpretação dos coeficientes na equação ajustada. Veja Cook e Weisberg (1999).
Não deveria me preocupar com relacionamentos lineares entre variáveis dependentes (por causa do risco de multicolinearidade) em vez de persegui-las ativamente? Quais são as vantagens de ter variáveis aproximadamente linearmente relacionadas?
Os autores abordam a questão da multicolinearidade mais adiante neste capítulo, mas essas recomendações parecem estar em desacordo com a prevenção da multicolinearidade.
fonte
As relações lineares entre cada uma das variáveis explicativas e a variável dependente também garantirão relações lineares entre as variáveis explicativas. O contrário não é verdade.
É verdade que as transformações projetadas para fornecer linearidade aproximada aumentarão a colinearidade. Na ausência de tais transformações, no entanto, a colinearidade está oculta. Insistir em manter a colinearidade assim oculta pode resultar em uma equação de regressão complicada e ininterpretável, onde uma forma simples de equação está disponível.
Suponha que
y
esteja próximo de uma função linear delog(x1)
, em um caso em quex
varia acima de valores que diferem por um fator de 10 ou mais. Então, sex
for usado como um regressor, outras variáveis explicativas serão, se possível, invocadas para explicar a não linearidade na relação com x1. O resultado pode ser uma relação de regressão muito complicada, com coeficientes ininterpretáveis, no lugar de uma forma simples de equação de regressão que captura todo o poder explicativo disponível.As consequências bizarras que podem resultar da falha em encontrar e trabalhar com variáveis linearmente relacionadas são bem ilustradas no artigo recente que alegou uma feminilidade do efeito do nome do furacão nos dados sobre as mortes de 94 furacões do Atlântico que atingiram os EUA nos anos 1950-2012. Veja http://www.pnas.org/content/111/24/8782.abstract . Os dados estão disponíveis como parte das informações suplementares. Observe que trabalhar com
log(deaths)
e usar um modelo linear da teoria normal (função de Rlm()
) é aproximadamente equivalente ao uso de Jung e cols. De um modelo de regressão binomial negativo.Se um regride
log(E[deaths])
sobrelog(NDAM)
, não há mais nada para a variável pressão mínima, a variável feminilidade e interações, para explicar. A variávellog(NDAM)
, nãoNDAM
, aparece em uma matriz de gráfico de dispersão como linearmente relacionada à variável de pressão mínima. Sua distribuição também é muito menos inclinada, muito mais próxima da simétrica.Jung et al. Regrediram
log(E[deaths])
emNDAM
(dano normalizado), além dessas outras variáveis e interações. A equação que emergiu foi usada para contar uma história em que a feminilidade do nome tem um grande efeito.Para ver como é bizarro usar
NDAM
como variável explicativa em uma regressão em que a variável de resultado élog(E[deaths])
, plotadalog(deaths+0.5)
oulog(deaths+1)
contráriaNDAM
. Em seguida, repita o gráfico comlog(NDAM)
no lugar deNDAM
. O contraste é ainda mais impressionante se Katrina e Audrey, que Jung et al. Omitiram como outliers, forem incluídos na trama. Ao insistir em usarNDAM
como variável explicativalog(NDAM)
, Jung e outros passaram a oportunidade de encontrar uma forma muito simples de relação de regressão.Nota:
E[deaths]
é o número de mortes previsto pelo modelo.Nos dados de Jung et al., As transformações necessárias podem ser identificadas a partir de uma matriz de dispersão de todas as variáveis. Tente talvez a função R
spm()
na versão mais recente do pacote veicular para R, comtransform=TRUE
e (comdeaths
como uma variável)family="yjPower"
. Ou experimente as transformações sugeridas por uma matriz de gráfico de dispersão inicial. Em geral, o conselho preferido pode ser procurar primeiro variáveis explicativas que atendam aos requisitos de preditores lineares e, em seguida, atender à variável de resultado, talvez usando a função carinvTranPlot()
.Consulte, além de "Análise de dados e gráficos usando R", que foi referenciada pelo questionador:
fonte
Acho toda essa passagem um tanto enigmática, se não totalmente questionável. Idealmente, você deseja que suas variáveis independentes sejam o menos correlacionadas possível entre si, de modo a fornecer informações adicionais e incrementais ao modelo na estimativa da variável dependente. Você levanta a questão da multicolinearidade por meio de altas correlações entre variáveis independentes e tem toda a razão de levantar essa questão nessa circunstância.
É mais crítico examinar o gráfico de dispersão e a relação linear relacionada entre cada uma das variáveis independentes e a variável dependente, mas não entre as variáveis independentes. Ao examinar esses gráficos de dispersão (independentes no eixo X e dependentes no eixo Y), nesse momento, pode haver oportunidades para transformar a variável independente para observar um melhor ajuste, seja através de um log, um expoente ou uma forma polinomial.
fonte