Posso simplesmente remover uma das duas variáveis ​​preditivas altamente correlacionadas linearmente?

18

Usando o coeficiente de correlação de Pearson, tenho várias variáveis ​​altamente correlacionadas ( e para 2 pares de variáveis ​​que estão no meu modelo).ρ=0.978ρ=0,989

O motivo pelo qual algumas das variáveis ​​são altamente correlacionadas é porque uma variável é usada no cálculo para outra variável.

Exemplo:

B=V/3000 e E=VD

B e E têm ρ=0,989

É possível apenas "jogar fora" uma das variáveis?

TheCloudlessSky
fonte

Respostas:

26

B e E são derivados de V. B e E claramente não são variáveis ​​verdadeiramente "independentes" uma da outra. A variável subjacente que realmente importa aqui é V. Você provavelmente deve desconsiderar B e E nesse caso e manter apenas V.

Em uma situação mais geral, quando você tem duas variáveis ​​independentes muito altamente correlacionadas, você definitivamente deve remover uma delas, porque se depara com o dilema da multicolinearidade e os coeficientes de regressão do seu modelo de regressão relacionados às duas variáveis ​​altamente correlacionadas não são confiáveis. Além disso, em inglês simples, se duas variáveis ​​são tão altamente correlacionadas, elas obviamente transmitem quase exatamente a mesma informação ao seu modelo de regressão. Mas, ao incluir ambos, você está realmente enfraquecendo o modelo. Você não está adicionando informações incrementais. Em vez disso, você está infundindo seu modelo com ruído. Não é uma coisa boa.

Uma maneira de manter variáveis ​​altamente correlacionadas em seu modelo é usar, em vez de regressar, um modelo de Análise de Componente Principal (PCA). Os modelos PCA são feitos para se livrar da multicolinearidade. O problema é que você acaba com dois ou três componentes principais em seu modelo, que geralmente são apenas construções matemáticas e são praticamente incompreensíveis em termos lógicos. Portanto, o PCA é frequentemente abandonado como método sempre que você precisa apresentar seus resultados a um público externo, como gerenciamento, reguladores, etc. Os modelos de PCA criam caixas pretas enigmáticas que são muito difíceis de explicar.

Sympa
fonte
1
(+1) para a explicação do PCA.
Steffen
1
Obrigado, esta foi uma ótima explicação. Ouvi e li sobre o PCA, mas este é um projeto final para um curso de pós-graduação em "regressão" que estou fazendo, e o professor só quer que usemos o LR. Independentemente disso, eu realmente aprecio a explicação do PCA e provavelmente a utilizarei por diversão.
TheCloudlessSky
3
Em certas circunstâncias, as recomendações nesta resposta não funcionariam. Por exemplo, e se o relacionamento verdadeiro for Y = B + E = V / 3000 + V * D? Por fim, as variáveis ​​têm alta correlação devido aos intervalos de V e D no conjunto de dados - que é (ou pode ser) acidente puro - enquanto jogar fora qualquer um de B ou E resultará no modelo errado. Em resumo, "dependência" não é, em geral, uma razão válida para remover algumas variáveis ​​de um modelo; incluir variáveis ​​fortemente dependentes não necessariamente "enfraquece" um modelo; O PCA nem sempre é a saída.
whuber
@ Whuber, não sei se concordo com seus comentários. Eu pensaria que "dependência" é, em geral, uma razão bastante válida para remover algumas variáveis ​​de um modelo de regressão. Caso contrário, seus coeficientes de regressão não serão confiáveis. No exemplo que você usa que seria problemático para a regressão, uma solução simples é usar a expressão inteira (V / 3000 + V * D) como uma única variável.
Sympa
3
De maneira mais geral, se o modelo é beta1 * (V / 3000) + beta2 * (V D), você não pode fazer isso: em outras palavras, sua sugestão pressupõe que você conheça uma restrição linear entre os coeficientes. É verdade que os coeficientes de regressão podem ter * VIFs relativamente grandes ou erros padrão, mas com quantidades suficientes de dados - ou com observações bem escolhidas - as estimativas serão suficientemente confiáveis. Portanto, concordamos que há um problema e, de fato, concordo com sua solução como uma das várias alternativas a serem consideradas . Eu discordo que é tão geral e necessário quanto você pensa que é.
whuber
7

Aqui está uma resposta do ponto de vista de um aprendiz de máquina, embora eu tenha medo de ser derrotado por estatísticos reais por isso.

É possível apenas "jogar fora" uma das variáveis?

Bem, a questão é que tipo de modelo você deseja usar para previsão. Depende, por exemplo, de ...

  • pode o modelo com preditores correlacionados? Por exemplo, embora o NaiveBayes teoricamente tenha problemas com variáveis ​​correlacionadas, experimentos mostraram que ele ainda pode ter um bom desempenho.
  • como o modelo processa as variáveis ​​preditoras? Por exemplo, a diferença entre B e V será normalizada em uma estimativa de densidade de probabilidade, talvez a mesma para E e V, dependendo da variação de D (como euforia já disse).
  • Qual combinação de uso de B e E (um, nenhum, ambos) oferece o melhor resultado, estimado por uma validação cruzada consciente + um teste em um conjunto de validação?

Às vezes, os aprendizes de máquina realizam otimização genética para encontrar a melhor combinação aritmética de um conjunto de preditores.

Steffen
fonte
7

B é uma transformação linear de V. E representa uma interação entre V e D. Você já pensou em especificar um modelo que é Y = Interceptação + V + D + V: D? Como @ euphoria83 sugere, parece provável que haja pouca variação em D, portanto pode não resolver o seu problema; no entanto, deve pelo menos esclarecer as contribuições independentes de V e D. Certifique-se de centralizar V e D com antecedência.

russellpierce
fonte
4
+1: Essa sugestão não apenas é uma boa abordagem para o problema em questão, mas mostra que jogar fora as variáveis ​​nem sempre é a abordagem correta (ou mesmo uma boa) para solucionar problemas de colinearidade.
whuber
0

Se D não é uma constante, então B e E são efetivamente duas variáveis ​​diferentes devido às variações em D. A alta correlação indica que D é praticamente constante ao longo dos dados de treinamento. Se for esse o caso, você pode descartar B ou E.

euphoria83
fonte
1
D=n12N2n2
Se você descartar B ou E e tratá-los como equivalentes, estará implicitamente afirmando que V é tudo o que realmente importa. Se for esse o caso, seria melhor reter B no modelo, pois sua interpretação é clara. Além disso, se você manter a E, mas D realmente tem variância limitado, a validade da interpretação de seus resultados seriam ainda mais suspeito (que o normal) para diferentes valores de D.
russellpierce