B e E são derivados de V. B e E claramente não são variáveis verdadeiramente "independentes" uma da outra. A variável subjacente que realmente importa aqui é V. Você provavelmente deve desconsiderar B e E nesse caso e manter apenas V.
Em uma situação mais geral, quando você tem duas variáveis independentes muito altamente correlacionadas, você definitivamente deve remover uma delas, porque se depara com o dilema da multicolinearidade e os coeficientes de regressão do seu modelo de regressão relacionados às duas variáveis altamente correlacionadas não são confiáveis. Além disso, em inglês simples, se duas variáveis são tão altamente correlacionadas, elas obviamente transmitem quase exatamente a mesma informação ao seu modelo de regressão. Mas, ao incluir ambos, você está realmente enfraquecendo o modelo. Você não está adicionando informações incrementais. Em vez disso, você está infundindo seu modelo com ruído. Não é uma coisa boa.
Uma maneira de manter variáveis altamente correlacionadas em seu modelo é usar, em vez de regressar, um modelo de Análise de Componente Principal (PCA). Os modelos PCA são feitos para se livrar da multicolinearidade. O problema é que você acaba com dois ou três componentes principais em seu modelo, que geralmente são apenas construções matemáticas e são praticamente incompreensíveis em termos lógicos. Portanto, o PCA é frequentemente abandonado como método sempre que você precisa apresentar seus resultados a um público externo, como gerenciamento, reguladores, etc. Os modelos de PCA criam caixas pretas enigmáticas que são muito difíceis de explicar.
Aqui está uma resposta do ponto de vista de um aprendiz de máquina, embora eu tenha medo de ser derrotado por estatísticos reais por isso.
É possível apenas "jogar fora" uma das variáveis?
Bem, a questão é que tipo de modelo você deseja usar para previsão. Depende, por exemplo, de ...
Às vezes, os aprendizes de máquina realizam otimização genética para encontrar a melhor combinação aritmética de um conjunto de preditores.
fonte
B é uma transformação linear de V. E representa uma interação entre V e D. Você já pensou em especificar um modelo que é Y = Interceptação + V + D + V: D? Como @ euphoria83 sugere, parece provável que haja pouca variação em D, portanto pode não resolver o seu problema; no entanto, deve pelo menos esclarecer as contribuições independentes de V e D. Certifique-se de centralizar V e D com antecedência.
fonte
Se D não é uma constante, então B e E são efetivamente duas variáveis diferentes devido às variações em D. A alta correlação indica que D é praticamente constante ao longo dos dados de treinamento. Se for esse o caso, você pode descartar B ou E.
fonte