Suponha que você ajuste um modelo . Existem implicações práticas para a estimativa do efeito da interação se e estiverem correlacionados?
Entendo que poderia haver problemas de colinearidade se e estiverem muito correlacionados, mas isso não deve afetar o termo de interação, certo?
regression
correlation
interaction
hlinee
fonte
fonte
Respostas:
Há uma razão para o consultor estatístico não poder explicar por que a introdução de uma interação em um modelo linear pode afetar adversamente a estrutura de correlação: depende das circunstâncias e geralmente não é verdade que exista um efeito adverso. Basta olhar para os conjuntos de dados mostrados nas matrizes de dispersão abaixo para ver todas as diferentes maneiras pelas quais duas variáveis podem estar relacionadas a seus produtos.
O restante deste post explica como esses números foram produzidos e pode fornecer mais informações sobre a situação.
Primeiro, vamos esclarecer o óbvio: escrevendo você tem uma regressão múltipla envolvendo as três variáveis A existência ou não de problemas de colinearidade depende das relações lineares entre os Isso é universal.x3= x1x2, x1, x2, x3. xEu.
O que há de especial nesse problema é o relacionamento entre e o outroou seja, que Assim, se alguém o aconselhou a tomar cuidado, deve ser devido à expectativa de que esse relacionamento multiplicativo matematicamente implique algum tipo de multicolinearidade entre todos osx3 xEu; x3= x1x2. xEu.
Isso simplesmente não é assim, como pode ser demonstrado pela exibição de todos os padrões possíveis. Não quero esgotar você com o pedantismo de passar por todas as possibilidades, então deixe-me esboçar algumas das mais ilustrativas. A ferramenta básica que utilizarei neste estudo é a observação de que a correlação entre quaisquer variáveis permanece inalterada quando o sofre transformações lineares separadamente.x1, x2 xEu Ou seja, podemos multiplicar livremente qualquer variável por constantes e adicionar outras constantes aos resultados sem alterar a correlação. No entanto, essas operações podem alterar profundamente as correlações entre ex1x2 xEu.
Produto (quase) constante
É possível que seja constante (o que, quando uma regressão inclui uma constante, será problemático). Para criar um exemplo, simplesmente gere valores diferentes de zero para e defina Seu produto é igual a por construção.x1x2 x1 x2= c / x1. c
Você pode perturbar este exemplo, alterando em uma variável aleatória com valores próximos a Isso introduzirá uma pequena correlação entre o e seu produto, mas não muita. Aqui, por exemplo, é um exemplo em que é extraído de uma distribuição Gamma tem uma distribuição Normal com média e desvio padrão de apenasc ≠ 0 c . xEu x1 ( 5 ) c 1 1 / 100 :
Embora o tenha uma correlação de neste exemplo, suas correlações com são apenas e 0,00.xEu ρ1 ⋅ 2= - 0,87 x1x2 - 0,06 0,00.
Portanto, embora possa haver um pequeno problema ao usarx1 e x2 em um modelo linear, incluindo x1x2 é improvável que exacerbá-lo.
Produto não constante
Para fazer os cálculos mais clara, que poderia muito bem assumir oxEu têm variância unidade. Deixe que a variância de x1x2 ser τ2 e gravação ρ12 ⋅ i para as correlações entre x1x2 e xEu. Vamos calcular o que acontece com essas correlações quando as constantes cEu são subtraídas do xEu. Porque o xEu desempenham papéis perfeitamente simétricos (apenas trocar " 1 " para " 2 "nos índices), basta calcular a correlação com x1:
Zero correlação com o produto
Independentemente de qual seja a correlação entrexEu , podemos escolher ( c1, c2) para tornar o produto sem correlação com xEu.
A partir da análise anterior, isso será alcançado quando o numerador de( ∗ ) for zero para i = 1 , 2 :
Quandoρ21 ⋅ 2≠ 1 , esse sistema de equações em ( c1, c2) tem uma solução única. Aqui, por exemplo, é uma matriz de dispersão de um conjunto de dados de 100 valores nos quais o ( xEu) tem uma distribuição normal bivariada com correlação ρ1 ⋅ 2= - 0,99 mas o xEu tem correlação zero com x1x2 :
Fortes correlações com o produto
fonte