A correlação entre variáveis ​​em uma interação é importante?

8

Suponha que você ajuste um modelo . Existem implicações práticas para a estimativa do efeito da interação se e estiverem correlacionados?y=x1+x2+x1×x2x1x2

Entendo que poderia haver problemas de colinearidade se e estiverem muito correlacionados, mas isso não deve afetar o termo de interação, certo?x1x2

hlinee
fonte
1
Você parece estar informações sobre a correlação entre e quando e estão correlacionados. Uma maneira de entender o que pode ser deduzido é perceber que, embora adicionar uma constante (digamos ) a qualquer um dos não mude sua correlação, ele mudará para um constante constanteOs dois últimos termos mostram que tem um efeito profundo na correlação entre eSe isso não sugerir uma resposta imediata para qualquer que seja sua pergunta, considere desenhar alguns gráficos de dispersão.x 1 x 1 x 2 c x i x 1 x 2 ( x 1 x 2 + c x 1 + c x 2 ) . c x 1 x 2 x i .x1x2x1x1x2cxix1x2(x1x2+cx1+cx2).cx1x2xEu.
whuber
@whuber Estou tendo problemas para seguir sua lógica - existe uma explicação passo a passo mais explícita à qual você pode vincular? Tentei escrevê-lo com a fórmula de correlação, mas não consegui reproduzir sua resposta
hlinee
@whuber Além disso, em relação à minha pergunta original, acho que algum contexto pode ajudar, pois eu concordo que é bastante vago. O que aconteceu foi que apresentei meus resultados procurando um efeito de interação com um estatístico com quem trabalhei e a primeira coisa que ele me perguntou foi se os dois preditores da minha interação estavam correlacionados. Eu não havia examinado a correlação e perguntei a ele por que isso importava. Ele não conseguiu explicar o porquê, mas disse que importava, daí a minha pergunta.
hlinee

Respostas:

9

Há uma razão para o consultor estatístico não poder explicar por que a introdução de uma interação em um modelo linear pode afetar adversamente a estrutura de correlação: depende das circunstâncias e geralmente não é verdade que exista um efeito adverso. Basta olhar para os conjuntos de dados mostrados nas matrizes de dispersão abaixo para ver todas as diferentes maneiras pelas quais duas variáveis ​​podem estar relacionadas a seus produtos.

O restante deste post explica como esses números foram produzidos e pode fornecer mais informações sobre a situação.


Primeiro, vamos esclarecer o óbvio: escrevendo você tem uma regressão múltipla envolvendo as três variáveis A existência ou não de problemas de colinearidade depende das relações lineares entre os Isso é universal.x3=x1x2,x1,x2,x3.xEu.

O que há de especial nesse problema é o relacionamento entre e o outroou seja, que Assim, se alguém o aconselhou a tomar cuidado, deve ser devido à expectativa de que esse relacionamento multiplicativo matematicamente implique algum tipo de multicolinearidade entre todos osx3xEu;x3=x1x2.xEu.

Isso simplesmente não é assim, como pode ser demonstrado pela exibição de todos os padrões possíveis. Não quero esgotar você com o pedantismo de passar por todas as possibilidades, então deixe-me esboçar algumas das mais ilustrativas. A ferramenta básica que utilizarei neste estudo é a observação de que a correlação entre quaisquer variáveis permanece inalterada quando o sofre transformações lineares separadamente. x1,x2xEu Ou seja, podemos multiplicar livremente qualquer variável por constantes e adicionar outras constantes aos resultados sem alterar a correlação. No entanto, essas operações podem alterar profundamente as correlações entre ex1x2xEu.

Produto (quase) constante

É possível que seja constante (o que, quando uma regressão inclui uma constante, será problemático). Para criar um exemplo, simplesmente gere valores diferentes de zero para e defina Seu produto é igual a por construção.x1x2x1x2=c/x1.c

Você pode perturbar este exemplo, alterando em uma variável aleatória com valores próximos a Isso introduzirá uma pequena correlação entre o e seu produto, mas não muita. Aqui, por exemplo, é um exemplo em que é extraído de uma distribuição Gamma tem uma distribuição Normal com média e desvio padrão de apenasc0 0c.xEux1(5)c11/100:

Figura 0

Embora o tenha uma correlação de neste exemplo, suas correlações com são apenas e 0,00.xEuρ12=-0,87x1x2-0,060,00.

Portanto, embora possa haver um pequeno problema ao usar x1 e x2 em um modelo linear, incluindo x1x2 é improvável que exacerbá-lo.

Produto não constante

Para fazer os cálculos mais clara, que poderia muito bem assumir o xEu têm variância unidade. Deixe que a variância de x1x2 ser τ2 e gravação ρ12Eu para as correlações entre x1x2 e xEu. Vamos calcular o que acontece com essas correlações quando as constantes cEu são subtraídas do xEu.Porque o xEu desempenham papéis perfeitamente simétricos (apenas trocar " 1 " para " 2"nos índices), basta calcular a correlação com x1:

(*)Cor((x1c1)(x2c2),x1)=Cov((x1-c1)(x2-c2),x1)Var(x1-c1)(x2-c2)Varx1=Cov(x1x2-c2x1-c1x2+c1c2,x1)Var(x1x2-c1x2-c2x1+c1c2)=τρ121-c2-c1ρ12τ2-c1ρ12-c2-2c1ρ122-2c2ρ121+2c1c2ρ12.

Zero correlação com o produto

Independentemente de qual seja a correlação entre xEu , podemos escolher (c1,c2) para tornar o produto sem correlação com xEu.

A partir da análise anterior, isso será alcançado quando o numerador de () for zero para Eu=1,2:

{0 0=τρ121-c2-c1ρ120 0=τρ122-c1-c2ρ12

Quando ρ1221, esse sistema de equações em (c1,c2) tem uma solução única. Aqui, por exemplo, é uma matriz de dispersão de um conjunto de dados de 100 valores nos quais o (xEu) tem uma distribuição normal bivariada com correlação ρ12=-0,99 mas o xEu tem correlação zero com x1x2 :

figura 1

x1x2xEu, introduzi-lo em qualquer modelo linear não criará nenhum problema.

xEu se você centralizar suas variáveis ​​antes de criar uma interação, normalmente não terá problemas com colinearidade adicional.

Fortes correlações com o produto

()xEuxEu,

x21+x2/100x1x2x1,x1x2.ρ121=0.999878ρ122=-0.9898793

Figura 2

whuber
fonte
Perfeito! Obrigado pela explicação completa :)
hlinee