Incluindo a interação, mas não os principais efeitos em um modelo

85

É sempre válido incluir uma interação bidirecional em um modelo sem incluir os efeitos principais? E se sua hipótese for apenas sobre a interação, você ainda precisa incluir os principais efeitos?

regression modeling interaction regression-coefficients Glen
fonte

3

Minha filosofia é executar muitos modelos, verificar suas previsões, comparar, explicar, executar mais modelos.

Michael Bishop

11

Se as interações são significativas apenas quando os efeitos principais estão no modelo, pode ser que os efeitos principais sejam significativos e as interações não. Considere um efeito principal altamente significativo com variação na ordem de 100 e outro efeito principal insignificante para o qual todos os valores são aproximadamente um com variação muito baixa. Sua interação não é significativa, mas o efeito de interação parecerá significativo se os principais efeitos forem removidos do modelo.

Thomas Levine

4

@ Thomas deve ler sua primeira linha 'se as interações forem significativas apenas quando os efeitos principais NÃO estiverem no modelo, ...'?

Glen

2

Oh sim, deveria!

Thomas Levine

55

Na minha experiência, não só é necessário ter todos os efeitos de ordem inferior no modelo quando eles estão conectados aos efeitos de ordem superior, mas também é importante modelar adequadamente (por exemplo, permitindo que não seja linear) os principais efeitos aparentemente não relacionados a os fatores nas interações de interesse. Isso porque interações entre e pode ser stand-ins para efeitos principais de e . Às vezes, as interações parecem ser necessárias porque são colineares com variáveis omitidas ou termos não lineares omitidos (por exemplo, spline). $x_1$ $x_2$ $x_3$ $x_4$

Frank Harrell
fonte

11

Isso significa que devemos começar a excluir os termos de y ~ x1 * x2 * x3 * x4, começando a excluir os termos de ordem superior, ou seja, o método de exclusão normal, certo?

Curioso

9

A exclusão de termos não é recomendada, a menos que você possa testar classes inteiras de termos como um "pedaço". Por exemplo, pode ser razoável manter ou excluir todos os termos de interação ou manter ou excluir todas as interações de 3ª ou 4ª ordem.

25812 Frank Harrell

O que há de errado em excluir apenas algumas das interações em um pedido específico?

user1205901

3

Se você tiver um pedido completamente pré-especificado que não foi determinado observando os dados, poderá fazer isso. Em geral, você terá problemas de co-linearidade e multiplicidade ao tomar várias decisões usando vários valores-P.

Frank Harrell

2

Acho que essa resposta não é clara e responde parcialmente à pergunta. De fato, esta resposta afirma que é necessário modelar o efeito principal, mas não responde se é válido regredi-lo para focar apenas na interação, que é e é usada em alguns modelos como o gPPI (veja minha resposta abaixo).

gaborous

37

Você pergunta se é alguma vez válido. Deixe-me fornecer um exemplo comum, cuja elucidação pode sugerir abordagens analíticas adicionais para você.

O exemplo mais simples de uma interação é um modelo com uma variável dependente e duas variáveis independentes , na forma $Z$ $X$ $Y$

Z = α + β^{'} X + γ^{'} Y + δ^{'} X Y + ε,

$Z = \alpha + \beta' X + \gamma' Y + \delta' X Y + \varepsilon,$

com uma variável aleatória termo comportando zero expectativa, e utilizando parâmetros e . Vale a pena verificar se aproxima de , porque uma expressão algebricamente equivalente do mesmo modelo é $\varepsilon$ $\alpha, \beta', \gamma',$ $\delta'$ $\delta'$ $\beta' \gamma'$

Z = α (1 + β X + γ Y + δ X Y) + ε

$Z = \alpha \left(1 + \beta X + \gamma Y + \delta X Y \right) + \varepsilon$

= α (1 + β X) (1 + γ Y) + α (δ - β γ) X Y + ε

$= \alpha \left(1 + \beta X \right) \left(1 + \gamma Y \right) + \alpha \left( \delta - \beta \gamma \right) X Y + \varepsilon$

(onde , etc). $\beta' = \alpha \beta$

Portanto, se há uma razão para supor , podemos absorvê-lo no termo de erro . Isso não apenas gera uma "interação pura", mas um termo constante. Por sua vez, isso sugere fortemente o uso de logaritmos. Alguma heterocedasticidade nos resíduos - isto é, uma tendência para os resíduos associados a valores maiores de serem maiores em valor absoluto que a média - também apontaria nessa direção. Gostaríamos, então, de explorar uma formulação alternativa $\left( \delta - \beta \gamma \right) \sim 0$ $\varepsilon$ $Z$

\log (Z) = \log (α) + \log (1 + β X) + \log (1 + γ Y) + τ

$\log(Z) = \log(\alpha) + \log(1 + \beta X) + \log(1 + \gamma Y) + \tau$

com erro aleatório iid . Além disso, se esperamos que e sejam grandes em comparação com , em vez disso, apenas proporíamos o modelo $\tau$ $\beta X$ $\gamma Y$ $1$

\log (Z) = (\log (α) + \log (β) + \log (γ)) + \log (X) + \log (Y) + τ

$\log(Z) = \left(\log(\alpha) + \log(\beta) + \log(\gamma)\right) + \log(X) + \log(Y) + \tau$

= η + \log (X) + \log (Y) + τ .

$= \eta + \log(X) + \log(Y) + \tau.$

Este novo modelo possui apenas um único parâmetro vez de quatro parâmetros ( , , etc.) sujeitos a uma relação quadrática ( ), uma simplificação considerável. $\eta$ $\alpha$ $\beta'$ $\delta' = \beta' \gamma'$

Não estou dizendo que este é um passo necessário ou mesmo o único a ser dado, mas estou sugerindo que esse tipo de rearranjo algébrico do modelo geralmente vale a pena considerar sempre que as interações soarem significativas.

Algumas maneiras excelentes de explorar modelos com interação, especialmente com apenas duas e três variáveis independentes, aparecem nos capítulos 10 a 13 da EDA de Tukey .

whuber
fonte

δ - β γ

$\delta - \beta \gamma$

α (δ - β γ) \approx 0

$\alpha(\delta-\beta\gamma)\approx 0$

\log (Z)

$\log(Z)$

X

$X$

Y

$Y$

Z \propto X Y

$Z \propto XY$

Z

$Z$

X

$X$

Y

$Y$

whuber

30

Embora muitas vezes seja declarado nos livros didáticos que nunca se deve incluir uma interação em um modelo sem os principais efeitos correspondentes, certamente existem exemplos em que isso faria sentido. Vou te dar o exemplo mais simples que posso imaginar.

Suponha que os indivíduos aleatoriamente designados para dois grupos sejam medidos duas vezes, uma vez na linha de base (ou seja, logo após a randomização) e uma vez após o grupo T receber algum tipo de tratamento, enquanto o grupo C não. Então, um modelo de medidas repetidas para esses dados incluiria um efeito principal para a ocasião da medição (uma variável dummy que é 0 para a linha de base e 1 para o acompanhamento) e um termo de interação entre o dummy do grupo (0 para C, 1 para T ) e o tempo fictício.

A interceptação do modelo estima a pontuação média dos sujeitos na linha de base (independentemente do grupo em que se encontram). O coeficiente para o manequim da ocasião de medição indica a mudança no grupo de controle entre a linha de base e o acompanhamento. E o coeficiente para o termo de interação indica quanto maior / menor a alteração foi no grupo de tratamento em comparação ao grupo controle.

Aqui, não é necessário incluir o efeito principal do grupo, porque na linha de base, os grupos são equivalentes por definição devido à randomização.

Pode-se, é claro, argumentar que o principal efeito do grupo ainda deve ser incluído, de modo que, caso a randomização falhe, isso será revelado pela análise. No entanto, isso é equivalente a testar as médias de linha de base dos dois grupos uma contra a outra. E há muitas pessoas que desaprovam o teste quanto às diferenças de linha de base em estudos randomizados (é claro, também existem muitas que acham útil, mas essa é outra questão).

Wolfgang
fonte

4

Os problemas surgem quando a medição do tempo zero (linha de base) é usada como uma variável de primeira resposta. A linha de base é frequentemente usada como critério de entrada para o estudo. Por exemplo, um estudo pode inscrever pacientes com pressão arterial sistólica (pb)> 140, randomizar para tratamentos de 2 pb e seguir os bps. Inicialmente, o bp tem uma distribuição truncada e as medições posteriores serão mais simétricas. É complicado modelar 2 formas distributivas no mesmo modelo. Existem muitas outras razões para tratar a linha de base como uma covariável da linha de base.

22711 Frank Harrell

3

Esse é um bom argumento, mas estudos recentes sugerem que isso não é um problema. De fato, parece que há mais desvantagens em usar os escores da linha de base como covariável. Veja: Liu, GF, et al. (2009). A linha de base deve ser uma variável covariável ou dependente nas análises de mudança em relação à linha de base em ensaios clínicos? Statistics in Medicine, 28, 2509-2530.

Wolfgang

3

Eu li esse jornal. Não é convincente e Liu não estudou vários tipos de situações de ensaios clínicos que descrevi. Mais argumentos estão em biostat.mc.vanderbilt.edu/wiki/pub/Main/RmS/course2.pdf no capítulo sobre análise de dados seriais (longitudinais).

Frank Harrell

11

Obrigado pelo link. Suponho que você esteja se referindo à discussão sob 8.2.3. Esses são alguns pontos interessantes, mas não acho que isso dê uma resposta definitiva. Estou certo de que o artigo de Liu et al. também não é a resposta final, mas sugere, por exemplo, que a não normalidade dos valores da linha de base não é uma questão crucial. Talvez isso seja algo para um item de discussão separado, pois não está diretamente relacionado à pergunta do OP.

Wolfgang

2

Sim, depende da quantidade de não normalidade. Por que depender da boa sorte ao formular um modelo? Também existem muitas razões puramente filosóficas para tratar as medições do tempo zero como medições da linha de base (ver citações de Senn e Rochon em minhas anotações).

24711 Frank Harrell

19

O motivo para manter os principais efeitos no modelo é a identificação. Portanto, se o objetivo é a inferência estatística sobre cada um dos efeitos, você deve manter os principais efeitos no modelo. No entanto, se seu objetivo de modelagem é apenas prever novos valores, é perfeitamente legítimo incluir apenas a interação, se isso melhorar a precisão preditiva.

Galit Shmueli
fonte

5

Você pode ser um pouco mais explícito sobre o problema da identificabilidade?

Ocram

6

Não acredito que um modelo que omita os efeitos principais seja necessariamente não identificado. Talvez você quer dizer "interpretability" em vez de "identificabilidade" (que é um termo técnico com uma definição precisa)

JMS

6

@JMS: Sim, mata a interpretabilidade. No entanto, o termo "identificabilidade" é usado de maneira diferente pelos estatísticos e pelos cientistas sociais. Eu quis dizer o último, onde (falando livremente) você deseja identificar cada parâmetro estatístico com uma construção específica. Ao eliminar o efeito principal, você não pode mais corresponder a construção ao parâmetro.

Galit Shmueli 18/07/11

13

isso está implícito em muitas das respostas que outros deram, mas o ponto simples é que os modelos com um termo de produto, mas sem o moderador e o preditor são apenas modelos diferentes. Descubra o que cada um significa, dado o processo que você está modelando e se um modelo sem o moderador e o preditor faz mais sentido, dada sua teoria ou hipótese. A observação de que o termo do produto é significativo, mas apenas quando o moderador e o preditor não estão incluídos, não informa nada (exceto talvez você esteja procurando "significado") sem uma explicação convincente de por que faz sentido deixá-los de fora .

dmk38
fonte

Eu vim aqui para investigar a interpretação dos principais efeitos na presença de um termo de interação significativo e essa resposta realmente ajudou muito. Obrigado!

Patrick Williams

9

Indiscutivelmente, isso depende do motivo pelo qual você está usando seu modelo. Mas nunca vi uma razão para não executar e descrever modelos com efeitos principais, mesmo nos casos em que a hipótese é apenas sobre a interação.

Michael Bishop
fonte

E se a interação for significativa apenas quando os principais efeitos não estiverem no modelo?

Glen

3

@ Glen - Há muitas coisas em que pensar além da significância estatística. Veja isso . Melhor examinar seu ajuste geral do modelo (plote seus resíduos com base em suas previsões para cada modelo que você se encaixa), sua teoria e suas motivações para modelagem.

Michael Bishop

7

Emprestarei um parágrafo do livro Uma introdução à análise de sobrevivência usando Stata de M.Cleves, R.Gutierrez, W.Gould, Y.Marchenko editado por Stata press para responder à sua pergunta.

É comum ler que os efeitos de interação devem ser incluídos no modelo somente quando os efeitos principais correspondentes também são incluídos, mas não há nada de errado em incluir os efeitos de interação por si mesmos. [...] O objetivo de um pesquisador é parametrizar o que é razoavelmente provável para os dados, considerando o problema em questão e não apenas seguindo uma prescrição.

andrea
fonte

3

Conselho absolutamente terrível.

precisa

3

@ Frank, você se importaria de expandir seu comentário? Em face disso, "parametrizar o que é razoavelmente provável para os dados" faz muito sentido.

whuber

6

Consulte stats.stackexchange.com/questions/11009/… . Os dados são incapazes de dizer o que é verdade, e essa abordagem depende fortemente da origem da medição para as variáveis que estão sendo multiplicadas. A avaliação dos efeitos de interação isolados da temperatura em Fahrenheit fornecerá uma imagem diferente da utilizada em Celsius.

precisa

@ Frank: Obrigado, eu encontrei :-). Agora faz parte deste segmento.

whuber

7

Ambos x e y serão correlacionados com xy (a menos que você tenha tomado uma medida específica para evitar isso usando centragem). Portanto, se você obtiver um efeito de interação substancial com sua abordagem, provavelmente isso resultará em um ou mais efeitos principais que se disfarçam de interação. Isso não produzirá resultados claros e interpretáveis. O que é desejável é ver quanto a interação pode explicar além dos efeitos principais, incluindo x , y e (de preferência em uma etapa subsequente) xy .

Quanto à terminologia: sim, β 0 é chamado de "constante". Por outro lado, "parcial" tem significados específicos em regressão e, portanto, eu não usaria esse termo para descrever sua estratégia aqui.

Alguns exemplos interessantes que surgirão uma vez na lua azul são descritos neste tópico .

rolando2
fonte

7

Eu sugeriria que é simplesmente um caso especial de incerteza de modelo. De uma perspectiva bayesiana, você simplesmente trata isso exatamente da mesma maneira que trataria qualquer outro tipo de incerteza:

Calculando sua probabilidade, se for o objeto de interesse
Integrar ou calcular a média, se não for de interesse, mas ainda puder afetar suas conclusões

H_{i n t} : The interaction between A and B is significant

$\newcommand{\int}{\mathrm{int}}H_{\int}:\text{The interaction between A and B is significant}$ Eu diria que, embora não seja definido com precisão, esta é a pergunta que você deseja responder aqui. E note que não são as declarações verbais como as acima que "definem" a hipótese, mas também as equações matemáticas. Temos alguns dados e informações prévias , e simplesmente calculamos: (observação: não importa quantas vezes eu escreva essa equação, ela sempre me ajuda a entender melhor o problema. Estranho). A principal quantidade a ser calculada é a probabilidade , isso não faz referência ao modelo; portanto, o modelo deve ter sido removido usando a lei da probabilidade total:

D

$D$

I

$I$

P (H_{i n t} | D I) = P (H_{i n t} | I) \frac{P (D | H_{i n t} I)}{P (D | I)}

$P(H_{\int}|DI)=P(H_{\int}|I)\frac{P(D|H_{\int}I)}{P(D|I)}$

P (D | H_{i n t} I)

$P(D|H_{int}I)$

P (D | H_{i n t} I) = \sum_{m = 1}^{N_{M}} P (D M_{m} | H_{i n t} I) = \sum_{m = 1}^{N_{M}} P (M_{m} | H_{i n t} I) P (D | M_{m} H_{i n t} I)

$P(D|H_{\int}I)=\sum_{m=1}^{N_{M}}P(DM_{m}|H_{\int}I)=\sum_{m=1}^{N_{M}}P(M_{m}|H_{\int}I)P(D|M_{m}H_{\int}I)$ Onde indexa o mésimo modelo e é o número de modelos que estão sendo considerados. O primeiro termo é o "peso do modelo", que indica quanto os dados e informações anteriores suportam o mésimo modelo. O segundo termo indica quanto o mésimo modelo suporta a hipótese. Conectar esta equação de volta ao teorema de Bayes original fornece:

M_{m}

$M_{m}$

N_{M}

$N_{M}$

P (H_{i n t} | D I) = \frac{P (H_{i n t} | I)}{P (D | I)} \sum_{m = 1}^{N_{M}} P (M_{m} | H_{i n t} I) P (D | M_{m} H_{i n t} I)

$P(H_{\int}|DI)=\frac{P(H_{\int}|I)}{P(D|I)}\sum_{m=1}^{N_{M}}P(M_{m}|H_{\int}I)P(D|M_{m}H_{int}I)$

= \frac{1}{P (D | I)} \sum_{m = 1}^{N_{M}} P (D M_{m} | I) \frac{P (M_{m} H_{i n t} D | I)}{P (D M_{m} | I)} = \sum_{m = 1}^{N_{M}} P (M_{m} | D I) P (H_{i n t} | D M_{m} I)

$=\frac{1}{P(D|I)}\sum_{m=1}^{N_{M}}P(DM_{m}|I)\frac{P(M_{m}H_{\int}D|I)}{P(DM_{m}|I)}=\sum_{m=1}^{N_{M}}P(M_{m}|DI)P(H_{\int}|DM_{m}I)$

E você pode ver a partir disso que é a "conclusão condicional" da hipótese sob o mésimo modelo (isso é geralmente tudo o que é considerado, para um "melhor" modelo escolhido ) Observe que essa análise padrão é justificada sempre que - um modelo "obviamente melhor" - ou sempre que - todos os modelos dão as mesmas / conclusões semelhantes. No entanto, se nenhum deles for atendido, o Teorema de Bayes diz que o melhor procedimento é calcular a média dos resultados, colocando pesos mais altos nos modelos mais suportados pelos dados e informações prévias. $P(H_{\int}|DM_{m}I)$ $P(M_{m}|DI)\approx 1$ $P(H_{\int}|DM_{j}I)\approx P(H_{\int}|DM_{k}I)$

probabilityislogic
fonte

5

Raramente é uma boa ideia incluir um termo de interação sem os principais efeitos envolvidos nele. David Rindskopf, do CCNY, escreveu alguns artigos sobre esses casos raros.

Peter Flom
fonte

5

Existem vários processos na natureza que envolvem apenas um efeito de interação e leis que os descrevem. Por exemplo, a lei de Ohm. Na psicologia, você tem, por exemplo, o modelo de desempenho de Vroom (1964): Desempenho = Capacidade x Motivação. Agora, você pode esperar encontrar um efeito de interação significativo quando essa lei for verdadeira. Lamentavelmente, este não é o caso. Você pode facilmente encontrar dois efeitos principais e um efeito de interação insignificante (para uma demonstração e mais explicações, ver Landsheer, van den Wittenboer e Maassen (2006), Social Science Research 35, 274-294). O modelo linear não é muito adequado para detectar efeitos de interação; Ohm nunca poderia ter encontrado sua lei quando usara modelos lineares.

Como resultado, interpretar efeitos de interação em modelos lineares é difícil. Se você tem uma teoria que prevê um efeito de interação, inclua-a mesmo quando insignificante. Você pode querer ignorar os efeitos principais se sua teoria os excluir, mas você achará isso difícil, pois efeitos principais significativos são freqüentemente encontrados no caso de um verdadeiro mecanismo de geração de dados que possui apenas um efeito multiplicativo.

Minha resposta é: Sim, pode ser válido incluir uma interação bidirecional em um modelo sem incluir os efeitos principais. Os modelos lineares são excelentes ferramentas para aproximar os resultados de uma grande variedade de mecanismos de geração de dados, mas suas fórmulas não podem ser facilmente interpretadas como uma descrição válida do mecanismo de geração de dados.

Hans Landsheer
fonte

4

Este é complicado e aconteceu comigo no meu último projeto. Eu explicaria da seguinte maneira: digamos que você tenha variáveis A e B que foram significativas de forma independente e, no sentido comercial, você pensou que uma interação de A e B parece boa. Você incluiu a interação que se mostrou significativa, mas B perdeu seu significado. Você explicaria seu modelo inicialmente mostrando dois resultados. Os resultados mostrariam que inicialmente B era significativo, mas quando visto à luz de A, perdeu o brilho. Então B é uma boa variável, mas somente quando vista à luz de vários níveis de A (se A for uma variável categórica). É como dizer que Obama é um bom líder quando visto à luz de seu exército SEAL. Portanto, o selo Obama * será uma variável significativa. Mas Obama, quando visto sozinho, pode não ser tão importante. (Sem ofensa a Obama, apenas um exemplo.)

ayush biyani
fonte

11

Aqui é o contrário. A interação (de interesse) é significativa apenas quando os principais efeitos não estão no modelo.

Glen

3

F = m * a, força é igual a massa vezes a aceleração.

Não é representado como F = m + a + ma, ou alguma outra combinação linear desses parâmetros. De fato, apenas a interação entre massa e aceleração faria sentido fisicamente.

nick michalak
fonte

2

O que se aplica a uma equação física incontestável que não tem espaço para variabilidade não se aplica necessariamente ou não é necessariamente verdadeiro, preciso ou produtivo ao modelar dados caracterizados por variabilidade.

Roland2

2

É sempre válido incluir uma interação bidirecional sem efeito principal?

Sim, pode ser válido e até necessário. Se, por exemplo, em 2. você incluir um fator para o efeito principal (diferença média da condição azul vs vermelho), isso pioraria o modelo.

E se sua hipótese for apenas sobre a interação, você ainda precisa incluir os principais efeitos?

Sua hipótese pode ser verdadeira independentemente de haver um efeito principal. Mas o modelo pode precisar dele para melhor descrever o processo subjacente. Então, sim, você deve tentar com e sem.

Nota: Você precisa centralizar o código para a variável independente "contínua" (medida no exemplo). Caso contrário, os coeficientes de interação no modelo não serão distribuídos simetricamente (nenhum coeficiente para a primeira medição no exemplo).

Sol Hator
fonte

1

Se as variáveis em questão são categóricas, a inclusão de interações sem os principais efeitos é apenas uma reparameterização do modelo, e a escolha da parametrização depende do que você está tentando realizar com seu modelo. Interagir variáveis contínuas com outras variáveis contínuas ou com variáveis categóricas é uma história totalmente diferente. Veja: veja esta pergunta do Instituto de Pesquisa e Educação Digital da UCLA

David Beede
fonte

1

Sim, isso pode ser válido, embora seja raro. Mas, neste caso, você ainda precisa modelar os principais efeitos, que posteriormente serão regredidos.

De fato, em alguns modelos, apenas a interação é interessante, como testes de drogas / modelos clínicos. Esta é, por exemplo, a base do modelo de Interações Psicofisiológicas Generalizadas (gPPI): y = ax + bxh + chonde x/yestão os voxels / regiões de interesse e hos projetos de blocos / eventos.

Neste modelo, ambos ae cserão regredidos, apenas bserão mantidos para inferência (os coeficientes beta). Com efeito, tanto ae crepresentam atividade espúria no nosso caso, e só brepresenta o que não pode ser explicado pela atividade espúria, a interação com a tarefa.

laborioso
fonte

1

A resposta curta: se você incluir interação nos efeitos fixos, os efeitos principais serão incluídos automaticamente, independentemente de você os incluir ou não especificamente em seu código . A única diferença é a sua parametrização, ou seja, o que os parâmetros em seu modelo significam (por exemplo, eles são meios de grupo ou são diferenças dos níveis de referência).

$AB$ $A + B + AB$ $A$ $B$

$Y \sim \mathcal N(\xi , \sigma^2 I_n )$ $X_A$ $X_B$ $X_{AB}$ $\xi \in$ $\{X_A, X_B, X_{AB}\}$ $\xi \in$ $\{X_{AB}\}$ $\{X_{AB}\} =$ $\{X_A, X_B, X_{AB}\}$

Acabei de ver que David Beede deu uma resposta muito semelhante (desculpas), mas achei que deixaria isso para aqueles que respondem bem a uma perspectiva de álgebra linear.

Ketil BT
fonte

Incluindo a interação, mas não os principais efeitos em um modelo

Respostas: