Quais são as melhores práticas para identificar efeitos de interação?

35

Além de literalmente testar cada combinação possível de variáveis ​​em um modelo ( x1:x2ou x1*x2 ... xn-1 * xn). Como você identifica se uma interação DEVE ou PODE existir entre suas variáveis ​​independentes (espero)?

Quais são as melhores práticas na tentativa de identificar interações? Existe uma técnica gráfica que você possa ou use?

Brandon Bertelsen
fonte
Você poderia nos contar um pouco sobre seus dados? tamanho (cf minha resposta) e natureza (cf resposta de Gavin)
Girard robin
@Robin: Dê-lhe tempo para sair da cama, Brandon está em Toronto ;-)
Reintegrar Monica - G. Simpson
11
@ Robin, eu preferiria mantê-lo mais geral. Se, em sua resposta, você estiver fornecendo um método que exija uma suposição sobre o tamanho ou a natureza dos dados, indique-o. O problema que estou tendo abrange várias tarefas de modelagem diferentes, todas com dados diferentes. Portanto, neste caso, estou procurando uma recomendação geral sobre a identificação de efeitos de interação.
precisa

Respostas:

20

Cox e Wermuth (1996) ou Cox (1984) discutiram alguns métodos para detectar interações. O problema geralmente é o quão geral os termos de interação devem ser. Basicamente, (a) ajustamos (e testamos) todos os termos de interação de segunda ordem, um de cada vez, e (b) plotamos seus valores p correspondentes (isto é, os termos nº em função de ). A idéia é verificar se um certo número de termos de interação deve ser mantido: pressupondo que todos os termos de interação sejam nulos, a distribuição dos valores-p deve ser uniforme (ou equivalente, os pontos no gráfico de dispersão devem ser distribuídos aproximadamente uma linha que passa pela origem).1p

Agora, como o @Gavin disse, ajustar muitas interações (se não todas) pode levar a sobreajuste, mas também é inútil em certo sentido (alguns termos de interação de alta ordem geralmente não têm sentido). No entanto, isso tem a ver com interpretação, não com a detecção de interações, e uma boa revisão já foi fornecida por Cox em Interpretação da interação: Uma revisão ( The Annals of Applied Statistics 2007, 1 (2), 371–385) - inclui referências citadas acima. Outras linhas de pesquisa que vale a pena examinar são o estudo de efeitos epistáticos em estudos genéticos, em particular métodos baseados em modelos gráficos (por exemplo, um método eficiente para identificar interatores estatísticos em redes de associação de genes ).

Referências

  • Cox, DR e Wermuth, N (1996). Dependências multivariadas: Modelos, Análise e Interpretação . Chapman e Hall / CRC.
  • Cox, DR (1984). Interação . International Statistical Review , 52, 1–31.
chl
fonte
16

Minha melhor prática seria pensar sobre o problema em mãos antes de ajustar o modelo. Qual é um modelo plausível, considerando o fenômeno que você está estudando? Ajustar todas as combinações possíveis de variáveis ​​e interações parece uma dragagem de dados para mim.

Restabelecer Monica - G. Simpson
fonte
5
soa como um comentário ou a resposta é "pense"?
robin Girard
2
@Robin - o último. Acho a modelagem estatística bastante difícil (sou ecologista com pouco treinamento estatístico formal, a maior parte do que aprendi foi autodidata), mas é muito mais fácil pensar no problema primeiro, determinar o que é plausível, construir esse modelo, fazer o diagnóstico do meu modelo, tentar interações onde estas façam sentido científico.
Reintegrar Monica - G. Simpson
2
@Brandon: Se houver uma interação ausente, haverá padrões nos resíduos condicionados aos valores das covariáveis. Plotar resíduos contra as covariáveis ​​pode ajudar a determinar onde uma interação pode ser apropriada.
Reintegrar Monica - G. Simpson
2
@Brandon: Esse é o diagnóstico padrão do modelo e as habilidades de plotagem exploratória. Eu traçaria os resíduos contra uma das covariáveis ​​que acho que poderia ser candidata a uma interação, condicionada (da maneira ggplot2 ou reticulado) aos valores da covariável que acho que está envolvida na interação. Passe um pouco de suavidade em cada painel para ver se há padrões. Depende de que tipo de variáveis ​​são suas covariáveis.
Reinstate Monica - G. Simpson
2
Dragagem de dados? Se você torturar os dados por tempo suficiente, ele vai confessar ...
Curioso
16

Ajustar um modelo de árvore (ou seja, usar R), ajudará a identificar interações complexas entre as variáveis ​​explicativas. Leia o exemplo na página 30 aqui .

George Dontas
fonte
Muito simples e muito útil. Obrigado pela referência ao texto de Crawley também!
precisa
Tenha cuidado - você não pode ajustar facilmente esses tipos de interações em um modelo linear. As interações ocorrem apenas em um ramo da árvore (ou parte de). Você precisa de muitos dados para usar esses tipos de ferramentas em dados do mundo real.
Reintegrar Monica - G. Simpson
3
Como disse @Gavin, uma das possíveis armadilhas é que as árvores de decisão precisam de um tamanho de amostra grande e são bastante instáveis ​​(que é uma das razões pelas quais florestas ensacadas e aleatórias foram propostas como alternativas viáveis). Outro problema é que não está claro se procuramos efeitos de interação de segunda ou maior ordem. No primeiro caso, os CARTs não são uma solução. De qualquer forma, considerarei muito duvidosa qualquer interpretação de uma interação entre 6 variáveis ​​em qualquer tipo de estudo (observacional ou controlado).
chl
7

Prefácio essa resposta, pois concordo inteiramente com Gavin, e se você estiver interessado em ajustar qualquer tipo de modelo, isso deve refletir o fenômeno em estudo. Qual é o problema com a lógica de identificar todos e quaisquer efeitos (e a que Gavin se refere quando ele diz dragagem de dados) é que você pode ajustar um número infinito de interações ou termos quadráticos para variáveis ​​ou transformações em seus dados, e você inevitavelmente encontraria efeitos "significativos" para algumas variações de seus dados.

Como afirma chl, esses efeitos de interação de ordem superior não têm realmente nenhuma interpretação e, freqüentemente, mesmo as interações de ordem inferior não fazem sentido. Se você estiver interessado em desenvolver um modelo causal, inclua apenas os termos que julgar pertinentes à sua variável dependente A priori para ajustar-se ao seu modelo.

Se você acredita que eles podem aumentar o poder preditivo do seu modelo, procure recursos nas técnicas de seleção de modelos para evitar o excesso de ajuste no seu modelo.

Andy W
fonte
7

n ? Quantas observações você tem? isso é crucial ...

n , caso contrário, será necessário modelar (linear para começar). Você tem um bom pacote R para a chamada sensibilidade. De qualquer forma, a ideia é muitas vezes a de decompor a variância (também chamada ANOVA generalizada).

Se você quiser saber se essa proporção de variação é significativa, será necessário fazer a modelagem (aproximadamente, você precisa saber o número de graus de liberdade do seu modelo para compará-lo à variação).

Suas variáveis ​​são discretas ou contínuas? limitado ou não realmente (ou seja, você não sabe o máximo)?

Robin Girard
fonte
obrigado pela direção aos índices de Sobol. Mais uma vez, gostaria de especificar que estou procurando uma resposta geral e não específica aqui. Não estou perguntando sobre um conjunto específico de dados, mas tentando explicar um problema que tenho tido com vários conjuntos diferentes.
precisa