Além de literalmente testar cada combinação possível de variáveis em um modelo ( x1:x2
ou x1*x2 ... xn-1 * xn
). Como você identifica se uma interação DEVE ou PODE existir entre suas variáveis independentes (espero)?
Quais são as melhores práticas na tentativa de identificar interações? Existe uma técnica gráfica que você possa ou use?
regression
modeling
interaction
Brandon Bertelsen
fonte
fonte
Respostas:
Cox e Wermuth (1996) ou Cox (1984) discutiram alguns métodos para detectar interações. O problema geralmente é o quão geral os termos de interação devem ser. Basicamente, (a) ajustamos (e testamos) todos os termos de interação de segunda ordem, um de cada vez, e (b) plotamos seus valores p correspondentes (isto é, os termos nº em função de ). A idéia é verificar se um certo número de termos de interação deve ser mantido: pressupondo que todos os termos de interação sejam nulos, a distribuição dos valores-p deve ser uniforme (ou equivalente, os pontos no gráfico de dispersão devem ser distribuídos aproximadamente uma linha que passa pela origem).1−p
Agora, como o @Gavin disse, ajustar muitas interações (se não todas) pode levar a sobreajuste, mas também é inútil em certo sentido (alguns termos de interação de alta ordem geralmente não têm sentido). No entanto, isso tem a ver com interpretação, não com a detecção de interações, e uma boa revisão já foi fornecida por Cox em Interpretação da interação: Uma revisão ( The Annals of Applied Statistics 2007, 1 (2), 371–385) - inclui referências citadas acima. Outras linhas de pesquisa que vale a pena examinar são o estudo de efeitos epistáticos em estudos genéticos, em particular métodos baseados em modelos gráficos (por exemplo, um método eficiente para identificar interatores estatísticos em redes de associação de genes ).
Referências
fonte
Minha melhor prática seria pensar sobre o problema em mãos antes de ajustar o modelo. Qual é um modelo plausível, considerando o fenômeno que você está estudando? Ajustar todas as combinações possíveis de variáveis e interações parece uma dragagem de dados para mim.
fonte
Ajustar um modelo de árvore (ou seja, usar R), ajudará a identificar interações complexas entre as variáveis explicativas. Leia o exemplo na página 30 aqui .
fonte
Prefácio essa resposta, pois concordo inteiramente com Gavin, e se você estiver interessado em ajustar qualquer tipo de modelo, isso deve refletir o fenômeno em estudo. Qual é o problema com a lógica de identificar todos e quaisquer efeitos (e a que Gavin se refere quando ele diz dragagem de dados) é que você pode ajustar um número infinito de interações ou termos quadráticos para variáveis ou transformações em seus dados, e você inevitavelmente encontraria efeitos "significativos" para algumas variações de seus dados.
Como afirma chl, esses efeitos de interação de ordem superior não têm realmente nenhuma interpretação e, freqüentemente, mesmo as interações de ordem inferior não fazem sentido. Se você estiver interessado em desenvolver um modelo causal, inclua apenas os termos que julgar pertinentes à sua variável dependente A priori para ajustar-se ao seu modelo.
Se você acredita que eles podem aumentar o poder preditivo do seu modelo, procure recursos nas técnicas de seleção de modelos para evitar o excesso de ajuste no seu modelo.
fonte
Se você quiser saber se essa proporção de variação é significativa, será necessário fazer a modelagem (aproximadamente, você precisa saber o número de graus de liberdade do seu modelo para compará-lo à variação).
Suas variáveis são discretas ou contínuas? limitado ou não realmente (ou seja, você não sabe o máximo)?
fonte