Todos os termos de interações precisam de termos individuais no modelo de regressão?

68

Na verdade, estou revisando um manuscrito em que os autores comparam os modelos de regressão de 5-6 logit com a AIC. No entanto, alguns dos modelos têm termos de interação sem incluir os termos covariáveis ​​individuais. Faz algum sentido fazer isso?

Por exemplo (não específico para modelos de logit):

M1: Y = X1 + X2 + X1*X2
M2: Y = X1 + X2
M3: Y = X1 + X1*X2 (missing X2)
M4: Y = X2 + X1*X2 (missing X1)
M5: Y = X1*X2 (missing X1 & X2)

Eu sempre tive a impressão de que, se você tiver o termo de interação X1 * X2, também precisará de X1 + X2. Portanto, os modelos 1 e 2 seriam bons, mas os modelos 3-5 seriam problemáticos (mesmo que o AIC seja mais baixo). Isso está correto? É uma regra ou mais uma diretriz? Alguém tem uma boa referência que explica o raciocínio por trás disso? Eu só quero ter certeza de que não comunico mal nada importante na revisão.

Obrigado por qualquer pensamento, Dan

djhocking
fonte
8
+1, acho que é uma pergunta muito boa. Você também pode verificar esta pergunta anterior, que abrange grande parte do mesmo território. As respostas são realmente excelentes também.
gung - Restabelece Monica
Muitas boas respostas já. Houve um artigo de Rindskopf em alguns casos em que você não precisa dos efeitos principais. (Veja também este )
Peter Flom - Restabelece Monica
3
AFAIK: em R's lm (), :é para interações, como em A: B. E *é para efeitos principais e interações, então A * B = A + B + A: B. Então, se (!) Os autores do artigo seguem essa notação, não acho que nenhum dos modelos esteja perdendo os efeitos principais?
Zhubarb
Além disso, a mesma lógica das respostas atuais se aplica a interações de ordem superior (por exemplo, você precisa de todas as interações de duas vias, se incluir uma de três vias)
Peter Flom - Reinstate Monica

Respostas:

38

Na maioria das vezes, essa é uma má ideia - o principal motivo é que ele não torna o modelo invariável às mudanças de local. Por exemplo, suponha que você tenha um único resultado e dois preditores x i e z i e especificar o modelo:yEuxEuzi

yi=β0+β1xizi+ε

Se você centralizar os preditores por seus meios, se tornaráxizi

(xix¯)(zEu-z¯)=xEuzEu-xEuz¯-zEux¯+x¯z¯

Assim, você pode ver que os principais efeitos foram reintroduzidos no modelo.

Eu dei um argumento heurístico aqui, mas isso apresenta uma questão prática. Conforme observado em Faraway (2005) na página 114, uma alteração aditiva na escala altera a inferência do modelo quando os principais efeitos são deixados de fora do modelo, enquanto isso não ocorre quando os termos de ordem inferior são incluídos. Normalmente, é indesejável que coisas arbitrárias, como uma mudança de local, causem uma mudança fundamental na inferência estatística (e, portanto, nas conclusões de sua investigação), como pode acontecer quando você inclui termos ou interações polinomiais em um modelo sem os efeitos de ordem inferior.

Nota: Pode haver circunstâncias especiais em que você deseja incluir apenas a interação, se o tiver algum significado substantivo particular ou se você observar apenas o produto e não as variáveis ​​individuais x i , z i . Mas, nesse caso, pode-se pensar no preditor a i = x i z i e prosseguir com o modeloxEuzEuxEu,zEuumaEu=xEuzEu

yEu=α0 0+α1 1umaEu+εEu

ao invés de pensar de como um termo de interação.umaEu

Macro
fonte
additive change in scale changes the inference (the t -statistics) for all but the highest order terms when any lower order terms are left out of the modelA mudança aditiva de preditores geralmente altera t de seus principais efeitos (termos de ordem inferior), mesmo em um modelo completo. É o ajuste geral (R ^ 2) que é preservado (mas não é preservado sob alteração aditiva em um modelo com alguns efeitos principais descartados). Era isso que você queria dizer?
Ttnphns
Sim, isso mesmo @ttnphns - obrigado por apontar isso - modifiquei minha resposta um pouco para refletir isso.
Macro
28

Até agora, todas as respostas parecem perder um ponto muito básico: a forma funcional que você escolher deve ser flexível o suficiente para capturar os recursos que são cientificamente relevantes. Os modelos 2-5 impõem coeficientes zero em alguns termos, sem justificativa científica. E mesmo se cientificamente justificado, o Modelo 1 permanece atraente porque você também pode testar os coeficientes zero em vez de impô-los.

A chave é entender o que as restrições significam. A advertência típica para evitar os modelos 3-5 é porque na maioria das aplicações as suposições que eles impõem são cientificamente implausíveis. O modelo 3 assume que X2 influencia apenas a inclinação dY / dX1, mas não o nível. O modelo 4 assume que X1 influencia apenas a inclinação dY / dX2, mas não o nível. E o Modelo 5 assume que nem X1 nem X2 afetam o nível, mas apenas dY / dX1 ou dY / dX2. Na maioria das aplicações, essas suposições não parecem razoáveis. O modelo 2 também impõe um coeficiente zero, mas ainda tem algum mérito. Dá a melhor aproximação linear aos dados, o que em muitos casos satisfaz o objetivo científico.

Tristan
fonte
5
(+1) Isso tudo é verdade, mas o pôster original parecia descrever uma situação em que os autores estavam tentando fazer a seleção de modelos, e alguns de seus modelos candidatos eram aqueles que não incluíam interações - portanto, sua motivação foi guiada pela AIC e não por algo substantivo (que é sempre uma coisa perigosa a se fazer, mas aparentemente eles fizeram isso). Quando você é guiado por algo substantivo, a estrutura do modelo deve ser ditada por isso. Mas, quando você é guiado por um critério estatístico, deixar de lado os principais efeitos pode ter propriedades ruins, como indiquei na minha resposta.
Macro
16

x1 1x2pode ser [0, 0, 0, 1] ou [1, -1, -1, 1], dependendo do esquema de codificação usado. Acredito que é possível ter uma situação em que apenas a interação seja 'significativa' com um esquema de codificação, mas todos os termos sejam 'significativos' usando o outro esquema. Isso implica que decisões interpretativas significativas seriam tomadas com base em uma decisão arbitrária de codificação que, de fato, seu software pode ter feito por você sem o seu conhecimento. Reconheço que esse é um ponto pequeno, mas é apenas mais um motivo para não ser uma boa ideia manter apenas a interação (e também não selecionar um subconjunto de preditores com base em valores-p, é claro).

- Reinstate Monica
fonte
11
O teste de significância para os principais efeitos categóricos não é menos invariável. Um grupo pode ser significativamente diferente do grupo de referência sob codificação de tratamento, mas não do efeito "grande média" sob codificação de contraste.
probabilityislogic
10

Como você está revisando um artigo, pode sugerir que os autores discutam a questão da hierarquia de modelos e justifiquem sua saída.

Aqui estão algumas referências:

  1. Nelder JA. A seleção de termos nos modelos de superfície de resposta - quão forte é o princípio da fraca hereditariedade? O estatístico americano. 1998; 52: 315–8. http://www.jstor.org/pss/2685433 . Acessado em 10 de junho de 2010.

  2. Peixoto JL. Seleção de variáveis ​​hierárquicas em modelos de regressão polinomial. O estatístico americano. 1987; 41: 311–3. http://www.jstor.org/pss/2684752 . Acessado em 10 de junho de 2010.

  3. Peixoto JL. Uma propriedade de modelos de regressão polinomial bem formulados. O estatístico americano. 1990; 44: 26-30. http://www.jstor.org/pss/2684952 . Acessado em 10 de junho de 2010.

Eu costumo seguir a hierarquia, mas me afasto em algumas situações. Por exemplo, se você estiver testando o desgaste dos pneus em relação à quilometragem em várias velocidades diferentes, seu modelo poderá ser:

profundidade do piso = interceptação + quilometragem + quilometragem * velocidade

mas não faria sentido incluir um efeito principal da velocidade, porque o pneu não sabe qual será a velocidade a zero quilômetro.

(Por outro lado, você ainda pode querer testar um efeito de velocidade, pois isso pode indicar que os efeitos de "amaciamento" diferem em velocidades diferentes. Por outro lado, uma maneira ainda melhor de lidar com o amaciamento seria: obtenha dados em zero e com quilometragem muito baixa e, em seguida, teste a não linearidade. Observe que a remoção do termo de interceptação pode ser considerada um caso especial de violação da hierarquia.)

Também reiterarei o que alguém disse acima, porque é muito importante: os autores precisam garantir que eles saibam se o software está centralizando os dados. O modelo de pneu acima torna-se fisicamente sem sentido se o software substituir a quilometragem por (milhagem - média da milhagem).

Os mesmos tipos de coisas são relevantes nos estudos de estabilidade farmacêutica (mencionados tangencialmente em "Modelos de Estabilidade para Armazenamento Sequencial", Emil M. Friedman e Sam C. Shum, AAPS PharmSciTech, Vol. 12, Nº 1, março de 2011, DOI: 10.1208 / s12249-010-9558-x).

Emil Friedman
fonte
11
obrigado, esta é uma ótima resposta e me ajudará a explicá-la a pessoas que não são estatisticamente esclarecidas.
Djhocking
11
+1 Gostaria que fosse possível mesclar respostas no SO. Isso com a resposta aceita acima constitui a resposta perfeita.
Zhubarb
9

Eu tive um caso real que ilustra isso. Nos dados, uma das variáveis ​​representadas groupcom 0 controle e 1 tratamento. O outro preditor representou time periodcom 0 antes do tratamento e 1 após o tratamento. A interação foi o principal parâmetro de interesse que mede o efeito do tratamento, a diferença após o tratamento no grupo de tratamento acima de qualquer efeito do tempo medido no grupo de controle. O principal efeito degroupmediu a diferença nos 2 grupos antes de qualquer tratamento, para que pudesse ser facilmente 0 (em um experimento randomizado deveria ser 0, este não foi). O segundo efeito principal mede a diferença entre os períodos de antes e depois no grupo de controle onde não houve tratamento, portanto, também faz sentido que possa ser 0 enquanto o termo de interação for diferente de zero. Obviamente, isso depende de como as coisas foram codificadas e uma codificação diferente mudaria os significados e se a interação faria sentido ou não sem os principais efeitos. Portanto, faz sentido ajustar a interação sem os principais efeitos em casos específicos.

Greg Snow
fonte
Então, você quer dizer que tudo depende dos objetivos do seu estudo OU com base nos seus parâmetros?
Ben
11
@ Ben, isso pode depender de como você parametriza suas variáveis ​​(no meu exemplo, mudar o 0/1 para 1/0 para qualquer variável alteraria a interpretação) e quais perguntas você está tentando responder e quais suposições você está disposto a fazer .
Greg Snow
Y=B0 0+B1 1X+B2Z+B3XZ2008+yeumardvocêmmEues
X e Z são variáveis ​​contínuas, Z é a classificação de regulação. o ano de 2008 é pontuado 1 e 0 em outros anos. então é como se eu apenas fizesse as observações do ano de 2008 sem interação. Eu li sobre o princípio da hereditariedade fraca e forte, mas não entendia claramente
Ben
11
@ Ben, certamente é possível ajustar o modelo acima, que basicamente diz que você acha que existe (ou pode haver) uma interação em 2008, mas não em nenhum outro ano. Se você tem uma justificativa para isso, acho que o modelo está bem. Mas é uma suposição bastante incomum que você provavelmente precisará justificar isso para qualquer público.
Greg Snow
B1 1X
B1 1X
7

Eu concordo com Peter. Eu acho que a regra é folclore. Por que poderíamos conceber uma situação em que duas variáveis ​​afetariam o modelo apenas por causa de uma interação. Uma analogia na química é que dois produtos químicos são totalmente inertes por si mesmos, mas causam uma explosão quando misturados. Gentilezas matemáticas / estatísticas como invariância não têm nada a ver com um problema real com dados reais. Só acho que, quando há muitas variáveis ​​a considerar, há muitos testes a serem realizados, se você observar todos os principais efeitos e a maioria, senão todas, as interações de primeira ordem. Também quase nunca examinamos as interações de segunda ordem, mesmo em pequenos experimentos com apenas algumas variáveis. O pensamento é que quanto maior a ordem de interação, menor a probabilidade de um efeito real. Então não Não olhe para as interações de primeira ou segunda ordem, se o efeito principal não estiver presente. Uma boa regra, talvez, mas segui-la religiosamente significa ignorar as exceções e seu problema pode ser uma exceção.

Michael Chernick
fonte
8
p
11
Eu provavelmente falhei dizendo que invariância não tem relevância no mundo real. Meu argumento pretendido era que alguns resultados matemáticos podem não ser relevantes em um problema prático específico. Como exemplo, as estimativas dos mínimos quadrados são a probabilidade máxima sob suposições de erro normais e, pelo teorema de Gauss Markov, a variação mínima é imparcial sob condições mais fracas, mas eu não o usaria quando houvesse discrepâncias nos dados. Da mesma forma, uma propriedade como invariância deve excluir, incluindo uma interação, quando faz sentido dizer clinicamente que ocorreria sem os efeitos principais?
Michael Chernick 5/05
6

[tentando responder a uma parte da pergunta original que parece não ter sido descoberta na maioria das respostas: "a AIC, como critério de seleção de modelo, deve ser confiável?"]

AIC deve ser usada mais como orientação, do que como uma regra que deve ser tomada como evangelho.

A eficácia da AIC (ou BIC ou qualquer critério "simples" semelhante para a seleção de modelos) depende muito do algoritmo de aprendizado e do problema.

Pense desta maneira: o objetivo do termo complexidade (número de fatores) na fórmula da AIC é simples: evitar a seleção de modelos que se ajustam demais. Mas a simplicidade da AIC frequentemente falha em capturar a real complexidade do problema em si. É por isso que existem outras técnicas práticas para evitar ajustes excessivos: por exemplo, validação cruzada ou adição de um termo de regularização.

Quando uso o SGD online (descida gradiente estocástica) para fazer regressão linear em um conjunto de dados com um número muito grande de entradas, considero o AIC um péssimo preditor da qualidade do modelo, porque penaliza excessivamente modelos complexos com grande número de termos. Existem muitas situações da vida real em que cada termo tem um efeito minúsculo, mas juntas, um grande número delas fornece fortes evidências estatísticas de um resultado. Os critérios de seleção de modelos AIC e BIC rejeitariam esses modelos e prefeririam os mais simples, embora os mais complexos sejam superiores.

No final, é o erro de generalização (aproximadamente: desempenho fora da amostra) que conta. A AIC pode fornecer algumas dicas sobre a qualidade do modelo em algumas situações relativamente simples. Apenas tome cuidado e lembre-se de que a vida real é mais frequentemente do que não, mais complexa do que uma fórmula simples.

arielf
fonte