Modelo conjunto com termos de interação vs. regressões separadas para uma comparação de grupo

13

Depois de reunir um feedback valioso de perguntas e discussões anteriores, fiz a seguinte pergunta: suponha que o objetivo seja detectar diferenças de efeito em dois grupos, masculino e feminino, por exemplo. Existem duas maneiras de fazer isso:

  1. executando duas regressões separadas para os dois grupos e empregando o teste de Wald para rejeitar (ou não) a hipótese nula : b 1 - b 2 = 0 , onde é o coeficiente de um IV na regressão masculina e é o coeficiente do mesmo IV na regressão feminina.H0 0b1-b2=0 0b 2b1b2

  2. agrupe os dois grupos e execute um modelo conjunto incluindo um manequim de gênero e um termo de interação (IV * manequim de gênero). Então, a detecção do efeito do grupo será baseada no sinal de interação e no teste t para significância.

E se Ho for rejeitado no caso (1), ou seja, a diferença de grupo for significativa, mas o coeficiente de termo de interação no caso (2) for estatisticamente insignificante, ou seja, a diferença de grupo for insignificante. Ou vice-versa, Ho não é rejeitado no caso (1) e o termo interação é significativo no caso (2). Eu terminei com esse resultado várias vezes e estava pensando em qual resultado seria mais confiável e qual é a razão por trás dessa contradição.

Muito Obrigado!

Bill718
fonte
1
a diferença entre os procedimentos é que se assume a mesma variação para os dois grupos. A análise separada assume diferentes variações.
probabilityislogic
Muito obrigado! Você está ciente de qualquer referência que discuta a questão das variações ao comparar modelos diferentes?
Bill718

Respostas:

7

O primeiro modelo irá interagir totalmente de gênero com todas as outras covariáveis ​​do modelo. Essencialmente, o efeito de cada covariável (b2, b3 ... bn). No segundo modelo, o efeito do gênero é interagido apenas com o seu IV. Portanto, supondo que você tenha mais covariáveis ​​do que apenas o IV e o sexo, isso pode gerar resultados um pouco diferentes.

Se você tiver apenas as duas covariáveis, há ocasiões documentadas em que a diferença de maximização entre o teste de Wald e o teste da razão de verossimilhança leva a respostas diferentes (veja mais na wikipedia ).

Na minha própria experiência, tento ser guiado pela teoria. Se houver uma teoria dominante que sugira que o gênero interaja apenas com o IV, mas não com as outras covariáveis, eu iria com a interação parcial.

mCorey
fonte
Obrigado! Sim, na verdade existem várias covariáveis, não apenas uma IV, acabei de mencionar uma IV na questão por simplicidade. O fato é que não existe uma teoria forte que possa apoiar a interação entre gênero e certas covariáveis; é uma análise exploratória; portanto, preciso experimentar muitas interações e ajustes de modelos; o modelo inicial contém 30 preditores ...
Bill718
@ Bill718 Além disso, os modelos separados terão uma interceptação diferente, enquanto o modelo único não, a menos que você especifique apenas o sexo como um IV adicional (não apenas como uma interação).
Robert Kubrick
5

Sempre que dois procedimentos diferentes são usados ​​para testar uma hipótese específica, haverá diferentes valores de p. Dizer que um é significativo e o outro não pode ser apenas uma decisão em preto e branco no nível 0,05. Se um teste der um valor p de 0,03 e o outro disser 0,07, eu não chamaria os resultados de contraditórios. Se você for tão rigoroso ao pensar sobre o significado, é fácil que a situação (i) ou (ii) surja quando o significado do boardline for o caso.

Como mencionei em resposta à pergunta anterior, minha preferência por procurar uma interação é fazer uma regressão combinada.

Michael R. Chernick
fonte
Sim, é verdade que a regressão combinada parece ter um desempenho melhor, pelo menos no meu caso, e é um método muito flexível, já que alguém poderia tentar com diferentes interações e ajustes de modelo. Eu só queria, por curiosidade "estatística", digamos , para descobrir qual é a razão por trás dos resultados diferentes. Em relação aos valores de p, ouvi algumas pessoas aceitando significância apenas em um nível = 0,5% ou menos. Sou mais flexível, usando um nível de = 1%, mas a grande dor de cabeça ocorre quando os valores de p são completamente diferentes.
Bill718
Vi estudos, por exemplo, em que um IV é muito significativo quando um modeto de logit ordenado é empregado, enquanto o mesmo IV se torna insignificante quando um OLS é aplicado. Portanto, nesse caso, a explicação dos resultados pode ser um pouco complicada. Muito obrigado pelos seus comentários e feedback!
Bill718
0,070,03
2

No segundo caso, o software padrão sugere uma estatística t com valores de t-student, enquanto que no primeiro caso os testes de Wald podem ter duas opções. Sob a suposição de normalidade dos erros, a estatística Wald segue uma estatística exata de Fisher (que é equivalente ao t-stat, pois assume a normalidade do erro). Enquanto na normalidade assintótica, a estatística de Wald segue uma distribuição de Chi2 (que é semelhante à estatística t após uma distribuição normal assintoticamente) Que distribuição você está assumindo? Dependendo disso, seus valores de p arriscam a fornecer resultados diferentes.

Nos Livros didáticos, você encontrará que, para testes únicos bilaterais (um parâmetro), as estatísticas t-student e Fisher são equivalentes.

Se sua amostra não for grande, a comparação dos valores de chi2 e t-stat produziria resultados diferentes, com certeza. Nesse caso, assumir uma distribuição assintótica não seria razoável. Se sua amostra é pequena, assumindo que a normalidade parece mais razoável, isso implica nos valores t-stat e Fisher para os casos 2 e 1, respectivamente.

JDav
fonte
De fato, eu tenho duas amostras de tamanho desigual, a primeira tem 3000 observações, mas a segunda é relativamente pequena, 500 observações. E o software reporta qui-quadrado ao calcular as estatísticas de Wald. Então, parece que esse é o motivo da discrepância. Porém, ambas as amostras são normalmente distribuídas, especialmente no caso de uma amostra grande. Muito Obrigado!
Bill718
1
Sinto muito enganá-lo, mas tamanhos de subamostras desiguais não são um problema. Além disso, o seu parece uma grande amostra para mim. portanto, ambos os procedimentos devem produzir resultados semelhantes. Percebi que @probabilityislogic fez uma boa observação. O uso de uma amostra agrupada implica em variações residuais iguais, o que pode ser uma fonte de heterogeneidade. Não sei como você está implementando o procedimento de regressão separado, mas é fácil cometer erros se você mesmo estiver calculando as estatísticas. Isso torna a regressão agrupada uma abordagem direta e segura.
JDav #
1
Para resolver o problema de variações desiguais entre os grupos (heterocedasticidade), tente um estimador de variância White (também conhecido como Newey-west, Sandwich ou Robust se você usar stata). Essa abordagem corrige tipos desconhecidos de heterocedência.
JDav
Oh, ok, entendo, na verdade as observações na amostra vêm de diferentes regiões de um país, então é muito possível que eu ache que existem problemas de heterogeneidade!
Bill718