Depois de reunir um feedback valioso de perguntas e discussões anteriores, fiz a seguinte pergunta: suponha que o objetivo seja detectar diferenças de efeito em dois grupos, masculino e feminino, por exemplo. Existem duas maneiras de fazer isso:
executando duas regressões separadas para os dois grupos e empregando o teste de Wald para rejeitar (ou não) a hipótese nula : b 1 - b 2 = 0 , onde é o coeficiente de um IV na regressão masculina e é o coeficiente do mesmo IV na regressão feminina.b 2
agrupe os dois grupos e execute um modelo conjunto incluindo um manequim de gênero e um termo de interação (IV * manequim de gênero). Então, a detecção do efeito do grupo será baseada no sinal de interação e no teste t para significância.
E se Ho for rejeitado no caso (1), ou seja, a diferença de grupo for significativa, mas o coeficiente de termo de interação no caso (2) for estatisticamente insignificante, ou seja, a diferença de grupo for insignificante. Ou vice-versa, Ho não é rejeitado no caso (1) e o termo interação é significativo no caso (2). Eu terminei com esse resultado várias vezes e estava pensando em qual resultado seria mais confiável e qual é a razão por trás dessa contradição.
Muito Obrigado!
Respostas:
O primeiro modelo irá interagir totalmente de gênero com todas as outras covariáveis do modelo. Essencialmente, o efeito de cada covariável (b2, b3 ... bn). No segundo modelo, o efeito do gênero é interagido apenas com o seu IV. Portanto, supondo que você tenha mais covariáveis do que apenas o IV e o sexo, isso pode gerar resultados um pouco diferentes.
Se você tiver apenas as duas covariáveis, há ocasiões documentadas em que a diferença de maximização entre o teste de Wald e o teste da razão de verossimilhança leva a respostas diferentes (veja mais na wikipedia ).
Na minha própria experiência, tento ser guiado pela teoria. Se houver uma teoria dominante que sugira que o gênero interaja apenas com o IV, mas não com as outras covariáveis, eu iria com a interação parcial.
fonte
Sempre que dois procedimentos diferentes são usados para testar uma hipótese específica, haverá diferentes valores de p. Dizer que um é significativo e o outro não pode ser apenas uma decisão em preto e branco no nível 0,05. Se um teste der um valor p de 0,03 e o outro disser 0,07, eu não chamaria os resultados de contraditórios. Se você for tão rigoroso ao pensar sobre o significado, é fácil que a situação (i) ou (ii) surja quando o significado do boardline for o caso.
Como mencionei em resposta à pergunta anterior, minha preferência por procurar uma interação é fazer uma regressão combinada.
fonte
No segundo caso, o software padrão sugere uma estatística t com valores de t-student, enquanto que no primeiro caso os testes de Wald podem ter duas opções. Sob a suposição de normalidade dos erros, a estatística Wald segue uma estatística exata de Fisher (que é equivalente ao t-stat, pois assume a normalidade do erro). Enquanto na normalidade assintótica, a estatística de Wald segue uma distribuição de Chi2 (que é semelhante à estatística t após uma distribuição normal assintoticamente) Que distribuição você está assumindo? Dependendo disso, seus valores de p arriscam a fornecer resultados diferentes.
Nos Livros didáticos, você encontrará que, para testes únicos bilaterais (um parâmetro), as estatísticas t-student e Fisher são equivalentes.
Se sua amostra não for grande, a comparação dos valores de chi2 e t-stat produziria resultados diferentes, com certeza. Nesse caso, assumir uma distribuição assintótica não seria razoável. Se sua amostra é pequena, assumindo que a normalidade parece mais razoável, isso implica nos valores t-stat e Fisher para os casos 2 e 1, respectivamente.
fonte