Espero que alguém possa ajudar a esclarecer um ponto de confusão para mim. Digamos que eu queira testar se 2 conjuntos de coeficientes de regressão são significativamente diferentes um do outro, com a seguinte configuração:
- , com 5 variáveis independentes.
- 2 grupos, com tamanhos aproximadamente iguais (embora isso possa variar)
- Milhares de regressões semelhantes serão feitas simultaneamente, portanto, algum tipo de correção de múltiplas hipóteses deve ser feita.
Uma abordagem que me foi sugerida é usar um teste Z:
Outro que eu vi sugerido neste quadro é a introdução de uma variável dummy para agrupar e reescrever o modelo como:
, onde g é a variável de agrupamento, codificada como 0, 1.
Minha pergunta é: como essas duas abordagens são diferentes (por exemplo, diferentes suposições feitas, flexibilidade)? Um é mais apropriado que o outro? Eu suspeito que isso seja bastante básico, mas qualquer esclarecimento seria muito apreciado.
Respostas:
As duas abordagens diferem.
Que os erros padrão estimados das duas regressões sejam e s 2 . Então, como a regressão combinada (com todas as interações coeficiente-fictícia) se encaixa nos mesmos coeficientes, ela possui os mesmos resíduos, de onde seu erro padrão pode ser calculado comos1 s2
A suposição feita pela regressão combinada é que as variações dos resíduos são essencialmente as mesmas nas duas regressões separadas. Se esse não for o caso, no entanto, o teste z também não será bom (a menos que o tamanho da amostra seja grande): você deseja usar um teste CABF ou um teste t Welch-Satterthwaite.
fonte
A maneira mais direta de testar a diferença no coeficiente entre dois grupos é incluir um termo de interação em sua regressão, que é quase o que você descreve em sua pergunta. O modelo que você executaria é o seguinte:
fonte