Qual é a maneira correta de testar as diferenças significativas entre os coeficientes?

18

Espero que alguém possa ajudar a esclarecer um ponto de confusão para mim. Digamos que eu queira testar se 2 conjuntos de coeficientes de regressão são significativamente diferentes um do outro, com a seguinte configuração:

  • , com 5 variáveis ​​independentes.yi=α+βxi+ϵi
  • 2 grupos, com tamanhos aproximadamente iguais (embora isso possa variar)n1,n2
  • Milhares de regressões semelhantes serão feitas simultaneamente, portanto, algum tipo de correção de múltiplas hipóteses deve ser feita.

Uma abordagem que me foi sugerida é usar um teste Z:

Z=b1b2(SEb12+SEb22)

Outro que eu vi sugerido neste quadro é a introdução de uma variável dummy para agrupar e reescrever o modelo como:

, onde g é a variável de agrupamento, codificada como 0, 1.yi=α+βxi+δ(xEugEu)+ϵEug

Minha pergunta é: como essas duas abordagens são diferentes (por exemplo, diferentes suposições feitas, flexibilidade)? Um é mais apropriado que o outro? Eu suspeito que isso seja bastante básico, mas qualquer esclarecimento seria muito apreciado.

cashoes
fonte
Acredito que as respostas e comentários para uma pergunta semelhante possam fornecer alguns dos esclarecimentos que você procura.
whuber
Obrigado whuber. Eu estava familiarizado com essa resposta. Da discussão abaixo, a resposta aceita (e seus comentários) fiquei com a impressão de que comparar os coeficientes de dois ajustes separados não era apropriado. Um teste z aplicado aos coeficientes dos ajustes separados está incorreto ou é que a codificação da variável dummy é simplesmente mais fácil e fornece uma resposta equivalente?
cashoes 15/07/11
1
Por favor, veja o último parágrafo da minha resposta ("A principal limitação ..."). O Z-teste é válido pressupondo o são grandes (de outro modo utilizar no teste) e estimados os desvios padrão S E b I não são muito diferentes uns dos outros. Nenhuma das abordagens é melhor quando os desvios padrão diferem muito (aproximadamente, mais do que uma proporção de 3: 1). niSEbi
whuber

Respostas:

13

As duas abordagens diferem.

Que os erros padrão estimados das duas regressões sejam e s 2 . Então, como a regressão combinada (com todas as interações coeficiente-fictícia) se encaixa nos mesmos coeficientes, ela possui os mesmos resíduos, de onde seu erro padrão pode ser calculado comos1s2

s=(n1p)s12+(n2p)s22)n1+n22p.

p6

b1b2b

SE(b)=s(SE(b1)/s1)2+(SE(b2)/s2)2.

s

A suposição feita pela regressão combinada é que as variações dos resíduos são essencialmente as mesmas nas duas regressões separadas. Se esse não for o caso, no entanto, o teste z também não será bom (a menos que o tamanho da amostra seja grande): você deseja usar um teste CABF ou um teste t Welch-Satterthwaite.

whuber
fonte
9

A maneira mais direta de testar a diferença no coeficiente entre dois grupos é incluir um termo de interação em sua regressão, que é quase o que você descreve em sua pergunta. O modelo que você executaria é o seguinte:

yi=α+βxi+γgi+δ(xi×gi)+εi

tH0:δ=0gi=0

yi=α+βxi+εi

gi=1

yi=(α+γ)+(β+δ)xi+εi

δ

Matt Blackwell
fonte
Obrigado por corrigir o modelo (acredito que minha versão acima simplesmente reforça que a interceptação seja a mesma nos dois grupos ...). Mais ao ponto, isso seria equivalente ao teste z que publiquei acima?
cashoes 15/07/11
Se alguém quisesse testar se um efeito é diferente entre mais de dois grupos, uma ANOVA compararia o modelo yEu=α+βxEu+γgEu+εEu e o mostrado nesta resposta, yEu=α+βxEu+γgEu+δ(xEu×gEu)+εEuseja apropriado?
Miura
@ matt-blackwell isso é conceitualmente o mesmo que estratificar o modelo por cada valor de g? (ou seja, b seria o coeficiente de x quando g = 0 e beta + delta quando g = 1) Embora eu aprecie que a estratificação não permita comparação estatística.
precisa saber é o seguinte