Testando a igualdade de coeficientes de duas regressões diferentes

44

Essa parece ser uma questão básica, mas acabei de perceber que, na verdade, não sei como testar a igualdade de coeficientes a partir de duas regressões diferentes. Alguém pode lançar alguma luz sobre isso?

Mais formalmente, suponha que eu corri as duas regressões seguintes: e onde refere-se à matriz de projeto de regressão , e ao vetor de coeficientes de regressão . Observe que e são potencialmente muito diferentes, com diferentes dimensões etc. Estou interessado, por exemplo, em .

y1=X1β1+ϵ1
y2=X2β2+ϵ2
XiiβiiX1X2β^11β^21

Se estes vieram da mesma regressão, isso seria trivial. Mas como eles são de diferentes, não sei bem como fazê-lo. Alguém tem uma idéia ou pode me dar algumas dicas?

Meu problema em detalhes: minha primeira intuição foi examinar os intervalos de confiança e, se eles se sobrepõem, eu diria que eles são essencialmente os mesmos. Esse procedimento não é fornecido com o tamanho correto do teste (por exemplo, cada intervalo de confiança individual tem , por exemplo, mas analisá-los em conjunto não terá a mesma probabilidade). Minha "segunda" intuição foi realizar um teste t normal. Ou seja, pegueα=0.05

β11β21sd(β11)

onde é tomado como o valor da minha hipótese nula. Porém, isso não leva em consideração a incerteza de estimativa de , e a resposta pode depender da ordem das regressões (que eu chamo de 1 e 2).β21β21

Minha terceira ideia foi fazê-lo como em um teste padrão para igualdade de dois coeficientes da mesma regressão, que é tomada

β11β21sd(β11β21)

A complicação surge devido ao fato de que ambos vêm de diferentes regressões. Observe que

Var(β11β21)=Var(β11)+Var(β21)2Cov(β11,β21)
mas desde eles são de regressões diferentes, como obteria o ?Cov(β11,β21)

Isso me levou a fazer essa pergunta aqui. Esse deve ser um procedimento padrão / teste padrão, mas não consigo encontrar nada que seja suficientemente semelhante a esse problema. Portanto, se alguém puder me indicar o procedimento correto, ficaria muito grato!

coffeinjunky
fonte
2
Isso parece estar relacionado à modelagem de equações estruturais / simultâneas. Uma maneira de resolver esse problema é ajustar ambas as equações simultaneamente, por exemplo, com máxima verossimilhança e, em seguida, usar um teste de razão de verossimilhança de um modelo restrito (modelo de parâmetro igual) contra um modelo irrestrito. Na prática, isto pode ser feito com o software de SEM (Mplus, lavaan etc)
Tomka
2
Você conhece a Regressão Aparentemente Não Relacionada (SUR)?
precisa saber é o seguinte
2
Penso que a questão do seu aumento, ou seja, como obter a cov de ambos os coeficientes, é resolvida pelo SEM, o que forneceria a matriz var-cov de todos os coeficientes. Em seguida, você poderia usar um teste de Wald da maneira sugerida, em vez de um teste LRT. Além disso, você também pode usar re-sampling / bootstrap, que pode ser mais direto.
Tomka
3
Sim, você está certo sobre isso, @tomka. Em um modelo SUR (que você pode considerar, de maneira geral, um caso especial de modelos SEM), posso fazer o teste apropriado. Obrigado por me apontar nessa direção! Acho que não pensei nisso, porque parece um pouco como atirar em um pardal com um canhão, mas na verdade não consigo pensar em uma maneira melhor. Se você escrever uma resposta, marcarei como correta. Caso contrário, eu mesmo o escreverei em breve, com uma rápida explicação teórica e potencialmente com um exemplo.
coffeinjunky
1
O SUR é muito fácil de implementar. Aqui está um exemplo com o Stata . Com R, você quer o systemfit .
precisa saber é o seguinte

Respostas:

30

Embora essa não seja uma análise comum, é realmente de interesse. A resposta aceita se encaixa na maneira como você fez sua pergunta, mas fornecerei outra técnica razoavelmente bem aceita que pode ou não ser equivalente (deixarei à mente melhor comentar sobre isso).

Essa abordagem é usar o seguinte teste Z:

Z=β1β2(SEβ1)2+(SEβ2)2

Onde é o erro padrão de .SEββ

Esta equação é fornecida por Clogg, CC, Petkova, E., e Haritou, A. (1995). Métodos estatísticos para comparar coeficientes de regressão entre modelos. American Journal of Sociology , 100 (5), 1261-1293. e é citado por Paternoster, R., Brame, R., Mazerolle, P. e Piquero, A. (1998). Usando o teste estatístico correto para igualdade de coeficientes de regressão. Criminology , 36 (4), 859-866. equação 4, que está disponível sem paywall. Adaptei a fórmula de Peternoster para usar vez deβbporque é possível que você esteja interessado em diferentes DVs por algum motivo terrível e minha memória de Clogg et al. foi que sua fórmula usou . Também me lembro de cruzar essa fórmula com Cohen, Cohen, West e Aiken, e a raiz do mesmo pensamento pode ser encontrada no intervalo de confiança das diferenças entre os coeficientes, equação 2.8.6, p. 46-47.β

russellpierce
fonte
Veja também: stats.stackexchange.com/questions/55501/…
russellpierce
Resposta incrível! Uma pergunta de acompanhamento: isso também se aplica a combinações lineares de do Modelo 1 e do Modelo 2? Como,β1β2
Z=Aβ1Bβ2(SEAβ1)2+(SEBβ2)2
Sibbs Gambling
1
Percebo também que o artigo discute o caso em que um modelo está aninhado dentro do outro, e os DVs de dois modelos são iguais. E se essas duas condições não forem atendidas? Em vez disso, tenho matrizes de design dos dois modelos que são iguais, mas eles têm DV diferentes. Essa fórmula ainda se aplica? Muito obrigado!
Sibbs Gambling
1
@SibbsGambling: Você pode fazer disso uma pergunta em si mesma para chamar mais atenção.
22816 russellpierce
Em uma rápida olhada, parece um caso especial da solução SUR sugerida na resposta por coffeinjunky. É um caso especial porque a covariância entre os estimadores de e é implicitamente assumida como zero. Gostaria de saber se é geralmente justificável. Para estar seguro, eu usaria a solução mais geral coffeinjunky. O que me deixa pensando por que essa é a resposta aceita com claramente o maior número de votos. β1β2
Richard Hardy
12

Para pessoas com uma pergunta semelhante, deixe-me fornecer um esboço simples da resposta.

O truque é configurar as duas equações como um sistema de equações aparentemente não relacionadas e calculá-las em conjunto. Ou seja, empilhamos e sobre o outro e fazemos mais ou menos o mesmo com a matriz de design. Ou seja, o sistema a ser estimado é:y1y2

(y1y2)=(X1  00  X2)(β1β2)+(e1e2)

Isso levará a uma matriz de variância-covariância que permite testar a igualdade dos dois coeficientes.

coffeinjunky
fonte
11
Eu implementei da maneira que você sugeriu e comparei com a maneira acima. Descobri que a principal diferença é se a suposição de que a variação de erro é a mesma ou não. Você assume que a variação de erro é a mesma e a maneira acima não assume.
KH Kim
2
Isto funcionou bem para mim. No Stata, fiz algo como: O expand =2, generate(indicator); generate y = cond(indicator, y2, y1); regress y i.indicator##c.X, vce(cluster id); uso de erros padrão em cluster é responsável pelo fato de que e1 e e2 não são independentes para a mesma observação depois de empilhar o conjunto de dados.
wkschwartz
1
  • Quando as regressões vêm de duas amostras diferentes, você pode assumir: que leva à fórmula fornecida em outra resposta.Var(β1β2)=Var(β1)+Var(β2)

  • Mas sua pergunta estava precisamente relacionada ao caso . Nesse caso, equações aparentemente não relacionadas parecem ser o caso mais geral. No entanto, fornecerá coeficientes diferentes daqueles das equações originais, que podem não ser o que você está procurando.covar(β1,β2)0

  • (Clogg, CC, Petkova, E., & Haritou, A. (1995). Métodos estatísticos para comparar coeficientes de regressão entre modelos. American Journal of Sociology, 100 (5), 1261-1293.) Apresenta uma resposta no caso especial de equações aninhadas (ou seja, para obter a segunda equação, considere a primeira equação e adicione algumas variáveis ​​explicativas) Eles dizem que é fácil de implementar.

  • Se bem entendi, neste caso especial, um teste de Haussman também pode ser implementado. A principal diferença é que seu teste considera verdadeira a segunda equação (completa), enquanto o teste de Haussman considera verdadeira a primeira equação.

  • Observe que Clogg et al (1995) não é adequado para dados em painel. Porém, seu teste foi generalizado por (Yan, J., Aseltine Jr, RH, & Harel, O. (2013). Comparando coeficientes de regressão entre modelos lineares aninhados para dados agrupados com equações de estimativa generalizada. (2), 172-189.) Com um pacote fornecido em R: geepack Consulte: https://www.jstor.org/stable/pdf/41999419.pdf?refreqid=excelsior%3Aa0a3b20f2bc68223edb59e3254c234be&seq=1

E (para o pacote R): https://cran.r-project.org/web/packages/geepack/index.html

Alexandre Cazenave-Lacroutz
fonte