Regressão linear multivariada vs. vários modelos de regressão univariados

11

Nas configurações de regressão univariada, tentamos modelar

y=Xβ+noise

onde um vetor de observações e a matriz de design com preditores. A solução é . n X R n × m m β 0 = ( X T X ) - 1 X yyRnnXRn×mmβ0=(XTX)1Xy

Nas configurações de regressão multivariada, tentamos modelar

Y=Xβ+noise

onde é uma matriz de observações diferentes variáveis ​​latentes. A solução é . n p β 0 = ( X T X ) - 1 X YyRn×pnpβ0=(XTX)1XY

Minha pergunta é: como isso é diferente de executar regressão linear univariada diferente? Li aqui que, no último caso, levamos em consideração a correlação entre as variáveis ​​dependentes, mas não a vejo na matemática.p

Roy
fonte
1
Veja o teorema de Frisch-Waugh-Lovell.
rsm
1
@amorfati: Então, se eu entendi direito, eles são os mesmos. Por que as pessoas os tratam de maneira diferente?
Roy

Respostas:

6

No cenário da regressão linear multivariada clássica, temos o modelo:

Y=Xβ+ϵ

onde representa as variáveis ​​independentes, representa variáveis ​​de resposta múltipla e é um termo de ruído gaussiano iid. O ruído tem média zero e pode ser correlacionado entre as variáveis ​​de resposta. A solução de probabilidade máxima para os pesos é equivalente à solução de mínimos quadrados (independentemente das correlações de ruído) [1] [2]:Y ϵXYϵ

β^=(XTX)1XTY

Isso é equivalente a resolver independentemente um problema de regressão separado para cada variável de resposta. Isso pode ser observado pelo fato de que a coluna de (contendo pesos para a variável de saída) pode ser obtida multiplicando pelo th coluna de (contendo valores da ésima variável de resposta).p i ( X T X ) - 1 X t i Y iiβ^i(XTX)1XTiYi

No entanto, a regressão linear multivariada difere da solução de problemas de regressão individuais separadamente, porque os procedimentos de inferência estatística são responsáveis ​​pelas correlações entre as variáveis ​​de resposta múltipla (por exemplo, consulte [2], [3], [4]). Por exemplo, a matriz de covariância de ruído aparece em distribuições de amostragem, estatísticas de teste e estimativas de intervalo.

Outra diferença surge se permitirmos que cada variável de resposta tenha seu próprio conjunto de covariáveis:

Yi=Xiβi+ϵi

onde representa a ésima variável de resposta e e representam seu conjunto correspondente de covariáveis ​​e termos de ruído. Como acima, os termos de ruído podem ser correlacionados entre as variáveis ​​de resposta. Nesse cenário, existem estimadores que são mais eficientes do que mínimos quadrados e não podem ser reduzidos para resolver problemas de regressão separados para cada variável de resposta. Por exemplo, veja [1]. i X i ε iYiiXiϵi

Referências

  1. Zellner (1962) . Um método eficiente de estimar regressões e testes aparentemente não relacionados para viés de agregação.
  2. Helwig (2017) . Regressão linear multivariada [Slides]
  3. Fox e Weisberg (2011) . Modelos lineares multivariados em R. [Apêndice a: Um companheiro R para regressão aplicada]
  4. Maitra (2013) . Modelos de regressão linear multivariada. [Slides]
user20160
fonte
1
Obrigado, está mais claro agora. Você tem uma referência para esta formulação? Eu encontrei apenas a forma menos quadrada. Além disso, você conhece um pacote Python que implementa isso?
Roy
1
Segundo a solicitação de referência. Considera-se que a correlação é apenas a covariância dos resultados, ou se aprende algum tipo de covariância condicional?
generic_user
Não tenho 100% de certeza de que @ user20160 estava se referindo a eles, mas acho que eles tinham em mente a estimativa de equações / equações de estimativa generalizada. EE / GEE são consistentes quando a estrutura de covariância é especificada incorretamente e você também pode definir a estrutura de covariância esperada. No entanto, esses modelos são estimados iterativamente em oposição ao OLS com um formulário fechado. Você deve estimar o GEE / EE em Python, mas eu não conheço os pacotes.
Iacobus
1
@Roy reescrevi a resposta e adicionei referências. Minha postagem original estava assumindo o caso que agora é o último parágrafo da postagem revisada. Vou tentar adicionar mais detalhes mais tarde.
user20160