Moldando um modelo linear multivariado como uma regressão múltipla

A reformulação de um modelo de regressão linear multivariada como uma regressão linear múltipla é totalmente equivalente? Não estou me referindo a simplesmente executar regressões separadas. $t$

Eu li isso em alguns lugares (Bayesian Data Analysis - Gelman et al. E Multivariate Old School - Marden) que um modelo linear multivariado pode ser facilmente reparametrizado como regressão múltipla. No entanto, nenhuma fonte elabora sobre isso. Eles apenas mencionam isso e continuam usando o modelo multivariado. Matematicamente, vou escrever a versão multivariada primeiro,

\underset{n \times t}{Y} = \underset{n \times k}{X} \underset{k \times t}{B} + \underset{n \times t}{R},

$\underset{n \times t}{\mathbf{Y}} = \underset{n \times k}{\mathbf{X}} \hspace{2mm}\underset{k \times t}{\mathbf{B}} + \underset{n \times t}{\mathbf{R}},$ onde as variáveis em negrito são matrizes com seus tamanhos abaixo delas. Como sempre,

Y

$\mathbf{Y}$ são dados,

X

$\mathbf{X}$ é a matriz de projeto,

R

$\mathbf{R}$ são resíduos normalmente distribuídos e

B

$\mathbf{B}$ é o que estamos interessados em fazer inferências.

Para reparameterizar isso como a regressão linear múltipla familiar, basta reescrever as variáveis como:

\underset{n t \times 1}{y} = \underset{n t \times n k}{D} \underset{n k \times 1}{β} + \underset{n t \times 1}{r},

$\underset{nt \times 1}{\mathbf{y}} = \underset{nt \times nk}{\mathbf{D}} \hspace{2mm} \underset{nk \times 1}{\boldsymbol{\beta}} + \underset{nt \times 1}{\mathbf{r}},$

onde as reparameterizações usadas são , e . significa que as linhas da matriz estão dispostas de ponta a ponta em um vetor longo, e é o produto kronecker, ou externo. $\mathbf{y} = row(\mathbf{Y})$ $\boldsymbol\beta = row(\mathbf{B})$ $\mathbf{D} = \mathbf{X} \otimes \mathbf{I}_{n}$ $row()$ $\otimes$

Então, se isso é tão fácil, por que se preocupar em escrever livros sobre modelos multivariados, estatísticas de teste para eles etc.? É mais eficaz apenas transformar as variáveis primeiro e usar técnicas univariadas comuns. Tenho certeza de que há uma boa razão, só estou tendo dificuldade para pensar em uma, pelo menos no caso de um modelo linear. Existem situações com o modelo linear multivariado e erros aleatórios normalmente distribuídos em que essa reparameterização não se aplica ou limita as possibilidades da análise que você pode realizar?

Fontes que eu já vi isso: Marden - Estatísticas multivariadas: Old School. Veja as seções 5.3 - 5.5. O livro está disponível gratuitamente em: http://istics.net/stat/

Gelman et al. - Análise Bayesiana de Dados. Eu tenho a segunda edição, e nesta versão há um pequeno parágrafo no cap. 19 'Modelos de regressão multivariada' intitulados: "O modelo de regressão univariada equivalente"

Basicamente, você pode fazer tudo com o modelo de regressão linear univariada equivalente que você poderia com o modelo multivariado? Se sim, por que desenvolver métodos para modelos lineares multivariados?

E as abordagens bayesianas?

regression multiple-regression linear-model multivariate-regression bill_e
fonte

É uma boa pergunta. Pode ser que você possa pedir mais em termos de fundações, em vez de uma estrutura.

Subhash C. Davar

O que você quer dizer com fundações e não estrutura? Você poderia elaborar?

bill_e

Pode-se notar que aprendi apenas dois trabalhos como parte do meu primeiro e pós-graduação há muito tempo; não tenho preparação em descrições técnicas. Entendo que a análise multivariada tem diferentes suposições quando comparada com uma regressão linear múltipla ou simplesmente com um modelo de regressão linear. As premissas para a análise multivariada são diferentes, isto é, a expectativa matemática prevalece. a regressão linear múltipla faz certas outras suposições que resultam em heterocedatisticidade. A estrutura aqui quero dizer refere-se às suas equações.

Subhash C. Davar

Você deve dizê-lo claramente no título ou no começo, quer esteja falando de modelo linear multivariado (geral) ou sobre regressão multivariada bayesiana .

ttnphns

Ok, então ... não é minha abordagem, apontei dois lugares em que vi isso. A abordagem é o cerne da questão. Qual é a diferença entre a versão multivariada e a versão univariada reparameterizada?

bill_e

Respostas:

Basicamente, você pode fazer tudo com o modelo de regressão linear univariada equivalente que você poderia com o modelo multivariado?

Eu acredito que a resposta é não.

Se seu objetivo é simplesmente estimar os efeitos (parâmetros em ) ou fazer previsões adicionais com base no modelo, sim, não importa adotar qual formulação de modelo entre os dois. $\mathbf{B}$

Entretanto, para fazer inferências estatísticas especialmente para realizar o teste de significância clássico, a formulação multivariada parece praticamente insubstituível. Mais especificamente, deixe-me usar a análise de dados típica em psicologia como exemplo. Os dados de indivíduos são expressos como $n$

\underset{n \times t}{Y} = \underset{n \times k}{X} \underset{k \times t}{B} + \underset{n \times t}{R},

$\underset{n \times t}{\mathbf{Y}} = \underset{n \times k}{\mathbf{X}} \hspace{2mm}\underset{k \times t}{\mathbf{B}} + \underset{n \times t}{\mathbf{R}},$

onde o variáveis explanatórias (factor e / ou co-variáveis quantitativas) entre sujeitos são codificados como as colunas de , enquanto os níveis de factor de medidas repetidas (ou intra-sujeito) são representados como variáveis simultâneas ou as colunas em . $k-1$ $\mathbf{X}$ $t$ $\mathbf{Y}$

Com a formulação acima, qualquer hipótese linear geral pode ser facilmente expressa como

eu B M = C,

$\mathbf{L} \mathbf{B} \mathbf{M} = \mathbf{C},$

onde é composto pelos pesos entre as variáveis explicativas entre sujeitos, enquanto contém os pesos entre os níveis dos fatores de medidas repetidas, e é uma matriz constante, geralmente . $\mathbf{L}$ $\mathbf{L}$ $\mathbf{C}$ $\mathbf{0}$

A beleza do sistema multivariado reside na sua separação entre os dois tipos de variáveis, entre e dentro do sujeito. É essa separação que permite a formulação fácil de três tipos de teste de significância sob a estrutura multivariada: o teste multivariado clássico, o teste multivariado de medidas repetidas e o teste univariado de medidas repetidas. Além disso, o teste de Mauchly para violação de esfericidade e os métodos de correção correspondentes (Greenhouse-Geisser e Huynh-Feldt) também se tornam naturais para testes univariados no sistema multivariado. É exatamente assim que os pacotes estatísticos implementaram esses testes, como carro em R, GLM no IBM SPSS Statistics e instrução REPEATED no PROC GLM do SAS.

Não tenho tanta certeza se a formulação é importante na análise de dados bayesiana, mas duvido que a capacidade de teste acima possa ser formulada e implementada sob a plataforma univariada.

pólo azul
fonte

Entendo, isso faz sentido. Obrigado pela ótima resposta. Eu adoraria ouvir uma perspectiva bayesiana também.

bill_e

@ PeterRabbit Se você gosta da resposta, expresse sua gratidão ao bluepole aceitando a resposta dele. Ele vai ganhar pontos.

Pteetor 26/12/2013

Eu vou, eu estava apenas esperando um pouco para ver se alguém ofereceria uma perspectiva bayesiana.

bill_e

Ambos os modelos são equivalentes se você ajustar a estrutura de variação-covariância apropriada. No modelo linear transformado, precisamos ajustar a matriz de variação-covariância do componente de erro com o produto kronecker, que tem disponibilidade limitada nos softwares de computação disponíveis. Teoria de modelos lineares - modelos univariados, multivariados e mistos é uma excelente referência para este tópico.

Editado

Aqui está outra boa referência disponível gratuitamente.

MYaseen208
fonte

Ah, ok, portanto, em um modelo univariado normal, não há nenhum tipo de estrutura de covariância "dentro" dos DVs. Portanto, testes de hipóteses preocupados com isso não existem. Obrigado! Vou ver se consigo pegar esse livro.

bill_e