A reformulação de um modelo de regressão linear multivariada como uma regressão linear múltipla é totalmente equivalente? Não estou me referindo a simplesmente executar regressões separadas.
Eu li isso em alguns lugares (Bayesian Data Analysis - Gelman et al. E Multivariate Old School - Marden) que um modelo linear multivariado pode ser facilmente reparametrizado como regressão múltipla. No entanto, nenhuma fonte elabora sobre isso. Eles apenas mencionam isso e continuam usando o modelo multivariado. Matematicamente, vou escrever a versão multivariada primeiro,
Para reparameterizar isso como a regressão linear múltipla familiar, basta reescrever as variáveis como:
onde as reparameterizações usadas são , e \ mathbf {D} = \ mathbf {X} \ otimes \ mathbf {I} _ {n} . row () significa que as linhas da matriz estão dispostas de ponta a ponta em um vetor longo, e \ otimes é o produto kronecker, ou externo.
Então, se isso é tão fácil, por que se preocupar em escrever livros sobre modelos multivariados, estatísticas de teste para eles etc.? É mais eficaz apenas transformar as variáveis primeiro e usar técnicas univariadas comuns. Tenho certeza de que há uma boa razão, só estou tendo dificuldade para pensar em uma, pelo menos no caso de um modelo linear. Existem situações com o modelo linear multivariado e erros aleatórios normalmente distribuídos em que essa reparameterização não se aplica ou limita as possibilidades da análise que você pode realizar?
Fontes que eu já vi isso: Marden - Estatísticas multivariadas: Old School. Veja as seções 5.3 - 5.5. O livro está disponível gratuitamente em: http://istics.net/stat/
Gelman et al. - Análise Bayesiana de Dados. Eu tenho a segunda edição, e nesta versão há um pequeno parágrafo no cap. 19 'Modelos de regressão multivariada' intitulados: "O modelo de regressão univariada equivalente"
Basicamente, você pode fazer tudo com o modelo de regressão linear univariada equivalente que você poderia com o modelo multivariado? Se sim, por que desenvolver métodos para modelos lineares multivariados?
E as abordagens bayesianas?
Respostas:
Eu acredito que a resposta é não.
Se seu objetivo é simplesmente estimar os efeitos (parâmetros em ) ou fazer previsões adicionais com base no modelo, sim, não importa adotar qual formulação de modelo entre os dois.B
Entretanto, para fazer inferências estatísticas especialmente para realizar o teste de significância clássico, a formulação multivariada parece praticamente insubstituível. Mais especificamente, deixe-me usar a análise de dados típica em psicologia como exemplo. Os dados de indivíduos são expressos comon
onde o variáveis explanatórias (factor e / ou co-variáveis quantitativas) entre sujeitos são codificados como as colunas de X , enquanto os t níveis de factor de medidas repetidas (ou intra-sujeito) são representados como variáveis simultâneas ou as colunas em Y .k - 1 X t Y
Com a formulação acima, qualquer hipótese linear geral pode ser facilmente expressa como
onde é composto pelos pesos entre as variáveis explicativas entre sujeitos, enquanto L contém os pesos entre os níveis dos fatores de medidas repetidas, e C é uma matriz constante, geralmente 0 .eu eu C 0 0
A beleza do sistema multivariado reside na sua separação entre os dois tipos de variáveis, entre e dentro do sujeito. É essa separação que permite a formulação fácil de três tipos de teste de significância sob a estrutura multivariada: o teste multivariado clássico, o teste multivariado de medidas repetidas e o teste univariado de medidas repetidas. Além disso, o teste de Mauchly para violação de esfericidade e os métodos de correção correspondentes (Greenhouse-Geisser e Huynh-Feldt) também se tornam naturais para testes univariados no sistema multivariado. É exatamente assim que os pacotes estatísticos implementaram esses testes, como carro em R, GLM no IBM SPSS Statistics e instrução REPEATED no PROC GLM do SAS.
Não tenho tanta certeza se a formulação é importante na análise de dados bayesiana, mas duvido que a capacidade de teste acima possa ser formulada e implementada sob a plataforma univariada.
fonte
Ambos os modelos são equivalentes se você ajustar a estrutura de variação-covariância apropriada. No modelo linear transformado, precisamos ajustar a matriz de variação-covariância do componente de erro com o produto kronecker, que tem disponibilidade limitada nos softwares de computação disponíveis. Teoria de modelos lineares - modelos univariados, multivariados e mistos é uma excelente referência para este tópico.
Editado
Aqui está outra boa referência disponível gratuitamente.
fonte