Explique a diferença entre regressão múltipla e regressão multivariada, com o uso mínimo de símbolos / matemática

Respostas:

54

Muito rapidamente, eu diria: 'múltiplo' se aplica ao número de preditores que entram no modelo (ou equivalentemente na matriz de design) com um único resultado (resposta Y), enquanto 'multivariado' refere-se a uma matriz de vetores de resposta. Não me lembro do autor que inicia sua seção introdutória sobre modelagem multivariada com essa consideração, mas acho que é Brian Everitt em seu livro An Companion R e S-Plus to Analysis Multivariate . Para uma discussão aprofundada sobre isso, sugiro olhar para seu livro mais recente, Modelagem Multivariável e Análise Multivariada para as Ciências do Comportamento .

Para 'variável', eu diria que essa é uma maneira comum de se referir a qualquer variável aleatória que segue uma distribuição conhecida ou hipotética, por exemplo, falamos das variáveis ​​gaussianas como uma série de observações extraídas de uma distribuição normal (com parâmetros e ). Em termos probabilísticos, dissemos que essas são algumas realizações aleatórias de X, com expectativa matemática , e cerca de 95% delas devem estar no intervalo .Xiμσ2μ[μ2σ;μ+2σ]

chl
fonte
11
Mesmo coursera.org/learn/machine-learning/home/week/2 usa a regressão multivariada prazo em vez de regressão múltipla ...
Franck Dernoncourt
Penso que a mesma confusão surge com pessoas que usam o termo GLM para o Modelo Linear Geral (por exemplo, em estudos de neuroimagem) vs. Modelo Linear Generalizado. Eu já vi muitos casos de "regressão logística multivariada" em que há apenas um resultado, e não acho que isso importe tanto tempo, desde que o termo seja claramente definido pelo autor.
chl
39

Aqui estão dois exemplos intimamente relacionados que ilustram as idéias. Os exemplos são um pouco centrados nos EUA, mas as idéias podem ser extrapoladas para outros países.

Exemplo 1

Suponha que uma universidade deseje refinar seus critérios de admissão para que admita alunos 'melhores'. Além disso, suponha que a média de pontos (GPA) da nota de um aluno seja o que a universidade deseja usar como métrica de desempenho para os alunos. Eles têm vários critérios em mente, como GPA no ensino médio (HSGPA), notas no SAT (SAT), gênero etc. e gostariam de saber qual desses critérios é importante no que diz respeito ao GPA.

Solução: Regressão Múltipla

No contexto acima, há uma variável dependente (GPA) e você tem várias variáveis ​​independentes (HSGPA, SAT, Sexo etc.). Você deseja descobrir quais das variáveis ​​independentes são boas preditoras para sua variável dependente. Você usaria regressão múltipla para fazer essa avaliação.

Exemplo 2

Em vez da situação acima, suponha que o escritório de admissões queira acompanhar o desempenho dos alunos ao longo do tempo e deseje determinar qual dos seus critérios impulsiona o desempenho dos alunos ao longo do tempo. Em outras palavras, eles têm notas GPA nos quatro anos em que um aluno permanece na escola (digamos, GPA1, GPA2, GPA3, GPA4) e desejam saber qual das variáveis ​​independentes prediz melhor as pontuações GPA a cada ano. ano. O escritório de admissões espera descobrir que as mesmas variáveis ​​independentes preveem o desempenho em todos os quatro anos, para que a escolha dos critérios de admissão garanta que o desempenho dos alunos seja consistentemente alto nos quatro anos.

Solução: Regressão Multivariada

No exemplo 2, temos várias variáveis ​​dependentes (ou seja, GPA1, GPA2, GPA3, GPA4) e várias variáveis ​​independentes. Em tal situação, você usaria regressão multivariada.


fonte
2
Há sempre aquela que responde adequadamente a questão com exemplos :)
Tjorriemorrie
100% a melhor resposta que você pode realmente entender
Alvis
21

A regressão simples refere-se a uma variável dependente ( ) e a uma variável independente ( ):yxy=f(x)

A regressão múltipla (também conhecida como regressão multivariável) refere-se a uma variável dependente e a várias variáveis ​​independentes:y=f(x1,x2,...,xn)

A regressão multivariada refere-se a várias variáveis ​​dependentes e múltiplas variáveis ​​independentes: . Você pode encontrar problemas em que as variáveis ​​dependentes e independentes são organizadas como matrizes de variáveis ​​(por exemplo, e ), então o A expressão pode ser escrita como , onde letras maiúsculas indicam matrizes.y 11 , Y 12 , . . . x 11 , x 12 , . . . Y = f ( X )y1,y2,...,ym=f(x1,x2,...,xn)y11,y12,...x11,x12,...Y=f(X)

Leitura adicional:

stackoverflowuser2010
fonte
Eu entendo a definição. Mas qual é o efeito de tratar uma regressão multivariada como um sistema de regressões univariadas?
LKS
@LKS: Você pode perguntar isso em uma pergunta completamente separada.
stackoverflowuser2010
A resposta no Quora se refere a esta página? : P
Habeeb Perwad
4

Penso que o principal insight (e diferenciador) aqui, além do número de variáveis ​​em ambos os lados da equação, é que, para o caso de regressão multivariada, o objetivo é utilizar o fato de que existe (geralmente) correlação entre variáveis ​​de resposta (ou resultados). Por exemplo, em um ensaio clínico, os preditores podem ser peso, idade e raça, e as variáveis ​​de resultado são pressão arterial e colesterol. Poderíamos, em teoria, criar dois modelos de "regressão múltipla", um regredindo a pressão sanguínea em peso, idade e raça e um segundo modelo regredindo o colesterol pelos mesmos fatores. No entanto, em alternativa, poderíamos criar um único modelo de regressão multivariada que prevê tantopressão arterial e colesterol simultaneamente com base nas três variáveis ​​preditoras. A idéia é que o modelo de regressão multivariada pode ser melhor (mais preditivo), na medida em que ele pode aprender mais com a correlação entre pressão arterial e colesterol em pacientes.

thecity2
fonte
Ótimo ponto. Fiquei pensando se a regressão multivariada pode ser feita com R. Usando o Manova, sou capaz de fazer ANOVA multivariada, mas não sou capaz de obter coeficientes como a regressão univariada.
KarthikS
1

Na regressão multivariada, há mais de uma variável dependente com diferentes variações (ou distribuições). As variáveis ​​preditoras podem ser mais de uma ou múltiplas. Portanto, pode ser uma regressão múltipla com uma matriz de variáveis ​​dependentes, ou seja, múltiplas variações. Mas quando dizemos regressão múltipla, queremos dizer apenas uma variável dependente com uma única distribuição ou variação. As variáveis ​​preditoras são mais de uma. Resumir múltiplas refere-se a mais de uma variável preditora, mas multivariada refere-se a mais de uma variável dependente.

Bhabesh Mahanta
fonte