Por que precisamos de regressão multivariada (em oposição a várias regressões univariadas)?

28

Acabei de ler este livro maravilhoso: Análise estatística multivariada aplicada por Johnson e Wichern . A ironia é que ainda não sou capaz de entender a motivação para o uso de modelos multivariados (regressão), em vez de modelos univariados separados (regressão). Passei pelas postagens stats.statexchange 1 e 2 que explicam (a) diferença entre regressão múltipla e multivariada e (b) interpretação dos resultados da regressão multivariada, mas não consigo ajustar o uso de modelos estatísticos multivariados de todas as informações fique online sobre eles.

Minhas perguntas são:

  1. Por que precisamos de regressão multivariada? Qual é a vantagem de considerar os resultados simultaneamente e não individualmente, a fim de extrair inferências.
  2. Quando usar modelos multivariados e quando usar vários modelos univariados (para vários resultados).
  3. Tomemos um exemplo dado no site da UCLA com três resultados: lócus de controle, autoconceito e motivação. Com relação a 1. e 2., podemos comparar a análise quando fazemos três regressões múltiplas univariadas versus uma regressão múltipla multivariada? Como justificar um sobre o outro?
  4. Não encontrei muitos trabalhos acadêmicos que utilizam modelos estatísticos multivariados. Isso se deve à premissa de normalidade multivariada, à complexidade do ajuste / interpretação do modelo ou a qualquer outro motivo específico?
KarthikS
fonte
18
Modelos univariados separados ignoram correlações.
precisa saber é o seguinte
3
Sim, existem muitos fenômenos no mundo que não podem ser modelados por variáveis ​​aleatórias independentes.
Michael R. Chernick
2
@jwimberley Você poderia expandir as consequências de ignorar essas correlações em uma resposta?
precisa saber é o seguinte
2
Apenas uma observação no título: redução de dimensionalidade (PCA, análise fatorial, qualquer método não linear, etc.) e clustering também são geralmente considerados métodos "multivariados". Parece que sua pergunta está focada especificamente na regressão multivariada (versus várias regressões univariadas), então sugiro que você a coloque diretamente em seu título. +1 btw.
ameba diz Restabelecer Monica
2
Um exemplo simples de como o MANOVA pode ser benéfico em oposição aos ANOVAs: stats.stackexchange.com/questions/129123 . Uma situação oposta em que MANOVA ainda é benéfico, mas por um motivo diferente: stats.stackexchange.com/questions/61921 . Portanto, o MANOVA pode: (i) fornecer mais potência, (ii) controlar a taxa de erro geral.
ameba diz Restabelecer Monica

Respostas:

22

Você leu o exemplo completo no site da UCLA que você vinculou?

Em relação a 1: o
uso de um modelo multivariado ajuda você (formalmente, inferencialmente) a comparar coeficientes entre os resultados.
Nesse exemplo vinculado, eles usam o modelo multivariado para testar se o writecoeficiente é significativamente diferente para o locus_of_controlresultado versus o self_conceptresultado. Não sou psicólogo, mas presumivelmente é interessante perguntar se sua capacidade de escrever afeta / prediz duas variáveis ​​psicológicas diferentes da mesma maneira. (Ou, se não acreditamos no nulo, ainda é interessante perguntar se você coletou dados suficientes para demonstrar de forma convincente que os efeitos realmente diferem.)
Se você executasse análises univariadas separadas, seria mais difícil comparar owritecoeficiente entre os dois modelos. Ambas as estimativas viriam do mesmo conjunto de dados e, portanto, seriam correlacionadas. O modelo multivariado é responsável por essa correlação.

Além disso, em relação a 4:
Não são alguns modelos multivariados muito vulgarmente usados, tais como as medidas repetidas ANOVA . Com um desenho de estudo apropriado, imagine que você administra cada um dos vários medicamentos a cada paciente e mede a saúde de cada paciente após cada medicamento. Ou imagine que você mede o mesmo resultado ao longo do tempo, como nos dados longitudinais, como a altura das crianças ao longo do tempo. Então você tem vários resultados para cada unidade (mesmo quando são apenas repetições do "mesmo" tipo de medida). Você provavelmente desejará fazer pelo menos alguns contrastes simples: comparando os efeitos da droga A versus a droga B ou os efeitos médios das drogas A e B versus placebo. Para isso, a ANOVA de medidas repetidas é um modelo / análise estatística multivariada apropriada.

civilstat
fonte
11
Você deu uma ótima resposta. Eu estava definitivamente ciente de que há um mundo de outros exemplos e argumentos que poderiam ser feitos. Eu gosto que você pegou as informações do link da UCLA para mostrar o OP. Sinceramente, fiquei inicialmente ofendido com a pergunta, mas decidi dar uma resposta quando percebi que o OP queria sinceramente apresentar bons argumentos e não insistia na idéia de ignorar métodos multivariados. Minha escolha foi mostrar exemplos em que ignorar a correlação teve resultados reais devastadores e fatais.
Michael R. Chernick
11
Congratulo-me com a sua resposta e espero que respostas mais bem pensadas que farão desta uma discussão valiosa.
Michael R. Chernick
Obrigado pela ótima resposta, @civilstat. No ponto 1, se executarmos dois modelos univariados independentes, você mencionou que o coeficiente da variável de entrada ( writepor exemplo, coeficiente) seria correlacionado e o modelo multivariado é responsável pelo mesmo. Aqui é onde eu gostaria de obter mais compreensão. locus_of_control e self_concept podem ser mesclados em uma única medida usando análise fatorial ou outras técnicas e a medida resultante pode ser modelada, se houver motivação adequada. Se ambos medem dois psiques diferentes. fenômenos, o que ganhamos ao modelá-los simultaneamente?
KarthikS
2
@ManuelFazio Veja a próxima frase no site da UCLA: "Então, por que realizar uma regressão multivariada? Como mencionamos anteriormente, uma das vantagens do uso do mvreg é que você pode realizar testes dos coeficientes nas diferentes variáveis ​​de resultado". Se você executasse regressões separadas, obteria o mesmo coeficiente e SE para cada resultado , mas não obteria uma estimativa da correlação entre os coeficientes entre os resultados . Você precisaria dessa correlação se, por exemplo, desejasse obter um IC para a diferença de coeficientes de leitura para o resultado da motivação versus o resultado do autoconceito.
civilstat
11
@civilstat Ah, que vergonha, a suposição de independência estava tão arraigada em minha mente que não deu um clique mesmo depois que eu li a frase. Obrigado pela explicação extensa!
zipzapboing
11

Pense em todas as conclusões falsas e às vezes perigosas que surgem da simples multiplicação de probabilidades; os eventos de pensamento são independentes. Por causa de todas as salvaguardas redundantes, colocamos em nossas usinas nucleares especialistas usando a premissa de independência nos disse que a chance de um grande acidente nuclear era infinitesimal. Mas, como vimos em Three Mile Island, os humanos cometem erros correlatos, especialmente quando estão em pânico por causa de um erro inicial que rapidamente pode se agravar. Pode ser difícil construir um modelo multivariado realista que caracterize o comportamento humano, mas é claro que é possível perceber o efeito de um modelo horrível (erros independentes).

Existem muitos outros exemplos possíveis. Vou considerar o desastre do Challenger Shuttle como outro exemplo possível. A questão era se lançaria ou não em condições de baixa temperatura. Havia alguns dados para sugerir que os o-rings poderiam falhar em baixas temperaturas. Mas não havia muitos dados das missões passadas para deixar claro o quão alto era o risco. A NASA sempre se preocupou com a segurança dos astronautas e muitas redundâncias foram projetadas na nave espacial e lançaram veículos para tornar as missões seguras.

No entanto, antes de 1986, havia algumas falhas no sistema e quase falhas, provavelmente devido à não identificação de todos os modos de falha possíveis (uma tarefa difícil). A modelagem de confiabilidade é um negócio difícil. Mas isso é outra história. No caso do ônibus espacial, o fabricante dos anéis de vedação (Morton Thiokol) havia feito alguns testes dos anéis de vedação que indicavam a possibilidade de falha a baixa temperatura.

Mas os dados de um número limitado de missões mostraram alguma relação entre temperatura e falha, mas como a redundância levou alguns administradores a pensar que várias falhas no anel circular não aconteceriam, eles pressionaram a NASA a lançar.

Claro que havia muitos outros fatores que levaram à decisão. Lembre-se de como o Presidente Reagan estava tão ansioso para colocar um professor no espaço , a fim de demonstrar que agora era seguro o suficiente para que pessoas comuns que não fossem astronautas pudessem viajar com segurança no ônibus espacial. Portanto, a pressão política foi outro grande fator que afetou a decisão. Nesse caso, com dados suficientes e um modelo multivariado, o risco poderia ter sido melhor demonstrado. A NASA costuma tentar errar por precaução. Nesse caso, adiar o lançamento por alguns dias até que o clima esquentasse na Flórida teria sido prudente.

Comissões pós-desastre, engenheiros, cientistas e estatísticos fizeram uma grande quantidade de análises e artigos foram publicados. Seus pontos de vista podem diferir dos meus. Edward Tufte mostrou em uma de suas séries de livros sobre gráficos que bons gráficos poderiam ter sido mais convincentes. Mas no final, embora todas essas análises tenham mérito, acho que a política ainda teria vencido.

A moral dessas histórias não é que esses desastres motivaram o uso de métodos multivariados, mas que análises ruins que ignoraram a dependência às vezes levam a subestimações grosseiras de risco. Isso pode levar ao excesso de confiança que pode ser perigoso. Como jwimberley apontou no primeiro comentário para este tópico "Modelos univariados separados ignoram correlações".

Michael R. Chernick
fonte
Obrigado pelo seu exemplo maravilhoso, @ MichaelChernick. A suposição de independência é preocupante, eu entendo. Sou mais inquisitivo sobre a inter-relação entre resultados e a necessidade de modelá-los simultaneamente.
KarthikS
Vamos dar o exemplo do desastre do ônibus espacial Challenger. Aqui, o resultado univariado é binário - seja seguro ou não iniciar o ônibus espacial. Considere o modelo tentando fazer muitas coisas, como prever segurança, medir desvios de trajetória e prever pressão interna para o vaivém. Uma abordagem poderia ser a criação de modelos separados para cada um deles, e a outra poderia considerar um modelo completo que não apenas tenta capturar os efeitos das entradas (temperatura, umidade, etc.), mas também verifica a simultânea efeitos sobre os resultados.
KarthikS
11
Obrigado @MichaelChernick. Não sei se entendi completamente seus argumentos. Entendo que muitos de nós usamos regressão univariada e multivariada para regressão linear simples com entrada única e mais de uma variável de entrada (onde os efeitos simultâneos de mais de uma entrada são examinados nesse caso). Mas eu enquadrei essa pergunta para modelos com um resultado (univariado) ou mais de um resultado (multivariado). Se o caso Challenger não aludir a um caso de uso de resultado multivariado, você poderá aludir a um válido. Obrigado por continuar a discussão.
KarthikS
Estou surpreso que você tenha dado uma recompensa a essa questão. As recompensas são feitas com mais frequência quando recebe poucos comentários e, se contém respostas, elas não cobrem algum aspecto importante das perguntas. Esta discussão teve três boas respostas e muitos comentários (realmente bons também como o primeiro de jwimberley.
Michael R. Chernick
Não sei o que mais você quer. A questão é muito ampla e parece ser mais uma discussão do que técnica. Quase me parece que você está tentando convencer alguém a dizer que a análise univariada sozinha é aceitável em situações complexas. Não vou tentar a recompensa e será interessante ver nos próximos sete dias alguém tentar e, se o fizerem, você aceitará. O desastre do Challenger pode ser visto como um resultado univariado, mas não creio que, por qualquer extensão da imaginação, possa ser completamente respondida por métodos univariados.
Michael R. Chernick
7

Considere esta citação da p. 36 do livro de Darcy Olsen, O direito de tentar [1]:

Porém, cerca de dezesseis semanas após o início das infusões [eteplirsen], Jenn começou a notar mudanças no [seu filho] Max. "O garoto parou de querer usar a cadeira de rodas", diz ela. Algumas semanas depois, ele estava pedindo para jogar fora - algo que ele não fazia há anos. Então Max começou a recuperar suas habilidades motoras finas. Ele conseguiu abrir os contêineres novamente - uma habilidade que havia perdido à medida que sua distrofia muscular de Duchenne progredia.

A mãe de Max, Jenn, está construindo uma imagem coerente de sua melhoria, reunindo evidências de vários resultados que individualmente podem ser descartados como 'ruído', mas que juntos são bastante convincentes. (Este princípio de síntese de evidências faz parte do motivo pelo qual os pediatras nunca descartam as inferências instintivas dos pais de que "algo está errado com meu filho". Os pais têm acesso a uma 'análise longitudinal multivariada' de seus filhos muito mais ricos que o 'oligovariado' análise transversal acessível a um clínico durante um único e breve encontro clínico.)

p>0,05

Atingir essa síntese de evidências é a lógica principal da análise de resultados multivariados em ensaios clínicos. Métodos estatísticos em pesquisa médica tiveram uma edição especial há alguns anos [2] dedicada à 'Modelagem Conjunta' de resultados multivariados.

  1. Olsen, Darcy. O direito de experimentar: como o governo federal impede que os americanos obtenham os tratamentos que salvam vidas que precisam. Primeira edição. Nova York, NY: Harper, uma impressão da HarperCollins Publishers, 2015.
  2. Rizopoulos, Dimitris e Emmanuel Lesaffre. “Introdução à edição especial sobre técnicas de modelagem conjunta.” Métodos estatísticos em pesquisa médica 23, no. 1 (1 de fevereiro de 2014): 3–10. doi: 10.1177 / 0962280212445800.
David C. Norris
fonte
6

Vamos fazer uma analogia simples, já que é tudo o que realmente posso tentar contribuir. Em vez de regressão univariada versus multivariada, vamos considerar distribuições univariadas (marginais) versus multivariadas (conjuntas). Digamos que possuo os seguintes dados e desejo encontrar "outliers". Como primeira abordagem, eu poderia usar as duas distribuições marginais ("univariadas") e traçar linhas nos 2,5% inferiores e nos 2,5% superiores de cada um, independentemente. Os pontos que ficam fora das linhas resultantes são considerados outliers.

Mas duas coisas: 1) o que pensamos dos pontos que estão fora das linhas para um eixo, mas dentro das linhas para o outro eixo? Eles são "outliers parciais" ou algo assim? E 2) a caixa resultante não parece estar realmente fazendo o que queremos. A razão é, é claro, que as duas variáveis ​​estão correlacionadas, e o que desejamos intuitivamente é encontrar discrepâncias que sejam incomuns, considerando as variáveis ​​combinadas.

Nesse caso, examinamos a distribuição conjunta e codifiquei os pontos por cores, se a distância de Mahalanobis do centro está dentro dos 5% superiores ou não. Os pontos pretos se parecem muito com discrepâncias, mesmo que algumas discrepâncias fiquem dentro de ambos os conjuntos de linhas verdes e algumas não discrepantes (vermelhas) estejam fora dos dois conjuntos de linhas verdes.

Nos dois casos, delimitamos 95% versus 5%, mas a segunda técnica é responsável pela distribuição conjunta. Eu acredito que a regressão multivariada é assim, onde você substitui "regressão" por "distribuição". Não entendo totalmente e não precisei (pelo que entendi) de fazer regressão multivariada, mas é assim que penso.

[A analogia tem problemas: a distância de Mahalanobis reduz duas variáveis ​​para um único número - algo como o modo como uma regressão univariada leva um conjunto de variáveis ​​independentes e pode, com as técnicas corretas, levar em consideração covariâncias entre as variáveis ​​independentes e resultados em uma única variável dependente - enquanto uma regressão multivariada resulta em várias variáveis ​​dependentes. Portanto, é meio atrasado, mas esperançosamente avançado o suficiente para dar alguma intuição.]

insira a descrição da imagem aqui

Wayne
fonte
11
Eu gosto disso. Eu usaria as elipses externas para definir os outliers. Como vejo sua ilustração, um ponto pode estar longe da média na direção x ou y, mas ainda estar dentro de uma elipse que não está longe da linha de regressão.
Michael R. Chernick
3

1) A natureza nem sempre é simples. De fato, a maioria dos fenômenos (resultados) que estudamos depende de múltiplas variáveis ​​e de maneira complexa. Um modelo inferencial baseado em uma variável de cada vez provavelmente terá um alto viés.

2) Modelos univariados são o modelo mais simples que você pode construir, por definição. Tudo bem se você estiver investigando um problema pela primeira vez e quiser entender seu recurso único e mais essencial. Mas se você quiser uma compreensão mais profunda, uma compreensão que você pode realmente aproveitar porque confia no que está fazendo, usaria análises multivariadas. E entre os multivariados, você deve preferir os que entendem os padrões de correlação, se se preocupa com a precisão do modelo.

3) Desculpe, não há tempo para ler este.

4) Trabalhos usando técnicas multivariadas são muito comuns atualmente - mesmo extremamente comuns em alguns campos. Nas experiências do CERN usando os dados do Large Hadron Collider (para dar um exemplo da física de partículas), mais da metade das centenas de artigos publicados a cada ano usam técnicas multivariadas de uma maneira ou de outra

https://inspirehep.net/search?ln=en&ln=en&p=find+cn+cms+&of=hb&action_search=Search&sf=earliestdate&so=d&rm=&rg=25&sc=0

famargar
fonte
Eu acho que você quer dizer que o modelo univariado é aquele com apenas entrada e o modelo multivariado com entradas múltiplas. Minha pergunta era sobre vários resultados analisados ​​simultaneamente em um modelo.
precisa saber é o seguinte
11
Você misturou regressão multivariada / univariada com regressão múltipla / única.
Firebug
1

Minha resposta depende do que você deseja fazer com a regressão. Se você está tentando comparar o efeito de diferentes coeficientes, a regressão pode não ser a ferramenta certa para você. Se você está tentando fazer previsões usando coeficientes diferentes que você provou serem independentes, talvez deva usar regressão múltipla.

Os fatores estão correlacionados? Nesse caso, uma regressão multivariada pode fornecer um modelo ruim e você deve usar um método como VIFs ou regressão de crista para aparar correlações cruzadas. Você não deve comparar os coeficientes até que os fatores correlacionados sejam eliminados. Fazer isso levará ao desastre. Se eles não estiverem correlacionados, os coeficientes multivariados devem ser tão comparáveis ​​quanto os coeficientes univariados, e isso não deve ser surpreendente.

O resultado também pode depender do pacote de software que você está usando. Eu não estou a brincar. Pacotes de software diferentes têm métodos diferentes para calcular a regressão multivariada. (Não acredita em mim? Confira como as calcula padrão pacote R regressão R 2 com e sem forçar a origem como a interceptação. Sua mandíbula deve bater no chão.) Você precisa entender como o pacote de software está realizando a regressão. Como é compensar as correlações cruzadas? Está executando uma solução seqüencial ou matricial? Eu tive frustrações com isso no passado. Sugiro realizar sua regressão múltipla em diferentes pacotes de software e ver o que você obtém.

Outro bom exemplo aqui:

Observe que nesta equação, os coeficientes de regressão (ou coeficientes B) representam as contribuições independentes de cada variável independente para a previsão da variável dependente. Outra maneira de expressar esse fato é dizer que, por exemplo, a variável X1 está correlacionada com a variável Y, depois de controlar todas as outras variáveis ​​independentes. Esse tipo de correlação também é referido como correlação parcial (esse termo foi usado pela primeira vez por Yule, 1907). Talvez o exemplo a seguir esclareça esse problema. Você provavelmente encontrará uma correlação negativa significativa entre o comprimento e a altura do cabelo na população (ou seja, pessoas baixas têm cabelos mais longos). A princípio, isso pode parecer estranho; no entanto, se adicionarmos a variável Gender à equação de regressão múltipla, essa correlação provavelmente desaparecerá. Isso ocorre porque as mulheres, em média, têm cabelos mais longos que os homens; eles também são mais curtos do que os homens. Assim, depois de removermos essa diferença de gênero inserindo Gênero na equação, a relação entre comprimento e altura do cabelo desaparece porque o comprimento do cabelo não contribui de maneira única para a previsão da altura, acima e além do que ele compartilha na previsão com a variável Gender . Em outras palavras, depois de controlar a variável Sexo, a correlação parcial entre comprimento e altura do cabelo é zero. a relação entre comprimento e altura do cabelo desaparece porque o comprimento do cabelo não contribui de maneira única para a previsão da altura, acima e além do que ele compartilha na previsão com a variável Sexo. Em outras palavras, depois de controlar a variável Sexo, a correlação parcial entre comprimento e altura do cabelo é zero. a relação entre comprimento e altura do cabelo desaparece porque o comprimento do cabelo não contribui de maneira única para a previsão da altura, acima e além do que ele compartilha na previsão com a variável Sexo. Em outras palavras, depois de controlar a variável Sexo, a correlação parcial entre comprimento e altura do cabelo é zero. http://www.statsoft.com/Textbook/Multiple-Regression

Existem tantas armadilhas usando a regressão múltipla que tento evitar usá-la. Se você for usá-lo, tenha muito cuidado com os resultados e verifique-os duas vezes. Você sempre deve plotar os dados visualmente para verificar a correlação. (Só porque o seu programa de software disse que não havia correlação, não significa que não exista. Correlações interessantes ) Sempre verifique seus resultados com o senso comum. Se um fator mostra uma forte correlação em uma regressão univariada, mas nenhum em multivariada, você precisa entender o motivo antes de compartilhar os resultados (o fator de gênero acima é um bom exemplo).

Maddenker
fonte
Veja como o pacote de regressão R padrão calcula R2 com e sem forçar a origem como interceptação. ” Embora seja potencialmente confuso para quem não espera, o que R faz nessa situação é a abordagem padrão implementada em literalmente todos os softwares de estatísticas pacote onde eu verifiquei isso.
Jake Westfall
Interessante. Vi trabalhos publicados de analistas que não entendiam essa diferença. Você já viu uma boa discussão online sobre o assunto? Devo enviar uma nova pergunta ao CV sobre ela?
Maddenker