Acabei de ler este livro maravilhoso: Análise estatística multivariada aplicada por Johnson e Wichern . A ironia é que ainda não sou capaz de entender a motivação para o uso de modelos multivariados (regressão), em vez de modelos univariados separados (regressão). Passei pelas postagens stats.statexchange 1 e 2 que explicam (a) diferença entre regressão múltipla e multivariada e (b) interpretação dos resultados da regressão multivariada, mas não consigo ajustar o uso de modelos estatísticos multivariados de todas as informações fique online sobre eles.
Minhas perguntas são:
- Por que precisamos de regressão multivariada? Qual é a vantagem de considerar os resultados simultaneamente e não individualmente, a fim de extrair inferências.
- Quando usar modelos multivariados e quando usar vários modelos univariados (para vários resultados).
- Tomemos um exemplo dado no site da UCLA com três resultados: lócus de controle, autoconceito e motivação. Com relação a 1. e 2., podemos comparar a análise quando fazemos três regressões múltiplas univariadas versus uma regressão múltipla multivariada? Como justificar um sobre o outro?
- Não encontrei muitos trabalhos acadêmicos que utilizam modelos estatísticos multivariados. Isso se deve à premissa de normalidade multivariada, à complexidade do ajuste / interpretação do modelo ou a qualquer outro motivo específico?
Respostas:
Você leu o exemplo completo no site da UCLA que você vinculou?
Em relação a 1: o
uso de um modelo multivariado ajuda você (formalmente, inferencialmente) a comparar coeficientes entre os resultados.
Nesse exemplo vinculado, eles usam o modelo multivariado para testar se o
write
coeficiente é significativamente diferente para olocus_of_control
resultado versus oself_concept
resultado. Não sou psicólogo, mas presumivelmente é interessante perguntar se sua capacidade de escrever afeta / prediz duas variáveis psicológicas diferentes da mesma maneira. (Ou, se não acreditamos no nulo, ainda é interessante perguntar se você coletou dados suficientes para demonstrar de forma convincente que os efeitos realmente diferem.)Se você executasse análises univariadas separadas, seria mais difícil comparar o
write
coeficiente entre os dois modelos. Ambas as estimativas viriam do mesmo conjunto de dados e, portanto, seriam correlacionadas. O modelo multivariado é responsável por essa correlação.Além disso, em relação a 4:
Não são alguns modelos multivariados muito vulgarmente usados, tais como as medidas repetidas ANOVA . Com um desenho de estudo apropriado, imagine que você administra cada um dos vários medicamentos a cada paciente e mede a saúde de cada paciente após cada medicamento. Ou imagine que você mede o mesmo resultado ao longo do tempo, como nos dados longitudinais, como a altura das crianças ao longo do tempo. Então você tem vários resultados para cada unidade (mesmo quando são apenas repetições do "mesmo" tipo de medida). Você provavelmente desejará fazer pelo menos alguns contrastes simples: comparando os efeitos da droga A versus a droga B ou os efeitos médios das drogas A e B versus placebo. Para isso, a ANOVA de medidas repetidas é um modelo / análise estatística multivariada apropriada.
fonte
write
por exemplo, coeficiente) seria correlacionado e o modelo multivariado é responsável pelo mesmo. Aqui é onde eu gostaria de obter mais compreensão. locus_of_control e self_concept podem ser mesclados em uma única medida usando análise fatorial ou outras técnicas e a medida resultante pode ser modelada, se houver motivação adequada. Se ambos medem dois psiques diferentes. fenômenos, o que ganhamos ao modelá-los simultaneamente?Pense em todas as conclusões falsas e às vezes perigosas que surgem da simples multiplicação de probabilidades; os eventos de pensamento são independentes. Por causa de todas as salvaguardas redundantes, colocamos em nossas usinas nucleares especialistas usando a premissa de independência nos disse que a chance de um grande acidente nuclear era infinitesimal. Mas, como vimos em Three Mile Island, os humanos cometem erros correlatos, especialmente quando estão em pânico por causa de um erro inicial que rapidamente pode se agravar. Pode ser difícil construir um modelo multivariado realista que caracterize o comportamento humano, mas é claro que é possível perceber o efeito de um modelo horrível (erros independentes).
Existem muitos outros exemplos possíveis. Vou considerar o desastre do Challenger Shuttle como outro exemplo possível. A questão era se lançaria ou não em condições de baixa temperatura. Havia alguns dados para sugerir que os o-rings poderiam falhar em baixas temperaturas. Mas não havia muitos dados das missões passadas para deixar claro o quão alto era o risco. A NASA sempre se preocupou com a segurança dos astronautas e muitas redundâncias foram projetadas na nave espacial e lançaram veículos para tornar as missões seguras.
No entanto, antes de 1986, havia algumas falhas no sistema e quase falhas, provavelmente devido à não identificação de todos os modos de falha possíveis (uma tarefa difícil). A modelagem de confiabilidade é um negócio difícil. Mas isso é outra história. No caso do ônibus espacial, o fabricante dos anéis de vedação (Morton Thiokol) havia feito alguns testes dos anéis de vedação que indicavam a possibilidade de falha a baixa temperatura.
Mas os dados de um número limitado de missões mostraram alguma relação entre temperatura e falha, mas como a redundância levou alguns administradores a pensar que várias falhas no anel circular não aconteceriam, eles pressionaram a NASA a lançar.
Claro que havia muitos outros fatores que levaram à decisão. Lembre-se de como o Presidente Reagan estava tão ansioso para colocar um professor no espaço , a fim de demonstrar que agora era seguro o suficiente para que pessoas comuns que não fossem astronautas pudessem viajar com segurança no ônibus espacial. Portanto, a pressão política foi outro grande fator que afetou a decisão. Nesse caso, com dados suficientes e um modelo multivariado, o risco poderia ter sido melhor demonstrado. A NASA costuma tentar errar por precaução. Nesse caso, adiar o lançamento por alguns dias até que o clima esquentasse na Flórida teria sido prudente.
Comissões pós-desastre, engenheiros, cientistas e estatísticos fizeram uma grande quantidade de análises e artigos foram publicados. Seus pontos de vista podem diferir dos meus. Edward Tufte mostrou em uma de suas séries de livros sobre gráficos que bons gráficos poderiam ter sido mais convincentes. Mas no final, embora todas essas análises tenham mérito, acho que a política ainda teria vencido.
A moral dessas histórias não é que esses desastres motivaram o uso de métodos multivariados, mas que análises ruins que ignoraram a dependência às vezes levam a subestimações grosseiras de risco. Isso pode levar ao excesso de confiança que pode ser perigoso. Como jwimberley apontou no primeiro comentário para este tópico "Modelos univariados separados ignoram correlações".
fonte
Considere esta citação da p. 36 do livro de Darcy Olsen, O direito de tentar [1]:
A mãe de Max, Jenn, está construindo uma imagem coerente de sua melhoria, reunindo evidências de vários resultados que individualmente podem ser descartados como 'ruído', mas que juntos são bastante convincentes. (Este princípio de síntese de evidências faz parte do motivo pelo qual os pediatras nunca descartam as inferências instintivas dos pais de que "algo está errado com meu filho". Os pais têm acesso a uma 'análise longitudinal multivariada' de seus filhos muito mais ricos que o 'oligovariado' análise transversal acessível a um clínico durante um único e breve encontro clínico.)
Atingir essa síntese de evidências é a lógica principal da análise de resultados multivariados em ensaios clínicos. Métodos estatísticos em pesquisa médica tiveram uma edição especial há alguns anos [2] dedicada à 'Modelagem Conjunta' de resultados multivariados.
fonte
Vamos fazer uma analogia simples, já que é tudo o que realmente posso tentar contribuir. Em vez de regressão univariada versus multivariada, vamos considerar distribuições univariadas (marginais) versus multivariadas (conjuntas). Digamos que possuo os seguintes dados e desejo encontrar "outliers". Como primeira abordagem, eu poderia usar as duas distribuições marginais ("univariadas") e traçar linhas nos 2,5% inferiores e nos 2,5% superiores de cada um, independentemente. Os pontos que ficam fora das linhas resultantes são considerados outliers.
Mas duas coisas: 1) o que pensamos dos pontos que estão fora das linhas para um eixo, mas dentro das linhas para o outro eixo? Eles são "outliers parciais" ou algo assim? E 2) a caixa resultante não parece estar realmente fazendo o que queremos. A razão é, é claro, que as duas variáveis estão correlacionadas, e o que desejamos intuitivamente é encontrar discrepâncias que sejam incomuns, considerando as variáveis combinadas.
Nesse caso, examinamos a distribuição conjunta e codifiquei os pontos por cores, se a distância de Mahalanobis do centro está dentro dos 5% superiores ou não. Os pontos pretos se parecem muito com discrepâncias, mesmo que algumas discrepâncias fiquem dentro de ambos os conjuntos de linhas verdes e algumas não discrepantes (vermelhas) estejam fora dos dois conjuntos de linhas verdes.
Nos dois casos, delimitamos 95% versus 5%, mas a segunda técnica é responsável pela distribuição conjunta. Eu acredito que a regressão multivariada é assim, onde você substitui "regressão" por "distribuição". Não entendo totalmente e não precisei (pelo que entendi) de fazer regressão multivariada, mas é assim que penso.
[A analogia tem problemas: a distância de Mahalanobis reduz duas variáveis para um único número - algo como o modo como uma regressão univariada leva um conjunto de variáveis independentes e pode, com as técnicas corretas, levar em consideração covariâncias entre as variáveis independentes e resultados em uma única variável dependente - enquanto uma regressão multivariada resulta em várias variáveis dependentes. Portanto, é meio atrasado, mas esperançosamente avançado o suficiente para dar alguma intuição.]
fonte
1) A natureza nem sempre é simples. De fato, a maioria dos fenômenos (resultados) que estudamos depende de múltiplas variáveis e de maneira complexa. Um modelo inferencial baseado em uma variável de cada vez provavelmente terá um alto viés.
2) Modelos univariados são o modelo mais simples que você pode construir, por definição. Tudo bem se você estiver investigando um problema pela primeira vez e quiser entender seu recurso único e mais essencial. Mas se você quiser uma compreensão mais profunda, uma compreensão que você pode realmente aproveitar porque confia no que está fazendo, usaria análises multivariadas. E entre os multivariados, você deve preferir os que entendem os padrões de correlação, se se preocupa com a precisão do modelo.
3) Desculpe, não há tempo para ler este.
4) Trabalhos usando técnicas multivariadas são muito comuns atualmente - mesmo extremamente comuns em alguns campos. Nas experiências do CERN usando os dados do Large Hadron Collider (para dar um exemplo da física de partículas), mais da metade das centenas de artigos publicados a cada ano usam técnicas multivariadas de uma maneira ou de outra
https://inspirehep.net/search?ln=en&ln=en&p=find+cn+cms+&of=hb&action_search=Search&sf=earliestdate&so=d&rm=&rg=25&sc=0
fonte
Minha resposta depende do que você deseja fazer com a regressão. Se você está tentando comparar o efeito de diferentes coeficientes, a regressão pode não ser a ferramenta certa para você. Se você está tentando fazer previsões usando coeficientes diferentes que você provou serem independentes, talvez deva usar regressão múltipla.
Os fatores estão correlacionados? Nesse caso, uma regressão multivariada pode fornecer um modelo ruim e você deve usar um método como VIFs ou regressão de crista para aparar correlações cruzadas. Você não deve comparar os coeficientes até que os fatores correlacionados sejam eliminados. Fazer isso levará ao desastre. Se eles não estiverem correlacionados, os coeficientes multivariados devem ser tão comparáveis quanto os coeficientes univariados, e isso não deve ser surpreendente.
O resultado também pode depender do pacote de software que você está usando. Eu não estou a brincar. Pacotes de software diferentes têm métodos diferentes para calcular a regressão multivariada. (Não acredita em mim? Confira como as calcula padrão pacote R regressão R 2 com e sem forçar a origem como a interceptação. Sua mandíbula deve bater no chão.) Você precisa entender como o pacote de software está realizando a regressão. Como é compensar as correlações cruzadas? Está executando uma solução seqüencial ou matricial? Eu tive frustrações com isso no passado. Sugiro realizar sua regressão múltipla em diferentes pacotes de software e ver o que você obtém.
Outro bom exemplo aqui:
Existem tantas armadilhas usando a regressão múltipla que tento evitar usá-la. Se você for usá-lo, tenha muito cuidado com os resultados e verifique-os duas vezes. Você sempre deve plotar os dados visualmente para verificar a correlação. (Só porque o seu programa de software disse que não havia correlação, não significa que não exista. Correlações interessantes ) Sempre verifique seus resultados com o senso comum. Se um fator mostra uma forte correlação em uma regressão univariada, mas nenhum em multivariada, você precisa entender o motivo antes de compartilhar os resultados (o fator de gênero acima é um bom exemplo).
fonte