Como o MANOVA está relacionado ao LDA?

18

Em vários lugares, vi uma afirmação de que MANOVA é como ANOVA mais análise discriminante linear (LDA), mas sempre foi feita de uma maneira que acenava com as mãos. Eu gostaria de saber o que exatamente isso significa.

Encontrei vários livros que descrevem todos os detalhes dos cálculos do MANOVA, mas parece ser muito difícil encontrar uma boa discussão geral (sem falar em fotos ) acessível a alguém que não é estatístico.

ameba diz Restabelecer Monica
fonte
2
Minhas próprias contas locais de LDA em relação ANOVA e MANOVA são este , esta . Talvez eles estejam acenando com a mão, mas abordam seu tópico até certo ponto. O principal ditado é que "LDA é MANOVA submersa em estrutura latente". MANOVA é uma instalação muito rica para testar hipóteses; entre outras coisas, ele pode analisar a estrutura latente das diferenças; Esta análise inclui LDA.
precisa saber é o seguinte
1
@ttnphns, temo que meu comentário anterior não tenha sido entregue (esqueci de colocar seu nome de usuário), então, repito: Uau, muito obrigado, suas respostas vinculadas parecem estar muito relacionadas à minha pergunta e devo tê-las perdido na minha pesquisa antes de postar. Vai levar algum tempo para digeri-los e eu posso voltar para você depois disso, mas talvez você já possa me indicar alguns papéis / livros que abordam esses tópicos? Eu adoraria ver uma discussão detalhada dessas coisas no estilo de suas respostas vinculadas.
ameba diz Restabelecer Monica
Apenas uma conta antiga e clássica webia.lip6.fr/~amini/Cours/MASTER_M2_IAD/TADTI/HarryGlahn.pdf . BTW eu não li até agora. Outro artigo relacionado dl.acm.org/citation.cfm?id=1890259 .
precisa saber é
@ttnphns: Obrigado. Eu mesmo escrevi uma resposta para minha pergunta, basicamente fornecendo algumas ilustrações e um exemplo específico para sua excelente resposta vinculada à LDA / MANOVA. Eu acho que eles se complementam muito bem.
ameba diz Restabelecer Monica

Respostas:

21

Em poucas palavras

MANOVA e LDA unidirecional começam com a decomposição da matriz de dispersão total na matriz de dispersão dentro da classe e matriz de dispersão entre classes , de modo que . Note-se que este é completamente análogo ao modo como uma ANOVA decompõe soma total de quadrados para dentro de classe e entre-classe somas de quadrados: . Na ANOVA, uma razão é então calculada e usada para encontrar o valor p: quanto maior essa proporção, menor o valor p. MANOVA e LDA compor um análogo multivariada quantidade .W B T = W + B T T = B + W B / W W - 1 BTWBT=W+BTT=B+WB/WW1B

A partir daqui eles são diferentes. O único objetivo do MANOVA é testar se as médias de todos os grupos são iguais; esta hipótese nula significaria que deve ser semelhante em tamanho a . Portanto, o MANOVA executa uma composição automática de e encontra seus valores próprios . A idéia agora é testar se eles são grandes o suficiente para rejeitar o nulo. Existem quatro maneiras comuns de formar uma estatística escalar de todo o conjunto de valores próprios . Uma maneira é obter a soma de todos os autovalores. Outra maneira é obter o valor próprio máximo. Em cada caso, se a estatística escolhida for grande o suficiente, a hipótese nula será rejeitada.W W - 1 B λ i λ iBWW1Bλiλi

Por outro lado, o LDA executa uma composição automática de e examina os vetores próprios (não os valores próprios). Esses vetores próprios definem direções no espaço variável e são chamados eixos discriminantes . A projeção dos dados no primeiro eixo discriminante possui a maior separação de classe (medida em ); no segundo - segundo mais alto; etc. Quando o LDA é usado para redução de dimensionalidade, os dados podem ser projetados, por exemplo, nos dois primeiros eixos, e os demais são descartados. B / WW1BB/W

Veja também uma excelente resposta de @ttnphns em outro tópico que cobre quase o mesmo terreno.

Exemplo

Vamos considerar um caso unidirecional com variáveis ​​dependentes e grupos de observações (isto é, um fator com três níveis). Vou pegar o conhecido conjunto de dados Iris de Fisher e considerar apenas o comprimento e a largura da sépala (para torná-lo bidimensional). Aqui está o gráfico de dispersão:k = 3M=2k=3

Gráfico de dispersão Fisher Iris

Podemos começar com o cálculo de ANOVAs com comprimento / largura séptica separadamente. Imagine pontos de dados projetados vertical ou horizontalmente nos eixos xey, e a ANOVA de 1 via realizada para testar se três grupos têm as mesmas médias. Recebemos e para o comprimento das sépalas e e para a largura das sépalas. Ok, então meu exemplo é muito ruim, pois três grupos são significativamente diferentes com valores-p ridículos em ambas as medidas, mas eu continuarei assim mesmo.p = 10 - 31 F 2 , 147 = 49 p = 10 - 17F2,147=119p=1031F2,147=49p=1017

Agora podemos executar o LDA para encontrar um eixo que separa no máximo três clusters. Como descrito acima, computamos matriz de dispersão completa , matriz de dispersão dentro da classe e matriz de dispersão entre classes e encontramos vetores próprios de . Posso plotar os dois vetores próprios no mesmo gráfico de dispersão:W B = T - W W - 1 BTWB=TWW1B

Fisher Iris LDA

Linhas tracejadas são eixos discriminantes. Plotei-os com comprimentos arbitrários, mas o eixo mais longo mostra o vetor próprio com maior valor próprio (4.1) e o menor - aquele com menor valor próprio (0.02). Observe que eles não são ortogonais, mas a matemática da LDA garante que as projeções nesses eixos tenham correlação zero.

Se agora projetar nossos dados sobre a primeira (mais) do eixo discriminante e, em seguida, executar a análise de variância, temos e , que é menor do que antes, e é o valor mais baixo possível entre todos linear projeções (esse era o objetivo da LDA). A projeção no segundo eixo fornece apenas .p = 10 - 53 p = 10 - 5F=305p=1053p=105

Se executarmos o MANOVA nos mesmos dados, calcularemos a mesma matriz e examinaremos seus autovalores para calcular o valor-p. Nesse caso, o autovalor maior é igual a 4,1, que é igual a para ANOVA ao longo do primeiro discriminante (de fato, , onde é o número total de pontos de dados e é o número de grupos). B / WF=B / W(N-k) / (k-1)=4,1147 / 2=305N=150k=3W1BB/WF=B/W(Nk)/(k1)=4.1147/2=305N=150k=3

Existem vários testes estatísticos comumente usados ​​que calculam o valor p do espectro eigens (neste caso e ) e fornecem resultados ligeiramente diferentes. O MATLAB me dá o teste de Wilks, que relata . Observe que esse valor é menor do que o que tínhamos antes com qualquer ANOVA, e a intuição aqui é que o valor p de MANOVA "combina" dois valores p obtidos com ANOVAs em dois eixos discriminantes.λ1=4.1λ2=0.02p=1055

É possível obter uma situação oposta: maior valor de p com MANOVA? Sim, ele é. Para isso, precisamos de uma situação em que apenas um eixo discriminante dê significativo , e o segundo não discrimine nada. Modifiquei o conjunto de dados acima adicionando sete pontos com coordenadas à classe "verde" (o grande ponto verde representa esses sete pontos idênticos):F(8,4)

Fisher Iris LDA modificado

O segundo eixo discriminante se foi: seu valor próprio é quase zero. ANOVA em dois eixos discriminantes dar e . Mas agora o MANOVA reporta apenas , que é um pouco maior que o ANOVA. A intuição subjacente é (acredito) que o aumento do valor de p da MANOVA é responsável pelo fato de termos ajustado o eixo discriminante para obter o valor mínimo possível e corrigir possíveis falsos positivos. Mais formalmente, alguém diria que a MANOVA consome mais graus de liberdade. Imagine que existem 100 variáveis ​​e, somente ao longo de direções, obtém-sep=10-55p=0,26p=10-545p0,05significado; este é essencialmente testes múltiplos e esses cinco casos são falsos positivos, por isso MANOVA vai ter isso em conta e relatar um não-global significativo .p

MANOVA vs LDA como aprendizado de máquina vs. estatísticas

Parece-me agora um dos casos exemplares de como a comunidade de aprendizado de máquina e a comunidade de estatísticas abordam a mesma coisa. Todo livro didático sobre aprendizado de máquina cobre a LDA, mostra imagens agradáveis ​​etc., mas nunca mencionaria MANOVA (por exemplo , Bishop , Hastie e Murphy ). Provavelmente porque as pessoas estão mais interessadas na precisão da classificação do LDA (que corresponde aproximadamente ao tamanho do efeito) e não têm interesse na significância estatística da diferença de grupo. Por outro lado, os livros didáticos sobre análise multivariada discutem MANOVA ad nauseam, fornecem muitos dados tabulados (arrrgh), mas raramente mencionam LDA e ainda mais raros mostram gráficos (por exemplo,Anderson ou Harris ; no entanto, Rencher & Christensen fazem e Huberty & Olejnik são chamados de "MANOVA e análise discriminante").

MANOVA fatorial

A MANOVA fatorial é muito mais confusa, mas é interessante considerar porque difere da LDA no sentido de que "LDA fatorial" não existe realmente, e a MANOVA fatorial não corresponde diretamente a nenhuma "LDA usual".

Considere MANOVA bidirecional equilibrada com dois fatores (ou variáveis ​​independentes, IVs). Um fator (fator A) possui três níveis e outro fator (fator B) possui dois níveis, formando "células" no desenho experimental (usando a terminologia ANOVA). Para simplificar, considerarei apenas duas variáveis ​​dependentes (DVs):32=6

MANOVA fatorial

Nesta figura, todas as seis "células" (também as chamarei de "grupos" ou "classes") estão bem separadas, o que obviamente raramente acontece na prática. Observe que é óbvio que existem efeitos principais significativos de ambos os fatores aqui e também um efeito de interação significativo (porque o grupo superior direito é deslocado para a direita; se eu o movesse para sua posição "grade", não haveria efeito de interação).

Como os cálculos do MANOVA funcionam neste caso?

Em primeiro lugar, calcula MANOVA reunidas dentro de classe dispersão matriz . Mas a matriz de dispersão entre classes depende de qual efeito estamos testando. Considere matriz de dispersão entre classes para o fator A. Para calculá-la, encontramos a média global (representada na figura por uma estrela) e as médias condicionais nos níveis do fator A (representado na figura por três cruzamentos) . Em seguida, calculamos a dispersão dessas médias condicionais (ponderada pelo número de pontos de dados em cada nível de A) em relação à média global, chegando a . Agora podemos considerar uma matriz , calcular sua composição automática e executar testes de significância MANOVA com base nos valores próprios.WBUMABUMAW-1BUMA

Para o fator B, haverá outra matriz de dispersão entre classes e, analogamente (um pouco mais complicado, mas direto), haverá outra matriz de dispersão entre classes para o efeito de interação, para que no final a matriz de dispersão total seja decomposta em um puro [Observe que essa decomposição funciona apenas para um conjunto de dados balanceado com o mesmo número de pontos de dados em cada cluster. Para um conjunto de dados desequilibrado, não pode ser decomposto exclusivamente em uma soma de três contribuições de fatores porque os fatores não são mais ortogonais; isso é semelhante à discussão sobre SS tipo I / II / III na ANOVA.]B A B T = B A + B B + B A B + W . BBBBUMAB

T=BUMA+BB+BUMAB+W.
B

Agora, nossa principal questão aqui é como o MANOVA corresponde ao LDA. Não existe "LDA fatorial". Considere o factor de A. Se quisermos executar LDA para níveis e da classificação de factor A (esquecendo factor B do conjunto), que teria o mesmo entre-classe matriz, mas uma diferente matriz de dispersão dentro de classe (pense em fundir dois pequenos elipsóides em cada nível do fator A na minha figura acima). O mesmo vale para outros fatores. Portanto, não existe um "LDA simples" que corresponda diretamente aos três testes que o MANOVA executa neste caso.W A = T - B ABUMAWUMA=T-BUMA

No entanto, é claro que nada nos impede de olhar para os vetores próprios de e de chamá-los de "eixos discriminantes" para o fator A em MANOVA.W-1BUMA

ameba diz Restabelecer Monica
fonte
+1, foi uma boa descrição disso. Eu mudei B^-1 Wpara W^-1 B. Sua imagem com discriminantes como eixos é semelhante à minha própria plotagem ; acredito que você usou a mesma "rotação não-diagonal de acordo com a abordagem normalizada dos vetores próprios".
precisa saber é
Eu achei um pouco nebuloso MANOVA accounts for the fact that we fitted the discriminant axis to get the minimum possible value and corrects for possible false positive. MANOVA, é claro, não sabe sobre nós fazer LDA. MANOVA simplesmente consome mais df que ANOVA, porque é um teste bidimensional, é por isso que a potência do valor-p deve ser -54 em vez de -55.
precisa saber é o seguinte
Duvido que deva falar em termos dos valores-p. Em vez disso, o ponto principal que o MANOVA analisa a mesma matriz W^-1 Bque o LDA. O LDA constrói variáveis ​​latentes (os discriminantes). MANOVA não; no entanto, ele investiga a matriz acima de maneira mais abrangente, computando várias estatísticas (como o rastreio de Pillai, o de Hotteling), para basear os testes nelas.
precisa saber é
O enredo que será a metáfora de MANOVA (e acho que você pode querer adicioná-lo à sua resposta) em contraste com o LDA (sua segunda foto) seria o enredo no qual os 3 centróides estão conectados ao grand centróide por linhas tracejadas .
precisa saber é
Por fim, não acho que você esteja certo com a diferença de estatística e aprendizado de máquina. Aprendi a análise estatística de dados antes de ouvir a palavra machine learningpela primeira vez. E os textos que li discutiram bastante a LDA, juntamente com a MANOVA.
precisa saber é