Como o MANOVA está relacionado ao LDA?

Em poucas palavras

MANOVA e LDA unidirecional começam com a decomposição da matriz de dispersão total na matriz de dispersão dentro da classe e matriz de dispersão entre classes , de modo que . Note-se que este é completamente análogo ao modo como uma ANOVA decompõe soma total de quadrados para dentro de classe e entre-classe somas de quadrados: . Na ANOVA, uma razão é então calculada e usada para encontrar o valor p: quanto maior essa proporção, menor o valor p. MANOVA e LDA compor um análogo multivariada quantidade . $\mathbf T$ $\mathbf W$ $\mathbf B$ $\mathbf T = \mathbf W + \mathbf B$ $T$ $T=B+W$ $B/W$ $\mathbf W^{-1} \mathbf B$

A partir daqui eles são diferentes. O único objetivo do MANOVA é testar se as médias de todos os grupos são iguais; esta hipótese nula significaria que deve ser semelhante em tamanho a . Portanto, o MANOVA executa uma composição automática de e encontra seus valores próprios . A idéia agora é testar se eles são grandes o suficiente para rejeitar o nulo. Existem quatro maneiras comuns de formar uma estatística escalar de todo o conjunto de valores próprios . Uma maneira é obter a soma de todos os autovalores. Outra maneira é obter o valor próprio máximo. Em cada caso, se a estatística escolhida for grande o suficiente, a hipótese nula será rejeitada. $\mathbf B$ $\mathbf W$ $\mathbf W^{-1} \mathbf B$ $\lambda_i$ $\lambda_i$

Por outro lado, o LDA executa uma composição automática de e examina os vetores próprios (não os valores próprios). Esses vetores próprios definem direções no espaço variável e são chamados eixos discriminantes . A projeção dos dados no primeiro eixo discriminante possui a maior separação de classe (medida em ); no segundo - segundo mais alto; etc. Quando o LDA é usado para redução de dimensionalidade, os dados podem ser projetados, por exemplo, nos dois primeiros eixos, e os demais são descartados. $\mathbf W^{-1} \mathbf B$ $B/W$

Veja também uma excelente resposta de @ttnphns em outro tópico que cobre quase o mesmo terreno.

Exemplo

Vamos considerar um caso unidirecional com variáveis dependentes e grupos de observações (isto é, um fator com três níveis). Vou pegar o conhecido conjunto de dados Iris de Fisher e considerar apenas o comprimento e a largura da sépala (para torná-lo bidimensional). Aqui está o gráfico de dispersão: $M=2$ $k=3$

Gráfico de dispersão Fisher Iris

Podemos começar com o cálculo de ANOVAs com comprimento / largura séptica separadamente. Imagine pontos de dados projetados vertical ou horizontalmente nos eixos xey, e a ANOVA de 1 via realizada para testar se três grupos têm as mesmas médias. Recebemos e para o comprimento das sépalas e e para a largura das sépalas. Ok, então meu exemplo é muito ruim, pois três grupos são significativamente diferentes com valores-p ridículos em ambas as medidas, mas eu continuarei assim mesmo. $F_{2,147}=119$ $p=10^{-31}$ $F_{2,147}=49$ $p=10^{-17}$

Agora podemos executar o LDA para encontrar um eixo que separa no máximo três clusters. Como descrito acima, computamos matriz de dispersão completa , matriz de dispersão dentro da classe e matriz de dispersão entre classes e encontramos vetores próprios de . Posso plotar os dois vetores próprios no mesmo gráfico de dispersão: $\mathbf{T}$ $\mathbf{W}$ $\mathbf{B}=\mathbf{T}-\mathbf{W}$ $\mathbf{W}^{-1}\mathbf{B}$

Fisher Iris LDA

Linhas tracejadas são eixos discriminantes. Plotei-os com comprimentos arbitrários, mas o eixo mais longo mostra o vetor próprio com maior valor próprio (4.1) e o menor - aquele com menor valor próprio (0.02). Observe que eles não são ortogonais, mas a matemática da LDA garante que as projeções nesses eixos tenham correlação zero.

Se agora projetar nossos dados sobre a primeira (mais) do eixo discriminante e, em seguida, executar a análise de variância, temos e , que é menor do que antes, e é o valor mais baixo possível entre todos linear projeções (esse era o objetivo da LDA). A projeção no segundo eixo fornece apenas . $F=305$ $p=10^{-53}$ $p=10^{-5}$

Se executarmos o MANOVA nos mesmos dados, calcularemos a mesma matriz e examinaremos seus autovalores para calcular o valor-p. Nesse caso, o autovalor maior é igual a 4,1, que é igual a para ANOVA ao longo do primeiro discriminante (de fato, , onde é o número total de pontos de dados e é o número de grupos). $\mathbf{W}^{-1}\mathbf{B}$ $B/W$ $F=B/W \cdot (N-k)/(k-1) = 4.1\cdot 147/2 = 305$ $N=150$ $k=3$

Existem vários testes estatísticos comumente usados que calculam o valor p do espectro eigens (neste caso e ) e fornecem resultados ligeiramente diferentes. O MATLAB me dá o teste de Wilks, que relata . Observe que esse valor é menor do que o que tínhamos antes com qualquer ANOVA, e a intuição aqui é que o valor p de MANOVA "combina" dois valores p obtidos com ANOVAs em dois eixos discriminantes. $\lambda_1=4.1$ $\lambda_2=0.02$ $p=10^{-55}$

É possível obter uma situação oposta: maior valor de p com MANOVA? Sim, ele é. Para isso, precisamos de uma situação em que apenas um eixo discriminante dê significativo , e o segundo não discrimine nada. Modifiquei o conjunto de dados acima adicionando sete pontos com coordenadas à classe "verde" (o grande ponto verde representa esses sete pontos idênticos): $F$ $(8,4)$

Fisher Iris LDA modificado

O segundo eixo discriminante se foi: seu valor próprio é quase zero. ANOVA em dois eixos discriminantes dar e . Mas agora o MANOVA reporta apenas , que é um pouco maior que o ANOVA. A intuição subjacente é (acredito) que o aumento do valor de p da MANOVA é responsável pelo fato de termos ajustado o eixo discriminante para obter o valor mínimo possível e corrigir possíveis falsos positivos. Mais formalmente, alguém diria que a MANOVA consome mais graus de liberdade. Imagine que existem 100 variáveis e, somente ao longo de direções, obtém-se $p=10^{-55}$ $p=0.26$ $p=10^{-54}$ $\sim 5$ $p\approx0.05$ significado; este é essencialmente testes múltiplos e esses cinco casos são falsos positivos, por isso MANOVA vai ter isso em conta e relatar um não-global significativo . $p$

MANOVA vs LDA como aprendizado de máquina vs. estatísticas

Parece-me agora um dos casos exemplares de como a comunidade de aprendizado de máquina e a comunidade de estatísticas abordam a mesma coisa. Todo livro didático sobre aprendizado de máquina cobre a LDA, mostra imagens agradáveis etc., mas nunca mencionaria MANOVA (por exemplo , Bishop , Hastie e Murphy ). Provavelmente porque as pessoas estão mais interessadas na precisão da classificação do LDA (que corresponde aproximadamente ao tamanho do efeito) e não têm interesse na significância estatística da diferença de grupo. Por outro lado, os livros didáticos sobre análise multivariada discutem MANOVA ad nauseam, fornecem muitos dados tabulados (arrrgh), mas raramente mencionam LDA e ainda mais raros mostram gráficos (por exemplo,Anderson ou Harris ; no entanto, Rencher & Christensen fazem e Huberty & Olejnik são chamados de "MANOVA e análise discriminante").

MANOVA fatorial

A MANOVA fatorial é muito mais confusa, mas é interessante considerar porque difere da LDA no sentido de que "LDA fatorial" não existe realmente, e a MANOVA fatorial não corresponde diretamente a nenhuma "LDA usual".

Considere MANOVA bidirecional equilibrada com dois fatores (ou variáveis independentes, IVs). Um fator (fator A) possui três níveis e outro fator (fator B) possui dois níveis, formando "células" no desenho experimental (usando a terminologia ANOVA). Para simplificar, considerarei apenas duas variáveis dependentes (DVs): $3\cdot 2=6$

MANOVA fatorial

Nesta figura, todas as seis "células" (também as chamarei de "grupos" ou "classes") estão bem separadas, o que obviamente raramente acontece na prática. Observe que é óbvio que existem efeitos principais significativos de ambos os fatores aqui e também um efeito de interação significativo (porque o grupo superior direito é deslocado para a direita; se eu o movesse para sua posição "grade", não haveria efeito de interação).

Como os cálculos do MANOVA funcionam neste caso?

Em primeiro lugar, calcula MANOVA reunidas dentro de classe dispersão matriz . Mas a matriz de dispersão entre classes depende de qual efeito estamos testando. Considere matriz de dispersão entre classes para o fator A. Para calculá-la, encontramos a média global (representada na figura por uma estrela) e as médias condicionais nos níveis do fator A (representado na figura por três cruzamentos) . Em seguida, calculamos a dispersão dessas médias condicionais (ponderada pelo número de pontos de dados em cada nível de A) em relação à média global, chegando a . Agora podemos considerar uma matriz , calcular sua composição automática e executar testes de significância MANOVA com base nos valores próprios. $\mathbf W$ $\mathbf B_A$ $\mathbf B_A$ $\mathbf W^{-1} \mathbf B_A$

Para o fator B, haverá outra matriz de dispersão entre classes e, analogamente (um pouco mais complicado, mas direto), haverá outra matriz de dispersão entre classes para o efeito de interação, para que no final a matriz de dispersão total seja decomposta em um puro [Observe que essa decomposição funciona apenas para um conjunto de dados balanceado com o mesmo número de pontos de dados em cada cluster. Para um conjunto de dados desequilibrado, não pode ser decomposto exclusivamente em uma soma de três contribuições de fatores porque os fatores não são mais ortogonais; isso é semelhante à discussão sobre SS tipo I / II / III na ANOVA.] $\mathbf B_B$ $\mathbf B_{AB}$

T = B_{UMA} + B_{B} + B_{UMA B} + W .

$\mathbf T = \mathbf B_A + \mathbf B_B + \mathbf B_{AB} + \mathbf W.$ $\mathbf B$

Agora, nossa principal questão aqui é como o MANOVA corresponde ao LDA. Não existe "LDA fatorial". Considere o factor de A. Se quisermos executar LDA para níveis e da classificação de factor A (esquecendo factor B do conjunto), que teria o mesmo entre-classe matriz, mas uma diferente matriz de dispersão dentro de classe (pense em fundir dois pequenos elipsóides em cada nível do fator A na minha figura acima). O mesmo vale para outros fatores. Portanto, não existe um "LDA simples" que corresponda diretamente aos três testes que o MANOVA executa neste caso. $\mathbf B_A$ $\mathbf W_A=\mathbf T - \mathbf B_A$

No entanto, é claro que nada nos impede de olhar para os vetores próprios de e de chamá-los de "eixos discriminantes" para o fator A em MANOVA. $\mathbf W^{-1} \mathbf B_A$

ameba diz Restabelecer Monica
fonte

+1, foi uma boa descrição disso. Eu mudei B^-1 Wpara W^-1 B. Sua imagem com discriminantes como eixos é semelhante à minha própria plotagem ; acredito que você usou a mesma "rotação não-diagonal de acordo com a abordagem normalizada dos vetores próprios".

precisa saber é

Eu achei um pouco nebuloso

MANOVA accounts for the fact that we fitted the discriminant axis to get the minimum possible value and corrects for possible false positive

. MANOVA, é claro, não sabe sobre nós fazer LDA. MANOVA simplesmente consome mais df que ANOVA, porque é um teste bidimensional, é por isso que a potência do valor-p deve ser -54 em vez de -55.

precisa saber é o seguinte

Duvido que deva falar em termos dos valores-p. Em vez disso, o ponto principal que o MANOVA analisa a mesma matriz W^-1 Bque o LDA. O LDA constrói variáveis latentes (os discriminantes). MANOVA não; no entanto, ele investiga a matriz acima de maneira mais abrangente, computando várias estatísticas (como o rastreio de Pillai, o de Hotteling), para basear os testes nelas.

precisa saber é

O enredo que será a metáfora de MANOVA (e acho que você pode querer adicioná-lo à sua resposta) em contraste com o LDA (sua segunda foto) seria o enredo no qual os 3 centróides estão conectados ao grand centróide por linhas tracejadas .

precisa saber é

Por fim, não acho que você esteja certo com a diferença de estatística e aprendizado de máquina. Aprendi a análise estatística de dados antes de ouvir a palavra machine learningpela primeira vez. E os textos que li discutiram bastante a LDA, juntamente com a MANOVA.

precisa saber é

Como o MANOVA está relacionado ao LDA?

Respostas:

Em poucas palavras

Exemplo

MANOVA vs LDA como aprendizado de máquina vs. estatísticas

MANOVA fatorial