Álgebra de LDA. Poder de discriminação de Fisher de uma variável e Análise Discriminante Linear

13

Pelo visto,

a análise de Fisher visa maximizar simultaneamente a separação entre classes, enquanto minimiza a dispersão dentro da classe. Uma medida útil do poder de discriminação de uma variável é, por conseguinte, dada pela quantidade diagonal: Bii/Wii .

http://root.cern.ch/root/htmldoc/TMVA__MethodFisher.html

Eu entendo que o tamanho ( p x p) das matrizes Entre ( B ) e Dentro da Classe ( W ) é dado pelo número de variáveis ​​de entrada p,. Diante disso, como pode Bii/Wii ser uma "medida útil do poder de discriminação" de uma única variável? São necessárias pelo menos duas variáveis ​​para construir as matrizes B e W, para que os respectivos traços representem mais de uma variável.

Update: Estou certo em pensar que Bii/Wii não é um traço ao longo de um traço, onde a soma é implícito, mas o elemento matriz Bii dividido por Wii ? Atualmente, é a única maneira de conciliar a expressão com o conceito.

categoria
fonte

Respostas:

23

Aqui está um pequeno conto sobre a Análise Discriminante Linear (LDA) como resposta à pergunta.

Quando temos uma variável grupos (classes) a serem discriminados, isso é ANOVA. O poder de discriminação da variável é S S entre os grupos / S S dentro dos grupos , ou B / WkSSbetween groups/SSwithin groupsB/W .

Quando temos variáveis , isso é MANOVA. Se as variáveis não estão correlacionados nem na amostra total, nem dentro dos grupos, em seguida, o poder de discriminação acima, B / W , é calculada de forma análoga e pode ser escrita como t r a c e ( S b ) / t r um c e ( S w ) , onde S w é a matriz de dispersão dentro de cada grupo reunido (ou seja, a soma de k matrizes SSCP das variáveis, centrado sobre o centróide dos respectivos grupos); S bpB/Wtrace(Sb)/trace(Sw)Swk p x p Sbé o entre-grupo matriz de dispersão , onde S t é a matriz de dispersão para os dados inteiros (SSCP matriz das variáveis centrado sobre o grande centróide (A "matriz de dispersão" é apenas uma matriz de covariância sem devidedness. por sample_size-1.)=StSwSt

Quando há alguma correlação entre as variáveis - e, geralmente, não é - o acima é expressa por S - 1 w S b , que não é mais um escalar mas uma matriz. Isso simplesmente devido a que existem p variáveis discriminativos escondidos por trás dessa discriminação "geral" e, em parte, partilha-lo.B/WSw1Sbp

Agora, podemos submergir no MANOVA e decompor em variáveis latentes novas e mutuamente ortogonais (seu número é m i n ( p , k - 1 ) ) chamadas funções discriminantes ou discriminantes - sendo o primeiro o mais forte discriminador, o segundo sendo o próximo atrás, etc. Assim como fazemos na análise de componentes do Pricipal. Substituímos as variáveis ​​correlacionadas originais por discriminantes não correlacionados, sem perda de poder discriminativo. Como cada próximo discriminante é cada vez mais fraco, podemos aceitar um pequeno subconjunto do primeiro mSw1Sbmin(p,k1)mdiscriminantes sem grande perda de poder discriminativo (novamente, semelhante à forma como usamos o PCA). Essa é a essência da ADL e da técnica de redução de dimensionalidade (a ADL também é uma técnica de classificação de Bayes, mas esse é um tópico totalmente separado).

Assim, a LDA se assemelha ao PCA. O PCA decompõe "correlação", o LDA decompõe "separação". No LDA, como a matriz acima que expressa "separação" não é simétrica, um truque algébrico de desvio é usado para encontrar seus autovalores e autovetores 1 . Eigenvalue de cada função discriminante (uma variável latente) é o seu poder discriminativo B / W I foi dizendo sobre no primeiro parágrafo. Além disso, vale ressaltar que os discriminantes, embora não correlacionados, não são geometricamente ortogonais como eixos desenhados no espaço variável original.1B/W

Alguns tópicos potencialmente relacionados que você pode querer ler:

O LDA é MANOVA "aprofundado" na análise da estrutura latente e é um caso particular de análise de correlação canônica (equivalência exata entre eles como tal ). Como o LDA classifica objetos e quais são os coeficientes de Fisher. (Eu vinculo apenas às minhas próprias respostas atualmente, como as lembro, mas há muitas respostas boas e melhores de outras pessoas neste site também).


cálculos da fase de extração de 1 LDAsão os seguintes. Os autovalores ( L ) de S - 1 w S b são os mesmos da matriz simétrica ( U - 1 ) S b U - 1 , onde U é araizdeCholeskyde S w : uma matriz triangular superior na qual U U = S w . Quanto aos vetores próprios de S - 1 w S b , eles são dados por1 LSw1Sb(U1)SbU1USwUU=SwSw1Sb- usando linguagem de baixo nível - mais rápido do que usando uma função genérica padrão "inv" de pacotes.) , ondeEsão os vetores próprios da matriz acima ( U - 1 ) S b U - 1 . (Nota:U, sendo triangular,pode ser invertidoV=U1EE(U1)SbU1U

O método descrito para solução alternativa de composição de é realizado em alguns programas (no SPSS, por exemplo), enquanto em outros programas é realizado um método de "quase-zca-whitening" que, sendo um pouco mais lento , fornece os mesmos resultados e é descrito em outro lugar . Para resumi-lo aqui: obter matriz ZCA-branqueamento de S w - o quadrados simétrico raiz. S - 1 / 2 w (o que é feito através de eigendecomposition); em seguida, eigendecomposition de S - 1 / 2 w S b S - 1 /Sw1SbSwSw1/2 (o qual é uma matriz simétrica) produz valores próprios discriminantesGe vectores própriosA, pelo que os vectores próprios discriminantesV=S - 1 / 2 w A. O método de "quase-branqueamento zca" pode ser reescrita para ser feito através do singular valor-decomposição do conjunto de dados Casewise em vez de trabalhar comSWeSbmatrizes de dispersão; isso adiciona precisão computacional (o que é importante em situações de quase singularidade), mas sacrifica a velocidade.Sw1/2SbSw1/2LAV=Sw1/2ASwSb

OK, vejamos as estatísticas geralmente calculadas no LDA. As correlações canônicas correspondentes aos valores próprios são . Considerando valores próprios de uma discriminante éB/Wda ANOVA de que discriminante, correlação canónica ao quadrado éB/T(quadrados a soma de-T totais =) de que ANOVA.Γ=L/(L+1)B/WB/T

Se você normalizar (para SS = 1) colunas de autovetores , esses valores poderão ser vistos como os cossenos de direção da rotação de eixos-variáveis ​​em eixos-discriminantes; portanto, com a ajuda deles, podemos traçar os discriminantes como eixos no gráfico de dispersão definido pelas variáveis ​​originais (os vetores próprios, como eixos no espaço dessas variáveis, não são ortogonais).V

Os coeficientes ou pesos discriminantes não padronizados são simplesmente os autovetores em escala . Estes são os coeficientes de predição linear de discriminantes pelas variáveis ​​originais centralizadas. Os valores das próprias funções discriminantes (pontuações discriminantes) sãoXC, ondeXsão as variáveis ​​originais centralizadas (insira dados multivariados com cada coluna centralizada). Discriminantes não são correlacionados. E quando calculados pela fórmula acima, eles também têm a propriedade de que sua matriz de covariância dentro da classe é a matriz de identidade.C=Nk VXCX

Termos constantes opcionais que acompanham os coeficientes não padronizados e permitem descentrar os discriminantes se as variáveis ​​de entrada tiverem médias diferentes de zero são , onde d i a g ( ˉ X ) é a matriz diagonal das variáveis ​​p significa e p é a soma entre as variáveis.C0=pdiag(X¯)Cdiag(X¯)p

Nos coeficientes discriminantes padronizados , a contribuição das variáveis ​​para um discriminante é ajustada ao fato de que as variáveis ​​têm diferentes variações e podem ser medidas em diferentes unidades; (onde diag (Sw) é uma matriz diagonal com a diagonal deSw). Apesar de "padronizados", esses coeficientes podem ocasionalmente exceder 1 (portanto, não se confunda). Se as variáveis ​​de entrada foram padronizadas em z dentro de cada classe separadamente, coeficientes padronizados = variáveis ​​não padronizadas. Coeficientes podem ser usados ​​para interpretar os discriminantes.K=diag(Sw)VSw

R=diag(Sw)1SwV


Veja a saída completa da fase de extração da análise discriminante dos dados da íris aqui .

Leia esta boa resposta posterior, que explica um pouco mais formalmente e detalha as mesmas coisas que eu fiz aqui.

Esta questão lida com a questão da padronização de dados antes de executar o LDA.

ttnphns
fonte
X
1
Sim. No entanto, a palavra "abordagem de Fisher" é ambígua. Pode significar 2 coisas: 1) LDA (para 2 classes) em si ; 2) Funções de classificação de Fisher na LDA.
ttnphns