Proporção da variância explicada em PCA e LDA

Tenho algumas perguntas básicas sobre PCA (análise de componentes principais) e LDA (análise discriminante linear):

No PCA, existe uma maneira de calcular a proporção de variação explicada. Também é possível para o LDA? Se sim, como?
A saída “Proporção de rastreio” da ldafunção (na biblioteca R MASS) é equivalente à “proporção de variação explicada”?

r variance pca discriminant-analysis wrek
fonte

Sua primeira pergunta pode ser uma duplicata de stats.stackexchange.com/questions/22569 , onde você pode encontrar respostas. Presumivelmente "LDA" significa Análise Discriminante Linear (também possui outros significados estatísticos, e é por isso que tentamos expandir acrônimos ).

whuber

Em certo sentido, um discriminante é responsável por uma variabilidade como p. componente faz, sendo o valor próprio a quantidade dele. No entanto, a "variabilidade" na LDA é de tipo especial - é a razão da variabilidade entre classes para a variabilidade dentro da classe. Cada discriminante tenta explicar o máximo possível dessa proporção. Leia mais

ttnphns

Obrigada pelo esclarecimento. Portanto, se nos eixos dos componentes do PC eu os rotular como “PC (X% da variância explicada)”, qual seria o curto prazo correto quando eu rotulo os LDs. Obrigado novamente.

Wrek

Com a LDA, a redação correta será "LD (X% da variação explicada entre grupos)".

ttnphns

Mais uma vez obrigado pela grande ajuda e paciência. BTW, como posso acessar a proporção de rastreamento (LD1, LD2) como desejo salvá-los em duas variáveis separadas?

Wrek

Primeiro fornecerei uma explicação verbal e depois uma mais técnica. Minha resposta consiste em quatro observações:

Como @ttnphns explicou nos comentários acima, no PCA cada componente principal possui certa variação, que juntos somam 100% da variação total. Para cada componente principal, uma razão de sua variação para a variação total é chamada de "proporção da variação explicada". Isto é muito conhecido.
Por outro lado, na LDA, cada "componente discriminante" tem certa "discriminabilidade" (eu inventei esses termos!), E todas juntas somam 100% da "discriminação total". Assim, para cada "componente discriminante" pode-se definir "proporção de discriminabilidade explicada". Eu acho que a "proporção de rastreamento" a que você está se referindo é exatamente isso (veja abaixo). Isso é menos conhecido, mas ainda é comum.
Ainda assim, pode-se observar a variação de cada componente discriminante e calcular a "proporção de variação" de cada um deles. Acontece que eles somam algo que é inferior a 100%. Acho que nunca vi isso discutido em nenhum lugar, e esse é o principal motivo pelo qual desejo fornecer essa resposta longa.
Pode-se também dar um passo adiante e calcular a quantidade de variação que cada componente da LDA "explica"; isso vai ser mais do que apenas sua própria variação.

Vamos $\mathbf{T}$ $\mathbf{W}$ $\mathbf{B}$ $\mathbf{T}=\mathbf{W}+\mathbf{B}$

$\mathbf{T}$ $\mathbf{T}$ $\mathrm{tr}(\mathbf{T})$

$\mathbf{W}^{-1} \mathbf{B}$ $B$ $W$ $B/W$ $\mathbf{W}^{-1} \mathbf{B}$ $\mathbf{W}^{-1} \mathbf{B}$ $\mathrm{tr}(\mathbf{W}^{-1} \mathbf{B})$

$K$ $N$ $K-1$ $K-1<N$

No entanto, reluto em me referir a essas variações de componentes como "variações explicadas" (vamos chamá-las de "variações capturadas"). Para cada componente LDA, é possível calcular a quantidade de variação que pode explicar nos dados, regredindo os dados para esse componente; esse valor geralmente será maior que a variação "capturada" desse componente. Se houver componentes suficientes, juntos a variação explicada deve ser de 100%. Veja minha resposta aqui para saber como calcular essa variação explicada em um caso geral: Análise de componentes principais "invertida": quanta variação dos dados é explicada por uma dada combinação linear das variáveis?

PCA e LDA das medições sépticas do conjunto de dados Iris $79\%$ $21\%$ $96\%$ $4\%$ $48\%$ $26\%$ $74\%$ $65\%$ $35\%$

\begin{array}{lcccc} LDA axis 1 & LDA axis 2 & PCA axis 1 & PCA axis 2 \\ Captured variance & 48 % & 26 % & 79 % & 21 % \\ Explained variance & 65 % & 35 % & 79 % & 21 % \\ Signal-to-noise ratio & 96 % & 4 % & - & - \end{array}

$\begin{array}{lcccc} & \text{LDA axis 1} & \text{LDA axis 2} & \text{PCA axis 1} & \text{PCA axis 2} \\ \text{Captured variance} & 48\% & 26\% & 79\% & 21\% \\ \text{Explained variance} & 65\% & 35\% & 79\% & 21\% \\ \text{Signal-to-noise ratio} & 96\% & 4\% & - & - \\ \end{array}$

$\mathbf{v}$ $\mathbf{W}^{-1} \mathbf{B}$ $\mathbf{B}\mathbf{v}=\lambda\mathbf{W}\mathbf{v}$

\frac{v^{⊤} B v}{v^{⊤} W v} = \frac{B}{W}

$\frac{\mathbf{v}^\top\mathbf{B}\mathbf{v}}{\mathbf{v}^\top\mathbf{W}\mathbf{v}} = \frac{B}{W}$

λ

$\lambda$

$\mathbf{W}^{-1} \mathbf{B} = \mathbf{W}^{-1/2} \mathbf{W}^{-1/2} \mathbf{B}$ $\mathbf{W}^{-1/2} \mathbf{B} \mathbf{W}^{-1/2}$

$\mathbf{v}_1$ $\mathbf{v}_2$ $\mathbf{B}\mathbf{v}=\lambda\mathbf{W}\mathbf{v}$ $\mathbf{B}$ $\mathbf{W}$ $\mathbf{T}$ $\mathbf{T}=\mathbf{W}+\mathbf{B}$ $\mathbf{v}_1^\top \mathbf{T} \mathbf{v}_2=0$

$\mathbf{V}$ $\mathbf{V}^\top\mathbf{T}\mathbf{V}$

t r (V^{⊤} T V) < t r (T),

$\mathrm{tr}(\mathbf{V}^\top\mathbf{T}\mathbf{V})<\mathrm{tr}(\mathbf{T}),$

ameba
fonte

+1. Muitas coisas que você discute aqui foram abordadas, um pouco mais compactadas, na minha resposta . Eu adicionei um link para a sua resposta atual no corpo da minha antiga.

precisa saber é o seguinte

@ttnphns: Lembro-me da sua resposta (ela tem o meu +1 de muito tempo atrás), mas não olhei lá ao escrever essa resposta, muitas coisas são realmente apresentadas de maneira muito semelhante, talvez demais. A principal razão pela qual escrevi essa resposta, no entanto, foi discutir a "variação explicada" (no sentido PCA) dos componentes da LDA. Não tenho certeza do quanto é útil na prática, mas estava sempre pensando nisso antes, e recentemente lutei por algum tempo para provar a desigualdade do Lemma 4 que, no final, foi comprovada para mim no Math.SE.

Ameba

V^{⊤} T V

$\mathbf{V}^\top\mathbf{T}\mathbf{V}$

λ + 1

$\lambda+1$

v

$\mathbf{v}$

B / W = \frac{v^{⊤} B v}{v^{⊤} W v} = λ

$B/W = \frac{\mathbf{v}^\top\mathbf{B}\mathbf{v}}{\mathbf{v}^\top\mathbf{W}\mathbf{v}} = \lambda$

B / T = \frac{v^{⊤} B v}{v^{⊤} T v} = \frac{v^{⊤} B v}{(v^{⊤} B v + v^{⊤} W v)} = \frac{λ}{λ + 1},

$B/T = \frac{\mathbf{v}^\top\mathbf{B}\mathbf{v}}{\mathbf{v}^\top\mathbf{T}\mathbf{v}} = \frac{\mathbf{v}^\top\mathbf{B}\mathbf{v}}{(\mathbf{v}^\top\mathbf{B}\mathbf{v}+\mathbf{v}^\top\mathbf{W}\mathbf{v})} = \frac{\lambda}{\lambda+1},$

v^{⊤} T v

$\mathbf{v}^\top\mathbf{T}\mathbf{v}$

λ

$\lambda$

B / W

$B/W$

T

$\bf T$

B / W

$B/W$

Proporção da variância explicada em PCA e LDA

Respostas: