Proporção da variância explicada em PCA e LDA

8

Tenho algumas perguntas básicas sobre PCA (análise de componentes principais) e LDA (análise discriminante linear):

  1. No PCA, existe uma maneira de calcular a proporção de variação explicada. Também é possível para o LDA? Se sim, como?

  2. A saída “Proporção de rastreio” da ldafunção (na biblioteca R MASS) é equivalente à “proporção de variação explicada”?

wrek
fonte
1
Sua primeira pergunta pode ser uma duplicata de stats.stackexchange.com/questions/22569 , onde você pode encontrar respostas. Presumivelmente "LDA" significa Análise Discriminante Linear (também possui outros significados estatísticos, e é por isso que tentamos expandir acrônimos ).
whuber
1
Em certo sentido, um discriminante é responsável por uma variabilidade como p. componente faz, sendo o valor próprio a quantidade dele. No entanto, a "variabilidade" na LDA é de tipo especial - é a razão da variabilidade entre classes para a variabilidade dentro da classe. Cada discriminante tenta explicar o máximo possível dessa proporção. Leia mais
ttnphns
Obrigada pelo esclarecimento. Portanto, se nos eixos dos componentes do PC eu os rotular como “PC (X% da variância explicada)”, qual seria o curto prazo correto quando eu rotulo os LDs. Obrigado novamente.
Wrek
Com a LDA, a redação correta será "LD (X% da variação explicada entre grupos)".
ttnphns
Mais uma vez obrigado pela grande ajuda e paciência. BTW, como posso acessar a proporção de rastreamento (LD1, LD2) como desejo salvá-los em duas variáveis ​​separadas?
Wrek

Respostas:

10

Primeiro fornecerei uma explicação verbal e depois uma mais técnica. Minha resposta consiste em quatro observações:

  1. Como @ttnphns explicou nos comentários acima, no PCA cada componente principal possui certa variação, que juntos somam 100% da variação total. Para cada componente principal, uma razão de sua variação para a variação total é chamada de "proporção da variação explicada". Isto é muito conhecido.

  2. Por outro lado, na LDA, cada "componente discriminante" tem certa "discriminabilidade" (eu inventei esses termos!), E todas juntas somam 100% da "discriminação total". Assim, para cada "componente discriminante" pode-se definir "proporção de discriminabilidade explicada". Eu acho que a "proporção de rastreamento" a que você está se referindo é exatamente isso (veja abaixo). Isso é menos conhecido, mas ainda é comum.

  3. Ainda assim, pode-se observar a variação de cada componente discriminante e calcular a "proporção de variação" de cada um deles. Acontece que eles somam algo que é inferior a 100%. Acho que nunca vi isso discutido em nenhum lugar, e esse é o principal motivo pelo qual desejo fornecer essa resposta longa.

  4. Pode-se também dar um passo adiante e calcular a quantidade de variação que cada componente da LDA "explica"; isso vai ser mais do que apenas sua própria variação.


VamosTWBT=W+B

TTtr(T)

W1BBWB/WW1BW1Btr(W1B)

KNK1K1<N

No entanto, reluto em me referir a essas variações de componentes como "variações explicadas" (vamos chamá-las de "variações capturadas"). Para cada componente LDA, é possível calcular a quantidade de variação que pode explicar nos dados, regredindo os dados para esse componente; esse valor geralmente será maior que a variação "capturada" desse componente. Se houver componentes suficientes, juntos a variação explicada deve ser de 100%. Veja minha resposta aqui para saber como calcular essa variação explicada em um caso geral: Análise de componentes principais "invertida": quanta variação dos dados é explicada por uma dada combinação linear das variáveis?

PCA e LDA das medições sépticas do conjunto de dados Iris79%21%96%4%48%26%74%65%35%

LDA axis 1LDA axis 2PCA axis 1PCA axis 2Captured variance48%26%79%21%Explained variance65%35%79%21%Signal-to-noise ratio96%4%

vW1BBv=λWv

vBvvWv=BW
λ

W1B=W1/2W1/2BW1/2BW1/2

v1v2Bv=λWvBWTT=W+Bv1Tv2=0

VVTV

tr(VTV)<tr(T),
ameba
fonte
1
+1. Muitas coisas que você discute aqui foram abordadas, um pouco mais compactadas, na minha resposta . Eu adicionei um link para a sua resposta atual no corpo da minha antiga.
precisa saber é o seguinte
1
@ttnphns: Lembro-me da sua resposta (ela tem o meu +1 de muito tempo atrás), mas não olhei lá ao escrever essa resposta, muitas coisas são realmente apresentadas de maneira muito semelhante, talvez demais. A principal razão pela qual escrevi essa resposta, no entanto, foi discutir a "variação explicada" (no sentido PCA) dos componentes da LDA. Não tenho certeza do quanto é útil na prática, mas estava sempre pensando nisso antes, e recentemente lutei por algum tempo para provar a desigualdade do Lemma 4 que, no final, foi comprovada para mim no Math.SE.
Ameba
VTVλ+1
v
B/W=vBvvWv=λ
B/T=vBvvTv=vBv(vBv+vWv)=λλ+1,
vTvλ
B/WTB/W