Tenho algumas perguntas básicas sobre PCA (análise de componentes principais) e LDA (análise discriminante linear):
No PCA, existe uma maneira de calcular a proporção de variação explicada. Também é possível para o LDA? Se sim, como?
A saída “Proporção de rastreio” da
lda
função (na biblioteca R MASS) é equivalente à “proporção de variação explicada”?
Respostas:
Primeiro fornecerei uma explicação verbal e depois uma mais técnica. Minha resposta consiste em quatro observações:
Como @ttnphns explicou nos comentários acima, no PCA cada componente principal possui certa variação, que juntos somam 100% da variação total. Para cada componente principal, uma razão de sua variação para a variação total é chamada de "proporção da variação explicada". Isto é muito conhecido.
Por outro lado, na LDA, cada "componente discriminante" tem certa "discriminabilidade" (eu inventei esses termos!), E todas juntas somam 100% da "discriminação total". Assim, para cada "componente discriminante" pode-se definir "proporção de discriminabilidade explicada". Eu acho que a "proporção de rastreamento" a que você está se referindo é exatamente isso (veja abaixo). Isso é menos conhecido, mas ainda é comum.
Ainda assim, pode-se observar a variação de cada componente discriminante e calcular a "proporção de variação" de cada um deles. Acontece que eles somam algo que é inferior a 100%. Acho que nunca vi isso discutido em nenhum lugar, e esse é o principal motivo pelo qual desejo fornecer essa resposta longa.
Pode-se também dar um passo adiante e calcular a quantidade de variação que cada componente da LDA "explica"; isso vai ser mais do que apenas sua própria variação.
VamosT W B T=W+B
No entanto, reluto em me referir a essas variações de componentes como "variações explicadas" (vamos chamá-las de "variações capturadas"). Para cada componente LDA, é possível calcular a quantidade de variação que pode explicar nos dados, regredindo os dados para esse componente; esse valor geralmente será maior que a variação "capturada" desse componente. Se houver componentes suficientes, juntos a variação explicada deve ser de 100%. Veja minha resposta aqui para saber como calcular essa variação explicada em um caso geral: Análise de componentes principais "invertida": quanta variação dos dados é explicada por uma dada combinação linear das variáveis?
fonte