Como o LDA, uma técnica de classificação, também serve como técnica de redução de dimensionalidade como o PCA

Como observei no comentário à sua pergunta, a análise discriminante é um procedimento composto com dois estágios distintos - redução da dimensionalidade (supervisionada) e estágio de classificação. Na redução da dimensionalidade, extraímos funções discriminantes que substituem as variáveis explicativas originais. Em seguida, classificamos (normalmente pela abordagem de Bayes) as observações para as classes usando essas funções.

Algumas pessoas tendem a deixar de reconhecer essa natureza clara da LDA em dois estágios, simplesmente porque se familiarizaram apenas com a LDA com duas classes (chamada análise discriminante de Fisher ). Nessa análise, existe apenas uma função discriminante e a classificação é direta e, portanto, tudo pode ser explicado em um livro em um único "passe" sem convidar conceitos de redução de espaço e classificação de Bayes.

O LDA está intimamente relacionado ao MANOVA. O último é um lado "superficial e amplo" do modelo linear (multivariado), enquanto a imagem "aprofundada e focada" é a análise de correlação canônica (CCA). O fato é que a correlação entre dois conjuntos multivariados de variáveis não é unidimensional e é explicada por alguns pares de variáveis "latentes" chamadas variáveis canônicas.

Como uma redução de dimensionalidade, a LDA é teoricamente um CCA com dois conjuntos de variáveis, sendo um conjunto as variáveis de intervalo "explicativas" correlacionadas e o outro conjunto as variáveis fictícias (ou outro código de contraste) representando os grupos , as classes de observações. $k-1$ $k$

Na CCA, consideramos os dois conjuntos de variáveis correlacionadas X e Y iguais em direitos. Portanto, extraímos variáveis canônicas de ambos os lados, e elas formam pares: variável 1 do conjunto X e variável 1 do conjunto Y com correlação canônica entre eles no máximo; então a variável 2 do conjunto X e a variável 2 do conjunto Y com uma correlação canônica menor etc. Na LDA, geralmente não estamos interessados numericamente em variáveis canônicas do lado do conjunto de classes; no entanto, nos interessamos pelas variáveis canônicas do lado explicativo. Esses são chamados de funções discriminantes canônicas ou discriminantes .

Os discriminantes são os que se correlacionam maximamente com as "linhas" de separação entre os grupos. Discriminante 1 explica a maior parte da separação; o discriminante 2 escolhe parte da separação deixada inexplicável devido à ortogonalidade à separação anterior; O descriminat 3 explica ainda alguns remanescentes de separação ortogonais aos dois anteriores, etc. No LDA com variáveis de entrada (dimensões) e classes , o número possível de discriminantes (dimensões reduzidas) é e quando as premissas O LDA mantém esse número completamente discriminatório entre as classes e é capaz de classificar completamente os dados para as classes ( consulte ). $p$ $k$ $min(k-1,p)$

Para repetir, esse é realmente o CCA em sua natureza. O LDA com mais de 3 classes é chamado de "LDA canônico". Apesar de o CCA e o LDA serem tipicamente implementados algoritmicamente de maneira um pouco diferente, em termos de eficiência do programa, eles são "iguais" o suficiente para que seja possível recalcular os resultados (coeficientes etc.) obtidos em um procedimento e aqueles obtidos no outro. A maior parte da especificidade da LDA está no domínio da codificação das variáveis categóricas que representam os grupos. Esse é o mesmo dilema que é observado na (M) ANOVA. Diferentes esquemas de codificação levam a diferentes formas de interpretação dos coeficientes.

Como o LDA (como redução de dimensionalidade) pode ser entendido como um caso específico de ACC, você definitivamente precisa explorar essa resposta comparando o ACC com o PCA e a regressão. O ponto principal é que o CCA é, em certo sentido, mais próximo da regressão do que o PCA, porque o CCA é uma técnica supervisionada (uma combinação linear latente é desenhada para se correlacionar com algo externo) e o PCA não é (uma combinação linear latente é desenhada para resumir o interno). Estes são dois ramos da redução de dimensionalidade.

Quando se trata de matemática, você pode descobrir que, embora as variações dos componentes principais correspondam aos valores próprios da nuvem de dados (a matriz de covariância entre as variáveis), as variações dos discriminantes não estão tão claramente relacionadas aos valores próprios produzidos em LDA. O motivo é que, na LDA, os autovalores não resumem a forma da nuvem de dados; em vez disso, eles pertencem à quantidade abstrata da proporção da variação entre classes e dentro da classe na nuvem.

Assim, os componentes principais maximizam a variação e os discriminantes maximizam a separação de classes; um caso simples em que um PC falha em discriminar as classes suficientemente bem, mas uma lata discriminante são essas imagens. Quando desenhadas como linhas no recurso original, os discriminantes de espaço geralmente não parecem ortogonais (apesar de não serem correlacionados), mas os PCs sim.

Nota de rodapé para meticuloso. Como, em seus resultados, o LDA está exatamente relacionado ao CCA . Para repetir: se você faz LDA com pvariáveis e kclasses e faz CCA com o Conjunto1 como essas pvariáveis e o Conjunto2 como variáveis k-1fictícias indicadoras que representam grupos (na verdade, não necessariamente variáveis indicadoras - outros tipos de variáveis de contraste, como desvio ou Helmert) farão ), os resultados são equivalentes em relação às variáveis canônicas extraídas para o Conjunto1 - elas correspondem diretamente às funções discriminantes extraídas na LDA. Qual é o relacionamento exato, no entanto?

Álgebra e terminologia da LDA é explicada aqui , e álgebra e terminologia da CCA é explicada aqui . As correlações canônicas serão as mesmas. Mas e os coeficientes e os valores "latentes" (pontuações)? Considere uma variável ésima discriminante e correspondente ( ésima) canônica. Para eles, $j$ $j$

$\frac {\text {CCA standardized coefficient}}{\text {LDA raw coefficient}} = \frac {\text {CCA canonical variate value}}{\text {LDA discriminant value}} = \sqrt \frac {\text {pooled within class variance in the variate }}{\text {pooled within class variance in the discriminant}}$

"Agrupado dentro da variação de classe" é a média ponderada das variações do grupo com peso = n-1em um grupo. Em discriminante, essa quantidade é (leia no link da álgebra do LDA) e, portanto, o coeficiente de proporcionalidade para alternar para os resultados do CCA a partir dos resultados do LDA é simplesmente . Porém, como a variável canônica é padronizada em toda a amostra, esse coeficiente é igual ao (que é padronizado dentro dos grupos). Portanto, basta dividir os resultados do LDA (coeficientes e pontuações) pelo do discriminante para obter os resultados do CCA. $1$

\sqrt{pooled within class variance in the variate}

$\sqrt {\text {pooled within class variance in the variate}}$

st. deviation of the discriminant

$\text {st. deviation of the discriminant}$

σ

$\sigma$

A diferença entre o CCA e o LDA deve-se ao fato de o LDA "saber" que existem classes (grupos): você indica diretamente os grupos para calcular as matrizes internas e entre as dispersões. Isso torna os cálculos mais rápidos e os resultados mais convenientes para a classificação subsequente por discriminantes. O CCA, por outro lado, não está ciente das classes e processa os dados como se todas fossem variáveis contínuas - o que é mais geral, mas é uma maneira mais lenta de computação. Mas os resultados são equivalentes, e eu mostrei como.

Até agora estava implícito que os k-1manequins são inseridos no CCA da maneira típica, ou seja, centralizados (como as variáveis do Conjunto1). Alguém poderia perguntar: é possível entrar em todos os kmanequins e não os centralizar (para escapar da singularidade)? Sim, é possível, embora provavelmente menos conveniente. Aparecerá uma variável canônica adicional de valor próprio zero, coeficientes para isso devem ser descartados. Outros resultados permanecem válidos. Exceto os df s para testar o significado das correlações canônicas. Df para a 1ª correlação será o p*kque está errado e o verdadeiro df, como no LDA, é p*(k-1).

ttnphns
fonte

Como o LDA, uma técnica de classificação, também serve como técnica de redução de dimensionalidade como o PCA

Respostas: