Se uma Análise Discriminante Linear de várias classes (ou às vezes também leio Análise Discriminante Múltipla) for usada para redução de dimensionalidade (ou transformação após redução de dimensionalidade via PCA), entendo que, em geral, uma "normalização do escore Z" (ou padronização) de os recursos não serão necessários, mesmo que sejam medidos em escalas completamente diferentes, correto? Como o LDA contém um termo semelhante à distância de Mahalanobis, que já implica distâncias euclidianas normalizadas?
Portanto, não seria apenas necessário, mas os resultados após um LDA em recursos padronizados e não padronizados deveriam ser exatamente os mesmos !?
in general a "Z-score normalization" (or standardization) of features won't be necessary, even if they are measured on completely different scales
Não, esta declaração está incorreta. A questão da padronização com o LDA é a mesma de qualquer método multivariado. Por exemplo, PCA. A distância de Mahalanobis não tem nada a ver com esse tópico.The issue of standardization with LDA is the same as in any multivariate method
. Na verdade, com o LDA (em oposição ao PCA, por exemplo), os resultados não devem diferir se você apenas centralizou (o LDA sempre centraliza variáveis internamente, para extrair discriminantes) ou padronizou os dados em z.Respostas:
O crédito para esta resposta vai para @ttnphns, que explicou tudo nos comentários acima. Ainda assim, eu gostaria de fornecer uma resposta estendida.
Para sua pergunta: Os resultados da LDA em recursos padronizados e não padronizados serão exatamente os mesmos? --- a resposta é sim . Primeiro darei um argumento informal e depois prosseguirei com algumas contas.
Imagine um conjunto de dados 2D mostrado como um gráfico de dispersão em um lado de um balão (foto original do balão tirada daqui ):
Aqui os pontos vermelhos são uma classe, os pontos verdes são outra classe e a linha preta é o limite da classe LDA. Agora o reescalonamento dos eixos ou corresponde a esticar o balão na horizontal ou na vertical. É intuitivamente claro que, embora a inclinação da linha preta mude após esse alongamento, as classes serão exatamente tão separáveis quanto antes, e a posição relativa da linha preta não mudará. Cada observação de teste será atribuída à mesma classe que antes do alongamento. Então, pode-se dizer que o alongamento não influencia os resultados do LDA.x y
Agora, matematicamente, o LDA encontra um conjunto de eixos discriminantes calculando os vetores próprios de , onde e estão dentro e entre classes matrizes de dispersão. Equivalentemente, esses são vetores próprios generalizados do problema do valor próprio generalizado .W−1B W B Bv=λWv
Considere uma matriz de dados centralizada com variáveis em colunas e pontos de dados em linhas, para que a matriz de dispersão total seja fornecida por . Padronizar os dados significa escalar cada coluna de por um determinado número, ou seja, substituí-lo por , onde é uma matriz diagonal com coeficientes de escala (inversos dos desvios padrão de cada coluna) na diagonal. Após esse redimensionamento, a matriz de dispersão será alterada da seguinte forma: , e a mesma transformação ocorrerá comX T=X⊤X X Xnew=XΛ Λ Tnew=ΛTΛ Wnew e .Bnew
Seja um vetor próprio do problema original, ou seja,Se multiplicarmos esta equação por à esquerda e inserir nos dois lados antes de , obteremos ou seja que significa quev
Portanto, o eixo discriminante (fornecido pelo vetor próprio) mudará, mas seu valor próprio, que mostra o quanto as classes são separadas, permanecerá exatamente o mesmo. Além disso, a projeção nesse eixo, originalmente fornecida por , agora será feita por , ou seja, também permanecerá exatamente o mesmo (talvez até um fator de escala).Xv XΛ(Λ−1v)=Xv
fonte