"Análise Discriminante de Fisher" é simplesmente LDA em uma situação de 2 classes. Quando há apenas 2 classes, os cálculos à mão são viáveis e a análise está diretamente relacionada à regressão múltipla. O LDA é a extensão direta da idéia de Fisher em situações de qualquer número de classes e usa dispositivos de álgebra matricial (como composição automática) para computá-lo. Assim, o termo "Análise Discriminante de Fisher" pode ser visto hoje como obsoleto. "Análise Discriminante Linear" deve ser usada em seu lugar. Veja também . A análise discriminante com mais de 2 classes (multi-classe) é canônica por seu algoritmo (extrai dicriminantes como variáveis canônicas); termo raro "Análise Discriminante Canônica"
Fisher usou o que foi então chamado de "funções de classificação de Fisher" para classificar objetos após o cálculo da função discriminante. Atualmente, uma abordagem mais geral de Bayes é usada no procedimento LDA para classificar objetos.
Para seu pedido de explicações sobre o LDA, posso enviar a você minhas respostas: extração no LDA , classificação no LDA , LDA entre os procedimentos relacionados . Também isto , isto , isto perguntas e respostas.
Assim como a ANOVA requer uma suposição de variâncias iguais, a LDA exige uma suposição de matrizes de variância-covariância iguais (entre as variáveis de entrada) das classes. Essa suposição é importante para o estágio de classificação da análise. Se as matrizes diferirem substancialmente, as observações tenderão a ser atribuídas à classe em que a variabilidade é maior. Para superar o problema, o QDA foi inventado. QDA é uma modificação do LDA que permite a heterogeneidade acima das matrizes de covariância das classes.
Se você possui a heterogeneidade (como detectada, por exemplo, pelo teste M de Box) e não possui QDA em mãos, ainda pode usar o LDA no regime de uso de matrizes de covariância individuais (em vez da matriz combinada) dos discriminantes na classificação . Isso resolve parcialmente o problema, embora menos efetivamente do que no QDA, porque - como acabamos de apontar - essas são as matrizes entre os discriminantes e não entre as variáveis originais (cujas matrizes diferem).
Deixe-me sair analisando seus dados de exemplo.
Responder a resposta e comentários de @ zyxue
LDA é o que você definiu como FDA na sua resposta. O LDA primeiro extrai construções lineares (chamadas de discriminantes) que maximizam a separação entre as partes e depois as utiliza para executar a classificação (gaussiana). Se (como você diz) o LDA não estiver vinculado à tarefa de extrair os discriminantes, o LDA pareceria apenas um classificador gaussiano, não seria necessário o nome "LDA".
É o estágio de classificação em que a LDA assume a homogeneidade da normalidade e da variância-covariância das classes. O estágio de extração ou "redução de dimensionalidade" da LDA assume linearidade e homogeneidade de variância-covariância ; as duas suposições juntas tornam possível a "separabilidade linear". (Usamos a matriz pool único para produzir discriminantes que, portanto, possuem matriz de covariância dentro da classe, que nos dá o direito de aplicar o mesmo conjunto de discriminantes para classificar para todas as classes. Se todos os s forem os mesmos, covariâncias de classe são todas iguais, identidade; esse direito de usá-las se torna absoluto.)SwSw
O classificador gaussiano (o segundo estágio da LDA) usa a regra de Bayes para atribuir observações às classes pelos discriminantes. O mesmo resultado pode ser alcançado através das chamadas funções de classificação linear de Fisher, que utilizam diretamente os recursos originais. No entanto, a abordagem de Bayes baseada em discriminantes é um pouco geral, pois permitirá usar também matrizes de covariância discriminante de classe separada, além da maneira padrão de usar uma, a agrupada. Além disso, permitirá basear a classificação em um subconjunto de discriminantes.
Quando existem apenas duas classes, os dois estágios do LDA podem ser descritos juntos em uma única passagem, porque "extração de latentes" e "classificação de observações" reduzem-se então à mesma tarefa.
Acho difícil concordar que o FDA seja um LDA para duas classes, como o @ttnphns sugeriu.
Eu recomendo duas palestras muito informativas e bonitas sobre este tópico, pelo professor Ali Ghodsi:
Para mim, LDA e QDA são semelhantes, pois são ambas técnicas de classificação com suposições gaussianas. Uma grande diferença entre as duas é que a LDA assume que as matrizes de covariância das duas classes são as mesmas, o que resulta em um limite de decisão linear. Por outro lado, o QDA é menos rigoroso e permite diferentes matrizes de covariância de recursos para diferentes classes, o que leva a um limite de decisão quadrático. Consulte a figura a seguir no scikit-learn para obter uma idéia de como é o limite de decisão quadrática.
Alguns comentários sobre as subparcelas :
Por outro lado, o FDA é uma espécie muito diferente, não tendo nada a ver com a suposição de Gaussion. O que o FDA tenta fazer é encontrar uma transformação linear para maximizar a distância média entre as classes, minimizando a variação dentro das classes . A segunda palestra explica essa ideia lindamente. Ao contrário do LDA / QDA, o FDA não faz classificação, embora os recursos obtidos após a transformação encontrados pelo FDA possam ser usados para classificação, por exemplo, usando LDA / QDA, SVM ou outros.
fonte
FDA doesn't do classification, although the features obtained after transformation found by FDA could be used for classification
, eu diria que é o que chamo de "fase de extração da LDA". Obviamente, esses recursos extraídos (as funções discriminantes) - você pode usá-los como quiser. Na classificação LDA padrão, eles são usados como classificadores gaussianos.