Se bem entendi, uma Análise Discriminante Linear (LDA) assume dados distribuídos normais, recursos independentes e covariâncias idênticas para todas as classes, para o critério de otimização.
Como a média e a variação são estimadas a partir dos dados de treinamento, isso já não é uma violação?
Encontrei uma citação em um artigo (Li, Tao, Shenghuo Zhu e Mitsunori Ogihara. “ Usando análise discriminante para classificação de várias classes: uma investigação experimental .” Knowledge and Information Systems 10, n. 4 (2006): 453–72 .)
"a análise discriminante linear freqüentemente alcança bons desempenhos nas tarefas de reconhecimento de faces e objetos, mesmo que as suposições da matriz de covariância comum entre os grupos e a normalidade sejam frequentemente violadas (Duda, et al., 2001)"
- infelizmente, não encontrei a seção correspondente em Duda et. al. "Classificação de padrões".
Alguma experiência ou opinião sobre o uso de LDA (vs. LDA ou QDA regularizado) para dados não normais em contexto de redução de dimensionalidade?
Respostas:
Aqui está o que Hastie et al. tenho a dizer sobre isso (no contexto da LDA de duas classes) em Os elementos do aprendizado estatístico, seção 4.3:
Eu não entendo completamente a derivação através dos mínimos quadrados a que se referem, mas em geral[Atualização: vou resumir brevemente em algum momento] Eu acho que este parágrafo faz sentido: mesmo se os dados não forem gaussianos ou de classe covariâncias são muito diferentes, o eixo LDA provavelmente ainda produzirá alguma discriminação. No entanto, o ponto de corte neste eixo (separando duas classes) fornecido pelo LDA pode ser completamente desativado. Otimizá-lo separadamente pode melhorar substancialmente a classificação.Observe que isso se refere apenas ao desempenho da classificação. Se tudo o que você procura é a redução da dimensionalidade, o eixo LDA é tudo o que você precisa. Portanto, meu palpite é que, para a redução da dimensionalidade, a LDA geralmente fará um trabalho decente, mesmo que as suposições sejam violadas.
Em relação ao rLDA e QDA: o rLDA deve ser usado se não houver pontos de dados suficientes para estimar com segurança a covariância dentro da classe (e é vital neste caso). E o QDA é um método não linear, por isso não tenho certeza de como usá-lo para redução de dimensionalidade.
fonte
LDA/FDA can start with n dimensions and end with k dimensions, where k < n
. Isso está correto? Ou A saída éc-1 where c is the number of classes and the dimensionality of the data is n with n>c.