Análise Discriminante Linear e dados não normalmente distribuídos

8

Se bem entendi, uma Análise Discriminante Linear (LDA) assume dados distribuídos normais, recursos independentes e covariâncias idênticas para todas as classes, para o critério de otimização.

Como a média e a variação são estimadas a partir dos dados de treinamento, isso já não é uma violação?

Encontrei uma citação em um artigo (Li, Tao, Shenghuo Zhu e Mitsunori Ogihara. “ Usando análise discriminante para classificação de várias classes: uma investigação experimental .” Knowledge and Information Systems 10, n. 4 (2006): 453–72 .)

"a análise discriminante linear freqüentemente alcança bons desempenhos nas tarefas de reconhecimento de faces e objetos, mesmo que as suposições da matriz de covariância comum entre os grupos e a normalidade sejam frequentemente violadas (Duda, et al., 2001)"

- infelizmente, não encontrei a seção correspondente em Duda et. al. "Classificação de padrões".

Alguma experiência ou opinião sobre o uso de LDA (vs. LDA ou QDA regularizado) para dados não normais em contexto de redução de dimensionalidade?

ameba
fonte
1
Você pergunta especificamente sobre o LDA de várias classes. O que faz você pensar que o LDA de várias classes e o de duas classes se comportam de maneira diferente nesse aspecto (sob violação da normalidade e / ou premissas comuns de covariância)?
Ameba
Se não estou perdendo algo aqui, deve ser baseado nas mesmas suposições, certo? Eu só não viu quaisquer suposições em papel de Rao com relação à normalidade, mas eu generalizada a questão

Respostas:

11

Aqui está o que Hastie et al. tenho a dizer sobre isso (no contexto da LDA de duas classes) em Os elementos do aprendizado estatístico, seção 4.3:

Como essa derivação da direção do LDA via mínimos quadrados não utiliza uma suposição gaussiana para os recursos, sua aplicabilidade se estende além do domínio dos dados gaussianos. No entanto, a derivação do intercepto ou ponto de corte específico fornecido em (4.11) requer dados gaussianos. Portanto, faz sentido escolher o ponto de corte que minimiza empiricamente o erro de treinamento para um determinado conjunto de dados. Isso é algo que descobrimos que funciona bem na prática, mas não o vi mencionado na literatura.

Eu não entendo completamente a derivação através dos mínimos quadrados a que se referem, mas em geral [Atualização: vou resumir brevemente em algum momento] Eu acho que este parágrafo faz sentido: mesmo se os dados não forem gaussianos ou de classe covariâncias são muito diferentes, o eixo LDA provavelmente ainda produzirá alguma discriminação. No entanto, o ponto de corte neste eixo (separando duas classes) fornecido pelo LDA pode ser completamente desativado. Otimizá-lo separadamente pode melhorar substancialmente a classificação.

Observe que isso se refere apenas ao desempenho da classificação. Se tudo o que você procura é a redução da dimensionalidade, o eixo LDA é tudo o que você precisa. Portanto, meu palpite é que, para a redução da dimensionalidade, a LDA geralmente fará um trabalho decente, mesmo que as suposições sejam violadas.

Em relação ao rLDA e QDA: o rLDA deve ser usado se não houver pontos de dados suficientes para estimar com segurança a covariância dentro da classe (e é vital neste caso). E o QDA é um método não linear, por isso não tenho certeza de como usá-lo para redução de dimensionalidade.

ameba
fonte
Agradecemos novamente por esse feedback valioso e completo! Vou deixar o aberto pergunta por alguns dias para recolher mais algumas opiniões
Poucos dias se passaram :)
ameba
Posso saber isso no contexto da redução de dimensionalidade usando LDA / FDA. LDA/FDA can start with n dimensions and end with k dimensions, where k < n. Isso está correto? Ou A saída éc-1 where c is the number of classes and the dimensionality of the data is n with n>c.
aan