Estou estudando análises discriminantes, mas estou tendo dificuldades para conciliar várias explicações diferentes. Acredito que devo estar faltando alguma coisa, porque nunca encontrei esse nível (aparentemente) de discrepância antes. Dito isto, o número de perguntas sobre análise discriminante neste site parece testemunhar sua complexidade.
LDA e QDA para várias classes
Meu livro principal é Análise Estatística Multivariada Aplicada (AMSA) da Johnson & Wichern e as anotações de meus professores com base nisso. Ignorarei a configuração de dois grupos, porque acredito que as fórmulas simplificadas nessa configuração estão causando pelo menos parte da confusão. De acordo com essa fonte, LDA e QDA são definidas como uma extensão paramétrica (assumindo normalidade multivariada) de uma regra de classificação com base no custo esperado de classificação incorreta (ECM). O ECM soma o custo esperado condicional para classificar uma nova observação x para qualquer grupo (incorporando custos de classificação incorreta e probabilidades anteriores) e escolhemos regiões de classificação que minimizam isso. em que
Supostamente, essa regra de classificação é equivalente a "uma que maximize as probabilidades posteriores" (sic AMSA), que só posso assumir é a abordagem de Bayes que já vi mencionada. Isso está correto? E o ECM é um método mais antigo, porque nunca vi isso acontecer em nenhum outro lugar.
Para populações normais, esta regra simplifica a pontuação discriminante quadrática: .
Isso parece equivalente à fórmula dos Elementos da aprendizagem estatística (ESL) 4.12 na página 110, embora eles a descrevam como uma função discriminante quadrática em vez de uma pontuação . Além disso, eles chegam aqui através da razão logarítmica de densidades multivariadas (4.9). Esse é outro nome para a abordagem de Bayes?
Quando assumimos covariância igual, a fórmula simplifica ainda mais o escore discriminante linear .
Essa fórmula difere da ESL (4.10), onde o primeiro termo é revertido: . A versão ESL é também a um listados na estatística de aprendizagem em R . Além disso, na saída SAS apresentada na AMSA, uma função discriminante linear é descrita consistindo em uma constante e um coeficiente vetor , aparentemente consistente com a versão ESL.
Qual poderia ser a razão por trás dessa discrepância?
Discriminantes e método de Fisher
Nota: se esta pergunta for considerada muito grande, removerei esta seção e abrirá uma nova pergunta, mas ela se baseia na seção anterior. Desculpas pelo muro de texto de qualquer maneira, tentei estruturá-lo um pouco, mas tenho certeza de que minha confusão sobre esse método levou a alguns saltos lógicos bastante estranhos.
O livro da AMSA continua descrevendo o método de Fisher, também para vários grupos. No entanto, o ttnphns apontou várias vezes que o FDA é simplesmente um LDA com dois grupos. O que é esse FDA multiclasse então? Talvez o FDA possa ter múltiplos significados?
A AMSA descreve os discriminantes de Fisher como os vetores próprios de que maximizam a proporção . As combinações lineares são então os discriminantes da amostra (dos quais existem ). Para a classificação, escolhemos o grupo k com o menor valor para onde r é o número de discriminantes que gostaríamos de usar. Se usarmos todos os discriminantes, essa regra seria equivalente à função discriminante linear.
Muitas explicações sobre o LDA parecem descrever a metodologia que é chamada de FDA no livro da AMSA, ou seja, a partir deste aspecto entre / dentro da variabilidade. O que significa então a FDA, se não a decomposição das matrizes BW?
Esta é a primeira vez que o livro de texto menciona o aspecto de redução de dimensão da análise discriminante, enquanto várias respostas neste site enfatizam a natureza em dois estágios dessa técnica, mas isso não é claro em uma configuração de dois grupos porque existe apenas 1 discriminante. Dadas as fórmulas acima para LDA e QDA multiclasses, ainda não me é evidente onde os discriminantes aparecem.
Esse comentário me deixou especialmente confuso, observando que a classificação de Bayes poderia essencialmente ser realizada nas variáveis originais. Mas se o FDA e o LDA são matematicamente equivalentes, como apontado pelo livro e aqui , a redução da dimensionalidade não deve ser inerente às funções ? Eu acredito que é para isso que o último link está abordando, mas não tenho certeza.
As anotações do curso de meu professor continuam explicando que o FDA é essencialmente uma forma de análise de correlação canônica. Eu encontrei apenas uma outra fonte que fala sobre esse aspecto, mas mais uma vez parece estar intimamente ligada à abordagem de Fisher de decompor a variabilidade entre e dentro. O SAS apresenta um resultado no seu procedimento LDA / QDA (DISCRIM) que aparentemente está relacionado ao método de Fisher ( https://stats.stackexchange.com/a/105116/62518 ). Entretanto, a opção FDA do SAS (CANDISC) realiza essencialmente uma correlação canônica, sem apresentar os chamados coeficientes de classificação de Fisher. Apresenta coeficientes canônicos brutos que, acredito, são equivalentes aos autovetores W-1B de R obtidos por lda (MASS) (https://support.sas.com/documentation/cdl/en/statug/63033/HTML/default/viewer.htm#statug_candisc_sect019.htm ). Os coeficientes de classificação parecem ser obtidos a partir da função discriminante que descrevi na seção LDA e QDA (uma vez que existe uma função por população e escolhemos a maior).
Ficaria grato por todos e quaisquer esclarecimentos ou referências a fontes que poderiam me ajudar a ver a floresta através das árvores. A principal causa da minha confusão parece ser que livros de texto diferentes chamam métodos por nomes diferentes ou apresentam uma ligeira variação da matemática, sem reconhecer as outras possibilidades, embora eu ache que isso não deve ser uma surpresa, considerando a idade do livro da AMSA .
If we use all the discriminants this rule would be equivalent to the linear discriminant function
Não está claro. "Discriminante" e "função discriminante" são sinônimos. Você pode usar todos os discriminantes ou apenas alguns dos mais fortes / significativos. Não virei para o livro da AMSA, mas suspeito que FDA = LDA, para os autores. Na verdade, eu pessoalmente acho que "Fisher LDA" seria um termo excedente e desnecessário.Extract the discriminants -> classify by them all (using Bayes approach, as usual)
quando, como geralmente por padrão, a matriz de covariância combinada dentro da classe dos discriminantes é usada na classificação.W^-1B
e depois fazer "Bayes". É equivalente, mas é menos flexível (você não pode selecionar apenas alguns dos discriminantes, não pode usar separado nas matrizes de covariância na classificação, etc.).Respostas:
Estou abordando apenas um aspecto da questão e fazendo-o intuitivamente sem álgebra.
Se as classes têm as mesmas matrizes de variância-covariância e diferem apenas pelo deslocamento de seus centróides no espaço tridimensional , elas são completamente linearmente separáveis no "subespaço ". É isso que a LDA está fazendo. Imagine que você tem três elipsóides idênticos no espaço das variáveis . Você deve usar as informações de todas as variáveis para prever a associação de classe sem erros. Mas, devido ao fato de serem nuvens idênticas e orientadas, é possível resgatá-las por uma transformação comum em bolas de raio unitário. Entãog p q=min(g−1,p) V1,V2,V3 q=g−1=2 dimensões independentes serão suficientes para prever os membros da classe tão precisamente quanto antes. Essas dimensões são chamadas de funções discriminantes . Com 3 bolas de pontos do mesmo tamanho, você precisa de apenas 2 linhas axiais e conhecer as coordenadas das bolas para atribuir todos os pontos corretamente.D1,D2
Discriminantes são variáveis não correlacionadas, suas matrizes de covariância dentro da classe são idealmente identitárias (as bolas). Os discriminantes formam um subespaço do espaço das variáveis originais - elas são suas combinações lineares. No entanto, eles não são eixos do tipo rotação (tipo PCA): vistos no espaço das variáveis originais, discriminantes como eixos não são mutuamente ortogonais .
Assim, sob o pressuposto de homogeneidade da LDA dentro da classe, covariâncias usando para classificação todos os discriminantes existentes não é pior do que classificar imediatamente pelas variáveis originais. Mas você não precisa usar todos os discriminantes. Você pode usar apenas primeiro dos mais fortes / estatisticamente significantes deles. Dessa forma, você perde informações mínimas para classificação e a classificação incorreta será mínima. Visto dessa perspectiva, o LDA é uma redução de dados semelhante ao PCA, apenas supervisionada.m<q
Observe que, assumindo a homogeneidade (+ normalidade multivariada) e desde que você planeje usar, mas todos os discriminantes na classificação, é possível ignorar a extração dos próprios discriminantes - que envolve o problema de autogeneral generalizado - e calcular as chamadas "funções de classificação de Fisher" diretamente das variáveis, para classificar com elas , com o resultado equivalente. Assim, quando as classes são de forma idêntica, podemos considerar as variáveis de entrada ou as funções de Fisher ou os discriminantes como todos os conjuntos equivalentes de "classificadores". Mas os discriminantes são mais convenientes em muitos aspectos.g p g q 1
Como geralmente as classes não são "elipses idênticas" na realidade, a classificação pelos discriminantes é um pouco mais pobre do que se você fizer a classificação de Bayes por todas as variáveis originais. Por exemplo, neste gráfico, os dois elipsóides não são paralelos um ao outro; e pode-se entender visualmente que o único discriminante existente não é suficiente para classificar os pontos com a precisão que as duas variáveis permitem. QDA (análise discriminante quadrática) seria então uma aproximação melhor do que LDA. Uma abordagem prática a meio caminho entre a LDA e a QDA é usar discriminantes da LDA, mas usar suas matrizes de covariância de classe separada observadas na classificação ( ver , verq p ) em vez de sua matriz agrupada (que é a identidade).
(E sim, a LDA pode ser vista como intimamente relacionada a, mesmo um caso específico, da análise de correlação MANOVA e Canonical ou regressão multivariada de classificação reduzida - veja , veja , veja .)
fonte