Encontrei alguns profissionais da análise discriminante e tenho perguntas sobre eles. Então:
Quando as classes são bem separadas, as estimativas de parâmetros para regressão logística são surpreendentemente instáveis. Coeficientes podem ir para o infinito. LDA não sofre com esse problema.
Se o número de características for pequeno e a distribuição dos preditores for aproximadamente normal em cada uma das classes, o modelo discriminante linear será novamente mais estável que o modelo de regressão logística.
- O que é estabilidade e por que é importante? (Se a regressão logística fornece um bom ajuste que faz seu trabalho, por que devo me preocupar com a estabilidade?)
O LDA é popular quando temos mais de duas classes de resposta, porque também fornece visualizações de baixa dimensão dos dados.
- Eu simplesmente não entendo isso. Como o LDA fornece visualizações de baixa dimensão?
- Se você pode citar mais prós ou contras, isso seria bom.
Respostas:
Se existem valores covariáveis que podem prever perfeitamente o resultado binário, o algoritmo de regressão logística, ou seja, a pontuação de Fisher, nem converge. Se você estiver usando R ou SAS, receberá um aviso de que probabilidades de zero e uma foram calculadas e que o algoritmo travou. Este é o caso extremo de separação perfeita, mas mesmo que os dados sejam separados em grande parte e não perfeitamente, o estimador de probabilidade máxima pode não existir e, mesmo que exista, as estimativas não são confiáveis. O ajuste resultante não é bom. Existem muitos tópicos que tratam do problema da separação neste site, portanto, dê uma olhada.
Por outro lado, não se costuma encontrar problemas de estimativa com os discriminantes de Fisher. Ainda pode acontecer se a matriz de covariância entre ou dentro for singular, mas esse é um caso bastante raro. De fato, se houver uma separação completa ou quase completa, tanto melhor, porque é mais provável que o discriminante seja bem-sucedido.
Também vale ressaltar que, contrariamente à crença popular, a LDA não se baseia em nenhuma premissa de distribuição. Exigimos apenas implicitamente a igualdade das matrizes de covariância populacional, pois um estimador agrupado é usado para a matriz de covariância interna. Sob as premissas adicionais de normalidade, probabilidades anteriores iguais e custos de classificação incorreta, a LDA é ótima no sentido de minimizar a probabilidade de classificação incorreta.
É mais fácil ver isso no caso de duas populações e duas variáveis. Aqui está uma representação pictórica de como a LDA funciona nesse caso. Lembre-se de que estamos procurando combinações lineares das variáveis que maximizam a separabilidade.
Portanto, os dados são projetados no vetor cuja direção alcança melhor essa separação. Como descobrimos que o vetor é um problema interessante da álgebra linear, basicamente maximizamos um quociente de Rayleigh, mas vamos deixar isso de lado por enquanto. Se os dados são projetados nesse vetor, a dimensão é reduzida de dois para um.
O caso geral de mais de duas populações e variáveis é tratado da mesma forma. Se a dimensão for grande, combinações mais lineares serão usadas para reduzi-la; nesse caso, os dados são projetados em planos ou hiperplanos. Há um limite para quantas combinações lineares é possível encontrar, é claro, e esse limite resulta da dimensão original dos dados. Se denotarmos o número de variáveis preditoras por e o número de populações por , verifica-se que o número é no máximo .g min ( g - 1 , p )p g min ( g- 1 , p )
A representação em baixa dimensão não apresenta desvantagens, no entanto, a mais importante é, obviamente, a perda de informações. Isso é menos problemático quando os dados são linearmente separáveis, mas se não forem, a perda de informações pode ser substancial e o classificador terá um desempenho ruim.
Também pode haver casos em que a igualdade das matrizes de covariância pode não ser uma suposição sustentável. Você pode empregar um teste para garantir, mas esses testes são muito sensíveis a desvios da normalidade; portanto, você precisa fazer essa suposição adicional e também testá-la. Se for descoberto que as populações são normais com matrizes de covariância desiguais, uma regra de classificação quadrática pode ser usada (QDA), mas acho que essa é uma regra bastante embaraçosa, sem mencionar que é contra-intuitivo em altas dimensões.
No geral, a principal vantagem do LDA é a existência de uma solução explícita e sua conveniência computacional, o que não é o caso de técnicas de classificação mais avançadas, como SVM ou redes neurais. O preço que pagamos é o conjunto de suposições que o acompanham, a saber, separabilidade linear e igualdade de matrizes de covariância.
Espero que isto ajude.
EDIT : Suspeito que minha alegação de que a LDA nos casos específicos que mencionei não exija nenhuma suposição distributiva que não seja a igualdade das matrizes de covariância me custou um voto negativo. Isso não é menos verdade, no entanto, deixe-me ser mais específico.
Se deixarmos denotar as médias da primeira e da segunda população e denotar a matriz de covariância combinada, O discriminante de Fisher resolve o problemaSagrupadox¯i, i =1,2 Sagrupado
A solução desse problema (até uma constante) pode ser mostrada como
Isso é equivalente ao LDA que você obtém sob a premissa de normalidade, matrizes de covariância iguais, custos de classificação incorreta e probabilidades anteriores, certo? Bem, sim, exceto agora que não assumimos a normalidade.
Não há nada que o impeça de usar o discriminante acima em todas as configurações, mesmo que as matrizes de covariância não sejam realmente iguais. Pode não ser o ideal no sentido do custo esperado da classificação incorreta (ECM), mas esse aprendizado é supervisionado, para que você sempre possa avaliar seu desempenho, usando, por exemplo, o procedimento de retenção.
Referências
fonte
A LDA faz suposições distributivas severas (normalidade multivariada de todos os preditores) ao contrário da regressão logística. Tente obter probabilidades posteriores de participação na classe com base no sexo dos sujeitos e você verá o que quero dizer - as probabilidades não serão precisas.
A instabilidade da regressão logística quando um conjunto de valores preditores gera uma probabilidade de 0 ou 1 de que seja mais ou menos uma ilusão. As iterações de Newton-Raphson convergirão para s próximos o suficiente para (por exemplo, ), de modo que as probabilidades previstas sejam essencialmente 0 ou 1 quando deveriam. O único problema que isso causa é o efeito Hauck-Donner nas estatísticas de Wald. A solução é simples: não use testes Wald neste caso; use testes de razão de verossimilhança, que se comportam muito bem mesmo com estimativas infinitas. Para intervalos de confiança, use intervalos de confiança da probabilidade do perfil, se houver uma separação completa.Y= 1 β ± ∞ ± 30
Veja isso para mais informações.
Observe que, se a normalidade multivariável se mantém, pelo teorema de Bayes, as premissas da regressão logística se mantêm. O contrário não é verdade.
A normalidade (ou pelo menos a simetria) quase deve valer para variações e covariâncias para "fazer o trabalho". Preditores normalmente distribuídos não multivariados prejudicam a fase de extração discriminante.
fonte
Isenção de responsabilidade: O que se segue aqui carece de rigor matemático completamente.
Para ajustar bem uma função (não linear), você precisa de observações em todas as regiões da função em que "sua forma muda". A regressão logística ajusta uma função sigmóide aos dados:
No caso de classes bem separadas, todas as observações recairão nos dois "extremos", onde o sigmóide se aproxima de suas assíntotas (0 e 1). Como todos os sigmóides "parecem iguais" nessas regiões, por assim dizer, não admira que o algoritmo de ajuste inadequado tenha dificuldades para encontrar "o caminho certo".
Vamos dar uma olhada em dois exemplos (espero instrutivos) calculados com a
glm()
função de R.Caso 1: Os dois grupos se sobrepõem até certo ponto:
e as observações se distribuem muito bem em torno do ponto de inflexão do sigmóide ajustado:
Estes são os parâmetros ajustados com bons erros padrão baixos:
e o desvio também parece bom:
Caso 2: Os dois grupos estão bem separados:
e todas as observações estão praticamente nas assíntotas. A
glm()
função tentou o melhor possível para ajustar-se a algo, mas reclamou das probabilidades numericamente 0 ou 1, porque simplesmente não há observações disponíveis para "acertar a forma do sigmóide" em torno de seu ponto de inflexão:Você pode diagnosticar o problema observando que os erros padrão dos parâmetros estimados passam pelo telhado:
e, ao mesmo tempo, o desvio parece suspeitamente bom (porque as observações se encaixam bem nas assíntotas):
Pelo menos intuitivamente, deve ficar claro a partir dessas considerações por que "as estimativas de parâmetros para a regressão logística são surpreendentemente instáveis".
fonte