Regressão logística vs. LDA como classificadores de duas classes

36

Estou tentando entender a diferença estatística entre análise discriminante linear e regressão logística . Estou certo de que, para um problema de classificação de duas classes , o LDA prevê duas funções de densidade normal (uma para cada classe) que cria um limite linear onde elas se cruzam, enquanto a regressão logística apenas prevê a função log-odd entre as duas classes, que cria um limite, mas não assume funções de densidade para cada classe?

user1885116
fonte
Veja também uma pergunta semelhante stats.stackexchange.com/q/14697/3277
ttnphns
Uma resposta relacionada, stats.stackexchange.com/a/31466/3277
ttnphns

Respostas:

35

Parece-me que você está correto. A regressão logística, de fato, não assume formas específicas de densidades no espaço das variáveis ​​preditoras, mas a LDA assume. Aqui estão algumas diferenças entre as duas análises, brevemente.

Regressão logística binária (BLR) vs Análise discriminante linear (com 2 grupos: também conhecido como LDA de Fisher):

  • BLR : Com base na estimativa de máxima verossimilhança. LDA : Baseado na estimativa de mínimos quadrados; equivalente à regressão linear com predição binária (coeficientes são proporcionais e R-quadrado = lambda de 1-Wilk).

  • BLR : Estima a probabilidade (de participação no grupo) imediatamente (a previsão e ela mesma é tomada como probabilidade, observada uma) e condicionalmente. LDA : estima a probabilidade de forma mediana (o preditor e é visto como variável contínua binned, o discriminante) por meio de um dispositivo classificatório (como Bayes ingênuo), que usa informações condicionais e marginais.

  • BLR : Não é tão exigente quanto ao nível da escala e à forma da distribuição nos preditores. LDA : Preditivamente deseja nível de intervalo com distribuição normal multivariada.

  • BLR : Não há requisitos sobre as matrizes de covariância dentro do grupo dos preditores. LDA : As matrizes de covariância dentro do grupo devem ser idênticas na população.

  • nn

  • BLR : Não é tão sensível aos valores extremos. LDA : bastante sensível a valores discrepantes.

  • BLR : Método mais novo. LDA : método mais antigo.

  • BLR : Geralmente preferido, porque menos exigente / mais robusto. LDA : Com todos os seus requisitos atendidos, geralmente é melhor classificado que o BLR (eficiência relativa assintótica 3/2 vezes maior que o tempo).

ttnphns
fonte
21

Deixe-me adicionar alguns pontos à boa lista @ttnphns:

  • A previsão de Bayes da probabilidade de associação de classe posterior do LDA também segue uma curva logística.
    [Efron, B. A eficiência da regressão logística em comparação com a análise discriminante normal, J Am Stat Assoc, 70, 892-898 (1975).]

  • Embora esse artigo mostre que a eficiência relativa do LDA é superior à LR se as suposições do LDA forem atendidas (Ref: artigo de Efron acima, último ponto do @tthnps), de acordo com os Elementos de Aprendizagem Estatística na prática, quase não há diferença.
    [Hastie, T. e Tibshirani, R. e Friedman, J. Os Elementos da Aprendizagem Estatística; Mineração de dados, inferência e predição Springer Verlag, Nova York, 2009]

  • Essa enorme eficiência relativa do LDA ocorre principalmente em casos assintóticos, onde o erro absoluto é praticamente desprezível.
    [Harrell, FE & Lee, KL Uma comparação da discriminação de análise discriminante e regressão logística sob normalidade multivariada, Bioestatística: Estatística em Biomédica, Saúde Pública e Ciências Ambientais, 333-343 (1985).]

  • Embora na prática eu tenha encontrado situações de alta dimensão e tamanho amostral pequeno, nas quais o LDA parece superior (apesar de a normalidade multivariada e as suposições da matriz de covariância igual serem visivelmente não atendidas).
    [ Beleites, C .; Geiger, K .; Kirsch, M .; Sobottka, SB; Schackert, G. & Salzer, classificação espectroscópica de R. Raman de tecidos de astrocitoma: usando informações de referência suaves., Anal Bioanal Chem, 400, 2801-2816 (2011). DOI: 10.1007 / s00216-011-4985-4 ]

  • Mas observe que, em nosso artigo, a LR está possivelmente lutando com o problema de que direções com separabilidade (quase) perfeita podem ser encontradas. O LDA, por outro lado, pode ser menos severamente ajustado.

  • As famosas suposições para a LDA são necessárias apenas para provar a otimização. Se eles não forem atendidos, o procedimento ainda pode ser uma boa heurística.

  • Uma diferença que é importante para mim na prática, porque os problemas de classificação em que trabalho, às vezes / frequentemente acabam por não ser claramente esses problemas de classificação: o LR pode ser feito facilmente com dados nos quais a referência tem níveis intermediários de associação à classe. Afinal, é uma técnica de regressão .
    [veja o artigo acima]

  • Você pode dizer que a LR concentra mais do que a LDA em exemplos próximos ao limite da classe e basicamente desconsidera os casos na "parte traseira" das distribuições.

  • Isso também explica por que é menos sensível a outliers (ou seja, aqueles na parte de trás) do que a LDA.

  • (máquinas de vetores de suporte seriam um classificador que vai nessa direção até o fim: aqui tudo menos os casos na fronteira são desconsiderados)

cbeleites suporta Monica
fonte