A diferença entre regressão logística e máquinas de vetores de suporte?

14

Eu sei que a regressão logística encontra um hiperplano que separa as amostras de treinamento. Sei também que as máquinas de vetores de suporte encontram o hiperplano com a margem máxima.

Minha pergunta: então a diferença entre regressão logística (LR) e máquinas de vetores de suporte (SVM) é que a LR encontra qualquer hiperplano que separa as amostras de treinamento enquanto o SVM encontra o hiperplano com a margem máxima? Ou eu estou errado?

Nota: lembre-se de que em LR quando , a função logística fornece . Se assumirmos como um limite de classificação, então é um hiperplano ou um limite de decisão.θx=0 00,50,5θx=0 0

Jack Twain
fonte

Respostas:

8

Você está certo se estiver falando sobre SVM rígido e as duas classes são linearmente separáveis. O LR encontra qualquer solução que separa as duas classes. O SVM rígido encontra "a" solução entre todas as possíveis com a margem máxima.

No caso de SVM flexível e as classes não serem linearmente separáveis, você ainda está certo com uma pequena modificação. O erro não pode se tornar zero. O LR encontra um hiperplano que corresponde à minimização de algum erro. O Soft SVM tenta minimizar o erro (outro erro) e, ao mesmo tempo, troca esse erro com a margem por meio de um parâmetro de regularização.

Uma diferença entre os dois: SVM é um classificador rígido, mas LR é probabilístico. SVM é escasso. Ele escolhe os vetores de suporte (das amostras de treinamento) que têm o poder mais discriminatório entre as duas classes. Como ele não mantém outros pontos de treinamento além do que no momento do teste, não temos nenhuma idéia sobre a distribuição de nenhuma das duas classes.

Expliquei como a solução LR (usando IRLS) quebra no caso de separabilidade linear das duas classes e por que ela deixa de ser um classificador probabilístico nesse caso: /stats//a/133292/66491

Seeda
fonte
3
Que tipo de mínimos quadrados a regressão logística otimiza? LR usa entropia cruzada como uma perda.
Artem Sobolev
1
apenas porque a regressão logística usa IRLS que não significa mínimos quadrados - a reponderação no IRLS é uma função da estimativa atual dos parâmetros, tornando a função real otimizada bastante diferente dos mínimos quadrados.
Glen_b -Reinstala Monica 15/03
Em resumo, o SVM é uma variante aprimorada do LR, porque encontra o hiperplano com a marcação máxima, enquanto o LR apenas encontra um hiperplano (tipo de falar aleatoriamente?). Você concorda com esta sumarização?
LandonZeKepitelOfGreytBritn