Intuição para máquinas de vetores de suporte e o hiperplano

14

No meu projeto, quero criar um modelo de regressão logística para prever a classificação binária (1 ou 0).

Eu tenho 15 variáveis, 2 das quais são categóricas, enquanto o restante é uma mistura de variáveis ​​contínuas e discretas.

Para ajustar um modelo de regressão logística, fui aconselhado a verificar a separabilidade linear usando SVM, perceptron ou programação linear. Isso está de acordo com as sugestões feitas aqui sobre o teste de separabilidade linear.

Como iniciante no aprendizado de máquina, entendo os conceitos básicos sobre os algoritmos mencionados acima, mas conceitualmente luto para visualizar como podemos separar dados com tantas dimensões, ou seja, 15 no meu caso.

Todos os exemplos no material on-line geralmente mostram um gráfico 2D de duas variáveis ​​numéricas (altura, peso), que mostram uma clara diferença entre categorias e facilitam a compreensão, mas no mundo real os dados geralmente têm uma dimensão muito mais alta. Eu continuo sendo atraído de volta ao conjunto de dados Iris e tentando encaixar um hiperplano nas três espécies e como é particularmente difícil, se não impossível, fazer isso entre duas espécies, as duas classes me escapam agora.

Como se consegue isso quando temos ordens de dimensões ainda mais altas , presume-se que, quando excedemos um certo número de recursos, usamos kernels para mapear para um espaço dimensional mais alto, a fim de obter essa separabilidade?

Também para testar a separabilidade linear, qual é a métrica usada? É a precisão do modelo SVM, ou seja, a precisão baseada na matriz de confusão?

Qualquer ajuda para entender melhor este tópico seria muito apreciada. Também abaixo está uma amostra de um gráfico de duas variáveis ​​no meu conjunto de dados que mostra como essas duas variáveis ​​se sobrepõem.

insira a descrição da imagem aqui

A cabra
fonte
1
você parece ter várias perguntas distintas espalhadas em sua postagem. coloque-os todos juntos em uma lista ou remova as perguntas não essenciais. este atrair mais pessoas para atender e melhores respostas
Aksakal
2
Em geral, a intuição precisa de muita ajuda da imaginação ao passar de 2D para uma situação de alta dimensão; muitas vezes, a intuição se desintegra completamente. há muitas versões dimensionais elevados de problemas de baixa dimensionalidade que parecem pertencer a todo um mundo diferente, onde as coisas funcionam differentlty, pense teorema de Fermat
Aksakal

Respostas:

14

Vou tentar ajudá-lo a entender por que a adição de dimensões ajuda um classificador linear a fazer um trabalho melhor ao separar duas classes.

X1X2n=3

n = 3

Agora imagine atribuir alguns dos pontos à classe 1 e outros à classe 2. Observe que não importa como atribuímos classes aos pontos, sempre podemos desenhar uma linha que separa perfeitamente as duas classes.

Mas agora vamos dizer que adicionamos um novo ponto:

n = 4

p=2

X3

p = 3, n = 4

p=3n=4

pp+1

np

FnFnFFpFn=p+1Fpvariáveis, ele pode quebrar qualquer número de pontos. Essa noção de quebra, que nos fala sobre a complexidade de um conjunto de possíveis classificadores, vem da teoria da aprendizagem estatística e pode ser usada para fazer afirmações sobre a quantidade de sobreajuste que um conjunto de classificadores pode fazer. Se você estiver interessado, recomendo vivamente Luxburg e Schölkopf "Teoria Estatística da Aprendizagem: Modelos, Conceitos e Resultados" (2008).

jld
fonte
muito obrigado pela sua resposta detalhada, isso realmente me ajudou a entender melhor a idéia dos recursos multidimensionais e como separá-los intuitivamente.
TheGoat 31/03
7

É fácil cometer um erro quando você pega sua intuição sobre espaços de baixa dimensão e aplica-a em espaços de alta dimensão. Sua intuição é exatamente ao contrário neste caso. É muito mais fácil encontrar um hiperplano separador no espaço dimensional mais alto do que no espaço inferior.

Embora ao analisar dois pares de variáveis, as distribuições vermelha e azul estejam sobrepostas, ao analisar todas as 15 variáveis ​​ao mesmo tempo, é muito possível que elas não se sobreponham.

Aaron
fonte
2

Você tem 15 variáveis, mas nem todas são igualmente significativas para a discriminação de sua variável dependente (algumas podem até ser quase irrelevantes).

A Análise de Componentes Principais (PCA) recalcula uma base linear dessas 15 variáveis ​​e as ordena, de tal maneira que os primeiros componentes normalmente explicam a maior parte da variação. Portanto, isso permite reduzir um problema de 15 dimensões para (digamos) um problema de 2,3,4 ou 5 dimensões. Portanto, torna a plotagem mais intuitiva; normalmente, você pode usar dois ou três eixos para variáveis ​​numéricas (ou ordinais de alta cardinalidade) e, em seguida, usar cor, forma e tamanho do marcador para três dimensões extras (talvez mais se você puder combinar ordinais de baixa cardinalidade). Portanto, a plotagem com os 6 PCs mais importantes deve proporcionar uma visualização mais clara da sua superfície de decisão.

smci
fonte