Qual é o modelo estatístico por trás do algoritmo SVM?
28
Aprendi que, ao lidar com dados usando a abordagem baseada em modelo, o primeiro passo é modelar o procedimento de dados como um modelo estatístico. O próximo passo é desenvolver um algoritmo eficiente / rápido de inferência / aprendizado com base nesse modelo estatístico. Então, eu quero perguntar qual modelo estatístico está por trás do algoritmo da máquina de vetores de suporte (SVM)?
Muitas vezes, você pode escrever um modelo que corresponda a uma função de perda (aqui vou falar sobre regressão SVM em vez de classificação SVM; é particularmente simples)
Por exemplo, em um modelo linear, se sua função de perda for , minimizando isso corresponderá à probabilidade máxima de f ∝ exp ( - a∑ig(εi)=∑ig(yi−x′iβ)= exp ( - af∝exp(−ag(ε)) . (Aqui eu tenho um núcleo linear)=exp(−ag(y−x′β))
Se bem me lembro, a regressão SVM tem uma função de perda como esta:
Isso corresponde a uma densidade que é uniforme no meio com caudas exponenciais (como vemos exponenciando seu negativo, ou algum múltiplo de seu negativo).
Há uma família de três parâmetros: localização do canto (limite de insensibilidade relativo) mais localização e escala.
É uma densidade interessante; se bem me lembro de olhar para essa distribuição específica há algumas décadas, um bom estimador de localização é a média de dois quantis simetricamente posicionados correspondentes a onde os cantos estão (por exemplo, o midhinge daria uma boa aproximação ao MLE para uma determinada escolha da constante na perda de SVM); um estimador semelhante para o parâmetro de escala seria baseado em sua diferença, enquanto o terceiro parâmetro corresponde basicamente a descobrir em que percentual os cantos estão (isso pode ser escolhido em vez de estimado, como costuma ser para SVM).
Portanto, pelo menos para a regressão SVM, parece bastante simples, pelo menos se estamos escolhendo obter nossos estimadores pela máxima probabilidade.
(Caso você esteja prestes a perguntar ... Não tenho referência a essa conexão específica com o SVM: acabei de resolver isso agora. É tão simples, no entanto, que dezenas de pessoas já resolveram isso antes de mim, sem dúvida não são referências para isso - eu apenas nunca vi nenhum).
(Eu respondi isso anteriormente em outro lugar, mas o excluí e o mudei para cá quando vi você também perguntar aqui; a capacidade de escrever matemática e incluir imagens é muito melhor aqui - e a função de pesquisa também é melhor, por isso é mais fácil de encontrar em alguns meses)
Glen_b -Reinstala Monica 14/11
2
ℓ2
2
Se o OP está perguntando sobre SVM, ele provavelmente está interessado em classificação (que é a aplicação mais comum de SVMs). Nesse caso, a perda é dobradiça, o que é um pouco diferente (você não tem a parte crescente). Com relação ao modelo, ouvi acadêmicos dizendo na conferência que os SVMs foram introduzidos para realizar a classificação sem ter que usar uma estrutura probabilística. Provavelmente é por isso que você não consegue encontrar referências. Por outro lado, você pode e você faz reformulação minimização de perdas dobradiça como minimização do risco empírico - o que significa ...
DeltaIV
4
Só porque você não precisa ter uma estrutura probabilística ... não significa que o que você está fazendo não corresponde a uma. Pode-se fazer menos quadrados sem assumir a normalidade, mas é útil entender que é nisso que está se saindo bem ... e quando você não está nem perto disso, pode estar se saindo muito bem.
Acho que alguém já respondeu sua pergunta literal, mas deixe-me esclarecer uma possível confusão.
Sua pergunta é um pouco semelhante à seguinte:
f(x)=…
Em outras palavras, certamente tem uma resposta válida (talvez até única, se você impõe restrições de regularidade), mas é uma pergunta bastante estranha, pois não foi uma equação diferencial que deu origem a essa função em primeiro lugar.
(Por outro lado, dada a equação diferencial, é natural pedir sua solução, pois geralmente é por isso que você escreve a equação!)
Eis o porquê: acho que você está pensando em modelos probabilísticos / estatísticos - especificamente modelos generativos e discriminativos , com base na estimativa de probabilidades conjuntas e condicionais a partir dos dados.
O SVM não é nenhum. É um tipo de modelo completamente diferente - que ignora esses problemas e tenta modelar diretamente o limite da decisão final, e as probabilidades são condenadas.
Como se trata de encontrar a forma do limite de decisão, a intuição por trás dele é geométrica (ou talvez devamos dizer baseada em otimização), em vez de probabilística ou estatística.
Dado que as probabilidades não são realmente consideradas em nenhum lugar ao longo do caminho, é bastante incomum perguntar o que poderia ser um modelo probabilístico correspondente, e especialmente porque todo o objetivo era evitar ter que se preocupar com probabilidades. Por isso, você não vê pessoas falando sobre eles.
Eu acho que você está descontando o valor dos modelos estatísticos subjacentes ao seu procedimento. A razão pela qual é útil é que ele informa quais suposições estão por trás de um método. Se você as conhece, é capaz de entender quais situações elas sofrerão e quando prosperarão. Você também pode generalizar e estender o svm de uma maneira baseada em princípios, se você tiver o modelo subjacente.
probabilityislogic
3
@probabilityislogic: "Acho que você está descontando o valor dos modelos estatísticos subjacentes ao seu procedimento." Acho que estamos falando um do outro. O que estou tentando dizer é que não existe um modelo estatístico por trás do procedimento. Eu estou não dizer que não é possível chegar a um que se encaixa-lo a posteriori, mas eu estou tentando explicar que não era "por trás" de forma alguma, mas sim "ajuste" para ele após o fato . Também não estou dizendo que fazer algo assim é inútil; Concordo com você que pode acabar com um valor tremendo. Por favor, tenha em mente essas distinções.
Mehrdad
1
@Mehrdad: Eu não estou dizendo que não é possível encontrar uma que se encaixe a posteriori, a ordem em que as peças do que chamamos de 'máquina' svm foram montadas (que problema os humanos que a projetaram estavam originalmente tentando resolver) é interessante do ponto de vista da história da ciência. Mas, pelo que sabemos, pode haver um manuscrito ainda desconhecido em alguma biblioteca contendo uma descrição do mecanismo svm de 200 anos atrás, que ataca o problema pelo ângulo que Glen_b explorou. Talvez as noções de a posteriori e depois do fato sejam menos confiáveis na ciência.
user603
1
@ user603: Não é apenas a história que está com o problema aqui. O aspecto histórico é apenas metade dele. A outra metade é como é normalmente derivada na realidade. Começa como um problema de geometria e termina com um problema de otimização. Ninguém começa com o modelo probabilístico na derivação, significando que o modelo probabilístico não estava em nenhum sentido "por trás" do resultado. É como afirmar que a mecânica lagrangiana está "por trás" de F = ma. Talvez possa levar a isso, e sim, é útil, mas não, não é e nunca foi a base disso. De fato, todo o objetivo era evitar a probabilidade.
Acho que alguém já respondeu sua pergunta literal, mas deixe-me esclarecer uma possível confusão.
Sua pergunta é um pouco semelhante à seguinte:
Em outras palavras, certamente tem uma resposta válida (talvez até única, se você impõe restrições de regularidade), mas é uma pergunta bastante estranha, pois não foi uma equação diferencial que deu origem a essa função em primeiro lugar.
(Por outro lado, dada a equação diferencial, é natural pedir sua solução, pois geralmente é por isso que você escreve a equação!)
Eis o porquê: acho que você está pensando em modelos probabilísticos / estatísticos - especificamente modelos generativos e discriminativos , com base na estimativa de probabilidades conjuntas e condicionais a partir dos dados.
O SVM não é nenhum. É um tipo de modelo completamente diferente - que ignora esses problemas e tenta modelar diretamente o limite da decisão final, e as probabilidades são condenadas.
Como se trata de encontrar a forma do limite de decisão, a intuição por trás dele é geométrica (ou talvez devamos dizer baseada em otimização), em vez de probabilística ou estatística.
Dado que as probabilidades não são realmente consideradas em nenhum lugar ao longo do caminho, é bastante incomum perguntar o que poderia ser um modelo probabilístico correspondente, e especialmente porque todo o objetivo era evitar ter que se preocupar com probabilidades. Por isso, você não vê pessoas falando sobre eles.
fonte