Um colega tem uma função e para os nossos propósitos é uma caixa-preta. A função mede a semelhança de dois objetos.s ( a , b )
Temos certeza de que tem essas propriedades:
- As pontuações de similaridade são números reais entre 0 e 1, inclusive.
- Somente os objetos que são auto-idênticos têm pontuações de 1. Então implica vice-versa.a = b
- Temos a garantia de que .
Agora ele quer trabalhar com algoritmos que requerem distâncias como entradas e dependem das entradas que satisfazem os axiomas da distância.
Meu pensamento era que poderíamos tratar as pontuações de similaridade como se fossem o resultado do kernel da RBF a alguma distância (poderia ser uma norma euclidiana ou outra distância), ou seja, podemos apenas reorganizar a álgebra e assumir que as pontuações de similaridade se referem a o kernel RBF para um par de pontos em algum sistema de coordenadas (desconhecido).
Onde é um vetor desconhecido, e é o objeto de interesse é alguma distância.x α d
As propriedades óbvias funcionam, em termos de respeitar os axiomas da distância. Os resultados devem ser não negativos e as distâncias são apenas 0 para objetos idênticos. Mas não é óbvio que esse conjunto geral de circunstâncias seja suficiente para implicar que a desigualdade do triângulo seja respeitada.
Por outro lado, isso parece meio louco.
Portanto, minhas perguntas são "existe um tal que para alguma métrica de distância, dadas essas propriedades em , e qual é esse ?"f ( s ( um , b ) ) = d ( um , b ) d s f
Se não existir nessas circunstâncias gerais em , existe um conjunto adicional de requisitos para os quais existe?s f
fonte
Respostas:
Nem em todos os casos.
Wikipedia: "Em matemática, especificamente análise funcional, o teorema de Mercer é uma representação de uma função positiva definida simétrica em um quadrado como a soma de uma sequência convergente de funções do produto. Esse teorema, apresentado em (Mercer 1909), é um dos resultados mais notáveis do trabalho de James Mercer.É uma ferramenta teórica importante na teoria das equações integrais; é usada na teoria espacial de Hilbert dos processos estocásticos, por exemplo, o teorema de Karhunen – Loève; e também é usada para caracterizar um núcleo semi-definido positivo simétrico.
É um mapeamento " muitos para um " em um espaço de Hilbert . - uma simplificação grosseira seria descrevê-lo como um hash ou soma de verificação que você pode testar em um arquivo para determinar a identidade ou não.
Explicação mais técnica: Teorema da desintegração
"Em matemática, o teorema da desintegração é um resultado na teoria das medidas e na teoria das probabilidades. Ele define rigorosamente a idéia de uma " restrição "não trivial de uma medida a um subconjunto de medidas zero do espaço de medidas em questão. Está relacionado ao existência de medidas condicionais de probabilidade. Em certo sentido, "desintegração" é o processo oposto à construção de uma medida de produto ".
Veja também: " O teorema de Fubini-Tonelli ", " Perda de dobradiça ", " Função de perda " e " Quão bom é um núcleo quando usado como uma medida de similaridade? " (Junho de 2007) por Nathan Srebro, o resumo:
" Resumo. Recentemente, Balcan e Blum sugeriram uma teoria da aprendizagem baseada em funções gerais de semelhança, em vez de núcleos semi-definidos positivos. Estudamos a lacuna entre as garantias de aprendizagem baseadas na aprendizagem baseada em kernel e aquelas que podem ser obtidas usando o kernel como uma função de similaridade, que foi deixada em aberto por Balcan e Blum.Nós fornecemos um limite significativamente melhorado de quão boa é uma função do kernel quando usada como uma função de similaridade, e estendemos o resultado também à perda de dobradiça mais relevante na prática. depois, a taxa de erro zero 1. Além disso, mostramos que esse limite é rígido e, portanto, estabelecemos que existe de fato uma lacuna real entre a noção tradicional de margem baseada no kernel e a mais recente noção baseada em similaridade ".
Veja: núcleos e similaridade (em R)
É uma caixa preta, então você não sabe ao certo qual kernel é usado, se for baseado em kernel, e você não conhece os detalhes da implementação do kernel depois de pensar que sabe qual é. Veja: A equação do rbfKernel no kernlab é diferente do padrão? .
É rápido e eficaz, sob um conjunto restrito de circunstâncias. Como um martelo, se você carrega um martelo, as pessoas o chamam de louco?
"Os métodos do kernel devem seu nome ao uso de funções do kernel, que lhes permitem operar em um espaço de recurso implícito e de alta dimensão, sem nunca calcular as coordenadas dos dados naquele espaço, mas simplesmente computando os produtos internos entre as imagens de todos os pares de dados no espaço de recursos.Esta operação é geralmente computacionalmente mais barata que o cálculo explícito das coordenadas.Esta abordagem é chamada de "truque do kernel". As funções do kernel foram introduzidas para dados de seqüência, gráficos, texto, imagens, como bem como vetores. "
Lição: você (às vezes) recebe o que paga.
Muitos, consulte os links acima, " Popular Kernel Functions ", RBF , e aqui está um exemplo (caro): " Uma medida de distância da razão de verossimilhança para a semelhança entre a transformação de Fourier da série temporal " (2005), de Janacek, Bagnall e Powell.
Diferentes espaços e métodos podem direcionar melhor a comparação (e a desintegração) de problemas específicos; existem muitos métodos apenas para o espaço de Hilbert .
Sim, a lista é grande, veja os links acima e (por exemplo): Reproduzindo o espaço Hilbert do kernel .
fonte
De fato, não é suficiente. Vamos trabalhar com . Se existem três pontos , com , , e , a desigualdade do triângulo falha, porque .d(a,b)=1−s(a,b) x,y,z d(x,y)=13 d(x,z)=1d(x,z)>d(x,y)+d(y,z)d(y,z)=13 d(x,z)=1 d(x,z)>d(x,y)+d(y,z)
fonte