Devo usar o kernel exponencial ao quadrado (SE) para regressão de processo gaussiana. As vantagens deste kernel são: 1) simples: apenas 3 hiperparâmetros; 2) suave: esse núcleo é gaussiano.
Por que as pessoas gostam tanto de 'suavidade'? Eu sei que o kernel gaussiano é infinitamente diferenciável, mas isso é tão importante? (Por favor, deixe-me saber se há outras razões pelas quais o kernel do SE é tão popular.)
PS: Disseram-me que a maioria dos sinais no mundo real (sem ruído) é suave , por isso é razoável usar kernels suaves para modelá-los. Alguém poderia me ajudar a entender esse conceito?
machine-learning
kakanana
fonte
fonte
Respostas:
" Natura non facit saltus " é um antigo princípio da filosofia. Além disso, beleza e harmonia são esses princípios. Outro princípio filosófico que tem impacto nas estatísticas é o pensamento qualitativo: tradicionalmente, não pensamos em tamanhos de efeito, mas se um efeito existe ou não. Isso permitiu testar a hipótese. Os estimadores são muito precisos para a sua percepção da natureza. Tome como está.
A estatística deve servir à percepção humana. Portanto, os pontos de descontinuidade não são apreciados. Alguém poderia perguntar imediatamente: Por que exatamente isso é uma descontinuidade? Especialmente na estimativa de densidade, esses pontos de descontinuidade se devem principalmente à natureza não assintótica de dados reais. Mas você não quer aprender sobre sua amostra finita, mas sobre o fato natural subjacente. Se você acredita que essa natureza não salta, precisa de estimadores suaves.
Do ponto de vista matemático estrito, dificilmente há uma razão para isso. Além disso, desde que os fenômenos naturais de Leibniz e Newton se tornaram conhecidos, não são suaves. Converse com o cientista natural para o qual você está trabalhando. Desafie sua visão de suavidade / descontinuidade e faça o que vocês dois decidiram ser mais úteis para o entendimento dele.
fonte
Existem mais duas razões de questões práticas. A primeira é que as funções analíticas são muito mais fáceis de trabalhar matematicamente e, portanto, provam teoremas sobre seus algoritmos e proporcionam uma base mais sólida.
O segundo é a sensibilidade. Digamos que você tenha um aluno de máquina cuja saída tenha uma descontinuidade em . Então você obteria resultados muito diferentes para e , mas tudo bem, porque a tornamos descontínua. Agora, se você treinar seu modelo com dados ligeiramente diferentes ( ), onde o ruído aleatório é um pouquinho diferente, a descontinuidade estará agora em , provavelmente muito perto de , mas não completamente, e agora , para alguns valores de , tem um valor muito diferente para e paraM x = x0 0 x0 0- ϵ x0 0+ ϵ M~ x~0 0 x0 0 ϵ x0 0+ ϵ M M~ .
fonte
Existem muitas motivações, dependendo do problema. Mas a idéia é a mesma: adicione conhecimento a priori sobre algum problema para obter uma solução melhor e lidar com a complexidade. Uma maneira mais de colocar isso é: seleção de modelo. Aqui está um bom exemplo de seleção de modelo .
Outra idéia, profundamente relacionada a ela, é encontrar uma medida de similaridade de amostras de dados (existem termos diferentes que se relacionam com essa idéia: mapeamentos topográficos, métrica à distância, aprendizado múltiplo, ...).
Agora, vamos considerar um exemplo prático: reconhecimento óptico de caracteres. Se você capturar a imagem de um personagem, espera-se que o classificador lide com invariâncias: se você girar, deslocar ou dimensionar a imagem, ele poderá detectá-la. Além disso, se você aplicar alguma modificação ligeiramente à entrada, seria de esperar que a resposta / comportamento do seu classificador também variasse ligeiramente, porque ambas as amostras (o original e o modificado são muito semelhantes). É aqui que entra a aplicação da suavidade.
Há muitos artigos tratando dessa idéia, mas este (invariância de transformação no reconhecimento de padrões, distância tangente e propagação tangente, Simard et. Al) ilustra essas idéias em grande detalhe
fonte