Atualmente, estou estudando "Processos Gaussianos para Aprendizado de Máquina" e, no capítulo 3, eles afirmam que o posterior (eq. 3.10) e a variável latente posterior (eq. 3.9) geralmente não pode ser resolvido analiticamente, devido às probabilidades sigmóides em (3.9) e à função sigmóide em (3.10). Para evitar que as pessoas precisem procurar nas equações, elas são as seguintes:
Minha principal pergunta é: para classificação binária com modelado como um processo gaussiano, por que usar funções sigmóides (em qualquer equação) em vez da função gaussiana
Em contraste com o comportamento das probabilidades sigmóides, as probabilidades gaussianas favoreceriam entradas grandes (positivas ou negativas) em para pontos de entrada rotulados negativamente e pequenas entradas em para pontos rotulados positivamente.
As funções gaussianas levariam a problemas que não ocorrem com sigmóides? Existem documentos nos quais as funções gaussianas foram usadas na classificação binária de GP em vez de sigmóides?
Atualização, 25 de maio de 2017
Em uma reflexão mais aprofundada, a média anterior diferente de zero sugerida acima também ajuda a resolver a ambiguidade sobre qual deve ser o sinal de ( não favorece nenhum dos sinais; ). Resolver essa ambiguidade parece ser importante, porque se a média do anterior, , fosse zero, a média de também seria zero com uma probabilidade definida por , já que a anterior e a probabilidade seriam funções até . Ou seja:
Se a média de for zero, os rótulos do conjunto de treinamento não fornecerão nenhuma informação sobre o rótulo do ponto de consulta , portanto, claramente não devemos permita isso. Portanto, além de definir , talvez devêssemos ainda mais para positivo , dando ao desvios padrão relativamente pequenos, por exemplo, , em que é a função de covariância e . Se fizermos isso, nós provavelmente deve também intensificardo argumento, para que não tenha que estar improvável longe da média anterior para produzir pequenos valores de : onde .
Essa seria uma maneira razoável de corrigir o problema de ambiguidade do sinal ?
O problema dessa abordagem é que o número de termos em aumentaria exponencialmente com o número de pontos marcados negativamente no conjunto de treinamento, portanto a solução em forma fechada para (3.9) teria complexidade de tempo exponencial. Mais especificamente, se assumirmos, sem perda de generalidade, que então Para obter uma solução de formulário fechado para (3.9), temos que expandir o primeiro produto em uma soma de funções Gaussianas (não normalizadas), para que possamos integrar cada uma separadamente:p(y|f) y1=…=ya=−1,ya+1=…=yn=+1, p(y|f)=(∏i=1a(1−g(fi)))∏i=a+1ng(fi). ∏i=1a(1−g(fi))=∑I∈P{1,…,a}(−1)|I|exp{−12∑i∈If2i}.
Existem conjuntos no conjunto de potência dos índices de pontos marcados negativamente , portanto, resolver (3.9) envolveria computação a integrais gaussianas.2a P{1,…,a} {1,…,a} 2a
fonte