A pergunta pode parecer um pouco estranha, porque sou novo na inferência estatística e nas redes neurais.
Quando em problemas de classificação usando redes neurais, dizemos que queremos aprender uma função que mapeia o espaço das entradas , para o espaço das saídas :
Estamos ajustando os parâmetros ( ) para modelar uma função não linear ou para modelar uma função de densidade de probabilidade?
Eu realmente não sei como escrever a pergunta de uma maneira melhor. Eu li várias vezes as duas coisas (função densidade de probabilidade, ou função assim), portanto, portanto, minha confusão.
fonte
Geralmente, redes neurais não são usadas para modelar densidades completas de probabilidade. Seu foco é apenas modelar a média de uma distribuição (ou em uma situação determinística simplesmente uma função não linear). No entanto, é muito possível modelar densidades completas de probabilidade via Redes Neurais.
Uma maneira fácil de fazer isso é, por exemplo, para um caso gaussiano: emitir a média de uma saída e a variação de outra saída da rede e, em seguida, minimizar funciona como parte de o processo de treinamento em vez do erro quadrado comum. Esse é o procedimento de probabilidade máxima para uma rede neural.−logN(y|x;μ,σ)
Depois de treinar essa rede toda vez que você conectar um valor como entrada, ele fornecerá μ e σ ; então, você poderá conectar todo o trigêmeo y , μ , σ à densidade f ( y | x ) ∼ N ( μ , σ ) para obter o valor da densidade para qualquer y que você desejar. Nesse estágio, você pode escolher qual valor y usar com base em uma função de perda de domínio real. É importante lembrar que, para µ, a ativação da saída deve ser irrestrita, para que você possa emitir -x μ σ y,μ,σ f(y|x)∼N(μ,σ) y y μ para + inf enquanto σ deve ser apenas uma ativação positiva.−inf +inf σ
Em geral, a menos que seja uma função determinística que buscamos, o treinamento padrão para perda ao quadrado usado em redes neurais é praticamente o mesmo procedimento que descrevi acima. Sob o capô um distribuição assume-se implicitamente sem se preocupar com o σ e se examinar cuidadosamente - l O g N ( y | x ; μ , σ ) dá-lhe uma expressão para perda quadrado ( A perda função do estimador de máxima verossimilhança gaussiana ). Nesse cenário, no entanto, em vez de um yGaussian σ −logN(y|x;μ,σ) y valor ao seu gosto, você está sempre emitindo sempre que recebe um novo valor x .μ x
Para a classificação, a saída será uma distribuição em vez de um G um u s s i a n , que tem um único parâmetro a emitir. Conforme especificado na outra resposta, esse parâmetro está entre 0 e 1, de modo que a ativação da saída deve ser adequada. Pode ser uma função logística ou outra coisa que atinja o mesmo objetivo.Bernoulli Gaussian 0 1
Uma abordagem mais sofisticada são as redes de densidade de mistura do Bishop. Você pode ler sobre isso no artigo frequentemente mencionado aqui:
https://publications.aston.ac.uk/373/1/NCRG_94_004.pdf
fonte
Minha resposta dissidente é que, nas aplicações práticas mais impressionantes (aquelas onde eles obtêm mais cobertura na mídia, por exemplo), não é a função nem as probabilidades. Eles implementam a tomada de decisão estocástica.
Na superfície, parece que NN está apenas ajustando a função, na fila da referência de aproximação universal . Em alguns casos, quando determinadas funções de ativação e suposições específicas, como erros gaussianos, são usadas ou quando você lê artigos em redes bayesianas, parece que o NN pode produzir as distribuições de probabilidade.
No entanto, tudo isso é apenas a propósito. O que a NN pretende fazer é modelar a tomada de decisão. Quando um carro é dirigido por IA, seu NN não está tentando calcular a probabilidade de ter um objeto à sua frente, então, dado que existe um objeto para calcular a probabilidade de ser humano. Nem está calculando o mapeamento das entradas do sensor para vários tipos de objetos. Não, o NN deve tomar uma decisão com base em todas as informações para dirigir para o lado ou continuar dirigindo. Não está calculando a probabilidade, está dizendo ao carro o que fazer.
fonte