Eu entendo que, dado um conjunto de observações independentes o Estimador de Máxima Verossimilhança (ou, equivalentemente, o MAP com flat / uniform anterior) que identifica os parâmetros \ mathbf {θ} que produzem a distribuição do modelo p_ {model} \ esquerda (\, \ cdot \,; \ mathbf {θ} \ right) que melhor corresponder a essas observações seráS = { o ( 1 ) , . . . , o ( m ) }
ou, mais convenientemente
e veja o papel que pode desempenhar na definição de uma função de perda para redes neurais profundas de várias classes, na qual corresponde aos parâmetros treináveis da rede (por exemplo, e as observações são os pares de ativações de entrada e os rótulos de classe corretos correspondentes , = { }, usando
O que não entendo é como isso se relaciona à chamada "entropia cruzada" da saída correta (vetorizada), , e às ativações de saída correspondentes da rede, que é usado na prática, quando a medição de erro / perda durante o treinamento . Existem vários problemas relacionados:
Ativações "como probabilidades"
Uma das etapas para estabelecer o relacionamento entre o MLE e a entropia cruzada é usar as ativações de saída "como se" fossem probabilidades. Mas não está claro para mim que eles são, ou pelo menos que eles são.
Ao calcular o erro de treinamento - especificamente, ao chamá-lo de "perda de entropia cruzada" - presume-se que (após normalizar as ativações para somar 1)
ou
para que possamos escrever
e assim
Mas, embora isso certamente torne uma probabilidade (na medida em que algo existe), ele não impõe restrições às outras ativações.
O realmente ser considerado PMF nesse caso? Existe algo que faça com que não seja de fato probabilidades (e apenas "goste" delas) )?
Limitação à categorização
O passo crucial acima para equiparar o MLE à entropia cruzada se baseia inteiramente na estrutura "quente" de que caracteriza um problema de aprendizado de classe múltipla (etiqueta única). Qualquer outra estrutura para o tornaria impossível passar de para .
A equação de MLE e a minimização de entropia cruzada estão limitadas aos casos em que são "quentes"?
Diferentes probabilidades de treinamento e previsão
Durante a previsão, quase sempre é o caso de
que resulta em probabilidades de previsão corretas diferentes das probabilidades aprendidas durante o treinamento, a menos que seja confiável que
Isso é sempre confiável? É provável que seja pelo menos aproximadamente verdade? Ou existe algum outro argumento que justifique essa equação do valor da ativação aprendida na posição do rótulo com a probabilidade de que o valor máximo das ativações aprendidas ocorra lá?
Entropia e teoria da informação
Mesmo assumindo que as preocupações acima são abordadas e as ativações são PMFs válidas (ou podem ser tratadas de maneira significativa como tal), de modo que o papel desempenhado pela entropia cruzada na computação seja sem problemas, não está claro para por que é útil ou significativo falar sobre a entropia do , já que a entropia de Shanon se aplica a uma tipo de codificação , que não é a que está sendo usada no treinamento da rede.
Qual o papel da entropia teórica da informação na interpretação da função de custo, em vez de simplesmente fornecer uma ferramenta (na forma de entropia cruzada) para calcular uma (que corresponde ao MLE)?
softmax_cross_entropy_with_logits
fazem: calculam e, portanto, que define uma rede "projetada para" produzir probabilidades (pelo menos no local do rótulo). Não?Responderei de uma perspectiva um pouco mais geral, sobre a natureza de como, quando e por que podemos considerar as saídas NN como distribuições de probabilidade.
No sentido de que o softmax impõe que as saídas somam 1 e também não sejam negativas, a saída da rede é uma distribuição de probabilidade discreta nas classes, ou pelo menos pode ser interpretada como tal. Portanto, é perfeitamente razoável falar sobre entropias cruzadas e verossimilhanças máximas.
No entanto, o que eu acho que você está vendo (e está correto), é que as "probabilidades" de saída podem não ter nada a ver com a probabilidade real de correção . Esse é um problema conhecido no ML, chamado calibração . Por exemplo, se o seu classificador dos cães e gatos diz , então você esperaria que, se desse um conjunto de exemplos todos com ; aproximadamente 30% das entradas seriam classificadas que possuíam apenas 70% de confiança).fθ D C fθ(xi,C)=P(xi=C|θ)=0.7 S={xj} P(xj=C|θ)=0.7
No entanto, verifica-se que os métodos modernos de treinamento não impõem isso! Veja Guo et al., Sobre a calibração de redes neurais modernas, para ver algumas discussões sobre isso.
Em outras palavras, a "probabilidade" da saída do softmax pode muito bem não ter nada a ver com a confiança real do modelo. E isso não é surpresa: queremos apenas maximizar nossa precisão, e todo exemplo de entrada tem uma probabilidade de 1 de ser sua classe-alvo. Há pouco incentivo ao modelo para que isso aconteça. Se não precisa estimar a incerteza, por que deveria? A entropia cruzada não corrige esse problema; na verdade, você está dizendo para ele ir para uma função delta toda vez!
Muitos trabalhos recentes sobre redes neurais bayesianas se esforçam para corrigir esse problema. Tais modelos empregam uma distribuição sobre parâmetros, dados os dados , que podem ser integrados para obter uma distribuição de probabilidade real . Isso ajuda a garantir medições úteis de incerteza e melhor calibração. No entanto, é mais problemático computacionalmente.P(θ|X)=P(X|θ)P(θ)/P(X) P(yi|xi,X)=∫P(yi|θ,xi)P(θ|X)dθ
Espero que não tenha entendido mal sua pergunta!
fonte
As redes neurais feed-forward aproximam as verdadeiras probabilidades de classe quando treinadas adequadamente.
Em 1991, Richard & Lippmann provaram que as redes neurais feed-forward abordam as probabilidades da classe posterior, quando treinadas com {0,1} padrões de alvo de indicador de classe [ Richard MD, & Lippmann RP (1991). Classificadores de redes neurais estimam probabilidades bayesianas a posteriori. Computação Neural, 3, 461-483 .]. Em sua linha de prova, eles usam redes neurais de avanço de camada oculta.
Na anotação matemática de Duda & Hart [ Classificação de padrões e análise de cenas de Duda RO & Hart PE (1973), Wiley ], defina as distribuições de recursos fornecidas como vetor de entrada para a rede neural de feed-forward como , onde por exemplo o vetor de dados é igual a , para uma tarefa de classificação com 4 variáveis de recurso. O índice indica as possíveis classes, .P(x∣ωi) x=(0.2,10.2,0,2) i n i∈{1,…,n}
O classificador de rede neural feed-forward aprende as probabilidades posteriores, , quando treinado por descida gradiente. O padrão de saída desejado deve, por exemplo, ser , para um problema de classificação de duas classes. A rede neural de feed-forward possui um nó de saída por classe. O vetor indica que o vetor de característica observado pertence à 2ª classe.P^(ωi∣x) o=(0,1) (0,1)
fonte
A probabilidade de log não está diretamente vinculada à entropia no contexto da sua pergunta. A semelhança é superficial: ambos têm somas de logaritmos de quantidades semelhantes à probabilidade.
O logaritmo em log-verossimilhança (MLE) é feito exclusivamente por razões de cálculo numérico. O produto das probabilidades pode ser um número muito pequeno, especialmente se sua amostra for grande. Em seguida, o intervalo de probabilidades varia de 1 a um valor cada vez menor de um produto. Quando você obtém o log, o produto se torna uma soma e a função de log compacta o intervalo de valores para um domínio menor e mais gerenciável. O logaritmo é uma função monótona; portanto, o máximo (min) de probabilidade de log produzirá a mesma resposta da própria probabilidade. Portanto, a presença do log na expressão MLE não é importante no sentido matemático e é simplesmente uma questão de conveniência.
A presença de uma função de logaritmo na entropia é mais substancial e tem suas raízes na mecânica estatística, um ramo da física. Está ligado à distribuição de Boltzmann , que é usada na teoria dos gases. Você pode derivar a pressão do ar em função da altitude que a utiliza, por exemplo.
fonte