Em uma palestra recente, disseram-me que, para que a estimativa de probabilidade máxima seja válida, a probabilidade de log precisa ir para menos infinito, pois o parâmetro vai para o limite do espaço de parâmetro. Mas não entendo por que isso é essencial. Suponha que a probabilidade do log vá para algum tipo de assíntota. Então o parâmetro que maximiza a probabilidade ainda é a estimativa de máxima probabilidade, certo?
8
Respostas:
Isso é igual a dizer que a probabilidade de um parâmetro precisa se tornar 0 no limite do espaço do parâmetro para que o resultado seja válido.
Bem, antes de tudo, você pode restringir o espaço do parâmetro a valores que tenham uma probabilidade positiva e ainda assim obtenham uma estimativa válida.
Em segundo lugar, mesmo se você usar, digamos , não chegará perto do limite, pois qualquer pacote de otimização pronto para uso executa algum tipo de inicialização aleatória e, em seguida, se aproxima do mínimo usando algum método como gradiente descida, gradiente conjugado ou outro. Em ambos os casos, você quase nunca acaba se aproximando do limite do espaço de parâmetro, então não entendo muito bem por que os limites são importantes em primeiro lugar.(−∞,∞)
E mesmo que você faça isso de propósito, em um ponto atingirá a precisão do ponto flutuante do seu sistema operacional. Posso garantir-lhe que, nesse ponto, você realmente não se aproximou do limite por muito. :)−∞
Pessoalmente, acho que o problema de underflow surge ao calcular somas e produtos com probabilidades muito pequenas e a soma de log exp enganar uma questão muito mais interessante e mais digna de nota que realmente importa muito na prática, ao contrário de atingir os limites do espaço de parâmetros.
fonte