Estou tentando entender em um nível mais profundo a onipresença da probabilidade logarítmica (e talvez mais geralmente da probabilidade logarítmica) nas estatísticas e na teoria da probabilidade. As probabilidades de log aparecem em todo o lugar: geralmente trabalhamos com a probabilidade de log para análise (por exemplo, para maximização), as informações de Fisher são definidas em termos da segunda derivada da probabilidade de log, a entropia é uma probabilidade de log esperada , A divergência entre Kullback e Liebler envolve probabilidades de log, a divisão esperada é uma probabilidade de log esperada etc.
Agora aprecio as muitas razões práticas e convenientes . Muitos PDFs comuns e úteis são de famílias exponenciais, o que leva a termos elegantemente simplificados quando transformados em log. As somas são mais fáceis de trabalhar do que os produtos (especialmente para diferenciar). Os probes de log têm uma grande vantagem de ponto flutuante sobre os probs retos. A transformação de log em pdf geralmente converte uma função não côncava em uma função côncava. Mas qual é a razão / justificação / motivação teórica para os log-probs?
Como um exemplo da minha perplexidade, considere as informações de Fisher (FI). A explicação usual para intuir o FI é que a segunda derivada da probabilidade logarítmica nos diz o quão "atingiu o pico" a similaridade logarítmica é: uma probabilidade logarítmica altamente pontual significa que o MLE está bem especificado e estamos relativamente certos de seu valor , enquanto uma aparência de log quase plana (baixa curvatura) significa que muitos valores de parâmetros diferentes são quase tão bons (em termos de probabilidade de log) quanto o MLE, portanto, nosso MLE é mais incerto.
Tudo isso é bom, mas não é mais natural encontrar a curvatura da própria função de probabilidade (NÃO transformada em log)? À primeira vista, a ênfase na transformação de log parece arbitrária e errada. Certamente, estamos mais interessados na curvatura da função de probabilidade real. Qual foi a motivação de Fisher para trabalhar com a função de pontuação e o Hessian da probabilidade logarítmica?
A resposta é simplesmente que, no final, temos bons resultados da probabilidade de log assintoticamente? Por exemplo, Cramer-Rao e normalidade do MLE / posterior. Ou existe uma razão mais profunda?
fonte
Respostas:
É realmente apenas uma conveniência para a probabilidade de log, nada mais.
Quero dizer a conveniência das somas vs. produtos: , as somas são mais fáceis de lidar com em muitos aspectos, tais como differentialtion ou integração. Não é uma conveniência apenas para famílias exponenciais, estou tentando dizer.em( ∏EuxEu) = ∑EuemxEu
Quando você lida com uma amostra aleatória, as probabilidades são da forma: , de modo que o loglikelihood iria quebrar este produto na soma vez, o que é mais fácil de manipular e analisar. Ajuda que tudo o que nos importa é o ponto do máximo, o valor no máximo não é importante, se podemos aplicar qualquer transformação monótona, como o logaritmo.L = ∏EupEu
Na intuição curvatura. No final, é basicamente a mesma coisa que a segunda derivada da probabilidade de logaritmo.
A segunda derivada da probabilidade logarítmica:
No ponto do máximo, a primeira derivada é obviamente zero, então obtemos: Portanto, minha brincadeira é que a curvatura do a probabilidade e a segunda derivada da probabilidade de log são a mesma coisa, mais ou menos.
Por outro lado, se a primeira derivada de probabilidade é pequena, não apenas no ponto máximo, ou seja, no máximo, ou seja, a função de probabilidade é plana, obtemos: Agora, a probabilidade plana não é uma coisa boa para nós, porque torna mais difícil encontrar o máximo numericamente, e a probabilidade máxima não é tão melhor que outros pontos ao seu redor, ou seja, os erros de estimativa de parâmetros são altos.
E, novamente, ainda temos a curvatura e a segunda relação derivada. Então, por que Fisher não olhou para a curvatura da função de probabilidade? Eu acho que é pela mesma razão de conveniência. É mais fácil manipular a probabilidade de log por causa de somas em vez do produto. Assim, ele poderia estudar a curvatura da probabilidade analisando a segunda derivada da probabilidade logarítmica. Embora a equação pareça muito simples para a curvatura , na verdade você está usando uma segunda derivada do produto, que é mais confusa do que a soma das segundas derivadas.κm a x= f′ ′( xm a x)
ATUALIZAÇÃO 2:
Aqui está uma demonstração. Eu desenho uma função de probabilidade (completamente composta), é a) curvatura eb) a segunda derivada de seu log. No lado esquerdo, você vê a probabilidade estreita e, no lado direito, é amplo. Você vê como, no ponto da probabilidade máxima a) eb), converge, como deveriam. Mais importante ainda, você pode estudar a largura (ou nivelamento) da função de probabilidade examinando a segunda derivada de sua probabilidade de log. Como escrevi anteriormente, o último é tecnicamente mais simples do que o anterior para analisar.
Não é de surpreender que a segunda derivada mais profunda da probabilidade de log sinalize uma função de probabilidade mais plana em torno de seu máximo, o que não é desejado, pois causa maior erro de estimativa de parâmetro.
Código MATLAB no caso de você querer reproduzir os gráficos:
ATUALIZAÇÃO 3:
No código acima, pluguei alguma função arbitrária em forma de sino na equação da curvatura e calculei a segunda derivada de seu log. Não redimensionei nada, os valores são diretos das equações para mostrar a equivalência que mencionei anteriormente.
Aqui está o primeiro artigo sobre a probabilidade que Fisher publicou enquanto ainda estava na universidade "Sobre um critério absoluto para ajustar curvas de frequência", Messenger of Mathmatics, 41: 155-160 (1912)
Como eu insistia o tempo todo, ele não menciona nenhuma conexão "mais profunda" de probabilidades de log com entropia e outros assuntos sofisticados, nem oferece ainda seu critério de informação. Ele simplesmente coloca a equação na p.54 e depois começa a falar sobre como maximizar as probabilidades. Na minha opinião, isso mostra que ele estava usando o logaritmo apenas como um método conveniente de analisar as probabilidades conjuntas. É especialmente útil no ajuste contínuo de curvas, para o qual ele fornece uma fórmula óbvia na p.55: Boa sorte ao analisar essa probabilidade (ou probabilidade conforme Fisher) sem o registro!registroP′= ∑n1registrop
Uma coisa a observar ao ler o artigo, ele estava apenas começando com o trabalho de estimativa de máxima verossimilhança e fez mais trabalhos nos 10 anos subsequentes; portanto, até o que eu sei, mesmo o termo MLE ainda não foi cunhado.
fonte
Ponto adicional . Algumas das distribuições de probabilidade comumente usadas (incluindo a distribuição normal, a distribuição exponencial, a distribuição de Laplace, apenas para citar algumas) são côncavas em log . Isso significa que seu logaritmo é côncavo. Isso torna a maximização da probabilidade logarítmica muito mais fácil do que a maximização da probabilidade original (o que é particularmente útil nos métodos de máxima probabilidade ou máximo a posteriori). Para dar um exemplo, usar o método de Newton para maximizar diretamente uma distribuição gaussiana multivariada pode levar um grande número de etapas, enquanto a maximização de um parabolóide (o log da distribuição gaussiana multivariada) leva exatamente um passo.
fonte
A importância teórica da probabilidade de log pode ser vista de (pelo menos) duas perspectivas: teoria da probabilidade assintótica e teoria da informação.
A mais antiga delas (acredito) é a teoria assintótica da probabilidade logarítmica. Eu acho que a teoria da informação começou bem depois que Fisher estabeleceu a máxima probabilidade em seu caminho em direção ao domínio do século XX.
Na teoria da probabilidade, uma probabilidade parabólica de log tem um lugar central na inferência. Lucien Le Cam desempenhou um papel importante na elucidação da importância da probabilidade quadrática logarítmica na teoria assintótica.
Quando você tem uma probabilidade quadrática de log, não apenas a curvatura do MLE informa qualitativamente com que precisão você pode estimar o parâmetro, mas também sabemos que o erro é normalmente distribuído com uma variação igual ao recíproco da curvatura. Quando a probabilidade logarítmica é aproximadamente quadrática, dizemos que esses resultados se mantêm aproximadamente ou assintoticamente.
Uma segunda razão é a proeminência da probabilidade logarítmica (ou probabilidade logarítmica) na teoria da informação , onde é a principal quantidade usada para medir o conteúdo da informação.
Portanto, a probabilidade do log, além de ser uma transformação numérica útil, tem laços profundos com a inferência e a teoria da informação.
fonte
TLDR: É muito mais fácil derivar somas do que produtos, porque o operador derivado é linear com a soma, mas com o produto que você precisa para fazer a regra do produto. É complexidade linear versus alguma complexidade polinomial de ordem superior
fonte