Motivação teórica para o uso da probabilidade logarítmica versus probabilidade

18

Estou tentando entender em um nível mais profundo a onipresença da probabilidade logarítmica (e talvez mais geralmente da probabilidade logarítmica) nas estatísticas e na teoria da probabilidade. As probabilidades de log aparecem em todo o lugar: geralmente trabalhamos com a probabilidade de log para análise (por exemplo, para maximização), as informações de Fisher são definidas em termos da segunda derivada da probabilidade de log, a entropia é uma probabilidade de log esperada , A divergência entre Kullback e Liebler envolve probabilidades de log, a divisão esperada é uma probabilidade de log esperada etc.

Agora aprecio as muitas razões práticas e convenientes . Muitos PDFs comuns e úteis são de famílias exponenciais, o que leva a termos elegantemente simplificados quando transformados em log. As somas são mais fáceis de trabalhar do que os produtos (especialmente para diferenciar). Os probes de log têm uma grande vantagem de ponto flutuante sobre os probs retos. A transformação de log em pdf geralmente converte uma função não côncava em uma função côncava. Mas qual é a razão / justificação / motivação teórica para os log-probs?

Como um exemplo da minha perplexidade, considere as informações de Fisher (FI). A explicação usual para intuir o FI é que a segunda derivada da probabilidade logarítmica nos diz o quão "atingiu o pico" a similaridade logarítmica é: uma probabilidade logarítmica altamente pontual significa que o MLE está bem especificado e estamos relativamente certos de seu valor , enquanto uma aparência de log quase plana (baixa curvatura) significa que muitos valores de parâmetros diferentes são quase tão bons (em termos de probabilidade de log) quanto o MLE, portanto, nosso MLE é mais incerto.

Tudo isso é bom, mas não é mais natural encontrar a curvatura da própria função de probabilidade (NÃO transformada em log)? À primeira vista, a ênfase na transformação de log parece arbitrária e errada. Certamente, estamos mais interessados na curvatura da função de probabilidade real. Qual foi a motivação de Fisher para trabalhar com a função de pontuação e o Hessian da probabilidade logarítmica?

A resposta é simplesmente que, no final, temos bons resultados da probabilidade de log assintoticamente? Por exemplo, Cramer-Rao e normalidade do MLE / posterior. Ou existe uma razão mais profunda?

probability bayesian likelihood log-likelihood ratsalad
fonte

2

Eu fiz uma pergunta semelhante aqui

Haitao Du

13

É realmente apenas uma conveniência para a probabilidade de log, nada mais.

Quero dizer a conveniência das somas vs. produtos: , as somas são mais fáceis de lidar com em muitos aspectos, tais como differentialtion ou integração. Não é uma conveniência apenas para famílias exponenciais, estou tentando dizer. $\ln (\prod_i x_i) =\sum_i\ln x_i$

Quando você lida com uma amostra aleatória, as probabilidades são da forma: , de modo que o loglikelihood iria quebrar este produto na soma vez, o que é mais fácil de manipular e analisar. Ajuda que tudo o que nos importa é o ponto do máximo, o valor no máximo não é importante, se podemos aplicar qualquer transformação monótona, como o logaritmo. $\mathrm{L}=\prod_ip_i$

Na intuição curvatura. No final, é basicamente a mesma coisa que a segunda derivada da probabilidade de logaritmo.

$y=f(x)$

κ = \frac{f^{″} (x)}{(1 + f^{'} (x)^{2})^{3 / 2}}

$\kappa=\frac{f''(x)}{(1+f'(x)^2)^{3/2}}$

A segunda derivada da probabilidade logarítmica:

UMA = (em f (x))^{″} = \frac{f^{″} (x)}{f (x)} - {(\frac{f^{'} (x)}{f (x)})}^{2}

$A=(\ln f(x))''=\frac{f''(x)}{f(x)}-\left(\frac{f'(x)}{f(x)}\right)^2$

No ponto do máximo, a primeira derivada é obviamente zero, então obtemos: Portanto, minha brincadeira é que a curvatura do a probabilidade e a segunda derivada da probabilidade de log são a mesma coisa, mais ou menos.

κ_{m uma x} = f^{″} (x_{m uma x}) = UMA f (x_{m uma x})

$\kappa_{max}=f''(x_{max})=Af(x_{max})$

Por outro lado, se a primeira derivada de probabilidade é pequena, não apenas no ponto máximo, ou seja, no máximo, ou seja, a função de probabilidade é plana, obtemos: Agora, a probabilidade plana não é uma coisa boa para nós, porque torna mais difícil encontrar o máximo numericamente, e a probabilidade máxima não é tão melhor que outros pontos ao seu redor, ou seja, os erros de estimativa de parâmetros são altos.

κ \approx f^{″} (x) \approx UMA f (x)

$\kappa\approx f''(x)\approx A f(x)$

E, novamente, ainda temos a curvatura e a segunda relação derivada. Então, por que Fisher não olhou para a curvatura da função de probabilidade? Eu acho que é pela mesma razão de conveniência. É mais fácil manipular a probabilidade de log por causa de somas em vez do produto. Assim, ele poderia estudar a curvatura da probabilidade analisando a segunda derivada da probabilidade logarítmica. Embora a equação pareça muito simples para a curvatura , na verdade você está usando uma segunda derivada do produto, que é mais confusa do que a soma das segundas derivadas. $\kappa_{max}=f''(x_{max})$

ATUALIZAÇÃO 2:

Aqui está uma demonstração. Eu desenho uma função de probabilidade (completamente composta), é a) curvatura eb) a segunda derivada de seu log. No lado esquerdo, você vê a probabilidade estreita e, no lado direito, é amplo. Você vê como, no ponto da probabilidade máxima a) eb), converge, como deveriam. Mais importante ainda, você pode estudar a largura (ou nivelamento) da função de probabilidade examinando a segunda derivada de sua probabilidade de log. Como escrevi anteriormente, o último é tecnicamente mais simples do que o anterior para analisar.

Não é de surpreender que a segunda derivada mais profunda da probabilidade de log sinalize uma função de probabilidade mais plana em torno de seu máximo, o que não é desejado, pois causa maior erro de estimativa de parâmetro.

Código MATLAB no caso de você querer reproduzir os gráficos:

f=@(x,a)a.^2./(a.^2+x.^2);
c = @(x,a)(-2*a.^2.*(a.^2-3*x.^2)./(a.^2+x.^2).^3/(4*a.^4.*x.^2/(a.^2+x.^2).^4+1).^(3/2));
ll2d = @(x,a)(2*(x.^2-a.^2)./(a.^2+x.^2).^2);

h = 0.1;
x=-10:h:10;

% narrow peak
figure
subplot(1,2,1)
a = 1;
y = f(x,a);
plot(x,y,'LineWidth',2)
%dy = diff(y)/h;
hold on
%plot(x(2:end),dy)
plot(x,c(x,a),'LineWidth',2)
plot(x,ll2d(x,a),'LineWidth',2)
title 'Narrow Likelihood'
ylim([-2 1])

% wide peak
subplot(1,2,2)
a=2;
y = f(x,a);
plot(x,y,'LineWidth',2)
%dy = diff(y)/h;
hold on
%plot(x(2:end),dy)
plot(x,c(x,a),'LineWidth',2)
plot(x,ll2d(x,a),'LineWidth',2)
title 'Wide Likelihood'
legend('likelihood','curvature','2nd derivative LogL','location','best')
ylim([-2 1])

ATUALIZAÇÃO 3:

No código acima, pluguei alguma função arbitrária em forma de sino na equação da curvatura e calculei a segunda derivada de seu log. Não redimensionei nada, os valores são diretos das equações para mostrar a equivalência que mencionei anteriormente.

Aqui está o primeiro artigo sobre a probabilidade que Fisher publicou enquanto ainda estava na universidade "Sobre um critério absoluto para ajustar curvas de frequência", Messenger of Mathmatics, 41: 155-160 (1912)

Como eu insistia o tempo todo, ele não menciona nenhuma conexão "mais profunda" de probabilidades de log com entropia e outros assuntos sofisticados, nem oferece ainda seu critério de informação. Ele simplesmente coloca a equação na p.54 e depois começa a falar sobre como maximizar as probabilidades. Na minha opinião, isso mostra que ele estava usando o logaritmo apenas como um método conveniente de analisar as probabilidades conjuntas. É especialmente útil no ajuste contínuo de curvas, para o qual ele fornece uma fórmula óbvia na p.55: Boa sorte ao analisar essa probabilidade (ou probabilidade conforme Fisher) sem o registro! $\log P'=\sum_1^n\log p$

registro P = \int_{- \infty}^{\infty} registro f d x

$\log P=\int_{-\infty}^\infty\log fdx$

P

$P$

Uma coisa a observar ao ler o artigo, ele estava apenas começando com o trabalho de estimativa de máxima verossimilhança e fez mais trabalhos nos 10 anos subsequentes; portanto, até o que eu sei, mesmo o termo MLE ainda não foi cunhado.

Aksakal
fonte

5

Sua sentença final (sobre curvatura) indica que realmente há algo fundamental sobre a probabilidade do registro e que o registro não é apenas uma mera "conveniência". Acredito que há muito mais acontecendo aqui do que você está deixando transparecer.

whuber

2

Sua discussão sobre curvatura não parece relevante, porque não distingue uma análise da probabilidade logarítmica de uma análise da própria probabilidade. Essa resposta parece se resumir a "registros convenientes", mas há muito mais a questão do que isso, pois outras respostas estão começando a sugerir.

whuber

f (x_{m a x})

$f(x_{max})$

f (x_{m a x}) = 1

$f(x_{max}) = 1$

Portanto, o uso da probabilidade de log para as informações de Fisher aparentemente serve a dois propósitos práticos: (1) é mais fácil trabalhar com a probabilidade de log e (2) naturalmente ignora o fator de escala arbitrário. E, dá a mesma resposta que a segunda derivada da probabilidade reta. Parece-me um ponto importante, que não era óbvio e que nunca vi em nenhum texto estatístico. Presumivelmente, era conhecido por Fisher.

Ratsalad

f (x_{m uma x})^{″} = (em f (x))^{″} f (x_{m uma x})

$f(x_{max})''= (\ln f(x))'' f(x_{max})$

f (x_{m a x}) = 1

$f(x_{max}) = 1$

f (x_{m uma x})^{″} = (em f (x))^{″}

$f(x_{max})''= (\ln f(x))''$

5

Ponto adicional . Algumas das distribuições de probabilidade comumente usadas (incluindo a distribuição normal, a distribuição exponencial, a distribuição de Laplace, apenas para citar algumas) são côncavas em log . Isso significa que seu logaritmo é côncavo. Isso torna a maximização da probabilidade logarítmica muito mais fácil do que a maximização da probabilidade original (o que é particularmente útil nos métodos de máxima probabilidade ou máximo a posteriori). Para dar um exemplo, usar o método de Newton para maximizar diretamente uma distribuição gaussiana multivariada pode levar um grande número de etapas, enquanto a maximização de um parabolóide (o log da distribuição gaussiana multivariada) leva exatamente um passo.

Luca Citi
fonte

2

Não tão rápido. Veja exercício 7.4 na pp 393-394 de. Web.stanford.edu/~boyd/cvxbook/bv_cvxbook.pdf

Mark L. Stone

Isso não é côncavo. O gaussiano é log-côncavo em relação ao seu argumento ou ao parâmetro da média, não em relação à variância também. Se você também deseja determinar a escala, pode usar uma distribuição gama normal, que também é côncava em log (usando a precisão em vez da variação).

Luca Citi

2

Exatamente isso. Toda a conversa sobre como os logs são mais convenientes é agradável, mas a convexidade (ou concavidade, dependendo da perspectiva) é o que realmente distingue a probabilidade de log como a coisa "correta" para se trabalhar.

Meni Rosenfeld

2

Observe que eu já mencionei a concavidade de log no OP. Mas isso ainda é apenas uma "conveniência", não há justificativa teórica aqui para concavidade de log e, em qualquer caso, as probabilidades de log não são log-côncavas em geral.

Ratsalad 7/07

1

@ratsalad, sim, você está certo, é conveniente. Eu acho que as probabilidades de log são uma maneira adicional de analisar uma função de probabilidade. Não posso dizer com certeza qual é o melhor. Se você observar as [ en.wikipedia.org/wiki/… medidas), algumas trabalham efetivamente na probabilidade logarítmica (por exemplo, divergência KL, que é efetivamente o valor esperado da diferença de probabilidades logarítmicas), outras diretamente na probabilidade ( por exemplo, distância KS).

Luca Citi

4

A importância teórica da probabilidade de log pode ser vista de (pelo menos) duas perspectivas: teoria da probabilidade assintótica e teoria da informação.

A mais antiga delas (acredito) é a teoria assintótica da probabilidade logarítmica. Eu acho que a teoria da informação começou bem depois que Fisher estabeleceu a máxima probabilidade em seu caminho em direção ao domínio do século XX.

Na teoria da probabilidade, uma probabilidade parabólica de log tem um lugar central na inferência. Lucien Le Cam desempenhou um papel importante na elucidação da importância da probabilidade quadrática logarítmica na teoria assintótica.

Quando você tem uma probabilidade quadrática de log, não apenas a curvatura do MLE informa qualitativamente com que precisão você pode estimar o parâmetro, mas também sabemos que o erro é normalmente distribuído com uma variação igual ao recíproco da curvatura. Quando a probabilidade logarítmica é aproximadamente quadrática, dizemos que esses resultados se mantêm aproximadamente ou assintoticamente.

Uma segunda razão é a proeminência da probabilidade logarítmica (ou probabilidade logarítmica) na teoria da informação , onde é a principal quantidade usada para medir o conteúdo da informação.

$g$ $g$ $f(\theta)$ $f(\hat{\theta})$ $\hat{\theta}$

$\ln \hat{L}$

Portanto, a probabilidade do log, além de ser uma transformação numérica útil, tem laços profundos com a inferência e a teoria da informação.

fonte

Sua referência ao uso de verossimilhanças pela teoria da informação é circular. Por que eles usam log? Provavelmente pela mesma razão, especialmente, se você considerar que a teoria da informação é um campo relativamente mais novo comparado às estatísticas.

Aksakal

@ Aksakal sim e não. A teoria da informação se fundou parcialmente na mecânica estatística e na entropia: en.wikipedia.org/wiki/Entropy . Boltzmann definiu a entropia de um sistema usando o log do número de microestados. Por que logs? Porque torna a entropia / informação aditiva (como sua resposta indica)? E daí? Em um nível numérico, linearidade / aditividade abre o uso de métodos poderosos de álgebra linear.

1

@Aksakal no entanto, em um nível mais fundamental, a aditividade transforma a entropia / informação em algo como uma medida ... semelhante à massa. Se você combinar dois sistemas estatisticamente independentes, a entropia do sistema combinado será a soma da entropia de cada sistema. Aqui está um bom explicador: physics.stackexchange.com/questions/240636/…

1

A entropia estatística termodinâmica da @Bey na verdade segue diretamente da distribuição de microestados de Boltzmann e da termoacroscopia macroscópica clássica (a forma da entropia por stat mech não era uma "escolha"). A própria distribuição de Boltzmann é uma conseqüência de duas premissas: (1) a propriedade física de que as energias são especificadas apenas até uma constante aditiva arbitrária e (2) a suposição estatística de que todos os microestados com a mesma energia têm a mesma probabilidade. Assim, no nível mais profundo, a termo-entropia envolve log-probs porque a energia é aditiva e proporcional ao log-prob.

Ratsalad 7/07

2

@ratsalad, obrigado por expandir isso ... como você pode ver, indo além de simples "logs são mais fáceis" explicações sobre a probabilidade de log podem levar uma pessoa muito longe. Uso a probabilidade de log pelos motivos que Aksakal fornece ... no entanto, seu OP pediu algo mais profundo. Dei dois exemplos que mostram conexões com outras áreas que influenciaram a estatística e a teoria das probabilidades. Penso que as explicações assintóticas são mais diretas, mas a entropia e a probabilidade estão ligadas de uma maneira que torna as probabilidades de log em coisas nas quais estamos interessados além da mera conveniência numérica.

0

TLDR: É muito mais fácil derivar somas do que produtos, porque o operador derivado é linear com a soma, mas com o produto que você precisa para fazer a regra do produto. É complexidade linear versus alguma complexidade polinomial de ordem superior

Charlie Tian
fonte

3

É isso que a pergunta quer dizer com "conveniente e prático". Está longe de ser o único, ou mesmo o principal, motivo pelo qual a análise se concentra na probabilidade do log. Considere, por exemplo, como seria a expressão para as informações de Fisher em termos de probabilidade e não de log.

whuber

sim, com certeza; Acho que quando ele disse que é "mais fácil" encontrá-lo diretamente, pensei que ele quis dizer o oposto disso, porque certamente é mais fácil encontrá-lo depois de aplicarmos a transformação do log.

Charlie Tian

Motivação teórica para o uso da probabilidade logarítmica versus probabilidade

Respostas: