O ponto é que, às vezes, modelos diferentes (para os mesmos dados) podem levar a funções de probabilidade que diferem por uma constante multiplicativa, mas o conteúdo da informação deve ser claramente o mesmo. Um exemplo:
Modelamos experimentos independentes de Bernoulli, levando aos dados , cada um com uma distribuição de Bernoulli com o parâmetro (probabilidade) . Isso leva à função de probabilidade
Ou podemos resumir os dados pela variável binomialmente distribuída , que tem uma distribuição binomial, levando à função de probabilidade
que, em função do parâmetro desconhecido , é proporcional à antiga função de probabilidade . As duas funções de probabilidade contêm claramente a mesma informação e devem levar às mesmas inferências!nX1,…,Xnp∏i=1npxi(1−p)1−xi
Y= X1+ X2+ ⋯ + Xn( ny) py( 1 - p )n - y
p
E, de fato, por definição, eles são considerados a mesma função de probabilidade.
Outro ponto de vista: observe que, quando as funções de probabilidade são usadas no teorema de Bayes, conforme necessário para a análise bayesiana, essas constantes multiplicativas simplesmente se cancelam! então eles são claramente irrelevantes para a inferência bayesiana. Da mesma forma, ele será cancelado ao calcular as razões de verossimilhança, conforme usado nos testes de hipóteses ideais (lema de Neyman-Pearson.) E não terá influência no valor dos estimadores de verossimilhança máxima. Portanto, podemos ver que, em grande parte da inferência freqüentista, ela não pode desempenhar um papel.
Podemos argumentar ainda de outro ponto de vista. A função de probabilidade de Bernoulli (daqui em diante usamos o termo "densidade") acima é realmente uma densidade em relação à medida de contagem, ou seja, a medida nos números inteiros não negativos com massa um para cada número inteiro não negativo. Mas poderíamos ter definido uma densidade em relação a alguma outra medida dominante. Neste exemplo, isso parecerá (e é) artificial, mas em espaços maiores (espaços funcionais) é realmente fundamental! Para fins de ilustração, vamos usar a distribuição geométrica específica, escrita , com , , e em breve. Então a densidade da distribuição de Bernoulli em relação aλλ(0)=1/2λ(1)=1/4λ(2)=1/8λf λ ( x ) = p x ( 1 - P ) 1 - x ⋅ 2 x + 1 P ( X = x ) = f λ ( x ) ⋅ λé dado por
significando que
Com essa nova medida dominante, a função de probabilidade se torna (com notação de cima)
observe o fator extra . Portanto, ao alterar a medida dominante usada na definição da função de verossimilhança, surge uma nova constante multiplicativa, que não depende do parâmetro desconhecidofλ(x)=px(1−p)1−x⋅2x+1
P(X=x)=fλ(x)⋅λ(x)
∏i=1npxi(1−p)1−xi2xi+1=py(1−p)n−y2y+n
2y+npe é claramente irrelevante. Essa é outra maneira de ver como constantes multiplicativas devem ser irrelevantes. Este argumento pode ser generalizado usando derivados de Radon-Nikodym (como o argumento acima é um exemplo de.)
Basicamente, significa que apenas o valor relativo do PDF é importante. Por exemplo, o PDF normal (gaussiano) padrão é: , seu livro está dizendo que eles poderiam usar , porque eles não se importam com a escala, ou seja, .g(x)=e-x2/2c=1f(x)=12π√e−x2/2 g(x)=e−x2/2 c=12π√
Isto acontece porque maximizar a função de probabilidade, e e terá o mesmo máximo. Portanto, o máximo de será o mesmo de . Então, eles não se preocupam com a balança.g ( x ) e - x 2 / 2 f ( x )c⋅g(x) g(x) e−x2/2 f(x)
fonte
Não posso explicar o significado da cotação, mas para a estimativa de probabilidade máxima , não importa se escolhemos encontrar o máximo da função de probabilidade (considerada como uma função de ou the máximo de onde é alguma constante.Isso não significa que não estamos interessados no valor máximo de mas no valor onde esse máximo ocorre, e e atingem seu valor máximo no mesmo θ a L ( x ; θ ) a L ( x ; θ ) θ ML L ( x ; θ ) a L ( x ; θ ) θ ML g ( ⋅ ) L ( x ; θ ) g ( L ( x ; θ ) ) θ ML a lnL(x;θ) θ aL(x;θ) a L(x;θ) θML L(x;θ) aL(x;θ) θML . Portanto, constantes multiplicativas podem ser ignoradas. Da mesma forma, poderíamos optar por considerar qualquer função monótona
(como o logaritmo) da função de probabilidade , determinar o máximo de e deduza o valor de
disso. Para o logaritmo, a constante multipliativa
se torna a constante aditiva e isso também pode ser ignorado no processo de encontrar a localização do máximo:
é maximizado no mesmo ponto que .g(⋅) L(x;θ) g(L(x;θ)) θML a ln ( a ) + ln ( L ( x ; θ ) ln ( L ( x ; θ )ln(a) ln(a)+ln(L(x;θ) ln(L(x;θ)
Voltando ao máximo da estimativa da probabilidade a posteriori (MAP), é considerado como a realização de uma variável aleatória com uma função de densidade a priori , os dados são considerados uma realização de uma variável aleatória , e a função de probabilidade é considerada o valor da densidade condicional de condicionada em ; a referida função de densidade condicional sendo avaliada em . oΘ f Θ ( θ ) x X f X | q ( x | Θ = θ ) X Θ = θ x Θ f Θ | X ( θ | x ) = F X | q ( x | Θ = θ ) f Θ ( θ )θ Θ fΘ(θ) x X fX∣Θ(x∣Θ=θ) X Θ=θ x uma densidade posterior de é
em que reconhecemos o numerador como a densidade da junta dos dados e do parâmetro sendo estimado. O ponto que
atinge seu valor máximo é a estimativa MAP de e, usando os mesmos argumentos que no parágrafo, vemos que podemos ignorar no lado direito deΘ
fonte
Nos termos do leigo, você geralmente procurará a máxima probabilidade e compartilham os mesmos pontos críticos.f(x) kf(x)
fonte
Pode haver circunstâncias incomuns em que você terá que maximizar a probabilidade sujeita a um teto - e então "lembre-se" de incluir quaisquer constantes no cálculo de seu valor.
Além disso, você pode estar executando testes de seleção de modelos para modelos não aninhados, usando o valor da probabilidade no processo - e como os modelos não são aninhados, as duas probabilidades terão constantes diferentes.
Além disso, a frase
está errado , porque a probabilidade é primeiro uma função de densidade de probabilidade conjunta , não apenas "qualquer" função objetiva a ser maximizada.
fonte