Como derivar a função de probabilidade para distribuição binomial para estimativa de parâmetros?

22

De acordo com Probability and Statistics for Engineers, de Miller e Freund, 8ed (pp.217-218), a função de probabilidade a ser maximizada para a distribuição binomial (ensaios de Bernoulli) é dada como

eu(p)=Eu=1npxEu(1-p)1-xEu

Como chegar a esta equação? Parece-me bastante claro em relação às outras distribuições, Poisson e Gaussian;

eu(θ)=Eu=1nPDF ou PMF de dist.

Mas o binômio é um pouco diferente. Para ser direto, como

nCx px(1-p)n-x

tornar-se

pxEu(1-p)1-xEu

na função de probabilidade acima?

Ébe Isaac
fonte

Respostas:

25

Na estimativa de probabilidade máxima, você está tentando maximizar ; no entanto, maximizar isso é equivalente a maximizar para um fixo . p x ( 1 - p ) n - x xnCx px(1-p)n-xpx(1-p)n-xx

Na verdade, a probabilidade de gauss e poisson também não envolverem suas constantes principais, portanto, este caso é exatamente como aqueles que w


Como abordar o comentário dos OPs

Aqui está um pouco mais detalhadamente:

Primeiro, é o número total de sucessos, enquanto x i é uma única tentativa (0 ou 1). Assim sendo:xxEu

Eu=1npxEu(1-p)1-xEu=p1nxEu(1-p)1n1-xEu=px(1-p)n-x

Isso mostra como você obtém os fatores na probabilidade (executando as etapas acima para trás).

Por que a constante desaparece? Informalmente, e o que a maioria das pessoas faz (inclusive eu), basta observar que a constante principal não afeta o valor de que maximiza a probabilidade; portanto, apenas a ignoramos (efetivamente defina como 1).p

Podemos derivar isso tomando o log da função de probabilidade e descobrindo onde sua derivada é zero:

em(nCx px(1-p)n-x)=em(nCx)+xem(p)+(n-x)em(1-p)

Tome derivada wrt e defina como :0p0 0

ddpem(nCx)+xem(p)+(n-x)em(1-p)=xp-n-x1-p=0 0

nx=1pp=xn

Observe que a constante inicial saiu do cálculo do MLE.

Mais filosoficamente, uma probabilidade é significativa apenas para inferência até uma constante multiplicadora, de modo que, se tivermos duas funções de probabilidade e , elas serão inferencialmente equivalentes. Isso é chamado de Lei da Probabilidade . Portanto, se estivermos comparando valores diferentes de usando a mesma função de probabilidade, o termo principal se torna irrelevante.L 1 = k L 2 peu1,eu2eu1=keu2p

Em um nível prático, a inferência usando a função de verossimilhança é realmente baseada na razão de verossimilhança, não no valor absoluto da verossimilhança. Isso se deve à teoria assintótica das razões de verossimilhança (que são assintoticamente qui-quadrado - sujeitas a certas condições de regularidade que geralmente são apropriadas). Os testes de razão de verossimilhança são favorecidos devido ao lema de Neyman-Pearson . Portanto, quando tentamos testar duas hipóteses simples, tomaremos a razão e o fator principal comum será cancelado.

NOTA: Isso não acontecerá se você estiver comparando dois modelos diferentes, digamos, um binômio e um poisson. Nesse caso, as constantes são importantes.

Pelas razões acima, a primeira (irrelevância para encontrar o maximizador de L) responde mais diretamente à sua pergunta.


fonte
2
Podemos ver que é a ideia. Mas você poderia explicar um pouco mais sobre como o é removido e o é substituído por 1? nnCxn
EBE Isaac
@ ÉbeIsaac adicionou mais alguns detalhes
2

xi no produto refere-se a cada teste individual. Para cada tentativa individual, xi pode ser 0 ou 1 e n é igual a 1 sempre. Portanto, trivialmente, o coeficiente binomial será igual a 1. Portanto, na fórmula do produto para probabilidade, o produto dos coeficientes binomiais será 1 e, portanto, não há nCx na fórmula. Percebi isso enquanto trabalhava passo a passo :) (Desculpe a formatação, não estou acostumado a responder com expressões matemáticas nas respostas ... ainda :))

Abhishek Tiwari
fonte