Razão intuitiva pela qual a Informação do Binomial de Fisher é inversamente proporcional a

12

Confunde / surpreende que o Binomial tenha uma variação proporcional a p(1p) . Equivalentemente, as informações de Fisher são proporcionais a 1p(1p) . Qual é a razão para isto? Por que as informações de Fisher são minimizadas emp=0.5 ? Ou seja, por que a inferência é mais difícil em p=0.5 ?

Contexto:

Estou trabalhando em uma calculadora de tamanho de amostra, e a fórmula para N , o tamanho da amostra necessário, é um fator crescente de p(1p) , o resultado de uma estimativa de variação na derivação.

Cam.Davidson.Pilon
fonte
3
A variância de uma variável aleatória de Bernoulli com o parâmetro é p ( 1 - p ) e a variável aleatória binomial, sendo a soma de N variáveis ​​aleatórias independentes de Bernoulli, possui a variação N p ( 1 - p ) , que é a soma do N variações. Com relação ao porquê p ( 1 - p ) , considere variância como o momento de inércia em torno do centro de massa de massas p e 1 - p a 1pp(1p)NNp(1p)N p(1p)p1p1e respectivamente. 0
precisa
Sim, eu disse proporcional a , ignorar o N . Você pode elaborar sua segunda parte, parece uma perspectiva interessante. p(1p)N
Cam.Davidson.Pilon

Respostas:

13

Para ver, de maneira intuitiva, que a variação é maximizada em , considere p igual a 0,99 (resp. P = 0,01 ). Então uma amostra de X Bernoulli ( p ) provavelmente conterá muitos 1 's (resp. 0 ' s) e apenas alguns 0 's (resp. 1 ' s). Não há muita variação lá.p=0.5p0.99p=0.01XBernoulli(p)1001

ocram
fonte
Isso é verdade. Talvez o que eu deva perguntar seja: Por que as informações de Fisher são minimizadas em ? p=0.5, ou seja, por que a inferência é mais difícil em ? Vou atualizar minha pergunta para refletir isso. p=0.5
Cam.Davidson.Pilon
3
Novamente de uma maneira muito intuitiva: quanto mais variação, mais informações você precisa.
Ocram
9

A inferência é "duro" para 'no meio, porque uma amostra com p perto do meio é consistente com uma ampla gama de p . Perto das extremidades, não pode estar tão longe - porque as extremidades são "barreiras" além das quais p não pode ir.pp^pp

Acho que a intuição é mais fácil quando analisada em termos de variação.

A intuição de que a variação de um binômio é grande no meio e pequena nas extremidades é bastante direta: perto dos pontos de extremidade, não há espaço para os dados se "espalharem". Considere pequeno - porque a média é próxima de 0, a variação não pode ser grande - para os dados obterem uma média de p, ele pode ficar tão longe da média.pp

Vamos considerar a variação da proporção da amostra em uma série de ensaios de Bernoulli. Aqui . Portanto, mantendo n fixo e variando p , a variação é muito menor para p próximo a 0:Var(p^)=p(1p)/nnpp

Proporção de amostra em amostras binomiais - aqui é apenas uniforme aleatório; o estojo azul tem média de 0,03, o preto significa 0,5 (alguma instabilidade adicionada para que os pontos não se acumulem demais e percam detalhes) yenter image description here

A probabilidade correspondente funciona: enter image description here

Em cada caso, preste atenção às linhas que marcam a média. À medida que a linha média fica mais "presa" contra a barreira, os pontos abaixo da média só podem ficar um pouco abaixo.

Como resultado, os pontos acima da média normalmente não podem ficar muito acima da média (porque, caso contrário, a média mudaria!). Perto de os pontos finais não "aumentam" da mesma maneira que quando existe uma barreira lá.p=12

enter image description here

Vemos ao mesmo tempo por que a distribuição deve ser inclinada nos extremos; para a variável aleatória p ser ainda algum tempo a ser mais do que pp^p acima da média, deve ser correspondentemente mais probabilidade esmagado sobre como muito abaixo da média, pois ele pode ir. Essa barreira iminente em 0 dá um limite à variabilidade e leva à assimetria.

[Essa forma de intuição não nos diz por que ela assume essa forma funcional exata, mas deixa claro por que a variação deve ser pequena perto das extremidades e ficar menor quanto mais próxima das extremidades que você for.]

Glen_b -Reinstate Monica
fonte
Como resultado, os pontos acima da média normalmente não podem ficar muito acima da média (porque, caso contrário, a média mudaria!). Perto de p = 12, os pontos de extremidade não "aumentam" da mesma maneira. Perfeito demais. Esta é uma ótima explicação.
Cam.Davidson.Pilon
7

As informações de Fisher são a variação da função de pontuação. E está relacionado à entropia. Para um julgamento de Bernoulli, estamos recebendo um pouco para cada julgamento. Portanto, essas informações da Fisher têm propriedades semelhantes às da entropia de Shannon, como seria de esperar. Em particular, a entropia tem um máximo em 1/2 e a informação tem um mínimo em 1/2.

James
fonte
Ah, outra ótima perspectiva. Eu não tinha pensado nisso do ponto de vista entrópico!
Cam.Davidson.Pilon