Um problema de estimativa impossível?

Questão

A variação de uma distribuição binomial negativa (NB) é sempre maior que sua média. Quando a média de uma amostra é maior que sua variância, a tentativa de ajustar os parâmetros de um RN com probabilidade máxima ou com estimativa de momento falhará (não há solução com parâmetros finitos).

No entanto, é possível que uma amostra retirada de uma distribuição de RN tenha média maior que a variância. Aqui está um exemplo reproduzível em R.

set.seed(167)
x = rnbinom(100, size=3.2, prob=.8);
mean(x) # 0.82
var(x) # 0.8157576

Há uma probabilidade diferente de zero de que o RN produza uma amostra para a qual os parâmetros não podem ser estimados (pelos métodos de máxima verossimilhança e momento).

Estimativas decentes podem ser fornecidas para esta amostra?
O que a teoria das estimativas diz quando os estimadores não são definidos para todas as amostras?

Sobre a resposta

As respostas de @ MarkRobinson e @ Yves me fizeram perceber que a parametrização é a questão principal. A densidade de probabilidade do RN geralmente é escrita como

ou como

P (X = k) = \frac{Γ (r + k)}{Γ (r) k!} (1 - p)^{r} p^{k}

$P(X = k) = \frac{\Gamma(r+k)}{\Gamma(r)k!}(1-p)^rp^k$

P (X = k) = \frac{Γ (r + k)}{Γ (r) k!} {(\frac{r}{r + m})}^{r} {(\frac{m}{r + m})}^{k} .

$P(X = k) = \frac{\Gamma(r+k)}{\Gamma(r)k!} \left(\frac{r}{r+m}\right)^r \left(\frac{m}{r+m}\right)^k.$

Sob a primeira parametrização, a estimativa de máxima verossimilhança é sempre que a variância da amostra for menor que a média, portanto nada útil pode ser dito sobre . Sob o segundo, é , para que possamos fornecer uma estimativa razoável de . Por fim, @MarkRobinson mostra que podemos resolver o problema de valores infinitos usando $(\infty, 0)$ $p$ $(\infty, \bar{x})$ $m$ vez de. $\frac{r}{1+r}$ $r$

Em conclusão, não há nada de fundamentalmente errado com este problema de estimação, exceto que você não pode sempre dar interpretações significativas de e para cada amostra. Para ser justo, as idéias estão presentes nas duas respostas. Eu escolhi o de MarkRobinson como o correto para os complementos que ele faz. $r$ $p$

estimation maximum-likelihood negative-binomial gui11aume
fonte

É incorreto afirmar que a probabilidade máxima falha nesse caso. Somente os métodos de momento podem enfrentar dificuldades.

Xian

@ Xi'an Você pode expandir? A probabilidade de esta amostra não tem o domínio máximo em

(ver também este por exemplo). Estou esquecendo de algo? De qualquer forma, se você puder fornecer as estimativas de ML dos parâmetros para este caso, atualizarei a pergunta.

(0, \infty) \times (0, 1)

$(0,\infty) \times (0,1)$

precisa saber é o seguinte

p \to 0

$p \to 0$

r \to \infty

$r \to \infty$

CV < 1

$\text{CV} < 1$

α = 20

$\alpha = 20$

n = 200

$n = 200$

@ Yves Obrigado por este outro exemplo (que eu não conhecia). O que as pessoas fazem nesse caso?

gui11aume

α \to \infty

$\alpha \to \infty$

λ / α \to θ > 0

$\lambda / \alpha \to \theta >0$

r p / (1 - p) \to λ

$rp/(1-p) \to \lambda$

Respostas:

Basicamente, para sua amostra, a estimativa do parâmetro size está no limite do espaço do parâmetro. Pode-se também considerar uma reparametrização como d = tamanho / (tamanho + 1); quando tamanho = 0, d = 0, quando o tamanho tende ao infinito, d se aproxima de 1. Acontece que, para as configurações de parâmetro fornecidas, as estimativas de tamanho do infinito (d próximo de 1) ocorrem cerca de 13% do tempo para Estimativas de verossimilhança ajustada de Cox-Reid (APL), que é uma alternativa às estimativas de MLE para RN (exemplo mostrado aqui) . As estimativas do parâmetro médio (ou 'prob') parecem estar corretas (veja a figura, as linhas azuis são os valores verdadeiros, o ponto vermelho é a estimativa para sua semente = 167 amostra). Mais detalhes sobre a teoria da APL estão aqui .

Então, eu diria para 1: Estimativas decentes de parâmetros podem ser obtidas. Size = infinito ou dispersão = 0 é uma estimativa razoável, dada a amostra. Considere um espaço de parâmetro diferente e as estimativas serão finitas.

Mark Robinson
fonte

Obrigado por se juntar ao site para responder à minha pergunta! Os detalhes da probabilidade do perfil ajustado de Cox-Reid parecem muito promissores.

gui11aume

$p \to 0$ $r \to \infty$ $\Theta := (0,\,1)\times(0,\,\infty)$ $\lambda >0$ $[p,\,r] \in \Theta$ $p \to 0$ $r \to \infty$ $rp/(1-p) \to \lambda$

$\text{CV} < 1$ $>0.3$ $\alpha = 20$ $n = 200$

As propriedades de ML destinam-se a um grande tamanho de amostra: sob condições de regularidade, é mostrada uma estimativa de ML, sendo única e tendendo ao parâmetro verdadeiro. No entanto, para um determinado tamanho de amostra finito, a estimativa de ML pode deixar de existir no domínio, por exemplo, porque o máximo é atingido no limite. Também pode existir em um domínio maior que o usado para maximização.

$\alpha \to \infty$ $\lambda / \alpha \to \theta >0$ $\text{GPD}(\sigma,\,\xi)$ $\xi >0$ $\widehat{\xi} < 0$ $\widehat{\xi} = 0$

Por uma questão de invariância por redefinição, acredito que parâmetros infinitos podem fazer sentido em alguns casos.

Yves
fonte