Para quais modelos o viés do MLE cai mais rápido que a variação?

14

Seja uma estimativa de probabilidade máxima de um parâmetro verdadeiro de algum modelo. À medida que o número de pontos de dados aumenta, o erro geralmente diminui como O (1 / \ sqrt n) . Usando a desigualdade do triângulo e as propriedades da expectativa, é possível mostrar que essa taxa de erro implica que tanto o "viés" \ lVert \ mathbb E \ hat \ theta - \ theta ^ * \ rVert quanto o "desvio" \ lVert \ mathbb E \ hat \ theta - \ hat \ theta \ rVert diminui no mesmo O (1 / \ sqrt {n})θ^θnθ^θO(1/n)Eθ^θEθ^θ^O(1/n)taxa. Obviamente, é possível que os modelos tenham um viés que diminui a uma taxa mais rápida. Muitos modelos (como regressão oridinária de mínimos quadrados) não têm viés.

Estou interessado em modelos com viés que encolhem mais rápido que O(1/n) , mas onde o erro não diminui nessa taxa mais rápida porque o desvio ainda diminui como O(1/n) . Em particular, gostaria de conhecer condições suficientes para que o viés de um modelo diminua na taxa O(1/n) .

Mike Izbicki
fonte
Does θ^θ=(θ^θ)2 ? Ou?
Alecos Papadopoulos
Eu estava perguntando especificamente sobre a norma L2, sim. Mas eu também estaria interessado em outras normas se isso facilitar a resposta da pergunta.
Mike Izbicki
(θ^θ)2 é Op(1/n) .
Alecos Papadopoulos
Desculpe, eu li mal o seu comentário. Para a norma L2 em d dimensões, ab=i=1d(aibi)2 e, portanto, a convergência está na taxa de O(1/n) . Concordo que, se o aplicássemos ao quadrado, convergiria como O(1/n) .
Mike Izbicki
Você já viu o artigo da regressão de cordilheira (Hoerl & Kennard 1970)? Eu acredito que isso dá condições na matriz de projeto + penalidade onde isso é esperado.
DCL

Respostas:

5

Em geral, você precisa de modelos nos quais o MLE não é assintoticamente normal, mas converge para alguma outra distribuição (e o faz a uma taxa mais rápida). Isso geralmente acontece quando o parâmetro sob estimativa está no limite do espaço do parâmetro. Intuitivamente, isso significa que o MLE abordará o parâmetro "apenas de um lado", para que "melhore a velocidade de convergência", uma vez que não é "distraído", indo e voltando ao redor do parâmetro.

Um exemplo padrão é o MLE para em uma amostra iid de rv uniforme. O MLE aqui é a estatística de pedido máximo,θU(0,θ)

θ^n=u(n)

Sua distribuição finita de amostras é

Fθ^n=(θ^n)nθn,fθ^=n(θ^n)n1θn

E(θ^n)=nn+1θB(θ^)=1n+1θ

Então . Mas a mesma taxa aumentada também se aplica à variação.B(θ^n)=O(1/n)

Pode-se também verificar que, para obter uma distribuição limitadora, precisamos olhar para a variável , (ou seja, precisamos escalar por ), poisn(θθ^n)n

P[n(θθ^n)z]=1P[θ^nθ(z/n)]

=11θn(θ+zn)n=1θnθn(1+z/θn)n

1ez/θ

qual é o CDF da distribuição exponencial.

Espero que isso forneça alguma direção.

Alecos Papadopoulos
fonte
Isso está chegando perto, mas estou especificamente interessado em situações em que o viés diminui mais rapidamente que a variação.
Mike Izbicki
2
@MikeIzbicki Hmm ... a convergência de viés depende do primeiro momento da distribuição, e a variação (raiz quadrada da) também é uma magnitude de "primeira ordem". Não tenho certeza, então, de que isso seja possível, porque parece que isso implica que os momentos da distribuição limitadora "surgem" a taxas de convergência incompatíveis entre si ... Mas pensarei nisso.
Alecos Papadopoulos
2

Após os comentários na minha outra resposta (e olhando novamente para o título da pergunta do OP!), Aqui está uma exploração teórica não muito rigorosa da questão.

Queremos determinar se o Bias pode ter uma taxa de convergência diferente da raiz quadrada da variância,B(θ^n)=E(θ^n)θ

B(θ^n)=O(1/nδ),Var(θ^n)=O(1/nγ),γδ???

Nós temos

B(θ^n)=O(1/nδ)limnδE(θ^n)<Klimn2δ[E(θ^n)]2<K

(1)[E(θ^n)]2=O(1/n2δ)

enquanto

Var(θ^n)=O(1/nγ)limnγE(θ^n2)[E(θ^n)]2<M

limn2γE(θ^n2)n2γ[E(θ^n)]2<M

(2)limn2γE(θ^n2)limn2γ[E(θ^n)]2<M

Vemos que pode acontecer se (2)

A) ambos os componentes são ; nesse caso, só podemos ter . O(1/n2γ)γ=δ

B) Mas também pode valer se

(3)limn2γ[E(θ^n)]20[E(θ^n)]2=o(1/n2γ)

Para que seja compatível com , precisamos ter(3)(1)

(4)n2γ<n2δδ>γ

Portanto, parece que, em princípio, é possível ter o viés convergindo a uma taxa mais rápida do que a raiz quadrada da variação. Mas não podemos ter a raiz quadrada da variação convergindo a uma taxa mais rápida que a polarização.

Alecos Papadopoulos
fonte
Como você reconciliaria isso com a existência de estimadores imparciais, como mínimos quadrados comuns? Nesse caso, , mas . B(θ^)=0Var(θ^)=O(1/n)
Mike Izbicki
@MikeIzbicki O conceito de convergência / big-O é aplicável neste caso? Porque aqui não é " coisa" para começar. B(θ^)O()
Alecos Papadopoulos
Nesse caso, , então . Eθ^=θB(θ^)=Eθ^θ=0=O(1)=O(1/n0)
Mike Izbicki
@MikeIzbicki Mas também ou ou qualquer outro item que você queira escrever. Então, qual é a taxa de convergência aqui? B(θ^)=O(n)B(θ^)=O(1/n)
Alecos Papadopoulos
@MikeIzbicki Corrigi minha resposta para mostrar que, em princípio, é possível ter o viés convergindo mais rapidamente, embora ainda ache que o exemplo do "viés zero" é problemático.
Alecos Papadopoulos