Por que a definição de um estimador consistente é do jeito que é? E as definições alternativas de consistência?

14

Citação da wikipedia:

Nas estatísticas, um estimador consistente ou estimador assintoticamente consistente é um estimador - uma regra para calcular estimativas de um parâmetro possuindo a propriedade de que, conforme o número de pontos de dados usados ​​aumenta indefinidamente, a sequência resultante de estimativas converge em probabilidade para θ ^ * .θθ

Para tornar essa afirmação precisa, seja θ o valor do parâmetro true que você deseja estimar e θ^(Sn) seja a regra para estimar esse parâmetro como uma função dos dados. Então, a definição de consistência de um estimador pode ser expressa da seguinte maneira:

limnPr[|θ(Sn^)-θ|ϵ]=0 0

minha pergunta parece superficial à primeira vista, mas é: por que a palavra "consistência / consistente" foi usada para descrever esse comportamento de um estimador?

A razão pela qual me preocupo com isso é porque, para mim, intuitivamente, a palavra consistente significa algo diferente (ou pelo menos parece diferente para mim, talvez eles possam ser mostrados iguais). Deixe-me dizer o que significa por meio de um exemplo. Diga "você" é sempre "bom" (para alguma definição de bom), então consistente significa que toda vez que você tem uma chance de provar / me mostrar que é bom, você realmente me prova que é bom, sempre (ou pelo menos na maioria das vezes).

Vamos aplicar minha intuição para definir a consistência de um estimador. Seja "você" a função computadora θ^ e deixe "good" significar a que distância você está da estimativa verdadeira θ (boa, no sentido da norma eu1 , por que não). Então, uma melhor definição de consistência seria:

n,Sn,Pr[|θ(Sn^)-θ|ϵ]<δ

Mesmo que possa ser uma definição menos útil de consistência, faz mais sentido para mim da maneira que eu definiria consistência, porque para qualquer conjunto de treinamento / amostra que você lançar ao meu estimador θ^ , poderei fazer uma bom trabalho, ou seja, farei sempre bem. Estou ciente de que é um pouco irreal fazer isso para todos os n (provavelmente impossível), mas podemos corrigir essa definição dizendo:

n0,nn0,Sn,Pr[|θ(Sn^)θ|ϵ]<δ

ou seja, para n suficientemente grande, nosso estimador não terá um desempenho pior que (isto é, não mais que longe da "verdade") do verdadeiro (o está tentando capturar a intuição de que você precisa pelo menos algum número de exemplo para aprender / estimar qualquer coisa e, uma vez atingido esse número, seu estimador se sairá bem na maior parte do tempo se for consistente na maneira como estamos tentando defini-lo).ϵϵθn0

No entanto, a definição anterior é muito forte, talvez possamos nos permitir uma baixa probabilidade de estar longe de na maioria dos conjuntos de treinamento de tamanho (ou seja, não exigir isso para todos os , mas acima de a distribuição de ou algo parecido). Portanto, teremos um erro alto muito raramente na maioria dos conjuntos de amostras / treinamento que temos.θnn0SnSn

De qualquer forma, minha pergunta é: essas definições propostas de "consistência" são realmente as mesmas que a definição "oficial" de consistência, mas é difícil provar a equivalência? Se você conhece a prova, compartilhe-a! Ou a minha intuição está completamente desligada e existe uma razão mais profunda para escolher a consistência da definição da maneira que geralmente é definida? Por que a consistência ("oficial") é definida como é?

Alguns dos meus pensamentos sobre uma prova de candidato para algum tipo de equivalência, ou talvez similaridade entre minha noção de consistência e a noção aceita de consistência, podem ser desvendar a definição de limite na definição oficial de consistência usando o definição de um limite. No entanto, eu não tinha 100% de certeza de como fazer isso e, mesmo se eu tentasse, a definição oficial de consistência não parece levar em consideração as conversas sobre todos os possíveis conjuntos de treinamento / amostra. Como acredito que sejam equivalentes, a definição oficial que forneci está incompleta (ou seja, por que ela não fala sobre os conjuntos de dados que poderíamos ou sobre todos os diferentes conjuntos de dados que poderiam gerar nossos conjuntos de amostras)?(ϵ,δ)

Um dos meus últimos pensamentos é que qualquer definição que fornecemos também deve ser precisa, de cuja distribuição de probabilidade falamos, é ou . Eu acho que um candidato também deve ser preciso, seja o que for que ele garante, se ele garante alguma distribuição fixa ou todas as distribuições possíveis para os conjuntos de treinamento ... certo?PxPSn

Charlie Parker
fonte
3
(+1) Pensamento criativo. Obrigado por compartilhar isso conosco. Acredito que poderei fornecer alguns pensamentos como resposta aqui.
Alecos Papadopoulos
2
A primeira definição é de pouca utilidade, pois exige que todos os estimadores sejam altamente precisos. O segundo não faz sentido, porque tenta controlar uma única variável lógica com múltiplos quantificadores. n
whuber

Respostas:

9

Considere a segunda declaração provisória do OP, ligeiramente modificada,

(1)θΘ,ϵ>0 0,δ>0 0,Sn,n0 0(θ,ϵ,δ):nn0 0,Pn[|θ^(Sn)-θ|ϵ]<δ

Estamos examinando a seqüência delimitada em de números reais { P n [ | Θ ( S n ) - θ * | £ ] }[0 0,1]

{Pn[|θ^(Sn)-θ|ϵ]}

indexado por . Se essa sequência tiver um limite como , chame-a simplesmente , teremos quen pnnp

2)θΘ,ϵ>0 0,δ>0 0,Sn,n0 0(θ,ϵ,δ):nn0 0,|Pn[|θ(Sn^)-θ|ϵ]-p|<δ

Portanto, se assumimos (ou exigimos) , essencialmente assumimos (ou exigimos) que o limite como existe e é igual a zero, .(1)np=0 0

Então lê "o limite de como é ". Qual é exatamente a definição atual de consistência (e sim, abrange "todas as amostras possíveis")(1)Pn[|θ(Sn^)-θ|ϵ]n0 0

Portanto, parece que o OP propôs essencialmente uma expressão alternativa para exatamente a mesma propriedade, e não uma propriedade diferente, do estimador.

ADENDO (esqueceu a parte do histórico)

Em seus "Fundamentos da Teoria da Probabilidade" (1933), Kolmogorov menciona em uma nota de rodapé que (o conceito de convergência em probabilidade)

"... é devido a Bernoulli; seu tratamento completamente geral foi introduzido pela EESlutsky".

(em 1925). O trabalho de Slutsky está em alemão - pode até haver uma questão de como a palavra alemã foi traduzida em inglês (ou o termo usado por Bernoulli). Mas não tente ler muito em uma palavra.

Alecos Papadopoulos
fonte