Quando a estimativa de viés de inicialização é válida?

31

Afirma-se frequentemente que o bootstrapping pode fornecer uma estimativa do viés em um estimador.

Se é a estimativa de alguma estatística e são as réplicas de autoinicialização (com ), a estimativa de autoinicialização do viés é que parece extremamente simples e poderosa, a ponto de ser perturbadora. ~ t ii{1,,N}biumst1t^t~EuEu{1 1,,N}

bEuumast1 1NEut~Eu-t^

Não consigo entender como isso é possível sem ter um estimador imparcial da estatística. Por exemplo, se meu estimador simplesmente retornar uma constante independente das observações, a estimativa de viés acima será claramente inválida.

Embora este exemplo seja patológico, não consigo ver quais são as suposições razoáveis ​​sobre o estimador e as distribuições que garantirão que a estimativa de autoinicialização seja razoável.

Tentei ler as referências formais, mas não sou estatístico nem matemático, por isso nada foi esclarecido.

Alguém pode fornecer um resumo de alto nível de quando a estimativa pode ser válida? Se você souber de boas referências sobre o assunto, isso também seria ótimo.


Editar:

A suavidade do estimador é frequentemente citada como um requisito para o bootstrap funcionar. Será que alguém também requer algum tipo de invertibilidade local da transformação? O mapa constante claramente não satisfaz isso.

Bootstrapped
fonte
2
Um estimador constante é um estimador imparcial dessa constante, portanto é natural que o estimador de autoinicialização do viés seja zero.
Xian

Respostas:

4

O problema que você descreve é ​​um problema de interpretação, não de validade. A estimativa de viés de inicialização do seu estimador constante não é inválida, é de fato perfeita.

A estimativa de bootstrap de polarização é entre um estimador de e um parâmetro onde é uma distribuição desconhecido e uma amostra a partir de . A função é algo que você poderia, em princípio, calcular se tivesse a população em mãos. Algumas vezes tomamos o plug-in estimativa da usando o empírico de distribuição no lugar de . Provavelmente, é isso que você descreve acima. Em todos os casos, a estimativa do viés de inicialização é queθ=t(F),FxFt(F)s(x)=T( M ),t(F) F Fbiumé F =E F [s(x*)]-t( Fθ^=s(x)θ=t(F),FxFt(F)s(x)=t(F^),t(F)F^Fx x

bEuumasF^=EF^[s(x)]-t(F^),
xsão exemplos de bootstrap de .x

A constante é um plug-in perfeita estimativa para a mesma constante:c ~ F ~ F F T ( F ) = c c t ( F ) = c c a população é e a amostra , a distribuição empírica, que se aproxima . Se você pudesse avaliar , obteria . Ao calcular a estimativa do plug-in você também obtém . Sem viés, como seria de esperar.FF^Ft(F)=cct(F^)=cc

Um caso bem conhecido em que existe um viés na estimativa do plug-in está na estimativa da variação, daí a correção de Bessel. Abaixo eu demonstro isso. A estimativa do viés de inicialização não é tão ruim: t(F^)

library(plyr)

n <- 20
data <- rnorm(n, 0, 1)

variance <- sum((data - mean(data))^2)/n

boots <- raply(1000, {
  data_b <- sample(data, n, replace=T)
  sum((data_b - mean(data_b))^2)/n
})

# estimated bias
mean(boots) - variance 
#> [1] -0.06504726

# true bias:
((n-1)/n)*1 -1
#> [1] -0.05

Em vez disso, poderíamos considerar como a média da população , situação em que na maioria dos casos deve haver um viés claro: s ( x ) = ct(F)s(x)=c

library(plyr)

mu <- 3
a_constant <- 1

n <- 20
data <- rnorm(n, mu, 1)

boots <- raply(1000, {
  # not necessary as we will ignore the data, but let's do it on principle
  data_b <- sample(data, n, replace=T)

  a_constant
})

# estimated bias
mean(boots) - mean(data) 
#> [1] -1.964877

# true bias is clearly -2

Novamente, a estimativa de inicialização não é tão ruim.

einar
fonte
Eu adicionei essa resposta porque as outras respostas parecem ter como certo que é um problema que a estimativa do viés de inicialização seja 0 quando for uma constante. Eu não acredito que seja. t
einar 26/10
Gosto da sua resposta e da sua demonstração, mas não acho que sua definição esteja correta "A estimativa do viés de inicialização é uma estimativa do viés entre uma função da sua amostra e a mesma função avaliada na população". Embora o que você escreve seja bem definido, se essa fosse a definição, não haveria como usar o autoinicializador para estimar o viés, por exemplo, da variação da amostra como estimador da variação da população.
21418 DavidRelatório
@ DavidD Você está certo, obrigado por comentar. Eu atualizei a resposta.
einar
Eu gosto muito desse artigo! Minha única pergunta é sobre "estimativa de viés de inicialização". Acho que o que você escreveu é o viés real do estimador (mas para a distribuição empírica, e não para a distribuição verdadeira), já que você está tendo uma expectativa em relação às amostras de bootstrap. Eu acho que o estimador de bootstrap seria uma soma finita sobre amostras de bootstrap B?
DavidR
11
@DavidR Estou feliz que você faz! O que eu relato é tecnicamente a estimativa de bootstrap de viés (porque você usa no lugar de θ ea expectativa de bootstrap de s ( ) no lugar de sua expectativa sobre F ). Mas na maioria das aplicações práticas E F [ s ( x * ) ] é intratável e aproximá-la por Monte Carlo como você diz. t(F^)θs()FEF^[s(x)]
einar
3

Você comete um erro e talvez seja por isso que é confuso. Você diz:

se meu estimador simplesmente retornar uma constante independente das observações, a estimativa de viés acima será claramente inválida

O Bootstrap não é sobre o quanto seu método é tendencioso, mas quanto seus resultados obtidos por alguma função, dados seus dados, são tendenciosos.

Se você escolher o método estatístico apropriado para analisar seus dados, e todas as suposições desse método forem atendidas, e você fez suas contas corretamente, seu método estatístico deve fornecer a "melhor" estimativa possível que pode ser obtida usando seus dados .

A idéia do bootstrap é coletar seus dados da mesma maneira que você amostrou seus casos da população - portanto, é um tipo de replicação de sua amostra. Isso permite que você obtenha uma distribuição aproximada (usando palavras de Efrons) do seu valor e, portanto, avalie o viés da sua estimativa.

No entanto, o que eu argumento é que o seu exemplo é enganoso e, portanto, não é o melhor exemplo para discutir a inicialização. Como houve mal-entendidos de ambos os lados, deixe-me atualizar minha resposta e escrevê-la de maneira mais formal para ilustrar meu argumento.

Viés para θ estimativa estar do verdadeiro valor θ é definido como:θ^θ

viés(θ^n)=Eθ(θ^n)-θ

Onde:

θ^n=g(x1 1,x2,...,xn)

g()

Como observa Larry Wasserman em seu livro "All the Statistics" :


θ^nθθ^nPθ

xg(X)=λθλλ=θ

θ^nθn

Tim
fonte
5
Receio que esta resposta pareça destinada a semear confusão. Um estimador constante é um estimador de acordo com a maioria das definições - e, em alguns casos, é até admissível. Sua pergunta confunde o viés de amostragem com o viés de estimativa, que costuma confundir quase todos os leitores. Seu parágrafo sobre a "melhor estimativa possível" é bom, mas sugere a questão essencial de como medir a "melhor". A polarização é apenas um componente disso (se é que existe).
whuber
Embora eu não esteja qualificado o suficiente para responder à OP, receio que Whuber tenha razão. Além disso, é válido chamar população como um estimador? Em relação à última frase, acho que o boostrap fornece uma estimativa do viés do estimador em análise e não do método de amostragem.
Mugen
Entendo que o bootstrap não pode detectar erros sistemáticos, mas pelo menos em alguns limites, ele deve detectar viés estatístico. Suponho que seu argumento seja sobre a sutileza na distinção entre os dois, mas isso ainda não está claro para mim. Você parece estar falando de uma noção de viés da qual nunca ouvi falar - não do estimador, mas dos dados. Qual é a definição formal dessa noção de viés?
Bootstrapped
3
λθ λ-θ
8
θ^0 0n<10100
3

t

biast1NEut~Eu-t

Você deseja usar a estatística real avaliada na distribuição empírica (isso geralmente é fácil, pois a amostra original é um conjunto finito), e não a estimativa. Em alguns casos, eles podem ser os mesmos (por exemplo, a média empírica é a mesma que a média da amostra), mas não serão em geral. Você deu um caso em que eles são diferentes, mas um exemplo menos patológico é o estimador imparcial usual para variação, que não é o mesmo que a variação populacional quando aplicada a uma distribuição finita.

t

TL / DR: O método de inicialização não é mágico. Para obter uma estimativa imparcial do viés, você precisa calcular o parâmetro de interesse exatamente em uma distribuição finita.

Evan Wright
fonte
11
Não tenho certeza do significado da sua notação. De acordo com essas notas de Pete Hall (UC Davis), essas notas de Cosma Shalizi (CMU) e esta página do livro de Efron e Tibshirani parecem indicar que o que eu entendi não está errado, apenas não totalmente geral (ou seja, eu estou usando o estimador de plug-in aqui, mas isso não é necessário).
Bootstrapped
t=t^θ(F1 1)tθ^t^tt
Evan Wright
t=t^
11
tN
ttt~Eut
0

Acho útil pensar nos procedimentos de autoinicialização em termos dos funcionais das distribuições em que operam - dei um exemplo nesta resposta a uma pergunta diferente da autoinicialização.

A estimativa que você deu é o que é - uma estimativa. Ninguém diz que não sofre de problemas que as estimativas estatísticas possam ter. Ele fornecerá uma estimativa diferente de zero para a média da amostra, por exemplo, que todos sabemos que é imparcial para começar. Um problema com esse estimador de viés é que ele sofre de variabilidade de amostragem quando o bootstrap é implementado como Monte Carlo, em vez de uma enumeração completa de todas as subamostras possíveis (e ninguém que esse bootstrap teórico na prática, de qualquer maneira).

BB

StasK
fonte
7
Eu acho que a pergunta original do Bootstrapped é ortogonal à questão da variabilidade de Monte Carlo. Mesmo se levarmos o número de replicações de autoinicialização para o infinito, a fórmula na pergunta fornecerá uma estimativa zero para o viés de um estimador constante e uma estimativa diferente de zero para o viés da estimativa de variação não usual usual.
Evan Wright