Perguntas sobre bootstrap paramétrico e não paramétrico

14

Estou lendo o capítulo sobre Estatísticas Frequentes do livro " Aprendizado de Máquina - Uma Perspectiva Probabilística " de Kevin Murphy . A seção no bootstrap diz:

O bootstrap é uma técnica simples de Monte Carlo para aproximar a distribuição da amostra. Isso é particularmente útil nos casos em que o estimador é uma função complexa dos parâmetros verdadeiros.

A ideia é simples. Se conhecêssemos os parâmetros verdadeiros θ , poderíamos gerar muitos (digamos S ) conjuntos de dados falsos, cada um com tamanho , a partir da distribuição verdadeira, , para . Poderíamos então calcular nosso estimador de cada amostra, e usar a distribuição empírica das amostras resultantes como nossa estimativa da distribuição da amostra. Como \ theta é desconhecido, a idéia do bootstrap paramétrico é gerar as amostras usando \ hat {\ theta} (D) .x s ip ( · | θ ) s = 1 : S , i = 1 : N ^ θ s = f ( x s 1 : N ) θNxEusp(·|θ)s=1:S,Eu=1:Nθs^=f(x1:Ns)θθ^(D)

Uma alternativa, chamada de inicialização não paramétrica , é amostrar o xEus (com substituição) dos dados originais D e depois calcular a distribuição induzida como antes. Alguns métodos para acelerar o bootstrap quando aplicados a conjuntos de dados massivos são discutidos em (Kleiner et al. 2011).

  • 1 . O texto diz:

    Se soubéssemos os parâmetros verdadeiros θ ..., poderíamos calcular nosso estimador de cada amostra, θs^ ...

        mas por que eu usaria o estimador de cada amostra se conheço os parâmetros verdadeiros θ ?

  • 2 . Além disso, qual é a diferença aqui entre a distribuição empírica e a distribuição amostral?

  • 3 . Finalmente, não entendo bem a diferença entre bootstrap paramétrico e não paramétrico deste texto. Ambos inferem do conjunto de observações , mas qual é exatamente a diferença?DθD

Amelio Vazquez-Reina
fonte

Respostas:

14

A resposta dada por miura não é totalmente exata, então estou respondendo a essa pergunta antiga para a posteridade:

(2) Essas são coisas muito diferentes. O cdf empírico é uma estimativa do CDF (distribuição) que gerou os dados. Precisamente, é o CDF discreta que atribui probabilidade para cada ponto de dados observados, F ( x ) = 11/n, para cadax. Este estimador converge para o verdadeiro CDF: F (x)F(x)=P(Xix)quase certamente para cadax(na verdade de maneira uniforme).F^(x)=1nEu=1nEu(XEux)xF^(x)F(x)=P(XEux)x

A distribuição amostral de uma estatística é, em vez disso, a distribuição da estatística que você esperaria ver em experimentações repetidas. Ou seja, você realiza sua experiência uma vez e coleta dados X 1 , , X n . T é uma função dos seus dados: T = T ( X 1 , , X n ) . Agora, suponha que você repita o experimento e colete dados X 1 , , X n . O recálculo de T na nova amostra fornece T TX1,...,XnTT=T(X1,...,Xn)X1,...,Xn . Se nós coletadas 100 amostras teríamos 100 estimativas de T . Estas observações de T formar a distribuição de amostragem de T . É uma verdadeira distribuição. À medida que o número de experimentos chega ao infinito, sua média converge para E ( T ) e sua variação para V a r ( T ) .T=T(X1,...,Xn)TTTE(T)Vumar(T)

Em geral, é claro que não experimentos repetidos como este, que só poderá ver uma instância de . Descobrir qual é a variação de T em uma única observação é muito difícil se você não souber a função de probabilidade subjacente de T a priori. Bootstrapping é uma forma de estimar que a distribuição amostral de T por artificialmente correndo "novas experiências" sobre a qual se calculam novas instâncias de T . Cada nova amostra é na verdade apenas uma amostra dos dados originais. O fato de isso fornecer mais informações do que os dados originais é misterioso e totalmente incrível.TTTTT

(1) Você está correto - você não faria isso. O autor está tentando motivar o bootstrap paramétrico, descrevendo-o como fazendo "o que você faria se conhecesse a distribuição", mas substituindo um estimador muito bom da função de distribuição - o cdf empírico.

Por exemplo, suponha que você saiba que sua estatística de teste é normalmente distribuída com média zero, variação um. Como você estimaria a distribuição amostral de T ? Bem, como você conhece a distribuição, uma maneira boba e redundante de estimar a distribuição da amostra é usar R para gerar 10.000 variáveis ​​aleatórias normais padrão, pegar a média e a variância da amostra e usá-las como nossas estimativas da média e variância da distribuição amostral de T .TTT

Se não conhecemos a priori os parâmetros de , mas sabemos que ele é normalmente distribuído, o que podemos fazer é gerar 10.000 amostras ou mais a partir do cdf empírico, calcular T em cada um deles e calcular a média da amostra e variância destes 10.000 T s, e usá-las como nossas estimativas do valor esperado e variância de t . Como o cdf empírico é um bom estimador do cdf verdadeiro, os parâmetros da amostra devem convergir para os parâmetros verdadeiros. Esta é a inicialização paramétrica: você posiciona um modelo na estatística que deseja estimar. O modelo é indexado por um parâmetro, por exemplo ( μ , σ )TTTT(μ,σ), que você estima a partir de amostras repetidas do ecdf.

(3) O bootstrap não paramétrico nem exige que você saiba a priori que é normalmente distribuído. Em vez disso, você simplesmente extrai amostras repetidas do ecdf e calcula T em cada uma. Depois de coletar aproximadamente 10.000 amostras e calcular 10.000 T s, você pode plotar um histograma de suas estimativas. Esta é uma visualização da distribuição amostral de TTTTT. O bootstrap não paramétrico não informa que a distribuição de amostragem é normal, ou gama, ou assim por diante, mas permite estimar a distribuição de amostragem (geralmente) da maneira mais precisa possível. Ele faz menos suposições e fornece menos informações do que o bootstrap paramétrico. É menos preciso quando a suposição paramétrica é verdadeira, mas mais precisa quando é falsa. Qual você usa em cada situação que você encontra depende inteiramente do contexto. É certo que mais pessoas estão familiarizadas com o bootstrap não paramétrico, mas frequentemente uma suposição paramétrica fraca torna um modelo completamente intratável passível de estimativa, o que é adorável.

guest47
fonte
1
Estou confuso com a sua descrição do bootstrap paramétrico "o que podemos fazer é gerar 10.000 amostras ou mais a partir do cdf empírico" Meu entendimento do bootstrap paramétrico é que você faria uma amostra de um modelo que se encaixa nos dados. É isso que a citação original do livro de Murphy está descrevendo. Eu poderia estar lendo errado, mas a amostragem a partir do CDF empírico dos dados seria diretamente amostragem dos pontos de dados, qual seria o bootstrap padrão, não?
user20160
@ user20160 você está interpretando incorretamente a resposta "Em vez disso": ele está descrevendo a inicialização não paramétrica, não a paramétrica.
daknowles
4

Realmente aprecio o esforço contribuído por guest47, mas não concordo totalmente com a resposta dele, em alguns aspectos menores. Eu não colocaria minhas divergências diretamente, mas as refletiria nesta resposta.

  1. Em muitos casos, é redundante para computação θ s quando já sabemos a verdade subjacente parâmetro θ * . No entanto, ainda é útil quando queremos olhar para a exatidão e precisão de θ s na estimativa de θ * . Além disso, o primeiro parágrafo da sua passagem citada facilitará a compreensão da noção de "inicialização paramétrica", que abordarei logo depois.θ^sθθ^sθ

  2. Guest47 dá uma boa resposta. Não há necessidade de elaborar mais.

  3. Em bootstrapping paramétrico, o que você tem é a dados observados D. Você chegar a um modelo paramétrico para ajustar os dados, e uso estimadores q (que é uma função dos dados D) para os verdadeiros parâmetros q * . Então você gerar milhares de conjuntos de dados a partir do modelo paramétrico com θ , e estimar θ é para estes modelos. No bootstrapping não paramétrico, você usa diretamente D, amostra (por milhares de vezes) exatamente de D, em vez de dados gerados. θ^θθ^θ^s

QINGYUAN FENG
fonte
2

Não sou especialista, mas pelo que vale a pena:

  1. Porque você está interessado na distribuição da amostra, conforme mencionado na primeira frase da sua cotação.

  2. A distribuição empírica é a distribuição que você vê no seu número finito de amostras. A distribuição de amostragem é o que você veria se coletasse um número infinito de amostras.

Não sei responder 3. Sempre entendi o que é descrito aqui como inicialização não paramétrica como "a" inicialização.

Se você ainda não entendeu completamente o conceito da distribuição de amostragem, há um encadeamento muito bom aqui que apresenta código R muito ilustrativo.

miura
fonte
5
A diferença entre o bootstrap paramétrico e não paramétrico é que o primeiro gera suas amostras a partir da distribuição (assumida) dos dados, usando os valores estimados dos parâmetros, enquanto o último gera suas amostras por amostragem com substituição dos dados observados - nenhum modelo paramétrico assumido .
jbowman
@jbowman - o bootstrap "não paramétrico" não tem um modelo subjacente - apenas que é um modelo diferente ao usado para motivar a estimativa do parâmetro.
probabilityislogic
@miura Por favor, não vandalize sua resposta. Se você quiser que o solicitante escolha uma resposta diferente, comente a pergunta. Se você deseja que sua resposta seja excluída, sinalize-a e peça isso.
Glen_b -Reinstala Monica