A resposta dada por miura não é totalmente exata, então estou respondendo a essa pergunta antiga para a posteridade:
(2) Essas são coisas muito diferentes. O cdf empírico é uma estimativa do CDF (distribuição) que gerou os dados. Precisamente, é o CDF discreta que atribui probabilidade para cada ponto de dados observados, F ( x ) = 11 / n, para cadax. Este estimador converge para o verdadeiro CDF: F (x)→F(x)=P(Xi≤x)quase certamente para cadax(na verdade de maneira uniforme).F^( x ) = 1n∑ni = 1Eu( XEu≤ x )xF^( x ) → F( x ) = P( XEu≤ x )x
A distribuição amostral de uma estatística é, em vez disso, a distribuição da estatística que você esperaria ver em experimentações repetidas. Ou seja, você realiza sua experiência uma vez e coleta dados X 1 , … , X n . T é uma função dos seus dados: T = T ( X 1 , … , X n ) . Agora, suponha que você repita o experimento e colete dados X ′ 1 , … , X ′ n . O recálculo de T na nova amostra fornece T ′TX1, … , XnTT= T( X1, … , Xn)X′1, … , X′n . Se nós coletadas 100 amostras teríamos 100 estimativas de T . Estas observações de T formar a distribuição de amostragem de T . É uma verdadeira distribuição. À medida que o número de experimentos chega ao infinito, sua média converge para E ( T ) e sua variação para V a r ( T ) .T′= T( X′1, … , X′n)TTTE( T)Va r ( T)
Em geral, é claro que não experimentos repetidos como este, que só poderá ver uma instância de . Descobrir qual é a variação de T em uma única observação é muito difícil se você não souber a função de probabilidade subjacente de T a priori. Bootstrapping é uma forma de estimar que a distribuição amostral de T por artificialmente correndo "novas experiências" sobre a qual se calculam novas instâncias de T . Cada nova amostra é na verdade apenas uma amostra dos dados originais. O fato de isso fornecer mais informações do que os dados originais é misterioso e totalmente incrível.TTTTT
(1) Você está correto - você não faria isso. O autor está tentando motivar o bootstrap paramétrico, descrevendo-o como fazendo "o que você faria se conhecesse a distribuição", mas substituindo um estimador muito bom da função de distribuição - o cdf empírico.
Por exemplo, suponha que você saiba que sua estatística de teste é normalmente distribuída com média zero, variação um. Como você estimaria a distribuição amostral de T ? Bem, como você conhece a distribuição, uma maneira boba e redundante de estimar a distribuição da amostra é usar R para gerar 10.000 variáveis aleatórias normais padrão, pegar a média e a variância da amostra e usá-las como nossas estimativas da média e variância da distribuição amostral de T .TTT
Se não conhecemos a priori os parâmetros de , mas sabemos que ele é normalmente distribuído, o que podemos fazer é gerar 10.000 amostras ou mais a partir do cdf empírico, calcular T em cada um deles e calcular a média da amostra e variância destes 10.000 T s, e usá-las como nossas estimativas do valor esperado e variância de t . Como o cdf empírico é um bom estimador do cdf verdadeiro, os parâmetros da amostra devem convergir para os parâmetros verdadeiros. Esta é a inicialização paramétrica: você posiciona um modelo na estatística que deseja estimar. O modelo é indexado por um parâmetro, por exemplo ( μ , σ )TTTT( μ , σ), que você estima a partir de amostras repetidas do ecdf.
(3) O bootstrap não paramétrico nem exige que você saiba a priori que é normalmente distribuído. Em vez disso, você simplesmente extrai amostras repetidas do ecdf e calcula T em cada uma. Depois de coletar aproximadamente 10.000 amostras e calcular 10.000 T s, você pode plotar um histograma de suas estimativas. Esta é uma visualização da distribuição amostral de TTTTT. O bootstrap não paramétrico não informa que a distribuição de amostragem é normal, ou gama, ou assim por diante, mas permite estimar a distribuição de amostragem (geralmente) da maneira mais precisa possível. Ele faz menos suposições e fornece menos informações do que o bootstrap paramétrico. É menos preciso quando a suposição paramétrica é verdadeira, mas mais precisa quando é falsa. Qual você usa em cada situação que você encontra depende inteiramente do contexto. É certo que mais pessoas estão familiarizadas com o bootstrap não paramétrico, mas frequentemente uma suposição paramétrica fraca torna um modelo completamente intratável passível de estimativa, o que é adorável.
Realmente aprecio o esforço contribuído por guest47, mas não concordo totalmente com a resposta dele, em alguns aspectos menores. Eu não colocaria minhas divergências diretamente, mas as refletiria nesta resposta.
Em muitos casos, é redundante para computação θ s quando já sabemos a verdade subjacente parâmetro θ * . No entanto, ainda é útil quando queremos olhar para a exatidão e precisão de θ s na estimativa de θ * . Além disso, o primeiro parágrafo da sua passagem citada facilitará a compreensão da noção de "inicialização paramétrica", que abordarei logo depois.θ^s θ∗ θ^s θ∗
Guest47 dá uma boa resposta. Não há necessidade de elaborar mais.
Em bootstrapping paramétrico, o que você tem é a dados observados D. Você chegar a um modelo paramétrico para ajustar os dados, e uso estimadores q (que é uma função dos dados D) para os verdadeiros parâmetros q * . Então você gerar milhares de conjuntos de dados a partir do modelo paramétrico com θ , e estimar θ é para estes modelos. No bootstrapping não paramétrico, você usa diretamente D, amostra (por milhares de vezes) exatamente de D, em vez de dados gerados.θ^ θ∗ θ^ θ^s
fonte
Não sou especialista, mas pelo que vale a pena:
Porque você está interessado na distribuição da amostra, conforme mencionado na primeira frase da sua cotação.
A distribuição empírica é a distribuição que você vê no seu número finito de amostras. A distribuição de amostragem é o que você veria se coletasse um número infinito de amostras.
Não sei responder 3. Sempre entendi o que é descrito aqui como inicialização não paramétrica como "a" inicialização.
Se você ainda não entendeu completamente o conceito da distribuição de amostragem, há um encadeamento muito bom aqui que apresenta código R muito ilustrativo.
fonte