Eu estive pesquisando o pacote de inicialização no R e, embora tenha encontrado uma série de boas instruções sobre como usá-lo, ainda não encontrei nada que descreva exatamente o que está acontecendo "nos bastidores". Por exemplo, neste exemplo , o guia mostra como usar os coeficientes de regressão padrão como ponto de partida para uma regressão de inicialização, mas não explica o que o procedimento de inicialização está realmente fazendo para derivar os coeficientes de regressão de inicialização. Parece que está acontecendo algum tipo de processo iterativo, mas não consigo descobrir exatamente o que está acontecendo.
22
Respostas:
Existem vários "sabores" ou formas do bootstrap (por exemplo, reamostragem não paramétrica, paramétrica, residual e muito mais). O bootstrap no exemplo é chamado de bootstrap não paramétrico ou reamostragem de caso (veja aqui , aqui , aqui e aqui para aplicativos em regressão). A idéia básica é que você trate sua amostra como população e extraia repetidamente novas amostras com substituição . Todas as observações originais têm igual probabilidade de serem incluídas na nova amostra. Depois, você calcula e armazena as estatísticas de interesse, que podem ser a média, a mediana ou os coeficientes de regressão usando a amostra recém-desenhada. Isso é repetido vezes. Em cada iteração, algumas observações da amostra original são desenhadas várias vezes, enquanto outras podem não ser desenhadas. Após n iterações, você n armazenou estimativas de inicialização das estatísticas de interesse (por exemplo, se n = 1000 e a estatística de interesse for a média, você terá 1000 estimativas de média de inicialização). Por fim, são calculadas estatísticas resumidas, como média, mediana e desvio padrão das n estimativas de autoinicialização.n n n n = 1000 n
O bootstrapping é frequentemente usado para:
Existem vários métodos para calcular intervalos de confiança com base nas amostras de bootstrap ( este artigo fornece explicações e orientações). Um método muito simples para calcular um intervalo de confiança de 95% é apenas o cálculo dos percentis empírico 2,5 e 97,5º das amostras de bootstrap (esse intervalo é chamado de intervalo de percentil de bootstrap; consulte o código abaixo). O método simples de intervalo percentil é raramente usado na prática, pois existem métodos melhores, como o bootstrap com correção de bias e aceleração (BCa). Os intervalos BCa se ajustam tanto ao viés quanto à assimetria na distribuição do bootstrap.
Vamos replicar o exemplo do site, mas usando nosso próprio loop incorporando as idéias que descrevi acima (desenhando repetidamente com a substituição):
E aqui está a nossa tabela de resumo:
Algumas explicações
boot
boot
chamadas "erro padrão" é o desvio padrão das estimativas inicializadasCompare-o com a saída de
boot
:Compare as colunas "viés" e o "erro padrão" com a coluna "sd" da nossa própria tabela de resumo. Nossos intervalos de confiança de 95% são muito semelhantes aos intervalos de confiança calculados
boot.ci
usando o método de percentil (embora nem todos: observe o limite inferior do parâmetro com o índice 9).fonte
Você deve se concentrar na função que é passada
boot
como o parâmetro "estatística" e observe como ela é construída.O argumento "dados" receberá um quadro de dados inteiro, mas o argumento "i" receberá uma amostra dos índices de linha gerados pela "inicialização" e extraídos de 1: NROW (dados). Como você pode ver nesse código, "i" é usado para criar uma neo-amostra que é passada para
zeroinl
e, em seguida, somente partes selecionadas dos resultados são retornadas.Vamos imaginar que "i" seja {1,2,3,3,3,6,7,7,10}. A função "[" retornará apenas as linhas com 3 cópias da linha 3 e 2 cópias da linha 7. Essa seria a base para um único
zeroinl()
cálculo e, em seguida, os coeficientes serão retornados paraboot
como resultado dessa replicação do processo. O número de tais réplicas é controlado pelo parâmetro "R".Como somente os coeficientes de regressão são retornados
statistic
nesse caso, aboot
função retornará esses coeficientes acumulados como o valor de "t". Comparações adicionais podem ser realizadas por outras funções do pacote de inicialização.fonte