Para colocar minha pergunta em contexto, sou físico, mas com exposição limitada à estatística e o que aprendi sobre isso há mais de 30 anos.
Estou tentando aprender sobre a inicialização do bloco, pois essa técnica pode ser adequada para resolver um problema no qual estou trabalhando. Eu posso encontrar muitos artigos / livros / informações sobre a matemática do bootstrapping de bloco, mas gostaria de encontrar primeiro uma descrição genérica do processo de bootstrapping de bloco antes de 'aventurar-nos' em questões como bootstrapping de bloco móvel, bootstrapping de bloco circular, bootstrapping de bloco estacionário , comprimentos de bloco, tamanho da amostra etc.
Excesso de amostra de dados correlacionados, 5 variáveis (colunas) por 10000 observações (linhas) que quero reduzir para cerca de 100 linhas de dados. Os dados são temporários, mas não contínuos, e também pode haver dados de locais diferentes, o que significa que você pode ter dados diferentes ao mesmo tempo (se o último for um problema para a inicialização do bloco, eu poderia remover dados 'duplicados' em tempo). A inicialização do bloco permitiria replicar a correlação dos dados.
O objetivo final é reduzir o conjunto de dados para ~ 100 linhas de dados, de modo que pdf e cdf do conjunto de dados completo e o conjunto de dados reduzido sejam os mesmos (dentro de um intervalo de erro mínimo ainda a ser definido) para todas as 5 variáveis.
Pergunta: 1) O bloco de inicialização será capaz de fazer isso? 2) Qual é o processo passo a passo que é feito? Não espero que ninguém escreva o processo completo em detalhes aqui, mas talvez alguém tenha colocado um vídeo do YouTube ou um 'bootstrapping for dummies' por aí que eu poderia começar.
Analisei perguntas semelhantes sobre a inicialização de blocos aqui e há uma sobre "Recursos para aprender sobre a inicialização de blocos na análise de séries temporais", mas as referências nas respostas pressupõem um conhecimento estatístico que ainda preciso dominar.
fonte
Respostas:
A reamostragem livre de modelo de séries temporais é realizada por reamostragem de bloco, também chamada de bootstrapping de bloco, que pode ser implementada usando a função tsboot no pacote de inicialização do R. A idéia é dividir a série em blocos de comprimento aproximadamente igual de observações consecutivas, reamostrar o bloco com substituição e depois colar os blocos. Por exemplo, se a série temporal é de 200 e se usa 10 blocos de 20, então os blocos são as primeiras 20 observações, as próximas 20 e assim por diante. Uma possível nova amostra é o quarto bloco (observação 61 a 80), depois o último bloco (observação 181 a 200), depois o segundo bloco (observação 21 a 40), depois o quarto bloco novamente e assim por diante até que haja 10 blocos na nova amostra. Como você faz bootstrap com dados de séries temporais?
fonte