O bootstrap, em sua forma padrão, pode ser usado para calcular intervalos de confiança das estatísticas estimadas, desde que as observações sejam iid. I. Visser et al. em " Intervalos de confiança para parâmetros ocultos do modelo de Markov ", usava uma auto-inicialização paramétrica para calcular ICs para parâmetros do HMM. No entanto, quando ajustamos um HMM em uma sequência de observação, já assumimos que as observações são dependentes (em contraste com os modelos de mistura).
Eu tenho duas perguntas:
- O que a suposição iid faz com o bootstrap?
- Podemos ignorar o requisito iid em uma inicialização paramétrica?
Visser et al. O método é resumidamente o seguinte:
- Assuma que têm uma sequência de observação resultou de amostragem de um HMM com jogo real, mas desconhecida de parâmetros θ = θ 1 , θ 2 , . . . , θ l .
- Os parâmetros podem ser calculados usando o algoritmo
- Usar o HMM estimado para gerar uma amostra de bootstrap de tamanho : Y * = O * 1 , O * 2 , . . . , S * n
- Estimar os parâmetros do HMM de acordo com a amostra de
- Repita os passos 3 e 4 para vezes (por exemplo, B = 1000), resultando em B estimativas de bootstrap: θ * ( 1 ) , θ * ( 2 ) , . . . , Θ * ( B )
- Calcule o CI de cada parâmetro estimado θ i utilizando a distribuição de θ * i em estimativas de bootstrap.
Notas (minhas descobertas):
- O método dos percentis deve ser usado para calcular ICs para obter uma cobertura correta (normalidade é uma suposição ruim).
- O viés da distribuição de auto-inicialização deve ser corrigido. O que significa que a média da distribuição de θ * i deve ser deslocado para q i
Respostas:
Respostas curtas: 1. Simplifica. (Francamente, eu não entendi a pergunta). 2. Não, você nunca pode ignorá-lo, pois a falta de identificação tem consequências imediatas nas variações do que você está estimando.
Resposta média: O problema central do bootstrap é basicamente : 'O procedimento proposto reproduz os recursos dos dados?' . A violação da suposição iid é muito importante: seus dados são dependentes, você (provavelmente) tem menos informações em seus dados do que em uma amostra iid do mesmo tamanho e se você executar uma inicialização ingênua (faça uma nova amostra do indivíduo observações), os erros padrão obtidos serão muito pequenos. O procedimento proposto contorna o problema da falta de independência capturando (ou pelo menos tentando capturar) a dependência na estrutura e nos parâmetros do modelo. Se for bem-sucedido, cada amostra de bootstrap reproduzirá os recursos dos dados, conforme necessário.
Resposta longa:Existem várias camadas de suposições relacionadas ao bootstrap e, mesmo no caso mais simples possível (dados iid, estimativa da média), é necessário fazer pelo menos três suposições: (1) a estatística de interesse é uma função suave dos dados (verdadeiro no caso da média, não tão verdadeiro mesmo no caso dos percentis, totalmente errado com os estimadores correspondentes correspondentes ao vizinho mais próximo); (2) a distribuição a partir da qual você inicializa é "próxima" da distribuição da população (funciona bem no caso de dados iid; pode não funcionar bem no caso de dados dependentes, onde você basicamente tem apenas uma trajetória = uma observação no caso de séries temporais, e você deve invocar suposições adicionais, como estacionariedade e mistura, para estender essa observação única a uma quase população); (3) sua amostra de bootstrap de Monte Carlo é uma aproximação suficientemente boa para o bootstrap completo com todas as subamostras possíveis (a imprecisão do uso de Monte Carlo vs. o bootstrap completo é muito menor do que a incerteza que você está tentando capturar). No caso do bootstrap paramétrico, você também assume que (4) seu modelo explica perfeitamente todos os recursos dos dados.
O método que você descreveu contorna a suposição iid, criando uma amostra totalmente nova. O maior problema com a inicialização de dados dependentes é criar a amostra que tenha padrões de dependência suficientemente próximos dos dados originais. Com as séries temporais, você pode usar as autoinicializações do bloco; com dados em cluster, você inicializa todos os clusters; com a regressão heterocedástica, é necessário usar as strings de inicialização curtas (que é uma idéia melhor do que a de inicialização dos resíduos, mesmo que você tenha adaptado um modelo de heteroscedasticidade). No bootstrap de bloco, você deve adivinhar (ou, em outras palavras, ter boas razões para acreditar) que partes distantes da série temporal são aproximadamente independentes, de modo que toda a estrutura de correlação seja capturada pelos 5 ou 10 adjacentes. observações que formam o bloco. Portanto, em vez de reamostrar as observações uma a uma, o que ignora totalmente a estrutura de correlação das séries temporais, você as reamostra em blocos, esperando que isso respeite a estrutura de correlação. O bootstrap paramétrico a que você se refere diz: "Em vez de mexer nos dados e montar as novas bonecas a partir das peças das antigas, por que não carimbar toda a Barbie moldada para você? Em vez disso, descobri que tipo de Barbies que você gosta, e eu prometo que vou fazer de você uma que você também gostaria. " Em vez de mexer nos dados e montar as novas bonecas a partir das peças antigas, por que não carimbar toda a Barbie moldada para você? Eu descobri que tipo de Barbies você gosta, e prometo que vou fazer de você uma que você também gostaria. " Em vez de mexer nos dados e montar as novas bonecas a partir das peças antigas, por que não carimbar toda a Barbie moldada para você? Eu descobri que tipo de Barbies você gosta, e prometo que vou fazer de você uma que você também gostaria. "
No caso do bootstrap paramétrico que você descreveu, você deve ter certeza absoluta de que o ajuste do seu modelo HMM é praticamente perfeito; caso contrário, o bootstrap paramétrico pode levar a resultados incorretos (Barbies que não conseguem mover os braços). Pense no exemplo de regessão heterocedástica acima; ou pense em ajustar um modelo AR (1) aos dados AR (5): o que você fizer com os dados simulados parametricamente, eles não terão a estrutura que os dados originais costumavam ter.
Edit : como Sadeghd esclareceu sua pergunta, posso responder a isso também. Há uma variedade enorme de procedimentos de autoinicialização, cada um abordando uma peculiaridade específica na estatística, no tamanho da amostra, na dependência ou em qualquer problema que possa ocorrer com a autoinicialização. Não existe uma maneira única de lidar com a dependência, por exemplo. (Trabalhei com bootstraps de pesquisa, existem cerca de 8 procedimentos diferentes, embora alguns sejam principalmente de interesse metodológico e não prático; e alguns são claramente inferiores, pois são aplicáveis apenas em casos especiais, e não facilmente generalizáveis.) discussão geral sobre questões que você pode enfrentar com a inicialização, veja Canty, Davison, Hinkley e Ventura (2006). Diagnósticos e soluções de inicialização. The Canadian Journal of Statistics, 34 (1), 5-27 .
fonte