Essa pergunta foi desencadeada por algo que li neste livro de estatística em nível de pós-graduação e também (independentemente) ouvi durante esta apresentação em um seminário de estatística. Nos dois casos, a declaração foi semelhante à "porque o tamanho da amostra é bem pequeno, decidimos realizar uma estimativa via bootstrap em vez de (ou juntamente com) esse método paramétrico ".
Eles não entrar em detalhes, mas provavelmente o raciocínio era o seguinte: Método assume os dados seguem uma certa paramétrico distribuição . Na realidade, a distribuição não é exatamente , mas é aceitável desde que o tamanho da amostra seja grande o suficiente. Como neste caso o tamanho da amostra é muito pequeno, vamos mudar para o bootstrap (não paramétrico) que não faz nenhuma suposição de distribuição. Problema resolvido!
Na minha opinião, não é para isso que serve o bootstrap. Aqui está como eu vejo: o bootstrap pode dar uma vantagem quando é mais ou menos óbvio que existem dados suficientes, mas não existe uma solução de formulário fechado para obter erros padrão, valores-p e estatísticas semelhantes. Um exemplo clássico é a obtenção de um IC para o coeficiente de correlação, dada uma amostra de uma distribuição normal bivariada: a solução de formulário fechado existe, mas é tão complicada que a inicialização é mais simples. No entanto, nada implica que o bootstrap possa de alguma forma ajudar alguém a se safar com um pequeno tamanho de amostra.
Minha percepção está certa?
Se você acha essa pergunta interessante, há outra pergunta de bootstrap mais específica de mim:
Bootstrap: a questão do overfitting
PS: Não posso deixar de compartilhar um exemplo flagrante da "abordagem de inicialização". Não estou divulgando o nome do autor, mas ele é um dos “quantos” da geração mais antiga que escreveu um livro sobre Quantitative Finance em 2004. O exemplo é retirado de lá.
Considere o seguinte problema: suponha que você tenha 4 ativos e 120 observações mensais de retorno para cada um. O objetivo é construir o cdf 4-dimensional conjunto de retornos anuais. Mesmo para um único ativo, a tarefa parece dificilmente alcançável com apenas 10 observações anuais, sem falar na estimativa do cdf 4-dimensional. Mas não se preocupe, o “bootstrap” o ajudará: faça todas as observações quadridimensionais disponíveis, faça uma nova amostra de 12 com substituição e componha-as para construir um único vetor quadridimensional “bootstrapped” de retornos anuais. Repita isso 1000 vezes e, eis que você obteve uma "amostra de autoinicialização" de 1000 retornos anuais. Use isso como uma amostra de tamanho IID do tamanho 1000 para fins de estimativa de cdf ou qualquer outra inferência que possa ser extraída de uma história de mil anos.
fonte
Respostas:
Lembro-me de ler que usar o intervalo de confiança do percentil para inicialização é equivalente a usar um intervalo Z em vez de um intervalo T e usar vez de para o denominador. Infelizmente, não me lembro de onde li isso e não consegui encontrar uma referência nas minhas pesquisas rápidas. Essas diferenças não importam muito quando n é grande (e as vantagens do bootstrap superam esses pequenos problemas quando é grande), mas com pequeno isso pode causar problemas. Aqui está um código R para simular e comparar:n - 1 n nn n−1 n n
Meus resultados para uma execução são:
Portanto, podemos ver que o uso do teste t e do teste z (com o verdadeiro desvio padrão da população) fornece uma taxa de erro do tipo I que é essencialmente conforme projetado. O teste z incorreto (dividindo pelo desvio padrão da amostra, mas usando o valor crítico de Z em vez de T) rejeita o nulo mais do que o dobro do que deveria. Agora, no bootstrap, ele rejeita o nulo 3 vezes mais que deveria (olhando se 0, a verdadeira média, está no intervalo ou não), portanto, para esse pequeno tamanho de amostra, o bootstrap simples não é dimensionado corretamente e, portanto, não conserte problemas (e é quando os dados estão perfeitamente normais). Os intervalos aprimorados de inicialização (BCa etc.) provavelmente terão um desempenho melhor, mas isso deve suscitar alguma preocupação em usar a inicialização como uma panacéia para amostras pequenas.α
fonte
boot
pacote e ele forneceu todos os intervalos possíveis: o intervalo de aproximação normal de primeira ordem, o intervalo básico de inicialização, o intervalo de inicialização estudado, o intervalo de percentil de inicialização (que seu código já fornece) e o percentil de inicialização ajustado (BCa) intervalo. Os resultados foram basicamente os mesmos (taxas de rejeição em torno de 0,16 a 0,17), exceto no intervalo estudado, que teve uma taxa de rejeição nominal (0,05) (o que faz sentido, pois é mais parecido com o teste t padrão).10,000 \times 10,000
iterações (que levaram mais alguns minutos para ser concluído) e verificar as coisas. E seu exemplo mostra bem que o bootstrap pode ter um desempenho muito ruim com amostras pequenas, mesmo quando as coisas são "agradáveis" (ou seja, os dados são de fato normais).Se você receber um tamanho pequeno de amostra (como luz lateral, o que é "pequeno" parece depender de alguma regra usual subjacente em cada campo de pesquisa), nenhum bootstrap fará a mágica. Supondo que um banco de dados contenha três observações para cada uma das duas variáveis sob investigação, nenhuma inferência fará sentido. Na minha experiência, o bootstrap não paramétrico (1.000 ou 10.000 repetições) funciona bem na substituição do teste t quando as distribuições de amostras (pelo menos 10 a 15 observações cada) são distorcidas e, portanto, os pré-requisitos para o teste t usual não são satisfeitos. Além disso, independentemente do número de observações, o bootstrap não paramétrico pode ser uma opção obrigatória quando os dados são positivamente distorcidos, como sempre acontece com os custos de assistência médica.
fonte
Outras respostas criticam o desempenho dos intervalos de confiança da inicialização , não a própria inicialização. Este é um problema diferente.
Se o seu contexto atender às condições de regularidade para a convergência da distribuição de auto-inicialização (convergência em termos do número de amostras de auto-inicialização), o método funcionará se você usar uma amostra de auto-inicialização grande o suficiente.
Caso você realmente queira encontrar problemas com o uso de bootstrap não paramétrico, aqui estão dois problemas:
(1) Problemas com reamostragem.
Um dos problemas do bootstrap, para amostras pequenas ou grandes, é a etapa de reamostragem. Nem sempre é possível reamostrar enquanto mantém a estrutura (dependência, temporal, ...) da amostra. Um exemplo disso é um processo sobreposto .
Como você reamostraria mantendo a estrutura desconhecida da dependência ?
(2) Amostras estreitas de inicialização e intervalos de confiança de inicialização para amostras pequenas .
Em amostras pequenas, o mínimo e o máximo dos estimadores para cada subamostra podem definir um intervalo estreito; em seguida, os pontos finais direito e esquerdo de qualquer intervalo de confiança serão muito estreitos (o que é contra-intuitivo, dada a pequena amostra!) Em alguns modelos.
Suponha que , em que é a taxa. Usando a probabilidade do perfil, é possível obter um intervalo de confiança aproximado (o intervalo de confiança aproximado de 95% é o intervalo de probabilidade do perfil de 0,147 nível) da seguinte maneira:λ > 0x1,x2∼Exp(λ) λ>0
Este método produz uma curva contínua de onde você pode extrair o intervalo de confiança. O estimador de probabilidade máxima de é . Ao reamostrar, existem apenas três valores possíveis que podemos obter para esse estimador, cujos valores máximo e mínimo definem os limites para os intervalos de confiança de autoinicialização correspondentes. Isso pode parecer estranho mesmo para grandes amostras de bootstrap (você não ganha muito aumentando esse número):X = 2 / ( x 1 + x 2 )λ λ^=2/(x1+x2)
Nesse caso, quanto mais próximos de e , menor a distribuição da inicialização e, consequentemente, menor o intervalo de confiança (que pode estar localizado longe do valor real). Este exemplo está, de fato, relacionado ao exemplo apresentado por @GregSnow, embora seu argumento tenha sido mais empírico. Os limites mencionados mencionam o mau desempenho de todos os intervalos de confiança de bootstrap analisados pelo @Wolfgang.x 2x1 x2
fonte
O bootstrap funciona bem em amostras pequenas, garantindo a correção dos testes (por exemplo, que o nível de significância nominal de 0,05 seja próximo ao tamanho real do teste), no entanto, o bootstrap não lhe concede magicamente energia extra. Se você tem uma amostra pequena, tem pouco poder, fim da história.
Regressões paramétricas (modelos lineares) e semiparamétricas (GEE) tendem a ter poucas propriedades de amostra pequenas ... a primeira como conseqüência da grande dependência de suposições paramétricas, a segunda por causa da ampliação de estimativas de erro padrão robustas em amostras pequenas. O bootstrapping (e outros testes baseados em reamostragem) tem um desempenho muito bom nessas circunstâncias.
Para previsão, o bootstrapping fornecerá estimativas melhores (mais honestas) da validade interna do que a validação de amostra dividida.
Muitas vezes, o bootstrapping fornece menos energia como consequência da correção inadvertida de procedimentos médios de imputação / verificação quente (como na correspondência difusa). O bootstrapping foi erroneamente proposto para dar mais poder nas análises correspondentes, em que os indivíduos foram reamostrados para atender ao tamanho suficiente do cluster, fornecendo conjuntos de dados correspondentes com um maior que o conjunto de dados da análise.n
fonte