Suponha que eu tenha um conjunto de dados de amostra de uma distribuição desconhecida ou complexa e que deseje realizar alguma inferência em uma estatística dos dados. Minha inclinação padrão é apenas para gerar um monte de amostras de bootstrap com substituição e calcular o meu estatística em cada amostra de bootstrap para criar uma distribuição estimada para .
Quais são os exemplos em que isso é uma má ideia?
Por exemplo, um caso em que a ingenuidade na execução desse bootstrap falharia seria se eu estivesse tentando usá-lo em dados de séries temporais (por exemplo, para testar se eu tenho correlação automática significativa). O bootstrap ingênuo descrito acima (gerando o de dados da enésima série de exemplos de bootstrap por amostragem com substituição da minha série original) seria (acho) desaconselhável, uma vez que ignora a estrutura da minha série temporal original, e por isso obtenha técnicas de inicialização mais sofisticadas, como a inicialização do bloco.
Em outras palavras, o que há no bootstrap além da "amostragem com substituição"?
Respostas:
Se a quantidade de interesse, geralmente funcional de uma distribuição, for razoavelmente suave e seus dados estiverem disponíveis, você estará em um território bastante seguro. Obviamente, há outras circunstâncias em que o bootstrap também funcionará.
O que significa para o bootstrap "falhar"
Em termos gerais, o objetivo do bootstrap é construir uma distribuição aproximada da amostra para a estatística de interesse. Não se trata de estimativa real do parâmetro. Portanto, se a estatística de interesse (sob algum redimensionamento e centralização) for e na distribuição, gostaríamos que nossa distribuição de inicialização fosse convergem para a distribuição de . Se não temos isso, não podemos confiar nas inferências feitas.X^n X^n→X∞ X∞
O exemplo canônico de quando o bootstrap pode falhar, mesmo em uma estrutura iid, é ao tentar aproximar a distribuição de amostragem de uma estatística de ordem extrema. Abaixo está uma breve discussão.
Estatística de pedido máximo de uma amostra aleatória de uma distribuiçãoU[0,θ]
Seja uma sequência de variáveis aleatórias uniformes de iid em . Deixe . A distribuição de é (Observe que, por um argumento muito simples, isso na verdade também mostra que em probabilidade, e mesmo, quase certamente , se as variáveis aleatórias estiverem todas definidas no mesmo espaço.)X1,X2,… [0,θ] X(n)=max1≤k≤nXk X(n)
Um cálculo elementar produz ou, em outras palavras, converge na distribuição para uma variável aleatória exponencial com média .
Agora, formamos uma estimativa (ingênua) de autoinicialização da distribuição de , reamostrando com substituição para obter e usando a distribuição de condicional em .n(θ−X(n)) X1,…,Xn X⋆1,…,X⋆n n(X(n)−X⋆(n)) X1,…,Xn
Mas observe que com probabilidade e, portanto, a distribuição do bootstrap tem uma massa de ponto a zero, mesmo que assintoticamente, apesar de o fato de que a distribuição limite real é contínua.X⋆(n)=X(n) 1−(1−1/n)n→1−e−1
Mais explicitamente, embora a distribuição limitadora verdadeira seja exponencial com a média , a distribuição limitadora do bootstrap coloca uma massa de pontos no zero do tamanho independentemente do valor real de . Ao tomar suficientemente grande, podemos tornar arbitrária a probabilidade da verdadeira distribuição limitadora pequena para qualquer intervalo fixo , mas o bootstrap ( ainda !) Informa que há pelo menos probabilidade 0,632 nesse intervalo! Por isso, deve ficar claro que o bootstrap pode se comportar arbitrariamente mal nessa configuração.θ 1−e−1≈0.632 θ θ [0,ε)
Em resumo, o bootstrap falha (miseravelmente) neste caso. As coisas tendem a dar errado quando se lida com parâmetros na extremidade do espaço de parâmetros.
Um exemplo de uma amostra de variáveis aleatórias normais
Existem outros exemplos semelhantes da falha do bootstrap em circunstâncias surpreendentemente simples.
Considere um exemplo de que o espaço de parâmetro para está restrito a . O MLE nesse caso é . Novamente, usamos a estimativa de autoinicialização . Novamente, pode ser mostrado que a distribuição de (condicional na amostra observada) não converge para a mesma distribuição limitadora que .X1,X2,… N(μ,1) μ [0,∞) X^n=max(X¯,0) X^⋆n=max(X¯⋆,0) n−−√(X^⋆n−X^n) n−−√(X^n−μ)
Matrizes intercambiáveis
Talvez um dos exemplos mais dramáticos seja para uma matriz intercambiável. Seja seja uma matriz de variáveis aleatórias tais que, para cada par de matrizes de permutação e , as matrizes e têm a mesma distribuição conjunta. Ou seja, permutar linhas e colunas de mantém a distribuição invariável. (Você pode pensar em um modelo de efeitos aleatórios bidirecional com uma observação por célula como exemplo, embora o modelo seja muito mais geral.)Y=(Yij) P Q Y PYQ Y
Suponha que desejemos estimar um intervalo de confiança para a média (devido à suposição de permutabilidade descrita acima, as médias de todos os células devem ser as mesmas).μ=E(Yij)=E(Y11)
McCullagh (2000) considerou duas maneiras naturais (ou seja, ingênuas) de inicializar uma matriz desse tipo. Nenhum deles obtém a variação assintótica para a média da amostra correta. Ele também considera alguns exemplos de uma matriz trocável unidirecional e regressão linear.
Referências
Infelizmente, o assunto não é trivial, portanto, nenhuma dessas leituras é particularmente fácil.
fonte
O livro a seguir possui um capítulo (Cap. 9) dedicado a "Quando o bootstrapping falha junto com os remédios para falhas":
MR Chernick, métodos Bootstrap: Um guia para profissionais e pesquisadores , 2ª ed. Hoboken NJ: Wiley-Interscience, 2008.
Os tópicos são:
fonte
O bootstrap ingênuo depende do tamanho da amostra ser grande, de modo que o CDF empírico para os dados seja uma boa aproximação ao CDF "verdadeiro". Isso garante que a amostragem do CDF empírico seja muito semelhante à amostragem do CDF "verdadeiro". O caso extremo é quando você apenas amostrou um ponto de dados - a inicialização não alcança nada aqui. Tornar-se-á cada vez mais inútil à medida que se aproxima deste caso degenerado.
O bootstrapping ingenuamente não falhará necessariamente na análise de séries temporais (embora possa ser ineficiente) - se você modelar a série usando funções básicas de tempo contínuo (como polinômios de legenda) para um componente de tendência e funções seno e cosseno de tempo contínuo para ciclos cíclicos componentes (mais o termo de erro de ruído normal). Em seguida, basta colocar o que quer que você tenha amostrado na função de probabilidade. Nenhum desastre para a inicialização aqui.
Qualquer correlação automática ou modelo ARIMA tem uma representação neste formato acima - este modelo é apenas mais fácil de usar e penso entender e interpretar (ciclos fáceis de entender nas funções seno e cosseno, coeficientes difíceis de entender de um modelo ARIMA). Por exemplo, a função de correlação automática é a transformação inversa de Fourier do espectro de potência de uma série temporal.
fonte