O bootstrap é feito para obter uma imagem mais robusta da distribuição de amostras do que aquela assumida pela teoria de grandes amostras. Quando você inicializa, efetivamente não há limite para o número de `exemplos de botas '; de fato, você obtém uma melhor aproximação da distribuição amostral quanto mais amostras de botas você usa. É comum a utilização B=10,000 bootsamples, embora não há nada mágico sobre esse número. Além disso, você não executa um teste nas amostras de botas; você tem uma estimativa da distribuição da amostra - use-a diretamente. Aqui está um algoritmo:
- tire uma amostra inicial de um conjunto de dados amostrando observações de inicialização com substituição. [Com relação aos comentários abaixo, uma pergunta relevante é o que constitui uma 'observação de inicialização' válida para usar na sua amostra de botas. De fato, existem várias abordagens legítimas; Mencionarei dois que são robustos e permitem que você espelhe a estrutura dos seus dados: Quando você tem dados observacionais (ou seja, os dados foram amostrados em todas as dimensões, uma observação de inicialização pode ser uma n-tupla ordenada (por exemplo, uma linha do seu conjunto de dados.) Por exemplo, se você tiver uma variável preditora e uma variável de resposta, poderá amostrar n 1 ( x , y )n1n1 (x,y)pares ordenados. Por outro lado, ao trabalhar com dados experimentais, os valores das variáveis preditivas não foram amostrados, mas as unidades experimentais foram atribuídas aos níveis pretendidos de cada variável preditora. Em um caso como esse, é possível amostrar y valores de cada um dos níveis j da sua variável preditora e, em seguida, emparelhar esses y s com o valor correspondente desse nível preditivo. Dessa maneira, você não coletaria amostras sobre o X. ]n1j yjyX
- se encaixam no seu modelo de regressão e armazenar a estimativa inclinação (chamemos-lhe p 1 )β^1
- pegue uma amostra inicial de outros dados configurados amostrando observações de inicialização com substituiçãon2
- caber outro modelo de regressão e armazenar a estimativa inclinação (chamemos-lhe p 2 )β^2
- formar uma estatística das duas estimativas (sugestão: utilizar a diferença inclinação β 1 - β 2 )β^1−β^2
- armazene a estatística e despeje as outras informações para não desperdiçar memória
- Repetir os passos 1 - 6, vezesB=10,000
- classifique a distribuição de amostragem com inicialização de diferenças de inclinação
- calcule a% do bsd que se sobrepõe a 0 (o que for menor,% da cauda direita ou% da cauda esquerda)
- multiplique esse percentual por 2
A lógica desse algoritmo como teste estatístico é fundamentalmente semelhante aos testes clássicos (por exemplo, testes t), mas você não está assumindo que os dados ou as distribuições de amostragem resultantes tenham alguma distribuição específica. (Por exemplo, você não está assumindo a normalidade.) A suposição principal que você está fazendo é que seus dados são representativos da população da qual você amostrou / deseja generalizar. Ou seja, a distribuição da amostra é semelhante à distribuição da população. Observe que, se seus dados não estiverem relacionados à população em que você está interessado, você estará sem sorte.
Algumas pessoas se preocupam em usar, por exemplo, um modelo de regressão para determinar a inclinação, se você não estiver disposto a assumir a normalidade. No entanto, essa preocupação está errada. O teorema de Gauss-Markov nos diz que a estimativa é imparcial (isto é, centrada no valor verdadeiro), então está tudo bem. A falta de normalidade significa simplesmente que a verdadeira distribuição amostral pode ser diferente da distribuição teoricamente posta e, portanto, os valores de p são inválidos. O procedimento de inicialização fornece uma maneira de lidar com esse problema.
Duas outras questões relacionadas ao autoinicialização: Se as suposições clássicas forem atendidas, o autoinicializador é menos eficiente (ou seja, tem menos energia) do que um teste paramétrico. Segundo, o bootstrap funciona melhor quando você está explorando perto do centro de uma distribuição: meios e medianas são bons, quartis não tão bons, o boot do min ou max necessariamente falha. Em relação ao primeiro ponto, talvez você não precise inicializar sua situação; no que diz respeito ao segundo ponto, fazer o bootstrap na inclinação é perfeitamente adequado.
If you have correlation among the error terms, you may need to alter this procedure a bit, so write back if that is the case.
You can generalize this approach to the seemingly unrelated regressions (SUR) framework. This approach still allows the coefficients for the intercept and the slope to be arbitrarily different in the two data sets.
fonte
Fazer tudo em uma regressão é puro, e a suposição de independência é importante. Mas calcular as estimativas pontuais dessa maneira não requer variação constante. Experimente este código R;
Temos a mesma estimativa pontual de qualquer maneira. As estimativas de erro padrão podem exigir variação constante (dependendo de qual você usar), mas o bootstrap considerado aqui não usa erros padrão estimados.
fonte