Digamos que você tenha um conjunto de treinamento de pares de exemplos .Tn(yi,x⃗ i)
Um bootstrap normal é um conjunto de pares de exemplos , em que é uma sequência de números aleatórios amostrados uniformemente de 1 a . Em particular, observe que todos os exemplos em são exatamente iguais aos de , e alguns são repetidos. Mas isso é um pouco estranho, especialmente quando a variável de resposta é contínua, porque, se fizermos uma nova amostragem da população original, quase certamente não teremos nem uma duplicata exata , enquanto é provável que um bootstrap tenha muitos.Bn(yri,x⃗ ri)rinnBT
Para evitar duplicatas, precisamos que os exemplos de não sejam cópias de carbono de exemplos de , mas sim exemplos sintéticos que se parecem mais com o que obteríamos, amostrados da população original. Isso requer uma suposição sobre a distribuição da população original.B TT
Se assumirmos a homoskedasticidade e ajustar um modelo linear a que possui resíduos , podemos construir novos exemplos sintéticos substituindo o residual ajustado de cada exemplo pelo residual de um exemplo de treinamento diferente . Se os resíduos são realmente iid, não deve haver problema em trocar um por outro. Fazemos essa substituição subtraindo o resíduo encontrado para o exemplo de treinamento e adicionando o resíduo para outro exemplo:Tei ( y i , → x i )(yi,x⃗ i)
y∗i=yri−eri+er′i(1)
Onde e são duas reamostragens diferentes e independentes. Podemos então formar o bootstrap da maneira usual:rir′i
B={(y∗i,x⃗ i)}ni=1(2)
Isso é chamado de bootstrap residual e pode-se pensar na escolha de novos resíduos da função de distribuição empírica dos resíduos.
Para relaxar ainda mais as suposições iid e homoskedasticity, podemos usar um bootstrap selvagem , onde calculamos a nova variável de resposta ainda mais aleatoriamente, multiplicando o resíduo escolhido aleatoriamente por outra variável aleatória .vi
y∗i=yri−eri+vier′i(3)
Frequentemente, a distribuição normal padrão é usada, mas outras opções são possíveis. Por exemplo, às vezes é simplesmente escolhido com igual probabilidade de , que simplesmente inverte o sinal aleatoriamente metade do tempo, forçando a distribuição residual a ser simétrica. O objetivo é obter exemplos de treinamento mais próximos do que teríamos extraído da população original sem a replicação artificial introduzida pelo bootstrap.vi∼N(0,1)vi{−1,1}