Usando o bootstrap, calculo os valores de p dos testes de significância usando dois métodos:
- reamostragem sob a hipótese nula e contando os resultados pelo menos tão extremos quanto o resultado dos dados originais
- reamostragem sob a hipótese alternativa e contando os resultados pelo menos tão distantes do resultado original quanto o valor correspondente à hipótese nula
Eu acredito que o 1 st abordagem é inteiramente correcto, uma vez que segue a definição de um valor de p. Tenho menos certeza sobre o segundo, mas geralmente ele fornece resultados muito semelhantes e me lembra um teste de Wald.
Estou certo? Ambos os métodos estão corretos? Eles são idênticos (para amostras grandes)?
Exemplos para os dois métodos (edições após as perguntas de DWin e resposta de Erik):
Exemplo 1. Vamos construir um teste de autoinicialização semelhante ao teste T de duas amostras. O método 1 fará uma nova amostra de uma amostra (obtida reunindo as duas originais). O método 2 fará uma nova amostra das duas amostras de forma independente.Exemplo 2. Vamos construir um teste de correlação entre x₁… xₐ e y₁… yₐ. O método 1 não assume correlação e reamostragem, permitindo pares (xₑ, yₔ) onde e ≠ ə. O método 2 compilará uma amostra de autoinicialização dos pares originais (x, y).
Exemplo 3. Vamos construir um teste de autoinicialização para verificar se uma moeda é justa. O método 1 criará amostras aleatórias configurando Pr (cabeça) = Pr (cauda) = ½. O método 2 fará uma nova amostra da amostra dos valores experimentais de cabeça / cauda e comparará as proporções a ½.
Respostas:
A primeira abordagem é clássica e confiável, mas nem sempre pode ser usada. Para obter amostras de autoinicialização assumindo a hipótese nula, você deve estar disposto a assumir uma distribuição teórica a ser mantida ( esta é sua primeira opção ) ou assumir que sua estatística de interesse tenha a mesma forma distributiva quando alterada para a hipótese nula ( sua segunda opção ) Por exemplo, sob a suposição usual, a distribuição t tem a mesma forma quando deslocada para outra média. No entanto, ao alterar a frequência nula de 0,5 de uma distribuição binomial para 0,025, a forma também será alterada.
Na minha experiência, caso contrário, no caso de você estar disposto a fazer essas suposições, geralmente também tem outras opções. No seu exemplo 1), onde você parece assumir que ambas as amostras poderiam ter vindo da mesma população base, um teste de permutação seria melhor na minha opinião.
Este é um método muito flexível e aplicável a muitos testes. No entanto, é muito crítico construir bons intervalos de confiança de autoinicialização e não simplesmente usar aproximações de Wald ou o método de percentil. Algumas informações estão aqui: Intervalo de confiança baseado em bootstrap
fonte