Dois métodos de testes de significância de bootstrap

Usando o bootstrap, calculo os valores de p dos testes de significância usando dois métodos:

reamostragem sob a hipótese nula e contando os resultados pelo menos tão extremos quanto o resultado dos dados originais
reamostragem sob a hipótese alternativa e contando os resultados pelo menos tão distantes do resultado original quanto o valor correspondente à hipótese nula

Eu acredito que o 1 ^st abordagem é inteiramente correcto, uma vez que segue a definição de um valor de p. Tenho menos certeza sobre o segundo, mas geralmente ele fornece resultados muito semelhantes e me lembra um teste de Wald.

Estou certo? Ambos os métodos estão corretos? Eles são idênticos (para amostras grandes)?

^{Exemplos para os dois métodos (edições após as perguntas de DWin e resposta de Erik):

Exemplo 1. Vamos construir um teste de autoinicialização semelhante ao teste T de duas amostras. O método 1 fará uma nova amostra de uma amostra (obtida reunindo as duas originais). O método 2 fará uma nova amostra das duas amostras de forma independente.

Exemplo 2. Vamos construir um teste de correlação entre x₁… xₐ e y₁… yₐ. O método 1 não assume correlação e reamostragem, permitindo pares (xₑ, yₔ) onde e ≠ ə. O método 2 compilará uma amostra de autoinicialização dos pares originais (x, y).

Exemplo 3. Vamos construir um teste de autoinicialização para verificar se uma moeda é justa. O método 1 criará amostras aleatórias configurando Pr (cabeça) = Pr (cauda) = ½. O método 2 fará uma nova amostra da amostra dos valores experimentais de cabeça / cauda e comparará as proporções a ½.}

statistical-significance bootstrap p-value Winerd
fonte

Qual "hipótese alternativa"? Na nomenclatura tradicional dos pescadores, não haveria apenas uma alternativa, mas uma família infinita de alternativas. E como você "prova sob uma hipótese" nesse assunto? A amostragem é feita nos dados. a hipótese é sobre um parâmetro.

Dwin

@ DWin: Obrigado, por favor, veja o meu exemplo adicionado à minha pergunta.

21813 winerd

Respostas:

A primeira abordagem é clássica e confiável, mas nem sempre pode ser usada. Para obter amostras de autoinicialização assumindo a hipótese nula, você deve estar disposto a assumir uma distribuição teórica a ser mantida ( esta é sua primeira opção ) ou assumir que sua estatística de interesse tenha a mesma forma distributiva quando alterada para a hipótese nula ( sua segunda opção ) Por exemplo, sob a suposição usual, a distribuição t tem a mesma forma quando deslocada para outra média. No entanto, ao alterar a frequência nula de 0,5 de uma distribuição binomial para 0,025, a forma também será alterada.

Na minha experiência, caso contrário, no caso de você estar disposto a fazer essas suposições, geralmente também tem outras opções. No seu exemplo 1), onde você parece assumir que ambas as amostras poderiam ter vindo da mesma população base, um teste de permutação seria melhor na minha opinião.

$\alpha$ $(1-\alpha)$

Este é um método muito flexível e aplicável a muitos testes. No entanto, é muito crítico construir bons intervalos de confiança de autoinicialização e não simplesmente usar aproximações de Wald ou o método de percentil. Algumas informações estão aqui: Intervalo de confiança baseado em bootstrap

Erik
fonte

Boa resposta. Então a segunda opção requer simetria também, certo? Suponha que a média do seu intervalo de confiança seja maior que 0 e você esteja considerando H não como sendo 0. Então, observar onde 0 está no seu intervalo de confiança é diferente de observar quão extremo é o valor médio, assumindo que H não ( estas estão em duas direções diferentes, se você assumir que está mudando o intervalo de confiança).

Michal

A @erik acabou de iniciar uma recompensa em uma pergunta semelhante - que é basicamente uma versão longa e ventosa do comentário acima - quando a opção 2 pode ser usada e sob quais condições? stats.stackexchange.com/questions/175659/…

Xavier Bourret Sicotte