Teste de hipótese de bootstrap vs. permutação

37

Existem várias técnicas populares de reamostragem, frequentemente usadas na prática, como inicialização, teste de permutação, canivete, etc. Existem inúmeros artigos e livros que discutem essas técnicas, por exemplo, Philip I Good (2010) Permutation, Parametric, and Bootstrap Tests de hipóteses

Minha pergunta é qual técnica de reamostragem ganhou mais popularidade e mais fácil de implementar? Testes de inicialização ou permutação?

Tu.2
fonte
8
A popularidade dificilmente é uma boa medida de qualidade. A julgar pelo número de citações (clientes), o McDonalds é um restaurante muito mais popular (melhor?) Do que qualquer estabelecimento Michelin de três estrelas. Você levará seu próximo palestrante para o McDonalds, então?
StasK 03/03

Respostas:

68

Ambos são populares e úteis, mas principalmente para diferentes usos. O teste de permutação é o melhor para testar hipóteses e o bootstrap é o melhor para estimar intervalos de confiança.

Os testes de permutação testam uma hipótese nula específica de permutabilidade, ou seja, que apenas a amostragem / randomização aleatória explica a diferença observada. Este é o caso comum de coisas como testes t e ANOVA. Também pode ser expandido para coisas como séries temporais (hipótese nula de que não há correlação serial) ou regressão (hipótese nula de nenhum relacionamento). Os testes de permutação podem ser usados ​​para criar intervalos de confiança, mas exigem muito mais suposições, que podem ou não ser razoáveis ​​(portanto, outros métodos são preferidos). O teste de Mann-Whitney / Wilcoxon é realmente um caso especial de teste de permutação, portanto eles são muito mais populares do que alguns imaginam.

O bootstrap estima a variabilidade do processo de amostragem e funciona bem para estimar intervalos de confiança. Você pode fazer um teste de hipótese dessa maneira, mas ele tende a ser menos poderoso que o teste de permutação nos casos em que as suposições do teste de permutação são válidas.

Greg Snow
fonte
2
Obrigado pela resposta. Por que o intervalo de confiança do bootstrap é menos poderoso que o teste de permutação? Quanto? Pode-se caracterizar as situações em que é significativamente menos poderoso? Parece uma vantagem poder mostrar um intervalo de confiança; portanto, nesse sentido, o bootstrap parece mais valioso.
dfrankow
2
@dfrankow, os 2 métodos usam suposições diferentes. Para amostras grandes e diferenças, ambas serão boas, mas com amostras / diferenças menores, o teste de permutação provavelmente encontrará diferenças e será apropriado. Veja esta resposta: stats.stackexchange.com/questions/112147/… para exemplos em que o bootstrap nem sequer é dimensionado corretamente (rejeita com muita frequência quando o nulo é verdadeiro).
Greg Snow
Um teste de permutação não é uma variação no bootstrap?
Vicki B
Os testes do @VickiB, Bootstrapping e Permutação são frequentemente mencionados juntos, mas iniciar amostras com amostras de substituição e permutação sem substituição, o que faz a diferença no que eles podem fazer e em quão poderosos são.
Greg Snow,
12

Se você estiver usando R, todos eles serão fáceis de implementar. Consulte, por exemplo, http://www.burns-stat.com/pages/Tutor/bootstrap_resampling.html

Eu diria que existe uma terceira técnica principal: validação cruzada. Isso é usado para testar o poder preditivo dos modelos.

Patrick Burns
fonte
8

Minha pergunta é qual técnica de reamostragem ganhou mais popularidade
Bootstrapping ou testes de permutação?

  1. O bootstrapping tem como principal objetivo gerar erros padrão de amostra grandes ou intervalos de confiança; testes de permutação, como o nome sugere, são principalmente sobre testes. (Cada um pode ser adaptado para ser usado para a outra tarefa.)

  2. Como julgaríamos a popularidade? Se olharmos para áreas como psicologia e educação, podemos encontrar bastante uso de testes baseados em classificação como Wilcoxon-Mann-Whitney, o teste de classificação assinado, testes de correlação de classificação e assim por diante. Todos esses são testes de permutação (por outro lado, existem muitos casos em que testes de permutação dos dados originais podem ser usados, mas geralmente não são). Em algumas outras áreas de aplicação, os testes de permutação raramente seriam usados, mas a popularidade variável entre as áreas de aplicação às vezes diz mais sobre a cultura local de qualquer área do que sobre a utilidade.

mais fácil de implementar?

Em muitos casos - especialmente os mais simples - são quase exatamente igualmente fáceis - é essencialmente a diferença entre amostragem com substituição e amostragem sem substituição.

Em alguns dos casos mais complexos, o bootstrap é mais fácil, porque (olhando do ponto de vista de teste) opera sob a alternativa e não com o nulo (pelo menos as implementações ingênuas serão - fazendo-o para que funcione bem pode ser muito mais complicado).

Os testes de permutação exata podem ser difíceis nos casos mais complexos, porque uma quantidade permutável adequada pode ser inobservável - geralmente uma quantidade quase permutável pode ser substituída pelo preço da exatidão (e de ser verdadeiramente livre de distribuição).

O bootstrapping basicamente desiste do critério de exatidão correspondente (cobertura exata dos intervalos) desde o início e, em vez disso, concentra-se em tentar obter uma cobertura razoavelmente boa em amostras grandes (às vezes com menos sucesso do que se pode entender; se você não tiver verificado, não assuma que o seu bootstrap oferece a cobertura que você espera).

Os testes de permutação podem funcionar em amostras pequenas (embora a escolha limitada de níveis de significância às vezes possa ser um problema com amostras muito pequenas), enquanto o bootstrap é uma técnica de amostra grande (se você usá-la com amostras pequenas, em muitos casos os resultados podem não ser seja muito útil).

Eu raramente os vejo como concorrentes no mesmo problema e os tenho usado em problemas reais (diferentes) - geralmente haverá uma escolha natural de qual olhar.

Há benefícios para ambos, mas nem em uma panacaia. Se você deseja reduzir o esforço de aprendizado, concentrando-se em apenas um deles, provavelmente ficará desapontado - ambos são partes essenciais da caixa de ferramentas de reamostragem.

Glen_b -Reinstate Monica
fonte
1
Você poderia esclarecer o que significa " uma quantidade permutável adequada pode ser inobservável "? (+1 obviamente)
usεr11852 diz Reinstate Monic
1
Considere tentar realizar um teste de permutação em um experimento com dois fatores e uma covariável (ou apenas considere uma regressão com vários preditores). Com independência e sob um nulo de nenhum efeito, as observações são intercambiáveis ​​e, portanto, é possível testar essa hipótese, mas você não tem como construir um teste de permutação apenas dos fatores (já que espera que a covariável tenha um efeito e testá-lo como nulo não é interessante); Da mesma forma, você não pode construir um teste de permutação de apenas um dos dois fatores. ...
ctd
1
ctd ... Há uma quantidade permutável óbvia se você souber os coeficientes populacionais que você não está testando (e os erros sempre seriam trocáveis), mas você não pode observar essas coisas. Se você substituir estimativas dos coeficientes ou dos erros (ou seja, os resíduos), as quantidades serão mais intercambiáveis. No entanto, sob algumas condições particulares, eles seriam aproximadamente trocáveis ​​(algumas pessoas defendem fazer exatamente isso) .... e se você fizer isso, acabará com algo semelhante a um bootstrap, mas com amostragem sem substituição em vez de amostragem com substituição.
Glen_b -Reinstate Monica 23/03
Obrigado; Vou pensar sobre isso com cuidado. Eu suspeito que há algo mais profundo para eu aprender aqui. :)
usεr11852 diz Reinstate Monic
1
@NULL, por algum motivo, perdi seu pedido de referência. Para um ponto de partida, algumas das referências aqui devem fazer: davegiles.blogspot.com/2019/04/…
Glen_b -Reinstate Monica