Os testes de permutação são testes de significância baseados em reamostragens de permutação retiradas aleatoriamente dos dados originais. As reamostragens de permutação são desenhadas sem substituição, em contraste com as amostras de bootstrap, que são desenhadas com substituição. Aqui está um exemplo que fiz em R de um teste simples de permutação. (Seus comentários são bem-vindos)
Os testes de permutação têm grandes vantagens. Eles não requerem formas de população específicas, como normalidade. Eles se aplicam a uma variedade de estatísticas, não apenas a estatísticas que têm uma distribuição simples sob a hipótese nula. Eles podem fornecer valores de p muito precisos, independentemente da forma e tamanho da população (se forem utilizadas permutações suficientes).
Também li que muitas vezes é útil fornecer um intervalo de confiança junto com um teste, criado usando a reamostragem de autoinicialização em vez de reamostragem de permutação.
Você poderia explicar (ou apenas fornecer o código R) como um intervalo de confiança é construído (isto é, para a diferença entre as médias das duas amostras no exemplo acima)?
EDITAR
Depois de pesquisar no Google, achei essa leitura interessante .
fonte
sample
ereplace=TRUE
? Existe algum motivo para usar um pacote comoboot
?sum(b$t>=b$t0)/b$R
Como um teste de permutação é um teste exato , fornecendo um valor p exato. A inicialização de um teste de permutação não faz sentido.
Além disso, determinar um intervalo de confiança em torno de uma estatística de teste também não faz sentido, pois é calculado com base na sua amostra e não em uma estimativa. Você determina intervalos de confiança em torno de estimativas, como médias e gostos, mas não em torno de estatísticas de teste.
Os testes de permutação não devem ser usados em conjuntos de dados tão grandes que você não pode mais calcular todas as permutações possíveis. Se for esse o caso, use um procedimento de autoinicialização para determinar o limite para a estatística de teste usada. Mas, novamente, isso tem pouco a ver com um intervalo de confiança de 95%.
Um exemplo: eu uso aqui a estatística T clássica, mas uso uma abordagem simples ao bootstrap para o cálculo da distribuição empírica da minha estatística. Com base nisso, calculo um valor p empírico:
Leve em consideração que esse teste de dois lados funciona apenas para distribuições simétricas. Distribuições não simétricas são tipicamente testadas apenas de um lado.
EDIT:
OK, eu não entendi a pergunta. Se você deseja calcular um intervalo de confiança na estimativa da diferença, pode usar o código mencionado aqui para inicialização dentro de cada amostra. Lembre-se, essa é uma estimativa tendenciosa: geralmente, isso fornece um IC muito pequeno. Veja também o exemplo dado lá como uma razão pela qual você deve usar uma abordagem diferente para o intervalo de confiança e o valor p.
fonte
x[6:11]
refere-se ao argumentox
da função anônima na aplicação. Talvez confuso, mas sua edição deu resultados muito errados. Comente o que você acha que deveria ser antes de editar o código. Salva-me uma reversão. Para evitar mais confusão, eu mudei issox
parai
Do código de Joris Meys nas respostas, mas com modificação para permitir sua aplicação em mais de uma situação:
Tentei editar o outro, mas não tive tempo de terminar e, por algum motivo, não posso comentar (talvez porque essa seja uma pergunta antiga).
fonte