Eu já vi na literatura publicada (e postada aqui) que a eficiência relativa assintótica do teste de posto assinado de Wilcoxon é de pelo menos 0,864 quando comparada ao teste t. Também ouvi dizer que isso se aplica apenas a grandes amostras, embora alguns livros não mencionem isso (o que é isso?).
Enfim, minha pergunta é: quão pequenas as coisas precisam ficar antes que o parágrafo acima não se aplique mais?
No meu caso, tenho 4 pares de dados. Se todas as suposições se mantiverem, sei que tenho pelo menos 90% de poder para detectar um tamanho de efeito 2SD no teste t emparelhado se usar um alfa de 0,1 e ter dados moderadamente correlacionados. No entanto, eu gostaria de usar o teste de classificação assinado Wilcoxon devido ao pequeno tamanho da amostra e à incapacidade de verificar suposições, mas estou preocupado que o teste tenha muito pouco poder se o fizer. Obrigado!
Respostas:
Klotz analisou o poder da amostra pequena do teste de classificação assinado em comparação com a amostra no caso normal.t
[Klotz, J. (1963) "Small Sample Power and Efficiency for the One Sample Wilcoxon and Normal Scores Tests" Os Anais da Estatística Matemática , vol. 34, n. 2, pp. 624-632]
Em e perto de ( s exatos não são possíveis, é claro, a menos que você siga a rota de randomização, que a maioria das pessoas evita em uso, e acho que com razão), a relativa eficiência para no normal tende a estar bem próximo do ARE (0,955), embora a proximidade dependa (varia com a mudança média e em menor , a eficiência será menor). Em amostras menores que 10, a eficiência é geralmente (um pouco) maior.n=10 α 0.1 α t α
Em e (ambos com próximo de 0,05), a eficiência foi de cerca de 0,97 ou superior.n=5 n=6 α
Portanto, de um modo geral ... o ARE no normal é uma subestimação da eficiência relativa no pequeno caso de amostra, desde que não seja pequeno. Acredito que para um teste bicaudal com o menor possível é 0,125. Nesse nível exato de significância e tamanho da amostra, acho que a eficiência relativa para será igualmente alta (talvez ainda em torno de 0,97-0,98 ou superior) na área em que o poder é interessante.α n=4 α t
Eu provavelmente deveria voltar e falar sobre como fazer uma simulação, o que é relativamente direto.
Editar:
Acabei de fazer uma simulação no nível 0,125 (porque é possível obter neste tamanho de amostra); parece - em uma variedade de diferenças de média, a eficiência típica é um pouco menor, para , mais ou menos 0,95-0,97 - semelhante ao valor assintótico.n=4
Atualizar
Aqui está um gráfico da potência (frente e verso) para o teste t (calculado por
power.t.test
) em amostras normais e a potência simulada para o teste de classificação assinado de Wilcoxon - 40000 simulações por ponto, com o teste t como uma variável de controle. A incerteza na posição dos pontos é menor que um pixel:Para tornar essa resposta mais completa, devo considerar o comportamento do caso para o qual o ARE realmente é 0,864 (o beta (2,2)).
fonte