Quando usar o teste de soma e classificação de Wilcoxon em vez do teste t não pareado?

26

Esta é uma pergunta posterior ao que Frank Harrell escreveu aqui :

Na minha experiência, o tamanho da amostra necessário para que a distribuição t seja precisa é geralmente maior que o tamanho da amostra em questão. O teste de postos assinados de Wilcoxon é extremamente eficiente, como você disse, e é robusto, então eu quase sempre prefiro o teste t

Se eu entendi direito - ao comparar a localização de duas amostras sem correspondência, preferimos usar o teste de soma e classificação de Wilcoxon sobre o teste t não pareado, se o tamanho da amostra for pequeno.

Existe uma situação teórica em que preferimos o teste de soma e classificação de Wilcoxon ao teste t não pareado, mesmo que o tamanho da amostra de nossos dois grupos seja relativamente grande?

Minha motivação para esta pergunta decorre da observação de que, para um único teste t de amostra, usá-lo para uma amostra não tão pequena de uma distribuição distorcida resultará em um erro incorreto do tipo I:

n1 <- 100
mean1 <- 50
R <- 100000
P_y1 <- numeric(R)
for(i in seq_len(R))
{
    y1 <- rexp(n1, 1/mean1)
    P_y1[i] <- t.test(y1 , mu = mean1)$p.value
}
sum(P_y1<.05) / R # for n1=n2=100 -> 0.0572  # "wrong" type I error
Tal Galili
fonte
11
Para mim, 0,0572 parece perto o suficiente para 0,05.
mark999
Hi Mark - quando realizado sob 100000 repetições da hipótese nula, não esperamos obter esse nível de diferença de 0,05. Geralmente esperamos uma diferença de mais menos algo como duas vezes de sqrt (0,05 * 0,95 / 100000) de 0,05
Tal Galili
11
Concordo que está incorreto. Eu só quis dizer que parece perto o suficiente para fins práticos.
mark999
11
Uma questão relacionada: como escolher entre o teste t ou teste não paramétrico, por exemplo, Wilcoxon em amostras pequenas , que considera testes pareados e não emparelhados, bem como alternativas a Wilcoxon, como Brunner-Munzel. Há também uma excelente resposta de Frank Harrell, que explica por que ele se sente justificado em sua abordagem com mais detalhes do que o extrato acima (por exemplo, a importância da invariância de fileiras sob transformação monotônica).
Silverfish 27/03
@ TalGalili: por que você não esperaria obter esse nível de diferença, considerando que está fazendo um teste t e a suposição de normalidade é violada (vejo que sua amostra é distribuída exponencialmente)? Estou perguntando de uma perspectiva iniciante, aqui. Estou apenas tentando entender o que estamos esperando, fazendo um teste t de uma amostra quando a suposição de normalidade for violada. Por que o erro médio do tipo I deve ser menor que 5% ou maior que 5% ou algo assim? A meu ver, o que estamos testando é e a distribuição é normal. H0:μ=50
Erosennin

Respostas:

23

Sim existe. Por exemplo, qualquer amostragem de distribuições com variação infinita destruirá o teste t, mas não o Wilcoxon. Referindo-se a métodos estatísticos não paramétricos (Hollander e Wolfe), vejo que a eficiência relativa assintótica (ARE) do Wilcoxon em relação ao teste t é 1,0 para a distribuição uniforme, 1,097 (ou seja, Wilcoxon é melhor) para a logística, 1,5 para o exponencial duplo (Laplace) e 3,0 para o exponencial.

Hodges e Lehmann mostraram que o ARE mínimo do Wilcoxon em relação a qualquer outro teste é 0,864, portanto, você nunca pode perder mais de 14% de eficiência usando-o em relação a qualquer outra coisa. (Obviamente, esse é um resultado assintótico.) Consequentemente, o uso de Wilcoxon como padrão por Frank Harrell provavelmente deve ser adotado por quase todos, inclusive eu.

Edit: Respondendo à pergunta de acompanhamento nos comentários, para aqueles que preferem intervalos de confiança, o estimador de Hodges-Lehmann é o estimador que "corresponde" ao teste de Wilcoxon, e os intervalos de confiança podem ser construídos em torno disso.

jbowman
fonte
11
Existe uma maneira fácil de obter um intervalo de confiança se o teste de Wilcoxon for usado? Parece encorajar as pessoas a colocarem muita ênfase no valor-p, mais do que fariam com um método paramétrico.
mark999
Sim, o estimador Hodges-Lehmann é o estimador relevante e editei o corpo da resposta para que futuros leitores não precisem passar pelos comentários.
jbowman
Obrigado jbowman. Não estou familiarizado com o estimador de Hodges-Lehmann, mas verei o que posso descobrir sobre isso.
mark999
3
biostat.mc.vanderbilt.edu/WilcoxonSoftware mostra como usar R para obter a estimativa de Hodges-Lehmann e seu intervalo de confiança.
precisa
11
(+1) de um tradicionalista antiquado. No entanto, um desafio para os testes de classificação é que a hipótese é vaga. Geralmente não é a mesma hipótese do teste t. O teste t testa sempre uma diferença média, Wilcoxon testa uma diferença média ponderada na classificação. Certamente, se a diferença da classificação média é estatisticamente significativa, sabemos que as distribuições devem diferir, mesmo que suas médias sejam as mesmas. Nenhum dos testes é desenvolvido para detectar diferenças de distribuição em todos os casos. Só digo isso porque sou a favor da interpretabilidade. (1/2)
AdamO 16/03/19
24

Deixe-me trazê-lo de volta à nossa discussão nos comentários a esta sua pergunta. O teste de soma-classificação de Wilcoxon é equivalente ao teste U de Mann-Whitney (e sua extensão direta para mais de duas amostras é denominada teste de Kruskal-Wallis). Você pode ver na Wikipedia e também neste texto que Mann-Whitney (ou Kruskal-Wallis) geralmente não compara meios ou medianas. Ele compara a prevalência geral de valores: qual das amostras é "estocisticamente maior". O teste é livre de distribuição. O teste T compara as médias. Assume distribuição normal. Então, os testes se envolvem em diferentes hipóteses. Na maioria dos casos, não planejamos comparar especificamente as médias; queremos saber qual amostra é maior por valores e isso torna Mann-Whitney o teste padrão para nós. Por outro lado, quando ambas as distribuições são simétricas, a tarefa de testar se uma amostra é "maior" que a outra degenera na tarefa de comparar as duas médias e, em seguida, se as distribuições são normais com variações iguais, o teste t torna-se um tanto mais poderoso.

ttnphns
fonte
+1 por vincular sua resposta ao significado das hipóteses sendo testadas.
Josh Hemann
Com "qual das amostras é" estocástica maior "", você quer dizer "qual das amostras geralmente obtém valores maiores em comparação com a outra"? Se não, o que você quer dizer? Você poderia elaborar isso um pouco mais, por favor?
Erdogan CEVHER
11
@ Edogan, sim, podemos dizer como você disse. A redação estrita é a seguinte: em um par de objetos escolhido aleatoriamente, um de cada amostra, o objeto da amostra "estocástica mais dominante" será maior (pelo valor) do que o objeto da outra amostra com probabilidade> 0,5.
Ttnphns