Valores críticos de Wilcoxon-Mann-Whitney em R

10

Percebi que quando tento encontrar os valores críticos para o Mann-Whitney U usando R, os valores são sempre 1 + valor crítico. Por exemplo, para , o valor crítico (bicaudal) é 8, enquanto para , a (bicaudal) ) o valor crítico é 22 (verifique as tabelas ), mas:α = 0,05 , n = 12 , m = 8α=.05,n=10,m=5α=.05,n=12,m=8

> qwilcox(.05/2,10,5)
[1] 9
> qwilcox(.05/2,12,8)
[1] 23

Claro que não estou pensando em algo, mas ... alguém poderia me explicar por quê?

this.is.not.a.nick
fonte

Respostas:

17

Eu acho que a resposta aqui pode ser que você esteja comparando maçãs e laranjas.

Seja denotado o cdf da estatística Mann-Whitney . é a função quantil de . Por definição, é, portanto, U Q ( α ) U Q ( α ) = inf { x N : F ( x ) α } ,F(x)UqwilcoxQ(α)U

Q(α)=inf{xN:F(x)α},α(0,1).

Como é discreto, geralmente não há tal que , então geralmente .x F ( x ) = α F ( Q ( α ) ) > αUxF(x)=αF(Q(α))>α

Agora, considere o valor crítico para o teste. Neste caso, você quer , uma vez que de outra forma terá um teste com uma taxa de erro tipo I , que é maior do que a nominal. Isso geralmente é considerado indesejável; testes conservadores tendem a ser preferidos. Portanto, A menos que exista um tal que , temos, portanto, .F ( C ( α ) ) α C ( α ) = sup { x N : F ( x ) α } ,C(α)F(C(α))αx F ( x ) = α C ( α ) = Q ( α ) - 1

C(α)=sup{xN:F(x)α},α(0,1).
xF(x)=αC(α)=Q(α)1

A razão da discrepância é que qwilcoxela foi projetada para calcular quantis e não valores críticos!

MånsT
fonte
11
(+1) Descrição boa, simples e concisa. :)
cardeal
2

Lembre-se de que a estatística do teste da soma da classificação é discreta e, portanto, é necessário usar um valor crítico para que a probabilidade da cauda seja para o especificado . Para algumas amostras, o tamanho de alfa não pode ser alcançado e esse é o meu palpite sobre o motivo pelo qual você precisa do +1.αα

Michael R. Chernick
fonte
4
Então, por que o +1 é necessário no R e não nas tabelas usuais?
MånsT
11
@ this.is.not.a.nick: talvez mais importante, enquanto , o que significa que, no primeiro caso, o nível de significância real será e que, neste último será . Geralmente, as pessoas tendem a preferir errar no lado direito, ou seja, a ter um nível de significância menor que o nominal (o que significa que os valores das tabelas são preferíveis). 0,02868937 > 0,025 < 0,05 > 0,050.0236723<0.0250.02868937>0.025<0.05>0.05
MånsT
11
Direito ao Procrastinator e MansT. Na verdade, a definição do nível de significância requer que as probabilidades da cauda não sejam superiores a alfa. Eu falo sobre isso no meu artigo com Christine Liu sobre o comportamento serrilhado da função de potência para testes binomiais exatos através do método Clopper-Pearson (veja American Statistician (2002)).
22912 Michael Michael Chernick
2
@ Michael: Está na mesma página que esta. As tabelas seguem a definição padrão, o que significa que os valores críticos não são quantis.
MånsT
3
@ Michael: Concordo. Em certo sentido, qwilcoxfaz o que deveria fazer, mas não o que você esperaria que fizesse.
MånsT