Teste U de Mann-Whitney: intervalo de confiança para o tamanho do efeito

13

De acordo com Fritz, Morris e Richler (2011; veja abaixo), pode ser calculado como um tamanho de efeito para o teste U de Mann-Whitney usando a fórmula Isso é conveniente para eu, como relato também em outras ocasiões. Gostaria de relatar o intervalo de confiança para , além da medida do tamanho do efeito.r

r=zN
rr

Aqui estão as minhas perguntas :

  • Posso calcular os intervalos de confiança para r e para r de Pearson, embora seja usado como uma medida de tamanho de efeito para um teste não paramétrico?
  • Quais intervalos de confiança devem ser relatados para testes de uma cauda versus de uma cauda?

Edite a respeito da segunda pergunta: "Quais intervalos de confiança devem ser relatados para os testes unicaudais vs. bicaudais?"

Encontrei mais algumas informações que o IMHO pode responder a esta pergunta. "Enquanto os limites de confiança frente e verso formam um intervalo de confiança, suas contrapartes unilaterais são chamadas de limites de confiança inferior ou superior". ( http://en.wikipedia.org/wiki/Confidence_interval ). A partir dessas informações, concluo que não é a questão principal se o teste de significância (por exemplo, teste t ) foi uni ou bicaudal, mas em quais informações estamos interessados ​​em relação ao IC para o tamanho do efeito. Minha conclusão (corrija-me se não concordar):

  • IC de dois lados lado direito interessado nos limites superior e inferior (como conseqüência, é possível que um IC de dois lados implique 0, embora o teste unilateral de significância tenha sido p <0,05, especialmente se o valor estiver próximo de .05.)
  • "IC" unilateral interessado apenas no limite superior ou inferior (devido ao raciocínio teórico); no entanto, essa não é necessariamente a principal questão de interesse após testar uma hipótese direcionada. Um IC frente e verso é perfeitamente apropriado se o foco estiver na faixa possível de um tamanho de efeito. Certo?

Veja abaixo a passagem de texto de Fritz, Morris e Richler (2011) sobre tamanhos de efeito estimados para o teste de Mann-Whitney do artigo a que me refiro acima.

"A maioria das estimativas de tamanho de efeito que descrevemos aqui supõe que os dados tenham uma distribuição normal. No entanto, alguns dados não atendem aos requisitos de testes paramétricos, por exemplo, dados em uma escala ordinal, mas não em intervalos. Para esses dados, os pesquisadores geralmente recorrem a testes estatísticos não paramétricos, como os testes de Mann-Whitney e Wilcoxon.O significado desses testes é geralmente avaliado através da aproximação das distribuições das estatísticas dos testes à distribuição quando o tamanho da amostra não é muito pequeno e pacotes, como o SPSS, que executam esses testes relatam o valor apropriado, além dos valores para ou ;zzvocêTztambém pode ser calculado à mão (por exemplo, Siegel e Castellan, 1988). O valor pode ser usado para calcular um tamanho de efeito, como o proposto por Cohen (1988); As diretrizes de Cohen para r são que um efeito grande é 0,5, um efeito médio é 0,3 e um efeito pequeno é 0,1 (Coolican, 2009, p. 395). É fácil calcular , ou partir desses valores de porque e zrrr2η2z

r=zN
r2orη2=z2N
Essas estimativas de tamanho de efeito permanecem independentes do tamanho da amostra, apesar da presença de N nas fórmulas. Isso ocorre porque z é sensível ao tamanho da amostra; dividir por uma função de N remove o efeito do tamanho da amostra da estimativa resultante do tamanho do efeito. "(p. 12)
cinzento
fonte
O artigo está disponível gratuitamente aqui .
asac 16/07/19

Respostas:

9

Uma escolha do tamanho do efeito para o teste U de Mann-Whitney é o tamanho do efeito de linguagem comum. Para o Mann-Whitney U, essa é a proporção de pares de amostras que suporta uma hipótese declarada.

Uma segunda opção é a correlação de classificação; porque a correlação de classificação varia de -1 a +1, possui propriedades semelhantes ao r de Pearson. Além disso, pela fórmula da diferença simples, a correlação de classificação é a diferença entre o tamanho do efeito de linguagem comum e seu complemento, fato que promove a interpretação. Por exemplo, se houver 100 pares de amostras e se 70 pares de amostras suportarem a hipótese, o tamanho do efeito de linguagem comum será de 70% e a correlação de classificação será r = 0,70 = 0,30 = 0,40. Uma discussão clara do tamanho do efeito de linguagem comum e de quatro fórmulas para calcular a correlação de classificação é dada por Kerby na revista Innovative Teaching: Kerby (2014) Innovative Teaching

A propósito, embora o artigo não o mencione, estou bastante certo de que Somers d e a correlação de classificação para Mann-Whitney são equivalentes.

DSK
fonte
1
Você quer dizer "Por exemplo, se houver 100 pares possíveis "? O teste U de Mann-Whitney é para dados não emparelhados, portanto o fraseado é ambíguo - você pode esclarecer aos leitores quais são os possíveis pares.
gung - Restabelece Monica
1
Obrigado pelo comentário e pela chance de esclarecer. Eu me referi a pares de amostras . Se houver 10 observações na amostra experimental, e se houver 10 observações na amostra de controle, haverá 10 * 10 = 100 pares de amostras . De acordo com Robert Grissom, o tamanho do efeito da amostra é um estimador imparcial do tamanho do efeito da população. Portanto, se a correlação de classificação for r = 0,40 para a amostra, este é um estimador imparcial do tamanho do efeito da população.
DSK
Eu suspeitava que era isso que você queria dizer, @DSK. Eu acho que essa explicação vai ajudar as pessoas. Você pode editar isso na sua resposta. Bem-vindo ao CV.
gung - Restabelece Monica
8

Seu link me leva a uma oportunidade de comprar o artigo.

cHmiscrcorr.censcDxyDxy=2×(c-12)

Frank Harrell
fonte
Obrigado por trazer isso para o meu aviso (link). Agora inseri a passagem no teste de Mann-Whitney na minha pergunta.
cinza
Muito obrigado pela sua resposta. Você possivelmente tem um link em mãos sobre como interpretar o índice c e o D de Somers? Eu estaria especialmente interessado em saber se o último pode ser interpretado comparável a r. Eu tenho duas amostras e na segunda amostra (N maior e distribuição normal), relato r. Eu acho que facilitaria a comparação dos resultados se as medidas utilizadas fossem semelhantes - na medida do possível, é claro. Por isso me interessei pela fórmula mencionada por Fritz et al. (2011). Portanto, o IC para o seu r não pode ser calculado como para o r de Pearson, presumo? Muito obrigado novamente!
cinza
Não pude ler esse artigo, mas acho que basear um índice em um zDxyYDc
Muito obrigado pela sua resposta. Procurei mais informações sobre como interpretar o Somer's, mas não tenho tido muito sucesso até agora. Somer pode ser entendido de forma semelhante ao coeficiente de correlação de Pearson, por exemplo, ao quadrado, ele produz um coeficiente de determinação? Ficaria muito feliz em encontrar uma medida de tamanho de efeito que possa ser interpretada da mesma forma que r, se houver.
cinza
Encontrei mais informações sobre a fórmula r = Z / √ (N): Rosenthal (1991) escreve que "podemos estimar um tamanho de efeito r apenas a partir do nível de p, desde que conheçamos o tamanho do estudo (N). Convertemos o p obtido em seu equivalente de desvio normal padrão usando uma tabela de valores Z. "
cinza