Portanto, um teste U de Mann Whitney é supostamente cerca de 95% mais poderoso que um teste t quando as premissas de normalidade e variação homogênea do teste t são satisfeitas. Sei também que um teste U de Mann Whitney é mais poderoso que um teste t quando essas suposições não são satisfeitas. Minha pergunta é: um teste de Mann Whitney em dados em que as suposições não são satisfeitas ou quase poderoso como um teste t em dados em que as suposições são satisfeitas?
Estou perguntando, porque muitas vezes vejo pessoas fazendo cálculos de potência com base no pressuposto de que eles serão executados em teste. Depois de coletar os dados, eles exploram os dados e decidem usar um teste de Mann Whitney e não revisitam como a alteração do teste afetou a energia.
Obrigado!
Respostas:
1) Não é garantido que o teste de Mann-Whitney seja mais poderoso do que um teste-t quando as suposições do teste-t não são satisfeitas, embora seja para os tipos de violações que tendemos a ver no mundo real. Considere uma distribuição normal padrão truncada em +/- 100 e uma diferença entre as médias de dois grupos de 0,01; isso não é normal, mas os dois testes serão executados como se fossem, pois a diferença entre as duas distribuições é muito pequena.
2) O teste t é o teste uniformemente mais poderoso para a diferença entre médias de duas variáveis normais blá blá blá, por isso não será vencido pelo Mann-Whitney nesse tipo de dado, não importa o que aconteça. No entanto, o pior que o Mann-Whitney pode executar em relação ao teste t é de cerca de 0,864 em termos de eficiência relativa assintótica, ou seja, seria necessário 1 / 0,864x de dados para fornecer o mesmo poder (assintoticamente.) ( Hollander e Wolfe , Métodos Estatísticos Não Paramétricos.) Não há limites para o outro lado. Reproduzindo alguns números de Hollander e Wolfe, para diferentes distribuições, obtemos um ARE do MW no teste t de:
O ponto claro é que você não pode dar um tiro no pé usando o teste de Mann-Whitney em vez do teste t, mas o inverso não é verdadeiro.
fonte
Uma frase como 'tão poderoso' não funciona realmente como uma afirmação geral.
O poder não é especialmente comparável entre diferentes modelos de distribuição. O tamanho de um determinado efeito tem significados diferentes em diferentes partes da distribuição. Imagine que você tenha uma distribuição bastante alta, mas com uma cauda pesada; por que medida dizemos que um tamanho específico de desvio é semelhante a algo com um centro muito "mais plano" e cauda menor? Um pequeno desvio pode ser tão fácil de entender, mas um grande desvio pode ser (em relação à outra possibilidade distributiva pela qual estamos tentando comparar a potência) mais difícil.
Com dois conjuntos possíveis de distribuições normais, um par com um sd grande e outro com um sd pequeno, é fácil dizer 'bem, a energia será escalada apenas com o desvio padrão; se definirmos o tamanho do efeito em termos de número de desvios-padrão, podemos relacionar as duas curvas de potência.
Mas agora com distribuições de formas diferentes , não há escolha óbvia de escala. Devemos fazer algumas escolhas sobre como compará-las. Que escolhas que fizermos determinarão como elas "se comparam".
Por exemplo, como eu comparo a potência quando os dados são Cauchy com a potência quando os dados são, por exemplo, um beta em escala (2,2)? O que é um tamanho de efeito comparável? O Cauchy abaixo tem mais de sua distribuição entre -1 e 1 e menos de sua distribuição entre -3 e 3 do que o outro. Seus intervalos interquartis são diferentes, por exemplo. Qual é a nossa base de comparação?
Se você conseguir resolver esse dilema, considere agora se uma das distribuições está inclinada para a esquerda e a outra é bimodal, ou qualquer uma de inúmeras outras possibilidades.
Você ainda pode calcular o poder sob qualquer conjunto específico de suposições, mas a comparação de um teste entre diferentes suposições distributivas em vez de dois testes sob uma dada suposição distributiva é conceitualmente muito complicada.
fonte