Como escolher entre o teste t ou teste não paramétrico, por exemplo, Wilcoxon em amostras pequenas

96

Certas hipóteses podem ser testadas usando o teste t de Student (talvez usando a correção de Welch para variações desiguais no caso de duas amostras) ou por um teste não-paramétrico, como o teste de ranking assinado emparelhado de Wilcoxon, o teste U de Wilcoxon-Mann-Whitney, ou o teste de sinal emparelhado. Como podemos tomar uma decisão baseada em princípios sobre qual teste é mais apropriado, principalmente se o tamanho da amostra for "pequeno"?

Muitos livros introdutórios e notas de aula fornecem uma abordagem de "fluxograma" em que a normalidade é verificada ( inadvertidamente - pelo teste de normalidade ou mais amplamente pelo gráfico QQ ou similar) para decidir entre um teste t ou teste não paramétrico. Para o teste t de duas amostras não pareado , pode haver uma verificação adicional da homogeneidade da variância para decidir se deve aplicar a correção de Welch. Um problema dessa abordagem é a maneira como a decisão sobre qual teste aplicar depende dos dados observados e como isso afeta o desempenho (potência, taxa de erro tipo I) do teste selecionado.

Outro problema é o quão difícil é a verificação da normalidade em pequenos conjuntos de dados: o teste formal tem pouca energia, portanto as violações podem não ser detectadas, mas problemas semelhantes se aplicam aos dados em um gráfico de QQ. Mesmo violações flagrantes poderiam passar despercebidas, por exemplo, se a distribuição é mista, mas nenhuma observação foi retirada de um componente da mistura. Ao contrário do grande , não podemos nos apoiar na rede de segurança do Teorema do Limite Central e na normalidade assintótica da estatística do teste e da distribuição t .n

Uma resposta de princípio a isso é a "segurança em primeiro lugar": sem nenhuma maneira de verificar com segurança a suposição de normalidade em uma pequena amostra, siga métodos não paramétricos. Outra é considerar qualquer base para assumir a normalidade, teoricamente (por exemplo, variável é a soma de vários componentes aleatórios e a CLT se aplica) ou empiricamente (por exemplo, estudos anteriores com maior sugerem que a variável é normal) e usar um teste t apenas se tais bases existirem. . Mas isso geralmente justifica apenas a normalidade aproximada e, em baixos graus de liberdade, é difícil julgar quão próximo da normalidade é necessário para evitar a invalidação de um teste t .n

A maioria dos guias para escolher um teste t ou teste não paramétrico se concentra na questão da normalidade. Mas pequenas amostras também trazem algumas questões secundárias:

  • Se estiver executando um "teste não relacionado" ou um teste t "não emparelhado", se deseja usar uma correção de Welch ? Algumas pessoas usam um teste de hipótese para igualdade de variâncias, mas aqui ele teria baixo poder; outros verificam se os SDs são "razoavelmente" próximos ou não (por vários critérios). É mais seguro simplesmente usar sempre a correção de Welch para amostras pequenas, a menos que haja alguma boa razão para acreditar que as variações populacionais sejam iguais?

  • Se você vê a escolha de métodos como uma troca entre potência e robustez, afirmações sobre a eficiência assintótica dos métodos não paramétricos são inúteis . Às vezes, ouve -se a regra geral de que "os testes de Wilcoxon têm cerca de 95% da potência de um teste t, se os dados realmente são normais , e geralmente são muito mais poderosos se os dados não forem; portanto, use apenas um Wilcoxon". se os 95% se aplicam apenas ao grande , esse raciocínio é defeituoso para amostras menores.n

  • Amostras pequenas podem tornar muito difícil ou impossível avaliar se uma transformação é apropriada para os dados, pois é difícil dizer se os dados transformados pertencem a uma distribuição normal (suficientemente). Portanto, se um gráfico de QQ revelar dados muito inclinados de maneira positiva, que parecem mais razoáveis ​​após a realização dos registros, é seguro usar um teste t nos dados registrados? Em amostras maiores, isso seria muito tentador, mas com pequeno eu provavelmente esperaria, a menos que houvesse motivos para esperar uma distribuição log-normal em primeiro lugar.n

  • E quanto a verificar suposições para os não paramétricos? Algumas fontes recomendam verificar uma distribuição simétrica antes de aplicar um teste de Wilcoxon (tratando-o como um teste de localização em vez de dominância estocástica), o que traz problemas semelhantes à verificação da normalidade. Se a razão pela qual estamos aplicando um teste não paramétrico em primeiro lugar é uma obediência cega ao mantra da "segurança em primeiro lugar", a dificuldade de avaliar a assimetria de uma pequena amostra aparentemente nos levaria à menor potência de um teste de sinal emparelhado .

Com estas questões de pequena amostra em mente, há uma boa - espero citável - procedimento para trabalhar com ao decidir entre t e testes não paramétricos?

Houve várias respostas excelentes, mas uma resposta considerando outras alternativas para classificar testes, como testes de permutação, também seria bem-vinda.

Silverfish
fonte
2
Devo explicar o que pode ser um "método para escolher um teste" - os textos introdutórios costumam usar fluxogramas. Para dados não emparelhados, talvez: "1. Use algum método para verificar se as duas amostras são normalmente distribuídas (se não for para 3), 2. Use algum método para verificar variações desiguais: nesse caso, execute o teste t de duas amostras com A correção de Welch, se não, é executada sem correção. 3. Tente transformar os dados em normalidade (se os trabalhos forem para 2 ou 4). 4. Execute o teste U (possivelmente após verificar várias suposições). " Mas muitos desses passos parecem insatisfatórios para n pequeno, como espero que meu Q explique!
Silverfish 29/10
2
Pergunta interessante (+1) e uma jogada corajosa para criar uma recompensa. Ansioso por algumas respostas interessantes. A propósito, o que frequentemente vejo aplicado em meu campo é um teste de permutação (em vez do teste t ou Mann-Whitney-Wilcoxon). Acho que também poderia ser considerado um candidato digno. Além disso, você nunca especificou o que quer dizer com "tamanho pequeno da amostra".
Ameba
1
@Alexis Muitos livros afirmam que o teste de Wilcoxon assume simetria sobre a mediana, pelo menos se os resultados forem vistos como uma declaração sobre a localização (alguns recomendam um gráfico de caixa para verificar: veja minha discussão com Glen acima / resposta de Frank Harrell abaixo para saber os perigos de várias etapas procedimento). Além disso, algumas fontes afirmam que o Wilcoxon-Mann-Whitney U assume que as distribuições de grupo diferem apenas pela tradução (e sugerem verificação visual nos histogramas ou CDFs empíricos). A sig. O teste U pode ser devido a diferentes distribuições de formas, mesmo se as medianas forem iguais. Veja também artigos citados em comentários sob a resposta de Frank Harrell.
quer
3
@Silverfish "se os resultados forem vistos como uma declaração sobre a localização" Essa é uma advertência importante, pois esses testes geralmente são declarações sobre evidências de H . Fazer suposições distributivas adicionais restringe o escopo de inferência (por exemplo, testes para diferença de mediana), mas geralmente não são requisitos para os testes. 0:P(XA>XB)=0.5
Alexis6:
2
Talvez valha a pena explorar o quão "defeituoso" é o raciocínio "95% de potência para o Wilcoxon" para amostras pequenas (em parte, depende do que exatamente se faz e do tamanho que é pequeno). Se, por exemplo, você estiver feliz em realizar testes com, digamos, 5,5% em vez de 5%, se esse for o nível de significância alcançável mais próximo possível, o poder geralmente tenderá a se manter razoavelmente bem. É claro que uma vez - no estágio de "cálculo de potência" antes de coletar dados - descubra quais podem ser as circunstâncias e tenha uma ideia de quais são as propriedades do Wilcoxon nos tamanhos de amostra que você está considerando.
Glen_b

Respostas:

67

Vou mudar a ordem das perguntas sobre.

Descobri que os livros didáticos e as notas das aulas discordam frequentemente e gostaria que um sistema trabalhasse com a escolha que pode ser recomendada com segurança como melhor prática, e especialmente um livro ou papel ao qual isso possa ser citado.

Infelizmente, algumas discussões sobre esse assunto nos livros e assim por diante contam com a sabedoria recebida. Às vezes, a sabedoria recebida é razoável, outras, menos (pelo menos no sentido em que tende a se concentrar em um problema menor quando um problema maior é ignorado); devemos examinar as justificativas oferecidas para o aconselhamento (se houver alguma justificativa), com cuidado.

A maioria dos guias para escolher um teste t ou teste não paramétrico se concentra na questão da normalidade.

Isso é verdade, mas é um pouco equivocado por várias razões que abordo nesta resposta.

Se estiver executando um "teste não relacionado" ou um teste t "não emparelhado", se deseja usar uma correção de Welch?

Este (para usá-lo, a menos que você tenha motivos para pensar que as variações devem ser iguais) é o conselho de várias referências. Eu aponto para alguns nesta resposta.

Algumas pessoas usam um teste de hipótese para igualdade de variâncias, mas aqui ele teria baixo poder. Geralmente, apenas observo se os SDs da amostra estão "razoavelmente" próximos ou não (o que é um tanto subjetivo, portanto deve haver uma maneira mais prática de fazê-lo), mas novamente, com n baixo, pode muito bem ser que os SDs da população estejam um pouco mais longe. além dos de amostra.

É mais seguro simplesmente usar sempre a correção de Welch para amostras pequenas, a menos que haja alguma boa razão para acreditar que as variações populacionais sejam iguais? Esse é o conselho. As propriedades dos testes são afetadas pela escolha com base no teste de suposição.

Algumas referências sobre isso podem ser vistas aqui e aqui , embora haja mais que dizem coisas semelhantes.

O problema de variâncias iguais tem muitas características semelhantes ao problema de normalidade - as pessoas querem testá-lo, os conselhos sugerem que a escolha condicionada de testes nos resultados dos testes pode afetar adversamente os resultados dos dois tipos de testes subsequentes - é melhor simplesmente não assumir o que você não pode justificar adequadamente (raciocinando sobre os dados, usando informações de outros estudos relacionados às mesmas variáveis ​​e assim por diante).

No entanto, existem diferenças. Uma é que - pelo menos em termos de distribuição da estatística de teste sob a hipótese nula (e, portanto, sua robustez de nível) - a não normalidade é menos importante em amostras grandes (pelo menos em relação ao nível de significância, embora o poder possa ainda é um problema se você precisar encontrar pequenos efeitos), enquanto o efeito de variações desiguais sob o pressuposto de variação igual realmente não desaparece com o tamanho da amostra grande.

Que método de princípios pode ser recomendado para escolher qual é o teste mais apropriado quando o tamanho da amostra é "pequeno"?

Nos testes de hipóteses, o que importa (sob algum conjunto de condições) é basicamente duas coisas:

  • Qual é a taxa de erro real do tipo I?

  • Como é o comportamento do poder?

Também precisamos ter em mente que, se estivermos comparando dois procedimentos, alterar o primeiro mudará o segundo (ou seja, se eles não forem conduzidos no mesmo nível de significância real, você esperaria que mais alto estivesse associado a poder superior).α

Com esses problemas de amostra pequena em mente, existe uma boa lista de verificação - espero que seja citável - a ser trabalhada ao decidir entre os testes não paramétricos?

Vou considerar várias situações nas quais farei algumas recomendações, considerando a possibilidade de não normalidade e variações desiguais. Em todos os casos, mencione o teste t para implicar o teste de Welch:

  • n médio-grande

Não normal (ou desconhecido), com probabilidade de ter variação quase igual:

Se a distribuição for de cauda pesada, você geralmente será melhor com um Mann-Whitney, embora, se for um pouco pesado, o teste t deve funcionar bem. Com caudas leves, o teste t pode (muitas vezes) ser preferido. Os testes de permutação são uma boa opção (você pode até fazer um teste de permutação usando uma estatística t, se quiser). Os testes de inicialização também são adequados.

Variação não normal (ou desconhecida), desigual (ou relação de variação desconhecida):

Se a distribuição for pesada, você geralmente será melhor com um Mann-Whitney - se a desigualdade de variância estiver relacionada apenas à desigualdade da média - ou seja, se H0 for verdadeiro, a diferença no spread também deve estar ausente. GLMs geralmente são uma boa opção, especialmente se houver distorção e propagação relacionada à média. Um teste de permutação é outra opção, com uma ressalva semelhante à dos testes baseados em classificação. Os testes de inicialização são uma boa possibilidade aqui.

Zimmerman e Zumbo (1993) sugerem um teste t de Welch nas fileiras, que eles afirmam ter um desempenho melhor que o de Wilcoxon-Mann-Whitney nos casos em que as variações são desiguais.[1]

  • n moderadamente pequeno

Os testes de classificação são padrões razoáveis ​​aqui se você espera não normalidade (novamente com a ressalva acima). Se você tiver informações externas sobre forma ou variação, considere GLMs. Se você espera que as coisas não estejam muito longe do normal, os testes t podem ser bons.

  • n muito pequeno

Devido ao problema de obter níveis de significância adequados, nem os testes de permutação nem os de classificação podem ser adequados e, nos tamanhos mais pequenos, um teste t pode ser a melhor opção (há alguma possibilidade de o tornar um pouco mais robusto). No entanto, há um bom argumento para usar taxas de erro mais altas do tipo I com amostras pequenas (caso contrário, você está deixando as taxas de erro do tipo II aumentarem enquanto mantém constantes as taxas de erro do tipo I). Veja também de Winter (2013) .[2]

O conselho deve ser modificado um pouco quando as distribuições são fortemente distorcidas e muito discretas, como itens da escala Likert, onde a maioria das observações está em uma das categorias finais. Então o Wilcoxon-Mann-Whitney não é necessariamente uma escolha melhor do que o teste t.

A simulação pode ajudar a orientar ainda mais as escolhas quando você tiver alguma informação sobre circunstâncias prováveis.

Compreendo que este seja um tópico perene, mas a maioria das perguntas diz respeito ao conjunto de dados específico do questionador, às vezes uma discussão mais geral sobre o poder e, ocasionalmente, o que fazer se dois testes discordarem, mas eu gostaria de um procedimento para escolher o teste correto. o primeiro lugar!

O principal problema é o quão difícil é verificar a suposição de normalidade em um pequeno conjunto de dados:

Ele é difícil de verificar a normalidade em um pequeno conjunto de dados, e até certo ponto isso é uma questão importante, mas eu acho que há uma outra questão de importância que precisamos considerar. Um problema básico é que tentar avaliar a normalidade como base para escolher entre os testes afeta negativamente as propriedades dos testes que você escolhe.

Qualquer teste formal de normalidade teria pouca energia, portanto, as violações podem não ser detectadas. (Pessoalmente, eu não testaria para esse fim, e claramente não estou sozinho, mas achei esse pouco útil quando os clientes exigem que um teste de normalidade seja realizado, porque é isso que o livro ou as anotações de aulas antigas ou o site que encontraram uma vez Este é um ponto em que uma citação mais ponderada seria bem-vinda.)

Aqui está um exemplo de referência (existem outras) inequívocas (Fay e Proschan, 2010 ):[3]

A escolha entre DRs t e WMW não deve ser baseada em um teste de normalidade.

Eles são igualmente inequívocos quanto a não testar a igualdade de variância.

Para piorar a situação, não é seguro usar o Teorema do Limite Central como uma rede de segurança: para pequenos n, não podemos confiar na conveniente normalidade assintótica da estatística do teste e na distribuição t.

Nem mesmo em amostras grandes - a normalidade assintótica do numerador não implica que a estatística t tenha uma distribuição t. No entanto, isso pode não importar muito, já que você ainda deve ter normalidade assintótica (por exemplo, CLT para o numerador e o teorema de Slutsky sugerem que, eventualmente, a estatística t deve começar a parecer normal, se as condições de ambos se mantiverem).

Uma resposta de princípio a isso é a "segurança em primeiro lugar": como não há como verificar com segurança a suposição de normalidade em uma amostra pequena, execute um teste não paramétrico equivalente.

Esse é realmente o conselho que as referências que mencionei (ou vinculo a menções) dão.

Outra abordagem que eu já vi, mas me sinto menos à vontade, é realizar uma verificação visual e prosseguir com um teste t se nada de ruim for observado ("nenhuma razão para rejeitar a normalidade", ignorando a baixa potência dessa verificação). Minha inclinação pessoal é considerar se existem motivos para assumir a normalidade, teóricos (por exemplo, variável é a soma de vários componentes aleatórios e a CLT se aplica) ou empíricos (por exemplo, estudos anteriores com n maior sugerem que a variável é normal).

Ambos são bons argumentos, especialmente quando apoiados no fato de que o teste t é razoavelmente robusto contra desvios moderados da normalidade. (Deve-se ter em mente, no entanto, que "desvios moderados" é uma frase complicada; certos tipos de desvios da normalidade podem afetar bastante a performance de potência do teste t, mesmo que esses desvios sejam visualmente muito pequenos - o t- O teste é menos robusto a alguns desvios do que outros. Devemos ter isso em mente sempre que discutirmos pequenos desvios da normalidade.)

Cuidado, no entanto, o fraseado "sugere que a variável é normal". Ser razoavelmente consistente com a normalidade não é a mesma coisa que normalidade. Em geral, podemos rejeitar a normalidade real sem a necessidade de ver os dados - por exemplo, se os dados não puderem ser negativos, a distribuição não poderá ser normal. Felizmente, o que importa está mais próximo do que poderíamos ter de estudos anteriores ou raciocínio sobre como os dados são compostos, ou seja, os desvios da normalidade devem ser pequenos.

Nesse caso, eu usaria um teste t se os dados passassem pela inspeção visual e, de outra forma, continuaria com os não paramétricos. Porém, quaisquer fundamentos teóricos ou empíricos geralmente justificam apenas a suposição de normalidade aproximada e, em baixos graus de liberdade, é difícil julgar quão próximo do normal é necessário para evitar a invalidação de um teste t.

Bem, é algo que podemos avaliar o impacto de maneira bastante rápida (como por meio de simulações, como mencionei anteriormente). Pelo que vi, a distorção parece importar mais do que caudas pesadas (mas, por outro lado, vi algumas afirmações opostas - embora eu não saiba no que isso se baseia).

Para as pessoas que vêem a escolha de métodos como uma troca entre potência e robustez, as alegações sobre a eficiência assintótica dos métodos não paramétricos são inúteis. Por exemplo, a regra geral de que "os testes de Wilcoxon têm cerca de 95% da potência de um teste t, se os dados realmente são normais, e muitas vezes são muito mais poderosos se os dados não forem, portanto, use um Wilcoxon" às vezes ouvido, mas se os 95% se aplicam apenas a n grandes, esse raciocínio é defeituoso para amostras menores.

Mas podemos verificar o poder de pequenas amostras com bastante facilidade! É fácil simular para obter curvas de potência, como aqui .
(Novamente, veja também Winter (2013) ).[2]

Tendo feito essas simulações sob várias circunstâncias, tanto para os casos de duas amostras quanto de uma amostra / diferença pareada, a pequena eficiência da amostra no normal em ambos os casos parece ser um pouco menor que a eficiência assintótica, mas a eficiência do posto assinado e os testes de Wilcoxon-Mann-Whitney ainda são muito altos, mesmo em amostras muito pequenas.

Pelo menos, se os testes forem feitos no mesmo nível de significância real; você não pode fazer um teste de 5% com amostras muito pequenas (e pelo menos não sem testes aleatórios, por exemplo), mas se você estiver preparado para talvez fazer (digamos) um teste de 5,5% ou 3,2%, os testes de classificação de fato, é muito bom comparado com um teste t nesse nível de significância.

Amostras pequenas podem tornar muito difícil ou impossível avaliar se uma transformação é apropriada para os dados, pois é difícil dizer se os dados transformados pertencem a uma distribuição normal (suficientemente). Portanto, se um gráfico de QQ revelar dados muito inclinados de maneira positiva, que parecem mais razoáveis ​​após a criação de logs, é seguro usar um teste t nos dados registrados? Em amostras maiores, isso seria muito tentador, mas com n pequeno eu provavelmente esperaria, a menos que houvesse motivos para esperar uma distribuição log-normal em primeiro lugar.

Há outra alternativa: faça uma suposição paramétrica diferente. Por exemplo, se houver dados distorcidos, pode-se, por exemplo, em algumas situações razoavelmente considerar uma distribuição gama ou outra família distorcida como uma melhor aproximação - em amostras moderadamente grandes, podemos usar apenas um GLM, mas em amostras muito pequenas pode ser necessário procurar um teste de amostra pequena - em muitos casos, a simulação pode ser útil.

Alternativa 2: robustez do teste t (mas cuidando da escolha do procedimento robusto para não discretizar fortemente a distribuição resultante da estatística do teste) - isso tem algumas vantagens em relação a um procedimento não paramétrico de amostra muito pequena, como a capacidade considerar testes com baixa taxa de erro do tipo I.

Aqui, estou pensando nas linhas de uso dos estimadores M de localização (e estimadores de escala relacionados) na estatística t para se robustificar suavemente contra desvios da normalidade. Algo semelhante ao Welch, como:

xySp

onde e , etc, sendo estimativas robustas de localização e escala, respectivamente.Sp2=sx2nx+sy2nyxsx

Eu pretendia reduzir qualquer tendência da estatística à discrição - para evitar coisas como aparar e Winsorizing, pois se os dados originais fossem discretos, aparar etc exacerbaria isso; usando abordagens do tipo M-estimation com uma função suave você obtém efeitos semelhantes sem contribuir para a discrição. Lembre-se de que estamos tentando lidar com a situação em que é realmente muito pequeno (por volta de 3-5, em cada amostra, por exemplo); portanto, até a estimativa M tem seus problemas.ψn

Você pode, por exemplo, usar simulação no normal para obter valores-p (se os tamanhos das amostras forem muito pequenos, sugiro que durante a inicialização - se os tamanhos das amostras não forem tão pequenos, uma inicialização cuidadosamente implementada pode se sair muito bem , mas é melhor voltarmos a Wilcoxon-Mann-Whitney). Existe um fator de escala e um ajuste df para chegar ao que eu imaginaria que seria uma aproximação t razoável. Isso significa que devemos obter o tipo de propriedades que buscamos muito próximo do normal e ter robustez razoável nas proximidades do normal. Surgem várias questões que estariam fora do escopo da presente pergunta, mas acho que em amostras muito pequenas os benefícios devem superar os custos e o esforço extra necessário.

[Eu não leio a literatura sobre esse assunto há muito tempo, por isso não tenho referências adequadas a esse respeito.]

Obviamente, se você não esperava que a distribuição fosse algo normal, mas semelhante a alguma outra distribuição, seria possível realizar uma robustez adequada de um teste paramétrico diferente.

E se você quiser verificar suposições para os não paramétricos? Algumas fontes recomendam verificar uma distribuição simétrica antes de aplicar um teste de Wilcoxon, o que traz problemas semelhantes à verificação da normalidade.

De fato. Suponho que você queira dizer o teste de classificação assinado *. No caso de usá-lo em dados emparelhados, se você estiver preparado para assumir que as duas distribuições têm a mesma forma além da mudança de local, você estará seguro, pois as diferenças devem ser simétricas. Na verdade, nem precisamos de tanto; para que o teste funcione, você precisa de simetria sob o nulo; não é necessário sob a alternativa (por exemplo, considere uma situação emparelhada com distribuições contínuas inclinadas à direita com forma idêntica na meia-linha positiva, onde as escalas diferem sob a alternativa, mas não sob o nulo; o teste de classificação assinado deve funcionar essencialmente como esperado em Aquele caso). A interpretação do teste é mais fácil se a alternativa for uma mudança de local.

* (O nome Wilcoxon está associado aos testes de classificação de uma e duas amostras - classificação assinada e soma da classificação; com o teste U, Mann e Whitney generalizaram a situação estudada por Wilcoxon e introduziram novas idéias importantes para avaliar a distribuição nula, mas o A prioridade entre os dois conjuntos de autores de Wilcoxon-Mann-Whitney é claramente de Wilcoxon - então, pelo menos, se considerarmos apenas Wilcoxon vs Mann & Whitney, Wilcoxon será o primeiro em meu livro.No entanto, parece que a Lei de Stigler me vence mais uma vez, e Wilcoxon talvez devesse compartilhar parte dessa prioridade com vários colaboradores anteriores e (além de Mann e Whitney) deveria compartilhar créditos com vários descobridores de um teste equivalente. [4] [5])

Referências

[1]: Zimmerman DW e Zumbo BN, (1993),
transformações de Rank e o poder do teste t de Student e Welch t 'para populações não normais,
Canadian Journal Experimental Psychology, 47 : 523–39.

[2]: JCF de Winter (2013),
"Usando o teste t de Student com amostras extremamente pequenas"
, Avaliação Prática, Pesquisa e Avaliação , 18 : 10, agosto, ISSN 1531-7714
http://pareonline.net/ getvn.asp? v = 18 & n = 10

[3]: Michael P. Fay e Michael A. Proschan (2010),
"Wilcoxon-Mann-Whitney ou teste t? Sobre suposições para testes de hipóteses e múltiplas interpretações de regras de decisão",
Stat Surv ; 4 : 1–39.
http://www.ncbi.nlm.nih.gov/pmc/articles/PMC2857732/

[4]: Berry, KJ, Mielke, PW e Johnston, JE (2012),
"The Two-sample Rank-soma Test: Early Development",
Revista Eletrônica de História da Probabilidade e Estatística , Vol.8, dezembro
pdf

[5]: Kruskal, WH (1957),
"Notas históricas no teste de duas amostras não pareadas de Wilcoxon",
Journal of the American Statistical Association , 52 , 356-360.

Glen_b
fonte
Gostaria de esclarecer algumas coisas. Há vários pontos em que você menciona, por exemplo, "Se a distribuição for pesada, ..." (ou distorcida etc.) - presumivelmente, isso deve ser lido como "se for razoável supor que a distribuição será pesada" (da teoria / estudos anteriores / seja o que for) em vez de "se a amostra for de cauda pesada", caso contrário, voltamos aos testes em várias etapas, o que estamos tentando evitar? (Parece-me que a questão central neste tópico é como justificar crenças ou suposições sobre distribuições, sem ler muito para a amostra.)
Silverfish
Sim, isso deve ser entendido como "a população é conhecida por ser de cauda pesada ou pode razoavelmente esperar ser de cauda pesada". Isso certamente inclui coisas como teoria (ou às vezes até raciocínio geral sobre a situação que ainda não atinge o status da teoria ), conhecimento especializado e estudos anteriores. Não está sugerindo testes para cauda pesada. Em situações em que é simplesmente desconhecido, pode valer a pena investigar como as coisas podem estar ruins sob várias distribuições que podem ser plausíveis para a situação específica que você tem.
Glen_b
Alguma chance de que essa resposta já excelente possa incorporar um pouco mais de detalhes sobre quais opções podem existir para "robustecer" o teste t?
Silverfish
Silverfish - Não tenho certeza se abordei suficientemente sua pergunta solicitando detalhes sobre a robustez. Vou adicionar um pouco mais agora.
Glen_b
Muito obrigado pela adição, eu pensei que isso acrescentou muito à qualidade desta resposta. Agora, essa questão se acalmou um pouco e gerou um bom conjunto de respostas. Gostaria de dar à pergunta original uma boa cópia-edição e remover qualquer coisa que possa ser enganosa (para o benefício de leitores que não lêem o passado). a questão!). Posso fazer edições apropriadas na sua resposta para que as cotações correspondam à pergunta reorganizada?
Silverfish
22

Na minha opinião, a abordagem baseada em princípios reconhece que (1) testes e avaliações gráficas de normalidade têm sensibilidade insuficiente e a interpretação gráfica frequentemente não é objetiva, (2) procedimentos de várias etapas têm características operacionais incertas, (3) muitos testes não paramétricos têm excelentes características operacionais em situações nas quais os testes paramétricos têm potência ideal e (4) a transformação adequada de geralmente não é a função de identidade e não paramétricok t PYkOs testes de amostra são invariantes à transformação escolhida (não o é para testes de uma amostra, como o teste de classificação assinado de Wilcoxon). Em relação a (2), os procedimentos com várias etapas são particularmente problemáticos em áreas como o desenvolvimento de medicamentos, em que agências de supervisão como a FDA estão justamente preocupadas com a possível manipulação de resultados. Por exemplo, um pesquisador sem escrúpulos pode esquecer convenientemente de relatar o teste de normalidade se o teste resultar em um valor baixo .tP

Juntando tudo isso, algumas orientações sugeridas são as seguintes:

  1. Se não houver um motivo convincente para assumir uma distribuição gaussiana antes de examinar os dados, e nenhum ajuste covariável for necessário, use um teste não paramétrico.
  2. Se for necessário um ajuste covariável, use a generalização de regressão semiparamétrica do teste de classificação que você preferir. Para o teste de Wilcoxon, este é o modelo de chances proporcionais e, para um teste de pontuação normal, é uma regressão ordinal probit.

t3πY

kkloglogvincular modelo ordinal de probabilidade cumulativa, presume-se que as distribuições apresentem riscos proporcionais. Para um modelo de probabilidade cumulativa de link de logit (modelo de chances proporcionais), as distribuições são assumidas como conectadas pelas premissas de chances proporcionais, ou seja, os logits das funções de distribuição cumulativa são paralelos. O formato de uma das distribuições é irrelevante. Detalhes podem ser encontrados em http://biostat.mc.vanderbilt.edu/CourseBios330 no capítulo 15 dos folhetos.

Existem dois tipos de suposições de um método estatístico freqüentista que são frequentemente consideradas. A primeira são as premissas necessárias para que o método preserve o erro do tipo I. O segundo diz respeito à preservação do erro do tipo II (otimização; sensibilidade). Acredito que a melhor maneira de expor as premissas necessárias para o segundo é incorporar um teste não paramétrico em um modelo semiparamétrico, como feito acima. A conexão real entre os dois é de testes de pontuação eficiente Rao, resultantes do modelo semiparamétrico. O numerador do teste de pontuação de um modelo de chances proporcional para o caso de duas amostras é exatamente a estatística da soma da classificação.

Frank Harrell
fonte
1
Obrigado por isso, sou muito solidário com a filosofia desta resposta - por exemplo, muitas fontes sugerem que eu deveria pelo menos verificar os dados quanto à normalidade antes de decidir sobre um teste. Mas esse tipo de procedimento de várias etapas influencia claramente, embora sutilmente, como os testes funcionam.
quer
1
nn=15
3
10000p
4
Os testes de permutação são formas de controlar o erro do tipo I, mas não abordam o erro do tipo II. Um teste de permutação baseado em estatísticas abaixo do ideal (por exemplo, média e variância comuns quando os dados provêm de uma distribuição log-Gaussiana) sofrerá em termos de potência.
Frank Harrell
3
Sim, o capítulo 15 dos folhetos é expandido para um novo capítulo na próxima 2ª edição do meu livro, que enviarei ao editor no próximo mês.
Frank Harrell
13

Rand Wilcox, em suas publicações e livros, destaca alguns pontos muito importantes, muitos dos quais foram listados por Frank Harrell e Glen_b em posts anteriores.

  1. A média não é necessariamente a quantidade sobre a qual queremos fazer inferências. Talvez haja outras quantidades que melhor exemplifiquem uma observação típica .
  2. Para testes t, a energia pode ser baixa, mesmo para pequenas desvios da normalidade.
  3. Para testes t, a cobertura de probabilidade observada pode ser substancialmente diferente da nominal.

Algumas sugestões importantes são:

  1. Uma alternativa robusta é comparar médias aparadas ou estimadores M usando o teste t. Wilcox sugere 20% de médias aparadas.
  2. Métodos de probabilidade empírica são teoricamente mais vantajosos ( Owen, 2001 ), mas não necessariamente para médias e pequenas n.
  3. Os testes de permutações são ótimos se é necessário controlar o erro do tipo I, mas não é possível obter o IC.
  4. Para muitas situações, Wilcox propõe o bootstrap-t para comparar médias aparadas. Em R, isso é implementado nas funções yuenbt , yhbt no pacote WRS .
  5. O bootstrap de percentil talvez seja melhor que o percentil-t quando a quantidade de corte for> / = 20%. Em R, isso é implementado na função pb2gen no pacote WRS acima mencionado .

Duas boas referências são Wilcox ( 2010 ) e Wilcox ( 2012 ).

Thomas Speidel
fonte
8

Bradley, em seu trabalho Distribution-Free Statistical Tests (1968, pp. 17–24) , traz treze contrastes entre o que ele chama de testes "clássicos" e "livres de distribuição". Observe que Bradley diferencia entre "não paramétrico" e "livre de distribuição", mas para os fins da sua pergunta essa diferença não é relevante. Nesses treze estão incluídos elementos que se relacionam não apenas aos derivados dos testes, mas a suas aplicações. Esses incluem:

  • Escolha do nível de significância: Os testes clássicos têm níveis de significância contínuos; testes livres de distribuição geralmente têm observações discretas dos níveis de significância; portanto, os testes clássicos oferecem mais flexibilidade na definição desse nível.
  • Validade lógica da região de rejeição: As regiões de rejeição de teste sem distribuição podem ser menos intuitivamente compreensíveis (nem necessariamente suaves nem contínuas) e podem causar confusão sobre quando o teste deve ser considerado como tendo rejeitado a hipótese nula.
  • Tipo de estatística que pode ser testada: Para citar Bradley diretamente: "As estatísticas definidas em termos de operações aritméticas sobre magnitudes de observação podem ser testadas por técnicas clássicas, enquanto as definidas por relações de ordem (classificação) ou frequências de categoria etc. podem ser testadas por meios livres de distribuição. Médias e variâncias são exemplos dos primeiros e medianas e intervalos interquartis, dos últimos. "Especialmente ao lidar com distribuições não normais, a capacidade de testar outras estatísticas se torna valiosa, dando peso aos testes sem distribuição .
  • Testabilidade de interações de ordem superior: Muito mais fácil em testes clássicos do que em testes sem distribuição.
  • Influência do tamanho da amostra:Este é bastante importante na minha opinião. Quando o tamanho da amostra é pequeno (Bradley diz em torno de n = 10), pode ser muito difícil determinar se as suposições paramétricas subjacentes aos testes clássicos foram violadas ou não. Os testes sem distribuição não têm essas suposições a serem violadas. Além disso, mesmo quando as suposições não foram violadas, os testes sem distribuição geralmente são quase tão fáceis de aplicar e quase tão eficientes quanto um teste. Portanto, para amostras pequenas (menos de 10, possível até 30), Bradley favorece uma aplicação quase rotineira de testes sem distribuição. Para amostras grandes, o Teorema do Limite Central tende a sobrecarregar violações paramétricas, na medida em que a média e a variação da amostra tenderão ao normal, e os testes paramétricos podem ser superiores em termos de eficiência.
  • Escopo de aplicação: Por serem livres de distribuição, esses testes são aplicáveis ​​a uma classe muito maior de populações do que os testes clássicos que assumem uma distribuição específica.
  • Detectibilidade de violação da suposição de uma distribuição contínua: Fácil de ver em testes sem distribuição (por exemplo, existência de pontuações empatadas), mais difícil em testes paramétricos.
  • Efeito da violação da suposição de uma distribuição contínua: Se a suposição for violada, o teste se torna inexato. Bradley gasta tempo explicando como os limites da inexatidão podem ser estimados para testes sem distribuição, mas não há rotina análoga para testes clássicos.
Avraham
fonte
1
Obrigado pela citação! O trabalho de Bradley parece bastante antigo, então eu suspeito que ele não tenha muito trabalho em estudos de simulação modernos para comparar eficiências e taxas de erro Tipo I / II em vários cenários? Eu também estaria interessado no que ele sugere sobre os testes de Brunner-Munzel - eles devem ser usados ​​em vez de um teste U se as variações nos dois grupos não forem iguais?
quer
1
Bradley discute eficiências, embora na maioria das vezes, esteja no contexto da eficiência relativa assintótica. Às vezes, ele traz fontes para declarações sobre a eficiência finita do tamanho da amostra, mas como o trabalho é de 1968, tenho certeza de que análises muito melhores foram feitas desde então. Falando nisso, Brunner e Munzel escreveram seu artigo em 2000 , o que explica por que não há menção a ele em Bradley.
Avraham
Sim, isso realmente explicaria isso! :) Você sabe se existe uma pesquisa mais atualizada do que Bradley?
Silverfish
Uma breve pesquisa mostra que existem muitos textos recentes sobre estatísticas não paramétricas. Por exemplo: Métodos Estatísticos Não Paramétricos (Hollander et al, 2013), Teste de Hipóteses Não Paramétricos: Métodos de Classificação e Permutação com Aplicações em R (Bonnini et al, 2014), Inferência Estatística Não Paramétrica, Quinta Edição (Gibbons e Chakraborti, 2010). Existem muitos outros que aparecem em várias pesquisas. Como não tenho nenhuma, não posso fazer recomendações. Desculpa.
Avraham #
5

Começando a responder a essa pergunta muito interessante.

Para dados não emparelhados:

Desempenho de cinco testes de localização de duas amostras para distribuições distorcidas com variações desiguais por Morten W. Fagerland, Leiv Sandvik (atrás do paywall) realiza uma série de experimentos com 5 testes diferentes (teste t, Welch U, Yuen-Welch, Wilcoxon-Mann Whitney e Brunner-Munzel) para diferentes combinações de tamanho de amostra, proporção de amostra, afastamento da normalidade e assim por diante. O artigo acaba sugerindo Welch U em geral,

Mas o apêndice A do artigo lista os resultados para cada combinação de tamanhos de amostra. E para amostras pequenas (m = 10 n = 10 ou 25), os resultados são mais confusos (conforme o esperado) - na minha estimativa dos resultados (não dos autores) Welch U, Brunner-Munzel parece ter um desempenho igualmente bom, e teste t também bem em m = 10 en = 10 caso.

Isto é o que eu sei até agora.

Para uma solução "rápida", eu costumava citar o aumento da consciência dos médicos sobre o impacto das estatísticas nos resultados da pesquisa: poder comparativo do teste t e do teste de soma e classificação de Wilcoxon em amostras pequenas aplicadas por Patrick D Bridge e Shlomo S Sawilowsky (também atrás do paywall) e vá direto para Wilcoxon, independentemente do tamanho da amostra, mas com ressalva , por exemplo. Devemos sempre escolher um teste não paramétrico ao comparar duas distribuições aparentemente não-normais? por Eva Skovlund e Grete U. Fensta .

Ainda não encontrei resultados semelhantes para dados emparelhados

Jacques Wainer
fonte
Agradeço as citações! Para esclarecimento, o "Welch U" está sendo referido, o mesmo teste também conhecido como "Welch t" ou "Welch-Aspin t" ou (como talvez a impropery o chamou na pergunta) "teste t com correção de Welch" ?
Silverfish
Pelo que entendi no artigo, Welch U não é o habitual Welch-Aspin - ele não usa a equação Welch-Satterthwaite para os graus de liberdade, mas uma fórmula que tem uma diferença do cubo e do quadrado da amostra Tamanho.
Jacques Wainer
Ainda é um teste t, apesar do nome? Em todos os outros lugares que procuro "Welch U", acho que está se referindo ao Welch-Aspin, que é frustrante.
quer
1

Simulando a diferença de médias das populações gama

Comparando o teste t e o teste de Mann Whitney

Resumo dos Resultados

  • Quando a variação das duas populações é a mesma, o teste de Mann Whitney apresenta maior poder verdadeiro, mas também maior erro verdadeiro do tipo 1 que o teste t.
  • H0
  • Quando a variação de duas populações é diferente, o teste de Mann Whitney leva a um grande erro do tipo 1, mesmo quando as médias são as mesmas. Isso é esperado, já que o Mann Whitney testa diferenças nas distribuições, não nas médias.
  • O teste t é robusto a diferenças de variância, mas médias idênticas

Experiência 1) Diferentes meios, mesma variância

θ

  • X1k=0.5θ=1E[X1]=kθ=0.5Var[X1]=kθ2=0.5
  • X2k=1.445θ=0.588235 E[X2]=.85Var[X2]=.5

X1X2X1X2

d=(.85.5)/.5=0.5

p

  • H0:μX1=μX2=0.5
  • H1:μX1μX2

P(reject|H0)P(reject|H1)H0H1

Fontes:

Distribuições de população

insira a descrição da imagem aqui

Resultados simulados

insira a descrição da imagem aqui

Discussão

  • N=10
  • Para todos os tamanhos de amostra, o teste de Mann Whitney tem mais potência que o teste t e, em alguns casos, por um fator de 2
  • Para todos os tamanhos de amostra, o teste de Mann Whitney apresenta um erro maior do tipo I, por um fator ou 2 - 3
  • O teste t tem baixa potência para amostras pequenas

Discussão : quando a variância das duas populações é realmente a mesma, o teste de Mann Whitney supera em muito o teste t em termos de potência para amostras pequenas, mas apresenta uma taxa de erro do tipo 1 mais alta


Experiência 2: Variações diferentes, mesma média

  • X1k=0.5θ=1E[X1]=kθ=.5Var[X1]=kθ2=.5
  • X2k=0.25θ=2 E[X2]=.5Var[X2]=1

H1Var[X1]=Var[X2]Var[X1]Var[X2]

Discussão Os resultados da simulação mostram que o teste t é muito robusto para diferentes variações, e o erro do tipo I é próximo de 5% para todos os tamanhos de amostra. Como esperado, o teste de Mann Whitney apresenta um desempenho ruim neste caso, pois não está testando uma diferença de médias, mas uma diferença de distribuição

insira a descrição da imagem aqui

Xavier Bourret Sicotte
fonte