Certas hipóteses podem ser testadas usando o teste t de Student (talvez usando a correção de Welch para variações desiguais no caso de duas amostras) ou por um teste não-paramétrico, como o teste de ranking assinado emparelhado de Wilcoxon, o teste U de Wilcoxon-Mann-Whitney, ou o teste de sinal emparelhado. Como podemos tomar uma decisão baseada em princípios sobre qual teste é mais apropriado, principalmente se o tamanho da amostra for "pequeno"?
Muitos livros introdutórios e notas de aula fornecem uma abordagem de "fluxograma" em que a normalidade é verificada ( inadvertidamente - pelo teste de normalidade ou mais amplamente pelo gráfico QQ ou similar) para decidir entre um teste t ou teste não paramétrico. Para o teste t de duas amostras não pareado , pode haver uma verificação adicional da homogeneidade da variância para decidir se deve aplicar a correção de Welch. Um problema dessa abordagem é a maneira como a decisão sobre qual teste aplicar depende dos dados observados e como isso afeta o desempenho (potência, taxa de erro tipo I) do teste selecionado.
Outro problema é o quão difícil é a verificação da normalidade em pequenos conjuntos de dados: o teste formal tem pouca energia, portanto as violações podem não ser detectadas, mas problemas semelhantes se aplicam aos dados em um gráfico de QQ. Mesmo violações flagrantes poderiam passar despercebidas, por exemplo, se a distribuição é mista, mas nenhuma observação foi retirada de um componente da mistura. Ao contrário do grande , não podemos nos apoiar na rede de segurança do Teorema do Limite Central e na normalidade assintótica da estatística do teste e da distribuição t .
Uma resposta de princípio a isso é a "segurança em primeiro lugar": sem nenhuma maneira de verificar com segurança a suposição de normalidade em uma pequena amostra, siga métodos não paramétricos. Outra é considerar qualquer base para assumir a normalidade, teoricamente (por exemplo, variável é a soma de vários componentes aleatórios e a CLT se aplica) ou empiricamente (por exemplo, estudos anteriores com maior sugerem que a variável é normal) e usar um teste t apenas se tais bases existirem. . Mas isso geralmente justifica apenas a normalidade aproximada e, em baixos graus de liberdade, é difícil julgar quão próximo da normalidade é necessário para evitar a invalidação de um teste t .
A maioria dos guias para escolher um teste t ou teste não paramétrico se concentra na questão da normalidade. Mas pequenas amostras também trazem algumas questões secundárias:
Se estiver executando um "teste não relacionado" ou um teste t "não emparelhado", se deseja usar uma correção de Welch ? Algumas pessoas usam um teste de hipótese para igualdade de variâncias, mas aqui ele teria baixo poder; outros verificam se os SDs são "razoavelmente" próximos ou não (por vários critérios). É mais seguro simplesmente usar sempre a correção de Welch para amostras pequenas, a menos que haja alguma boa razão para acreditar que as variações populacionais sejam iguais?
Se você vê a escolha de métodos como uma troca entre potência e robustez, afirmações sobre a eficiência assintótica dos métodos não paramétricos são inúteis . Às vezes, ouve -se a regra geral de que "os testes de Wilcoxon têm cerca de 95% da potência de um teste t, se os dados realmente são normais , e geralmente são muito mais poderosos se os dados não forem; portanto, use apenas um Wilcoxon". se os 95% se aplicam apenas ao grande , esse raciocínio é defeituoso para amostras menores.
Amostras pequenas podem tornar muito difícil ou impossível avaliar se uma transformação é apropriada para os dados, pois é difícil dizer se os dados transformados pertencem a uma distribuição normal (suficientemente). Portanto, se um gráfico de QQ revelar dados muito inclinados de maneira positiva, que parecem mais razoáveis após a realização dos registros, é seguro usar um teste t nos dados registrados? Em amostras maiores, isso seria muito tentador, mas com pequeno eu provavelmente esperaria, a menos que houvesse motivos para esperar uma distribuição log-normal em primeiro lugar.
E quanto a verificar suposições para os não paramétricos? Algumas fontes recomendam verificar uma distribuição simétrica antes de aplicar um teste de Wilcoxon (tratando-o como um teste de localização em vez de dominância estocástica), o que traz problemas semelhantes à verificação da normalidade. Se a razão pela qual estamos aplicando um teste não paramétrico em primeiro lugar é uma obediência cega ao mantra da "segurança em primeiro lugar", a dificuldade de avaliar a assimetria de uma pequena amostra aparentemente nos levaria à menor potência de um teste de sinal emparelhado .
Com estas questões de pequena amostra em mente, há uma boa - espero citável - procedimento para trabalhar com ao decidir entre t e testes não paramétricos?
Houve várias respostas excelentes, mas uma resposta considerando outras alternativas para classificar testes, como testes de permutação, também seria bem-vinda.
Respostas:
Vou mudar a ordem das perguntas sobre.
Infelizmente, algumas discussões sobre esse assunto nos livros e assim por diante contam com a sabedoria recebida. Às vezes, a sabedoria recebida é razoável, outras, menos (pelo menos no sentido em que tende a se concentrar em um problema menor quando um problema maior é ignorado); devemos examinar as justificativas oferecidas para o aconselhamento (se houver alguma justificativa), com cuidado.
Isso é verdade, mas é um pouco equivocado por várias razões que abordo nesta resposta.
Este (para usá-lo, a menos que você tenha motivos para pensar que as variações devem ser iguais) é o conselho de várias referências. Eu aponto para alguns nesta resposta.
Algumas referências sobre isso podem ser vistas aqui e aqui , embora haja mais que dizem coisas semelhantes.
O problema de variâncias iguais tem muitas características semelhantes ao problema de normalidade - as pessoas querem testá-lo, os conselhos sugerem que a escolha condicionada de testes nos resultados dos testes pode afetar adversamente os resultados dos dois tipos de testes subsequentes - é melhor simplesmente não assumir o que você não pode justificar adequadamente (raciocinando sobre os dados, usando informações de outros estudos relacionados às mesmas variáveis e assim por diante).
No entanto, existem diferenças. Uma é que - pelo menos em termos de distribuição da estatística de teste sob a hipótese nula (e, portanto, sua robustez de nível) - a não normalidade é menos importante em amostras grandes (pelo menos em relação ao nível de significância, embora o poder possa ainda é um problema se você precisar encontrar pequenos efeitos), enquanto o efeito de variações desiguais sob o pressuposto de variação igual realmente não desaparece com o tamanho da amostra grande.
Nos testes de hipóteses, o que importa (sob algum conjunto de condições) é basicamente duas coisas:
Qual é a taxa de erro real do tipo I?
Como é o comportamento do poder?
Também precisamos ter em mente que, se estivermos comparando dois procedimentos, alterar o primeiro mudará o segundo (ou seja, se eles não forem conduzidos no mesmo nível de significância real, você esperaria que mais alto estivesse associado a poder superior).α
Vou considerar várias situações nas quais farei algumas recomendações, considerando a possibilidade de não normalidade e variações desiguais. Em todos os casos, mencione o teste t para implicar o teste de Welch:
Não normal (ou desconhecido), com probabilidade de ter variação quase igual:
Se a distribuição for de cauda pesada, você geralmente será melhor com um Mann-Whitney, embora, se for um pouco pesado, o teste t deve funcionar bem. Com caudas leves, o teste t pode (muitas vezes) ser preferido. Os testes de permutação são uma boa opção (você pode até fazer um teste de permutação usando uma estatística t, se quiser). Os testes de inicialização também são adequados.
Variação não normal (ou desconhecida), desigual (ou relação de variação desconhecida):
Se a distribuição for pesada, você geralmente será melhor com um Mann-Whitney - se a desigualdade de variância estiver relacionada apenas à desigualdade da média - ou seja, se H0 for verdadeiro, a diferença no spread também deve estar ausente. GLMs geralmente são uma boa opção, especialmente se houver distorção e propagação relacionada à média. Um teste de permutação é outra opção, com uma ressalva semelhante à dos testes baseados em classificação. Os testes de inicialização são uma boa possibilidade aqui.
Zimmerman e Zumbo (1993) sugerem um teste t de Welch nas fileiras, que eles afirmam ter um desempenho melhor que o de Wilcoxon-Mann-Whitney nos casos em que as variações são desiguais.[1]
Os testes de classificação são padrões razoáveis aqui se você espera não normalidade (novamente com a ressalva acima). Se você tiver informações externas sobre forma ou variação, considere GLMs. Se você espera que as coisas não estejam muito longe do normal, os testes t podem ser bons.
Devido ao problema de obter níveis de significância adequados, nem os testes de permutação nem os de classificação podem ser adequados e, nos tamanhos mais pequenos, um teste t pode ser a melhor opção (há alguma possibilidade de o tornar um pouco mais robusto). No entanto, há um bom argumento para usar taxas de erro mais altas do tipo I com amostras pequenas (caso contrário, você está deixando as taxas de erro do tipo II aumentarem enquanto mantém constantes as taxas de erro do tipo I). Veja também de Winter (2013) .[2]
O conselho deve ser modificado um pouco quando as distribuições são fortemente distorcidas e muito discretas, como itens da escala Likert, onde a maioria das observações está em uma das categorias finais. Então o Wilcoxon-Mann-Whitney não é necessariamente uma escolha melhor do que o teste t.
A simulação pode ajudar a orientar ainda mais as escolhas quando você tiver alguma informação sobre circunstâncias prováveis.
Ele é difícil de verificar a normalidade em um pequeno conjunto de dados, e até certo ponto isso é uma questão importante, mas eu acho que há uma outra questão de importância que precisamos considerar. Um problema básico é que tentar avaliar a normalidade como base para escolher entre os testes afeta negativamente as propriedades dos testes que você escolhe.
Aqui está um exemplo de referência (existem outras) inequívocas (Fay e Proschan, 2010 ):[3]
Eles são igualmente inequívocos quanto a não testar a igualdade de variância.
Nem mesmo em amostras grandes - a normalidade assintótica do numerador não implica que a estatística t tenha uma distribuição t. No entanto, isso pode não importar muito, já que você ainda deve ter normalidade assintótica (por exemplo, CLT para o numerador e o teorema de Slutsky sugerem que, eventualmente, a estatística t deve começar a parecer normal, se as condições de ambos se mantiverem).
Esse é realmente o conselho que as referências que mencionei (ou vinculo a menções) dão.
Ambos são bons argumentos, especialmente quando apoiados no fato de que o teste t é razoavelmente robusto contra desvios moderados da normalidade. (Deve-se ter em mente, no entanto, que "desvios moderados" é uma frase complicada; certos tipos de desvios da normalidade podem afetar bastante a performance de potência do teste t, mesmo que esses desvios sejam visualmente muito pequenos - o t- O teste é menos robusto a alguns desvios do que outros. Devemos ter isso em mente sempre que discutirmos pequenos desvios da normalidade.)
Cuidado, no entanto, o fraseado "sugere que a variável é normal". Ser razoavelmente consistente com a normalidade não é a mesma coisa que normalidade. Em geral, podemos rejeitar a normalidade real sem a necessidade de ver os dados - por exemplo, se os dados não puderem ser negativos, a distribuição não poderá ser normal. Felizmente, o que importa está mais próximo do que poderíamos ter de estudos anteriores ou raciocínio sobre como os dados são compostos, ou seja, os desvios da normalidade devem ser pequenos.
Bem, é algo que podemos avaliar o impacto de maneira bastante rápida (como por meio de simulações, como mencionei anteriormente). Pelo que vi, a distorção parece importar mais do que caudas pesadas (mas, por outro lado, vi algumas afirmações opostas - embora eu não saiba no que isso se baseia).
Mas podemos verificar o poder de pequenas amostras com bastante facilidade! É fácil simular para obter curvas de potência, como aqui .[2]
(Novamente, veja também Winter (2013) ).
Tendo feito essas simulações sob várias circunstâncias, tanto para os casos de duas amostras quanto de uma amostra / diferença pareada, a pequena eficiência da amostra no normal em ambos os casos parece ser um pouco menor que a eficiência assintótica, mas a eficiência do posto assinado e os testes de Wilcoxon-Mann-Whitney ainda são muito altos, mesmo em amostras muito pequenas.
Pelo menos, se os testes forem feitos no mesmo nível de significância real; você não pode fazer um teste de 5% com amostras muito pequenas (e pelo menos não sem testes aleatórios, por exemplo), mas se você estiver preparado para talvez fazer (digamos) um teste de 5,5% ou 3,2%, os testes de classificação de fato, é muito bom comparado com um teste t nesse nível de significância.
Há outra alternativa: faça uma suposição paramétrica diferente. Por exemplo, se houver dados distorcidos, pode-se, por exemplo, em algumas situações razoavelmente considerar uma distribuição gama ou outra família distorcida como uma melhor aproximação - em amostras moderadamente grandes, podemos usar apenas um GLM, mas em amostras muito pequenas pode ser necessário procurar um teste de amostra pequena - em muitos casos, a simulação pode ser útil.
Alternativa 2: robustez do teste t (mas cuidando da escolha do procedimento robusto para não discretizar fortemente a distribuição resultante da estatística do teste) - isso tem algumas vantagens em relação a um procedimento não paramétrico de amostra muito pequena, como a capacidade considerar testes com baixa taxa de erro do tipo I.
Aqui, estou pensando nas linhas de uso dos estimadores M de localização (e estimadores de escala relacionados) na estatística t para se robustificar suavemente contra desvios da normalidade. Algo semelhante ao Welch, como:
onde e , etc, sendo estimativas robustas de localização e escala, respectivamente.S∼2p=s∼2xnx+s∼2yny x∼ s∼x
Eu pretendia reduzir qualquer tendência da estatística à discrição - para evitar coisas como aparar e Winsorizing, pois se os dados originais fossem discretos, aparar etc exacerbaria isso; usando abordagens do tipo M-estimation com uma função suave você obtém efeitos semelhantes sem contribuir para a discrição. Lembre-se de que estamos tentando lidar com a situação em que é realmente muito pequeno (por volta de 3-5, em cada amostra, por exemplo); portanto, até a estimativa M tem seus problemas.ψ n
Você pode, por exemplo, usar simulação no normal para obter valores-p (se os tamanhos das amostras forem muito pequenos, sugiro que durante a inicialização - se os tamanhos das amostras não forem tão pequenos, uma inicialização cuidadosamente implementada pode se sair muito bem , mas é melhor voltarmos a Wilcoxon-Mann-Whitney). Existe um fator de escala e um ajuste df para chegar ao que eu imaginaria que seria uma aproximação t razoável. Isso significa que devemos obter o tipo de propriedades que buscamos muito próximo do normal e ter robustez razoável nas proximidades do normal. Surgem várias questões que estariam fora do escopo da presente pergunta, mas acho que em amostras muito pequenas os benefícios devem superar os custos e o esforço extra necessário.
[Eu não leio a literatura sobre esse assunto há muito tempo, por isso não tenho referências adequadas a esse respeito.]
Obviamente, se você não esperava que a distribuição fosse algo normal, mas semelhante a alguma outra distribuição, seria possível realizar uma robustez adequada de um teste paramétrico diferente.
De fato. Suponho que você queira dizer o teste de classificação assinado *. No caso de usá-lo em dados emparelhados, se você estiver preparado para assumir que as duas distribuições têm a mesma forma além da mudança de local, você estará seguro, pois as diferenças devem ser simétricas. Na verdade, nem precisamos de tanto; para que o teste funcione, você precisa de simetria sob o nulo; não é necessário sob a alternativa (por exemplo, considere uma situação emparelhada com distribuições contínuas inclinadas à direita com forma idêntica na meia-linha positiva, onde as escalas diferem sob a alternativa, mas não sob o nulo; o teste de classificação assinado deve funcionar essencialmente como esperado em Aquele caso). A interpretação do teste é mais fácil se a alternativa for uma mudança de local.
* (O nome Wilcoxon está associado aos testes de classificação de uma e duas amostras - classificação assinada e soma da classificação; com o teste U, Mann e Whitney generalizaram a situação estudada por Wilcoxon e introduziram novas idéias importantes para avaliar a distribuição nula, mas o A prioridade entre os dois conjuntos de autores de Wilcoxon-Mann-Whitney é claramente de Wilcoxon - então, pelo menos, se considerarmos apenas Wilcoxon vs Mann & Whitney, Wilcoxon será o primeiro em meu livro.No entanto, parece que a Lei de Stigler me vence mais uma vez, e Wilcoxon talvez devesse compartilhar parte dessa prioridade com vários colaboradores anteriores e (além de Mann e Whitney) deveria compartilhar créditos com vários descobridores de um teste equivalente. [4] [5])
Referências
[1]: Zimmerman DW e Zumbo BN, (1993),
transformações de Rank e o poder do teste t de Student e Welch t 'para populações não normais,
Canadian Journal Experimental Psychology, 47 : 523–39.
[2]: JCF de Winter (2013),
"Usando o teste t de Student com amostras extremamente pequenas"
, Avaliação Prática, Pesquisa e Avaliação , 18 : 10, agosto, ISSN 1531-7714
http://pareonline.net/ getvn.asp? v = 18 & n = 10
[3]: Michael P. Fay e Michael A. Proschan (2010),
"Wilcoxon-Mann-Whitney ou teste t? Sobre suposições para testes de hipóteses e múltiplas interpretações de regras de decisão",
Stat Surv ; 4 : 1–39.
http://www.ncbi.nlm.nih.gov/pmc/articles/PMC2857732/
[4]: Berry, KJ, Mielke, PW e Johnston, JE (2012),
"The Two-sample Rank-soma Test: Early Development",
Revista Eletrônica de História da Probabilidade e Estatística , Vol.8, dezembro
pdf
[5]: Kruskal, WH (1957),
"Notas históricas no teste de duas amostras não pareadas de Wilcoxon",
Journal of the American Statistical Association , 52 , 356-360.
fonte
Na minha opinião, a abordagem baseada em princípios reconhece que (1) testes e avaliações gráficas de normalidade têm sensibilidade insuficiente e a interpretação gráfica frequentemente não é objetiva, (2) procedimentos de várias etapas têm características operacionais incertas, (3) muitos testes não paramétricos têm excelentes características operacionais em situações nas quais os testes paramétricos têm potência ideal e (4) a transformação adequada de geralmente não é a função de identidade e não paramétricok t PY k Os testes de amostra são invariantes à transformação escolhida (não o é para testes de uma amostra, como o teste de classificação assinado de Wilcoxon). Em relação a (2), os procedimentos com várias etapas são particularmente problemáticos em áreas como o desenvolvimento de medicamentos, em que agências de supervisão como a FDA estão justamente preocupadas com a possível manipulação de resultados. Por exemplo, um pesquisador sem escrúpulos pode esquecer convenientemente de relatar o teste de normalidade se o teste resultar em um valor baixo .t P
Juntando tudo isso, algumas orientações sugeridas são as seguintes:
Existem dois tipos de suposições de um método estatístico freqüentista que são frequentemente consideradas. A primeira são as premissas necessárias para que o método preserve o erro do tipo I. O segundo diz respeito à preservação do erro do tipo II (otimização; sensibilidade). Acredito que a melhor maneira de expor as premissas necessárias para o segundo é incorporar um teste não paramétrico em um modelo semiparamétrico, como feito acima. A conexão real entre os dois é de testes de pontuação eficiente Rao, resultantes do modelo semiparamétrico. O numerador do teste de pontuação de um modelo de chances proporcional para o caso de duas amostras é exatamente a estatística da soma da classificação.
fonte
Rand Wilcox, em suas publicações e livros, destaca alguns pontos muito importantes, muitos dos quais foram listados por Frank Harrell e Glen_b em posts anteriores.
Algumas sugestões importantes são:
Duas boas referências são Wilcox ( 2010 ) e Wilcox ( 2012 ).
fonte
Bradley, em seu trabalho Distribution-Free Statistical Tests (1968, pp. 17–24) , traz treze contrastes entre o que ele chama de testes "clássicos" e "livres de distribuição". Observe que Bradley diferencia entre "não paramétrico" e "livre de distribuição", mas para os fins da sua pergunta essa diferença não é relevante. Nesses treze estão incluídos elementos que se relacionam não apenas aos derivados dos testes, mas a suas aplicações. Esses incluem:
fonte
Começando a responder a essa pergunta muito interessante.
Para dados não emparelhados:
Desempenho de cinco testes de localização de duas amostras para distribuições distorcidas com variações desiguais por Morten W. Fagerland, Leiv Sandvik (atrás do paywall) realiza uma série de experimentos com 5 testes diferentes (teste t, Welch U, Yuen-Welch, Wilcoxon-Mann Whitney e Brunner-Munzel) para diferentes combinações de tamanho de amostra, proporção de amostra, afastamento da normalidade e assim por diante. O artigo acaba sugerindo Welch U em geral,
Mas o apêndice A do artigo lista os resultados para cada combinação de tamanhos de amostra. E para amostras pequenas (m = 10 n = 10 ou 25), os resultados são mais confusos (conforme o esperado) - na minha estimativa dos resultados (não dos autores) Welch U, Brunner-Munzel parece ter um desempenho igualmente bom, e teste t também bem em m = 10 en = 10 caso.
Isto é o que eu sei até agora.
Para uma solução "rápida", eu costumava citar o aumento da consciência dos médicos sobre o impacto das estatísticas nos resultados da pesquisa: poder comparativo do teste t e do teste de soma e classificação de Wilcoxon em amostras pequenas aplicadas por Patrick D Bridge e Shlomo S Sawilowsky (também atrás do paywall) e vá direto para Wilcoxon, independentemente do tamanho da amostra, mas com ressalva , por exemplo. Devemos sempre escolher um teste não paramétrico ao comparar duas distribuições aparentemente não-normais? por Eva Skovlund e Grete U. Fensta .
Ainda não encontrei resultados semelhantes para dados emparelhados
fonte
Considerando os seguintes links:
O teste de normalidade é 'essencialmente inútil'?
Necessidade e melhor maneira de determinar a normalidade dos dados
Para simplificar, como os testes não paramétricos são razoavelmente bons, mesmo para dados normais, por que não usá-los sempre para amostras pequenas.
fonte
Simulando a diferença de médias das populações gama
Comparando o teste t e o teste de Mann Whitney
Resumo dos Resultados
Experiência 1) Diferentes meios, mesma variância
Fontes:
Distribuições de população
Resultados simulados
Discussão
Discussão : quando a variância das duas populações é realmente a mesma, o teste de Mann Whitney supera em muito o teste t em termos de potência para amostras pequenas, mas apresenta uma taxa de erro do tipo 1 mais alta
Experiência 2: Variações diferentes, mesma média
Discussão Os resultados da simulação mostram que o teste t é muito robusto para diferentes variações, e o erro do tipo I é próximo de 5% para todos os tamanhos de amostra. Como esperado, o teste de Mann Whitney apresenta um desempenho ruim neste caso, pois não está testando uma diferença de médias, mas uma diferença de distribuição
fonte