Há muito tempo, aprendi que a distribuição normal era necessária para o teste T de duas amostras. Hoje, uma colega me disse que aprendeu que para N> 50 a distribuição normal não era necessária. Isso é verdade?
Se verdadeiro, é por causa do teorema do limite central?
Respostas:
Pressuposto de normalidade de um teste t
Considere uma população grande da qual você pode colher muitas amostras diferentes de um tamanho específico. (Em um estudo específico, você geralmente coleta apenas uma dessas amostras.)
O teste t pressupõe que as médias das diferentes amostras são normalmente distribuídas; não assume que a população esteja normalmente distribuída.
Pelo teorema do limite central, as médias de amostras de uma população com variância finita se aproximam de uma distribuição normal, independentemente da distribuição da população. As regras práticas dizem que as médias da amostra são basicamente distribuídas normalmente desde que o tamanho da amostra seja de pelo menos 20 ou 30. Para que um teste t seja válido em uma amostra de tamanho menor, a distribuição da população teria que ser aproximadamente normal.
O teste t é inválido para amostras pequenas de distribuições não normais, mas é válido para amostras grandes de distribuições não normais.
Amostras pequenas de distribuições não normais
Como Michael observa abaixo, o tamanho da amostra necessário para a distribuição de médias para aproximar a normalidade depende do grau de não normalidade da população. Para distribuições aproximadamente normais, você não precisará de uma amostra tão grande quanto uma distribuição muito fora do normal.
Aqui estão algumas simulações que você pode executar no R para ter uma idéia disso. Primeiro, aqui estão algumas distribuições populacionais.
A seguir, são apresentadas algumas simulações de amostras das distribuições populacionais. Em cada uma dessas linhas, "10" é o tamanho da amostra, "100" é o número de amostras e a função depois especifica a distribuição da população. Eles produzem histogramas das médias da amostra.
Para que um teste t seja válido, esses histogramas devem ser normais.
Utilidade de um teste t
Devo observar que todo o conhecimento que acabei de transmitir é um tanto obsoleto; agora que temos computadores, podemos fazer melhor que os testes t. Como observa Frank, você provavelmente deseja usar os testes de Wilcoxon em qualquer lugar onde foi ensinado a executar um teste t.
fonte
O teorema do limite central é menos útil do que se poderia pensar neste contexto. Primeiro, como alguém já apontou, não se sabe se o tamanho atual da amostra é "grande o suficiente". Em segundo lugar, o CLT tem mais a ver com o erro do tipo I desejado do que com o erro do tipo II. Em outras palavras, o teste t pode ser não competitivo em termos de energia. É por isso que o teste de Wilcoxon é tão popular. Se a normalidade se mantiver, é 95% mais eficiente que o teste t. Se a normalidade não se mantiver, pode ser arbitrariamente mais eficiente que o teste t.
fonte
Veja minha resposta anterior a uma pergunta sobre a robustez do teste t .
Em particular, eu recomendo brincar com o applet onlinestatsbook .
A imagem abaixo é baseada no seguinte cenário:
A simulação obtida sugere que, em vez de obter 5% de erros do Tipo I, eu estava recebendo apenas 4,5% de erros do Tipo I.
Se você considera isso robusto depende da sua perspectiva.
fonte
Na minha experiência com apenas o teste t de uma amostra, descobri que o desvio das distribuições é mais importante do que a curtose, por exemplo. Para distribuições não enviesadas, mas com cauda gorda (com 5 graus de liberdade, uma distribuição h de Tukey com , etc), descobri que 40 amostras sempre foram suficientes para obter uma taxa empírica do tipo I perto da nominal . Quando a distribuição é muito distorcida, no entanto, você pode precisar de muitas outras amostras.h=0.24999
Por exemplo, suponha que você estivesse jogando na loteria. Com probabilidade você ganhará 100 mil dólares, e com probabilidade , perderá um dólar. Se você realizar um teste t para o valor nulo de que o retorno médio ép=10−4 1−p
zero combase em uma amostra de mil empates desse processo, não acho que você atingirá a taxa nominal do tipo I.edit : duh, por captura do @ whuber no comentário, o exemplo que eu dei não teve média zero, portanto, testar a média zero não tem nada a ver com a taxa do tipo I.
Como o exemplo da loteria geralmente tem um desvio padrão de zero, o teste t engasga. Então, em vez disso, dou um exemplo de código usando a distribuição Lambert W x Gaussian de Goerg . A distribuição que uso aqui tem uma inclinação de cerca de 1355.
Este código fornece a taxa de rejeição empírica no nível nominal de 0,05 para diferentes tamanhos de amostra. Para amostra de tamanho 50, a taxa empírica é de 0,40 (!); para tamanho de amostra 250, 0,29; para tamanho de amostra 1000, 0,21; para o tamanho da amostra 2000, 0,18. Claramente, o teste t de uma amostra sofre distorção.
fonte
O teorema do limite central estabelece (sob as condições exigidas) que o numerador da estatística t é assintoticamente normal. A estatística t também tem um denominador. Para ter uma distribuição t, você precisa que o denominador seja independente e seja a raiz quadrada de um qui-quadrado-em-seu-df.
E sabemos que não será independente (que caracteriza o normal!)
O teorema de Slutsky combinado com o CLT daria a você que a estatística t é assintoticamente normal (mas não necessariamente a uma taxa muito útil).
Que teorema estabeleceria que a estatística t é distribuída aproximadamente t quando não há normalidade e com que rapidez ela entra? (É claro que, eventualmente, o t- também se aproximará do normal, mas estamos assumindo que a aproximação a outra aproximação será melhor do que apenas usar a aproximação normal ...)
No entanto, mais importante do que a suposta robustez de nível do (em amostras maiores) é o efeito sobre sua potência . Observe que a eficiência relativa assintótica do teste t em relação ao Wilcoxon-Mann-Whitney (por exemplo) pode ser 0 (ou seja, como os tamanhos das amostras se tornam grandes enquanto os tamanhos dos efeitos que você deseja captar encolhem, você pode exigir amostras muito maiores para ter o mesmo poder que uma alternativa óbvia).t
Portanto, embora o teste t possa acabar tendo uma boa distribuição nula de aparência normal em muitos casos, se for grande o suficiente, seu desempenho sob o nulo não é realmente o que as pessoas mais se importam - é desempenho sob a alternativa - e aí pode não ser tão bom, se você se importa em rejeitar o nulo nos casos em que o efeito não é tão fácil de entender.n
fonte
Sim, o Teorema do Limite Central nos diz que isso é verdade. Desde que você evite características de cauda extremamente pesada, a não Normalidade não apresenta problemas em amostras de médias a grandes.
Aqui está um artigo de revisão útil;
http://www.annualreviews.org/doi/pdf/10.1146/annurev.publhealth.23.100901.140546
O teste de Wilcoxon (mencionado por outros) pode ter um poder terrível quando a alternativa não é uma mudança de localização da distribuição original. Além disso, a maneira como mede as diferenças entre distribuições não é transitiva.
fonte
Sobre o uso do teste de Wilcoxon-Mann-Whitney como alternativa, recomendo o artigo O teste de Wilcoxon-Man-Whitney sob escrutínio
Como teste de médias ou medianas, o teste de Wilcoxon – Mann – Whitney (WMW) pode ser severamente não robusto para desvios do modelo de turno puro.
Estas são as recomendações dos autores do artigo:
A transformação de classificação pode alterar as médias, desvios padrão e assimetria das duas amostras de maneira diferente. A única situação em que a transformação de classificação é garantida para obter um efeito benéfico é quando as distribuições são idênticas e os tamanhos das amostras são iguais. Para desvios dessas suposições bastante estritas, os efeitos da transformação de classificação nos momentos da amostra são imprevisíveis. No estudo de simulação do artigo, o teste WMW foi comparado com o teste de Fligner-Policello (FP), o teste de Brunner-Munzel (BM), o teste de duas amostras T (T), o teste de Welch U (U), e o teste Welch U nas fileiras (RU). Os quatro testes baseados em classificação (WMW, FP, BM e RU) tiveram desempenho semelhante, embora o teste de BM fosse frequentemente um pouco melhor que os outros. Quando os tamanhos das amostras eram iguais, os testes paramétricos (T e U) foram superiores aos testes baseados na classificação sob a hipótese nula de médias iguais, mas não sob a hipótese nula de medianas iguais. Quando os tamanhos das amostras eram desiguais, os testes BM, RU e U apresentaram melhor desempenho. Para várias configurações, pequenas alterações nas propriedades da população levaram a grandes alterações no desempenho dos testes. Em resumo, a amostra grande do teste WMW aproximado pode ser um método ruim para comparar as médias ou medianas de duas populações, a menos que as duas distribuições tenham formas e escalas iguais. Esse problema também parece se aplicar em vários graus ao teste WMW exato, ao teste FP, ao teste BM e ao teste Welch U nas fileiras. Ao usar o teste WMW, os autores recomendam que as propriedades das amostras classificadas sejam minuciosamente investigadas quanto a sinais de assimetria e heterogeneidade de variância.
fonte