Teste T para não normal quando N> 50?

77

Há muito tempo, aprendi que a distribuição normal era necessária para o teste T de duas amostras. Hoje, uma colega me disse que aprendeu que para N> 50 a distribuição normal não era necessária. Isso é verdade?

Se verdadeiro, é por causa do teorema do limite central?

até
fonte
3
Pergunta relacionada com uma resposta muito boa por Glen_b stats.stackexchange.com/questions/121852/…
Tim

Respostas:

83

Pressuposto de normalidade de um teste t

Considere uma população grande da qual você pode colher muitas amostras diferentes de um tamanho específico. (Em um estudo específico, você geralmente coleta apenas uma dessas amostras.)

O teste t pressupõe que as médias das diferentes amostras são normalmente distribuídas; não assume que a população esteja normalmente distribuída.

Pelo teorema do limite central, as médias de amostras de uma população com variância finita se aproximam de uma distribuição normal, independentemente da distribuição da população. As regras práticas dizem que as médias da amostra são basicamente distribuídas normalmente desde que o tamanho da amostra seja de pelo menos 20 ou 30. Para que um teste t seja válido em uma amostra de tamanho menor, a distribuição da população teria que ser aproximadamente normal.

O teste t é inválido para amostras pequenas de distribuições não normais, mas é válido para amostras grandes de distribuições não normais.

Amostras pequenas de distribuições não normais

Como Michael observa abaixo, o tamanho da amostra necessário para a distribuição de médias para aproximar a normalidade depende do grau de não normalidade da população. Para distribuições aproximadamente normais, você não precisará de uma amostra tão grande quanto uma distribuição muito fora do normal.

Aqui estão algumas simulações que você pode executar no R para ter uma idéia disso. Primeiro, aqui estão algumas distribuições populacionais.

curve(dnorm,xlim=c(-4,4)) #Normal
curve(dchisq(x,df=1),xlim=c(0,30)) #Chi-square with 1 degree of freedom

A seguir, são apresentadas algumas simulações de amostras das distribuições populacionais. Em cada uma dessas linhas, "10" é o tamanho da amostra, "100" é o número de amostras e a função depois especifica a distribuição da população. Eles produzem histogramas das médias da amostra.

hist(colMeans(sapply(rep(10,100),rnorm)),xlab='Sample mean',main='')
hist(colMeans(sapply(rep(10,100),rchisq,df=1)),xlab='Sample mean',main='')

Para que um teste t seja válido, esses histogramas devem ser normais.

require(car)
qqp(colMeans(sapply(rep(10,100),rnorm)),xlab='Sample mean',main='')
qqp(colMeans(sapply(rep(10,100),rchisq,df=1)),xlab='Sample mean',main='')

Utilidade de um teste t

Devo observar que todo o conhecimento que acabei de transmitir é um tanto obsoleto; agora que temos computadores, podemos fazer melhor que os testes t. Como observa Frank, você provavelmente deseja usar os testes de Wilcoxon em qualquer lugar onde foi ensinado a executar um teste t.

Thomas Levine
fonte
7
Boa explicação (+1). Eu acrescentaria, no entanto, que o tamanho da amostra necessário para a distribuição de meios para aproximar a normalidade depende do grau de não normalidade da população. Para amostras grandes, não há razão para preferir um teste t ao invés de um teste de permutações que não faz suposições sobre as distribuições.
Michael Lew
2
+1, embora, até onde eu saiba, o teste t seja bastante resistente a desvios moderados da normalidade. Além disso, uma discussão relacionada interessante: stats.stackexchange.com/questions/2492/…
nico
4
boa resposta, embora exista um pequeno detalhe que você perdeu: a distribuição dos dados deve ter uma variação finita. O teste T é inútil para comparar a diferença na localização de duas distribuições de Cauchy (ou aluno com 2 graus de liberdade), não porque seja "não robusto", mas porque para essas distribuições há informações relevantes adicionais na amostra além dos meios e desvios padrão que o teste t joga fora.
probabilityislogic
2
Além disso, o teste t também produz naturalmente intervalos de confiança para o parâmetro que está sendo investigado. (ainda upvote por causa dos dois primeiros parágrafos que endereço a pergunta diretamente, eu apenas discordo fortemente com o terceiro)
Erik
7
O teste t requer normalidade da população. Essa é uma suposição necessária para que a estatística t tenha uma distribuição t-Student. Se você não tem uma população normal, não pode expressar a estatística t como uma variável normal padrão dividida pela raiz de uma variável qui-quadrado dividida por seus graus de liberdade. Talvez o que você esteja tentando dizer seja que, se algumas condições forem verdadeiras, como não muita distorção ou uma amostra grande, o teste ainda poderá ser válido mesmo quando a população não estiver normal.
toneloy
44

O teorema do limite central é menos útil do que se poderia pensar neste contexto. Primeiro, como alguém já apontou, não se sabe se o tamanho atual da amostra é "grande o suficiente". Em segundo lugar, o CLT tem mais a ver com o erro do tipo I desejado do que com o erro do tipo II. Em outras palavras, o teste t pode ser não competitivo em termos de energia. É por isso que o teste de Wilcoxon é tão popular. Se a normalidade se mantiver, é 95% mais eficiente que o teste t. Se a normalidade não se mantiver, pode ser arbitrariamente mais eficiente que o teste t.

Frank Harrell
fonte
7
(+1) Bem-vindo ao site, que bom que você encontrou. Aguardo sua participação aqui.
cardeal
4
(+1) Bom argumento sobre o Wilcoxon.
whuber
18

Veja minha resposta anterior a uma pergunta sobre a robustez do teste t .

Em particular, eu recomendo brincar com o applet onlinestatsbook .

A imagem abaixo é baseada no seguinte cenário:

  • hipótese nula é verdadeira
  • assimetria bastante severa
  • mesma distribuição nos dois grupos
  • mesma variância nos dois grupos
  • tamanho da amostra por grupo 5 (ou seja, muito menos que 50 conforme sua pergunta)
  • Apertei o botão de 10.000 simulações cerca de 100 vezes para obter mais de um milhão de simulações.

A simulação obtida sugere que, em vez de obter 5% de erros do Tipo I, eu estava recebendo apenas 4,5% de erros do Tipo I.

Se você considera isso robusto depende da sua perspectiva.

insira a descrição da imagem aqui

Jeromy Anglim
fonte
4
+1 Bons pontos. O poder do teste t com alternativas distorcidas, no entanto, pode se degradar severamente (até o ponto em que é essencialmente zero, mesmo para grandes tamanhos de efeito).
whuber
6

Na minha experiência com apenas o teste t de uma amostra, descobri que o desvio das distribuições é mais importante do que a curtose, por exemplo. Para distribuições não enviesadas, mas com cauda gorda (com 5 graus de liberdade, uma distribuição h de Tukey com , etc), descobri que 40 amostras sempre foram suficientes para obter uma taxa empírica do tipo I perto da nominal . Quando a distribuição é muito distorcida, no entanto, você pode precisar de muitas outras amostras.h=0.24999

Por exemplo, suponha que você estivesse jogando na loteria. Com probabilidade você ganhará 100 mil dólares, e com probabilidade , perderá um dólar. Se você realizar um teste t para o valor nulo de que o retorno médio é zero com base em uma amostra de mil empates desse processo, não acho que você atingirá a taxa nominal do tipo I.p=1041p

edit : duh, por captura do @ whuber no comentário, o exemplo que eu dei não teve média zero, portanto, testar a média zero não tem nada a ver com a taxa do tipo I.

Como o exemplo da loteria geralmente tem um desvio padrão de zero, o teste t engasga. Então, em vez disso, dou um exemplo de código usando a distribuição Lambert W x Gaussian de Goerg . A distribuição que uso aqui tem uma inclinação de cerca de 1355.

#hey look! I'm learning R!
library(LambertW)

Gauss_input = create_LambertW_input("normal", beta=c(0,1))
params = list(delta = c(0), gamma = c(2), alpha = 1)
LW.Gauss = create_LambertW_output(input = Gauss_input, theta = params)
#get the moments of this distribution
moms <- mLambertW(beta=c(0,1),distname=c("normal"),delta = 0,gamma = 2, alpha = 1)

test_ttest <- function(sampsize) {
    samp <- LW.Gauss$rY(params)(n=sampsize)
    tval <- t.test(samp, mu = moms$mean)
    return(tval$p.value)
}

#to replicate randomness
set.seed(1)

pvals <- replicate(1024,test_ttest(50))
#how many rejects at the 0.05 level?
print(sum(pvals < 0.05) / length(pvals))

pvals <- replicate(1024,test_ttest(250))
#how many rejects at the 0.05 level?
print(sum(pvals < 0.05) / length(pvals))

p    vals <- replicate(1024,test_ttest(1000))
#how many rejects at the 0.05 level?
print(sum(pvals < 0.05) / length(pvals))

pvals <- replicate(1024,test_ttest(2000))
#how many rejects at the 0.05 level?
print(sum(pvals < 0.05) / length(pvals))

Este código fornece a taxa de rejeição empírica no nível nominal de 0,05 para diferentes tamanhos de amostra. Para amostra de tamanho 50, a taxa empírica é de 0,40 (!); para tamanho de amostra 250, 0,29; para tamanho de amostra 1000, 0,21; para o tamanho da amostra 2000, 0,18. Claramente, o teste t de uma amostra sofre distorção.

shabbychef
fonte
No exemplo, você está discutindo o poder do teste, não o seu tamanho. O nulo, a propósito, parece ser , para o qual a distribuição é degenerada (um átomo em um único ponto): isso está o mais longe possível da normalidade! p=0
whuber
1

O teorema do limite central estabelece (sob as condições exigidas) que o numerador da estatística t é assintoticamente normal. A estatística t também tem um denominador. Para ter uma distribuição t, você precisa que o denominador seja independente e seja a raiz quadrada de um qui-quadrado-em-seu-df.

E sabemos que não será independente (que caracteriza o normal!)

O teorema de Slutsky combinado com o CLT daria a você que a estatística t é assintoticamente normal (mas não necessariamente a uma taxa muito útil).

Que teorema estabeleceria que a estatística t é distribuída aproximadamente t quando não há normalidade e com que rapidez ela entra? (É claro que, eventualmente, o t- também se aproximará do normal, mas estamos assumindo que a aproximação a outra aproximação será melhor do que apenas usar a aproximação normal ...)


No entanto, mais importante do que a suposta robustez de nível do (em amostras maiores) é o efeito sobre sua potência . Observe que a eficiência relativa assintótica do teste t em relação ao Wilcoxon-Mann-Whitney (por exemplo) pode ser 0 (ou seja, como os tamanhos das amostras se tornam grandes enquanto os tamanhos dos efeitos que você deseja captar encolhem, você pode exigir amostras muito maiores para ter o mesmo poder que uma alternativa óbvia).t

Portanto, embora o teste t possa acabar tendo uma boa distribuição nula de aparência normal em muitos casos, se for grande o suficiente, seu desempenho sob o nulo não é realmente o que as pessoas mais se importam - é desempenho sob a alternativa - e aí pode não ser tão bom, se você se importa em rejeitar o nulo nos casos em que o efeito não é tão fácil de entender.n

Glen_b
fonte
3
Embora possamos não saber se a média e a variação da amostra são independentes, sempre sabemos que elas não estão correlacionadas . Isso ocorre porque a média da amostra é uma função das somas bivariadas , e a variação da amostra é uma função das diferenças bivariadas (elas são chamadas de "estatísticas U") e temos desde que a distribuição seja "homogênea" , que faz parte da declaração do problema . xi+xjxixjcov(xi+xj,xixj)=var(xi)var(xj)+cov(xi,xj)cov(xj,xi)=0var(xi)=var(xj)
probabilityislogic
1
Infelizmente, a distinção entre não correlacionado e independente é relevante se quisermos terminar com uma distribuição t.
Glen_b
0

Sim, o Teorema do Limite Central nos diz que isso é verdade. Desde que você evite características de cauda extremamente pesada, a não Normalidade não apresenta problemas em amostras de médias a grandes.

Aqui está um artigo de revisão útil;

http://www.annualreviews.org/doi/pdf/10.1146/annurev.publhealth.23.100901.140546

O teste de Wilcoxon (mencionado por outros) pode ter um poder terrível quando a alternativa não é uma mudança de localização da distribuição original. Além disso, a maneira como mede as diferenças entre distribuições não é transitiva.

convidado
fonte
Pontos interessantes sobre o Wilcoxon. No entanto, o teste t tem dificuldades semelhantes: é especialmente ruim na detecção de turnos que são acompanhados por uma variação maior. A parte sobre transitividade parece ser principalmente uma curiosidade no contexto atual; é difícil ver como isso é relevante para o teste de hipótese original ou sua interpretação. (Mas talvez intransitividade poderia tornar-se importante em um cenário ANOVA ou comparações múltiplas.)
whuber
O teste t de variação desigual (que é o padrão em alguns softwares) não tem o problema da heterocedasticidade.
guest
Em relação à transitividade; relatar os meios amostrais ou diferenças de meios (o que é natural usando uma abordagem de teste t) fornece ao leitor algo que eles podem considerar ao fazer amostragens de outras populações. A não transitividade do teste de Wilcoxon significa que essa abordagem não possui esse análogo; o uso de classificações de dados é uma abordagem muito limitada.
guest
1
(1) O teste Satterthwaite-Welch (variação desigual) não supera a perda de energia a que me referi (embora possa ajudar um pouco). (2) Acho que você está sendo extremo ao caracterizar o uso de classificações como "limitado". Em sua resposta, @Frank Harrell estava se referindo a estudos que mostram como o teste de Wilcoxon mantém alta eficiência em muitas situações: isso demonstra como o uso das fileiras é eficaz e mais flexível, não mais limitado, em comparação com os testes t.
whuber
(1) Não, mas fornece a taxa de erro correta do tipo I em amostras de médias a grandes (2) Obrigado, mas discordo respeitosamente. O uso de testes t sobre Wilcoxon facilita muito a ponte entre o teste e o uso de intervalos de confiança. Se alguém só quer fazer testes e nunca olha além dos dois grupos em um estudo, é claro que Wilcoxon tem situações em que funciona bem. Mas, muitas vezes, não queremos apenas testar e ajudar os usuários a generalizar os resultados para outras situações; o teste de Wilcoxon não é útil.
guest
0

Sobre o uso do teste de Wilcoxon-Mann-Whitney como alternativa, recomendo o artigo O teste de Wilcoxon-Man-Whitney sob escrutínio

Como teste de médias ou medianas, o teste de Wilcoxon – Mann – Whitney (WMW) pode ser severamente não robusto para desvios do modelo de turno puro.

Estas são as recomendações dos autores do artigo:

A transformação de classificação pode alterar as médias, desvios padrão e assimetria das duas amostras de maneira diferente. A única situação em que a transformação de classificação é garantida para obter um efeito benéfico é quando as distribuições são idênticas e os tamanhos das amostras são iguais. Para desvios dessas suposições bastante estritas, os efeitos da transformação de classificação nos momentos da amostra são imprevisíveis. No estudo de simulação do artigo, o teste WMW foi comparado com o teste de Fligner-Policello (FP), o teste de Brunner-Munzel (BM), o teste de duas amostras T (T), o teste de Welch U (U), e o teste Welch U nas fileiras (RU). Os quatro testes baseados em classificação (WMW, FP, BM e RU) tiveram desempenho semelhante, embora o teste de BM fosse frequentemente um pouco melhor que os outros. Quando os tamanhos das amostras eram iguais, os testes paramétricos (T e U) foram superiores aos testes baseados na classificação sob a hipótese nula de médias iguais, mas não sob a hipótese nula de medianas iguais. Quando os tamanhos das amostras eram desiguais, os testes BM, RU e U apresentaram melhor desempenho. Para várias configurações, pequenas alterações nas propriedades da população levaram a grandes alterações no desempenho dos testes. Em resumo, a amostra grande do teste WMW aproximado pode ser um método ruim para comparar as médias ou medianas de duas populações, a menos que as duas distribuições tenham formas e escalas iguais. Esse problema também parece se aplicar em vários graus ao teste WMW exato, ao teste FP, ao teste BM e ao teste Welch U nas fileiras. Ao usar o teste WMW, os autores recomendam que as propriedades das amostras classificadas sejam minuciosamente investigadas quanto a sinais de assimetria e heterogeneidade de variância.

user2310909
fonte