Pergunta sobre a suposição de normalidade do teste t

9

Para testes t, de acordo com a maioria dos textos, há uma suposição de que os dados da população são normalmente distribuídos. Não vejo por que isso é. Um teste t não exige apenas que a distribuição amostral da média amostral seja normalmente distribuída, e não a população?

Se o teste t exigir apenas normalidade na distribuição amostral, a população pode se parecer com qualquer distribuição, certo? Contanto que haja um tamanho de amostra razoável. Não é isso que afirma o teorema do limite central?

(Estou me referindo aqui aos testes t de uma amostra ou amostras independentes)

Peter Nash
fonte
11
Bem, a média da amostra como variável aleatória só pode ser normal se as partes únicas também forem normais. Mas você está certo: o teste t é assintoticamente não paramétrico (sem distribuição normal), mas ainda assim as variações dentro do grupo (na situação de duas amostras) devem ser semelhantes e existentes.
Michael M
Por variações dentro do grupo serem semelhantes, você está se referindo à suposição da homogeneidade da variação? Se sim, o teste t da soldadura está correto, correto?
Peter
Sim, exatamente. Se os graus corrigidos de liberdade de Welch chegarem ao infinito, então seu procedimento também será livre de distribuição (citação necessária no entanto ...).
Michael M

Respostas:

9

Para testes t, de acordo com a maioria dos textos, há uma suposição de que os dados da população são normalmente distribuídos. Não vejo por que isso é. Um teste t não exige apenas que a distribuição amostral da média amostral seja normalmente distribuída, e não a população?

A estatística t consiste em uma razão de duas quantidades, ambas variáveis ​​aleatórias. Não consiste apenas de um numerador.

Para que a estatística t tenha a distribuição t, você não precisa apenas que a média da amostra tenha uma distribuição normal. Você também precisa:

  • que no denominador seja tal que *s 2 / σ 2 ~ χ 2 dss2/σ2χd2

  • que o numerador e o denominador sejam independentes.

* (o valor de depende de qual teste - na amostra temos )t d = n - 1dtd=n1

Para que essas três coisas sejam realmente verdadeiras, é necessário que os dados originais sejam normalmente distribuídos.

Se o teste t exigir apenas normalidade na distribuição amostral, a população pode se parecer com qualquer distribuição, certo?

Vamos considerar o iid como dado por um momento. Para que o CLT mantenha a população, deve atender às condições ... - a população deve ter uma distribuição à qual o CLT se aplica. Portanto, não, pois existem distribuições populacionais às quais o CLT não se aplica.

Contanto que haja um tamanho de amostra razoável. Não é isso que afirma o teorema do limite central?

Não, o CLT na verdade não diz uma palavra sobre "tamanho razoável da amostra".

Na verdade, nada diz sobre o que acontece em qualquer tamanho finito de amostra.

Estou pensando em uma distribuição específica agora. É a que o CLT certamente se aplica. Mas em , a distribuição da média da amostra é claramente não normal. No entanto, duvido que qualquer amostra da história da humanidade tenha tido tantos valores nela. Então - fora da tautologia - o que significa 'razoável '? nn=1015n


Então você tem dois problemas:

R. O efeito que as pessoas geralmente atribuem ao CLT - a abordagem cada vez mais próxima da normalidade das distribuições das médias das amostras em tamanhos de amostra pequenos / moderados - não é realmente declarado no CLT **.

B. "Algo não tão distante do normal no numerador" não é suficiente para obter a estatística com uma distribuição t

** (Algo como o teorema de Berry-Esseen deixa você mais parecido com o que as pessoas estão vendo quando observam o efeito do aumento do tamanho da amostra na distribuição das médias das amostras.)


O teorema de CLT e Slutsky fornece a você (contanto que todas as suposições deles) que, como , a distribuição da estatística t se aproxima do padrão normal. Não diz se um finito pode ser suficiente para algum propósito.nnn

Glen_b -Reinstate Monica
fonte
11
Para que essas três coisas [normalidade da média da amostra, qui-quadrado da variação da amostra e independência das duas] sejam realmente verdadeiras, você precisa que os dados originais sejam normalmente distribuídos. Você está dizendo que apenas o Normal tem essas três propriedades? Não estou afirmando que a afirmação é falsa, apenas curiosa para saber o que você está dizendo.
Andrew M
2
@AndrewM Certamente apenas o normal tem os três juntos. Além disso, o primeiro ou o terceiro por si só são suficientes para implicar o normal - o terceiro caracteriza o normal ( Lukacs, 1942 ), e para números finitos de variáveis ​​aleatórias independentes, apenas o normal tem o primeiro ( teorema de decomposição de Cramér ). É concebível que exista outra maneira de obter a segunda, mas não conheço uma.
Glen_b -Reinstate Monica
@AndrewM em relação ao segundo, o trabalho de Ahsanullah (1987, 1989) pode ser relevante.
Glen_b -Reinstate Monica
11
Obrigado por essas referências @Glen_b! Eu não estava ciente do resultado de Lukács, e o teorema de decomposição de Cramer, como afirmado, é bastante mais forte do que a versão que eu tinha no topo da minha cabeça ( Normal se Normal, para todas as matrizes ). O X ~ UmXAXA
Andrew M
@AndrewM A diferença é que o resultado que você cita não depende da independência, enquanto o resultado do Cramer depende. Ambos são úteis em seu lugar.
Glen_b -Reinstate Monica