Por que uma estatística T precisa dos dados para seguir uma distribuição normal

11

Eu estava olhando para este caderno e estou intrigado com esta afirmação:

Quando falamos de normalidade, queremos dizer que os dados devem parecer uma distribuição normal. Isso é importante porque vários testes estatísticos dependem disso (por exemplo, estatísticas t).

Não entendo por que uma estatística T precisa dos dados para seguir uma distribuição normal.

De fato, a Wikipedia diz a mesma coisa:

A distribuição t do aluno (ou simplesmente a distribuição t) é qualquer membro de uma família de distribuições de probabilidade contínuas que surgem ao estimar a média de uma população normalmente distribuída

No entanto, não entendo por que essa suposição é necessária.

Nada da sua fórmula indica para mim que os dados devem seguir uma distribuição normal:

insira a descrição da imagem aqui

Eu olhei um pouco em sua definição, mas não entendo por que a condição é necessária.

octaviano
fonte

Respostas:

17

As informações necessárias estão na seção "Caracterização" da página Wiki . Uma distribuição com graus de liberdade pode ser definida como a distribuição da variável aleatória tal que que é uma distribuição normal padrão variável aleatória e é uma variável aleatória com graus de liberdade . Além disso, e devem ser independentes. Portanto, dado qualquer e que seguem a definição acima, você pode chegar a uma variável aleatória que possui umν T T = ZtνTZ V χ 2 ν Z V Z V t

T=ZV/ν,
ZVχ2νZVZVtdistribuição .

Agora, suponha que é distribuído de acordo com uma distribuição . Seja média e a variação . Seja a média da amostra e a variação da amostra. Vamos então olhar para as fórmulas: F F μ σ 2 ˉ X S 2X1,X2,,XnFFμσ2X¯S2

X¯μS/n=X¯μσ/n(n1)S2(n1)σ2.

Se, denota a distribuição normal, então e, portanto, . Além disso, pelo Teorema de Cochran . Finalmente, por uma aplicação do teorema de Basu , e são independentes. Isso implica que a estatística resultante tem uma distribuição com graus de liberdade.ˉ XN ( μ , σ 2 / n ) ˉ X - μFX¯N(μ,σ2/n)(n-1)S2X¯μσ/nN(0,1) ˉ X S2tn-1(n1)S2σ2χn12X¯S2tn1

Se a distribuição de dados original não for normal, a distribuição exata do numerador e do denominador não será normal padrão e , respectivamente, e, portanto, as estatísticas resultantes não terão uma distribuição .χ 2 tFχ2t

Greenparker
fonte
3
Eu sempre achei muito interessante quanta tecnologia matemática entra nesses resultados fundamentais em estatística matemática.
Matthew Drury
3
Bom post. No entanto, não precisamos invocar esses grandes teoremas para provar a independência entre e , bem como a . Veja a primeira resposta deste post. Sχ2X¯Sχ2
Zhanxiong
2

Eu acho que pode haver alguma confusão entre a estatística e sua fórmula, versus a distribuição e sua fórmula. Você pode aplicar a fórmula da estatística t a qualquer conjunto de dados e obter uma "estatística t", mas essa estatística não será distribuída de acordo com a distribuição student-t, a menos que os dados venham de uma distribuição normal (ou, pelo menos, não será garantido; meu palpite é que distribuições não normais não produzirão uma distribuição t de student quando a fórmula estatística t for aplicada, mas não tenho certeza disso. A razão para isso é simplesmente que a distribuição da estatística t é calculada a partir da distribuição dos dados que a geraram; portanto, se você tiver uma distribuição subjacente diferente, não há garantia de ter a mesma distribuição para as estatísticas derivadas.

Acumulação
fonte