Eu estava olhando para este caderno e estou intrigado com esta afirmação:
Quando falamos de normalidade, queremos dizer que os dados devem parecer uma distribuição normal. Isso é importante porque vários testes estatísticos dependem disso (por exemplo, estatísticas t).
Não entendo por que uma estatística T precisa dos dados para seguir uma distribuição normal.
De fato, a Wikipedia diz a mesma coisa:
A distribuição t do aluno (ou simplesmente a distribuição t) é qualquer membro de uma família de distribuições de probabilidade contínuas que surgem ao estimar a média de uma população normalmente distribuída
No entanto, não entendo por que essa suposição é necessária.
Nada da sua fórmula indica para mim que os dados devem seguir uma distribuição normal:
Eu olhei um pouco em sua definição, mas não entendo por que a condição é necessária.
fonte
Eu acho que pode haver alguma confusão entre a estatística e sua fórmula, versus a distribuição e sua fórmula. Você pode aplicar a fórmula da estatística t a qualquer conjunto de dados e obter uma "estatística t", mas essa estatística não será distribuída de acordo com a distribuição student-t, a menos que os dados venham de uma distribuição normal (ou, pelo menos, não será garantido; meu palpite é que distribuições não normais não produzirão uma distribuição t de student quando a fórmula estatística t for aplicada, mas não tenho certeza disso. A razão para isso é simplesmente que a distribuição da estatística t é calculada a partir da distribuição dos dados que a geraram; portanto, se você tiver uma distribuição subjacente diferente, não há garantia de ter a mesma distribuição para as estatísticas derivadas.
fonte