por que, quando temos erros distribuídos normalmente, a validade de nossas declarações de significância é comprometida? Por que os intervalos de confiança serão muito amplos ou estreitos?
Os intervalos de confiança são baseados na maneira como o numerador e o denominador são distribuídos em uma estatística t.
Com dados normais, o numerador de uma estatística t tem uma distribuição normal e a distribuição do quadrado do denominador (que é então uma variação) é um múltiplo particular de uma distribuição qui-quadrado. Quando o numerador e o denominador também são independentes (como será o caso apenas dos dados normais, considerando que as próprias observações são independentes), toda a estatística tem uma distribuição t.
Isso significa que uma estatística t como será uma quantidade essencial (sua distribuição não depende do que é o verdadeiro coeficiente de inclinação e é uma função do desconhecido ), o que o torna adequado para a construção de intervalos de confiança ... e esses intervalos usarão os quantiles em sua construção para obter a cobertura desejada.β^- βsβ^βt
Se os dados fossem de alguma outra distribuição, a estatística não teria uma distribuição t. Por exemplo, se fosse de cauda pesada, a distribuição t tenderia a ser um pouco mais clara (as observações externas afetam mais o denominador do que o numerador). Aqui está um exemplo. Nos dois casos, o histograma é para 10.000 regressões:
O histograma à esquerda é para quando os dados são condicionalmente normais, n = 30 (e, nesse caso, ). A distribuição parece como deveria. O histograma à direita é o caso em que a distribuição condicional é inclinada à direita e de cauda pesada, e o histograma mostra muito poucos valores fora de - a distribuição não se parece muito com a distribuição teórica para dados normais, porque a estatística não tem mais a distribuição t.β= 0( - 2 , 2 )
Um intervalo t de 95% (que deve incluir 95% das pistas em nossa amostra) varia de -2,048 a 2,048. Para os dados normais, incluiu 95,15% das 10000 pistas de amostragem. Para os dados distorcidos, inclui 99,91%.