Na prática, o uso de um teste T padrão para verificar a significância de um coeficiente de regressão linear é prática comum. A mecânica do cálculo faz sentido para mim.
Por que a distribuição T pode ser usada para modelar a estatística de teste padrão usada no teste de hipótese de regressão linear? Estatística de teste padrão a que me refiro aqui:
regression
hypothesis-testing
linear-model
t-distribution
Nate Parke
fonte
fonte
Respostas:
Para entender por que usamos a distribuição t, você precisa saber o que é a distribuição subjacente de β e da soma dos quadrados dos resíduos ( R S S ) uma vez que estes dois juntos put lhe dará a distribuição t.βˆ RSS
A parte mais fácil é a distribuição de β que é uma distribuição normal - para ver esta nota que β = ( X T X ) - 1 X T Y por isso é uma função linear de Y onde Y ~ N ( X β , σ 2 I n ) . Como resultado, é também normalmente distribuída, β ~ N ( β , σ 2 ( X T X ) -βˆ βˆ (XTX)−1XTY Y Y∼N(Xβ,σ2In) - deixe-me saber se você precisar de ajuda derivando a distribuição de β .βˆ∼N(β,σ2(XTX)−1) βˆ
Além disso, , onde n é o número de observações e p é o número de parâmetros utilizados na sua regressão. A prova disso é um pouco mais envolvente, mas também é fácil de obter (veja a prova aqui Por que o RSS é distribuído chi square times np? ).RSS∼σ2χ2n−p n p
Até este ponto eu considerei tudo na matriz / vetor notação, mas vamos para uso simplicidade β i e usar sua distribuição normal, que nos dará: β i - β iβˆi
Além disso, a partir da distribuição qui-quadrado de , temos que: ( n - p ) s 2RSS
Isso foi simplesmente um rearranjo da primeira expressão qui-quadrado e é independente do . Além disso, definimos s 2 = R S SN(0,1) , que é um estimador imparcial paraσ2. Pela definição da definiçãotn-pque divide uma distribuição normal por um qui-quadrado independente (sobre seus graus de liberdade) fornece uma distribuição t (para a prova, consulte:Uma normal dividida pela√s2=RSSn−p σ2 tn−p fornece uma prova de distribuição tχ2(s)/s−−−−−−√ ), você obtém o seguinte:
Onde .s(XTX)−1ii−−−−−−−−√=SE(βˆi)
Deixe-me saber se faz sentido.
fonte
The answer is actually very simple: you use t-distribution because it was pretty much designed specifically for this purpose.
Ok, the nuance here is that it wasn't designed specifically for the linear regression. Gosset came up with distribution of sample that was drawn from the population. For instance, you draw a samplex1,x2,…,xn , and calculate its mean x¯=∑ni=1xi/n . What is the distribution of a sample mean x¯ ?
If you knew the true (population) standard deviationσ , then you'd say that the variable ξ=(x¯−μ)n−−√/σ is from the standard normal distribution N(0,1) . The trouble's that you usually do not know σ , and can only estimate it σ^ . So, Gosset figured out the distribution when you substitute σ with σ^ in the denominator, and the distribution is now called after his pseduonym "Student t".
The technicalities of linear regression lead to a situation where we can estimate the standard errorσ^β of the coefficient estimate β^ , but we do not know the true σ , therefore Student t distribution is applied here too.
fonte