Por que uma distribuição T usada para testar hipóteses é um coeficiente de regressão linear?

16

Na prática, o uso de um teste T padrão para verificar a significância de um coeficiente de regressão linear é prática comum. A mecânica do cálculo faz sentido para mim.

Por que a distribuição T pode ser usada para modelar a estatística de teste padrão usada no teste de hipótese de regressão linear? Estatística de teste padrão a que me refiro aqui:

T0=β^β0SE(β^)
Nate Parke
fonte
Uma resposta completa e completa a esta pergunta será bastante longa, tenho certeza. Portanto, enquanto você espera que alguém resolva isso, você pode ter uma boa idéia de por que esse é o caso, observando algumas notas que encontrei on-line aqui: onlinecourses.science.psu.edu/stat501/node/297 . Observe especificamente que t(np)2=F(1,np) .
StatsStudent
11
Eu não posso acreditar que isso não é uma duplicata e, no entanto, todos os votos positivos (tanto na pergunta quanto nas respostas) ... E quanto a isso ? Ou talvez não seja uma duplicata, o que significa que existem (ou até hoje) tópicos super-básicos ainda que não foram abordados nos quase sete anos de existência do Cross Validated ... Uau ...
Richard Hardy
@RichardHardy Hmm, isso soa como uma duplicata. Embora seja mais detalhado, a questão é especificamente: "Como eu posso provar que para β i , β i - β iβ^i"β^iβisβ^itnk
Firebug

Respostas:

25

Para entender por que usamos a distribuição t, você precisa saber o que é a distribuição subjacente de β e da soma dos quadrados dos resíduos ( R S S ) uma vez que estes dois juntos put lhe dará a distribuição t.β^RSS

A parte mais fácil é a distribuição de β que é uma distribuição normal - para ver esta nota que β = ( X T X ) - 1 X T Y por isso é uma função linear de Y onde Y ~ N ( X β , σ 2 I n ) . Como resultado, é também normalmente distribuída, β ~ N ( β , σ 2 ( X T X ) -β^β^(XTX)1XTYYYN(Xβ,σ2In)- deixe-me saber se você precisar de ajuda derivando a distribuição de β .β^N(β,σ2(XTX)1)β^

Além disso, , onde n é o número de observações e p é o número de parâmetros utilizados na sua regressão. A prova disso é um pouco mais envolvente, mas também é fácil de obter (veja a prova aqui Por que o RSS é distribuído chi square times np? ).RSSσ2χnp2np

Até este ponto eu considerei tudo na matriz / vetor notação, mas vamos para uso simplicidade β i e usar sua distribuição normal, que nos dará: β i - β iβ^i

β^iβiσ(XTX)ii1N(0,1)

Além disso, a partir da distribuição qui-quadrado de , temos que: ( n - p ) s 2RSS

(np)s2σ2χnp2

Isso foi simplesmente um rearranjo da primeira expressão qui-quadrado e é independente do . Além disso, definimos s 2 = R S SN(0,1) , que é um estimador imparcial paraσ2. Pela definição da definiçãotn-pque divide uma distribuição normal por um qui-quadrado independente (sobre seus graus de liberdade) fornece uma distribuição t (para a prova, consulte:Uma normal dividida pelas2=RSSnpσ2tnp fornece uma prova de distribuição tχ2(s)/s), você obtém o seguinte:

β^iβis(XTX)ii1tnp

Onde .s(XTX)ii1=SE(β^i)

Deixe-me saber se faz sentido.

francium87d
fonte
β^iβiσ(XTX)ii1N(0,1)
?
KingDingeling
4

The answer is actually very simple: you use t-distribution because it was pretty much designed specifically for this purpose.

Ok, the nuance here is that it wasn't designed specifically for the linear regression. Gosset came up with distribution of sample that was drawn from the population. For instance, you draw a sample x1,x2,,xn, and calculate its mean x¯=i=1nxi/n. What is the distribution of a sample mean x¯?

If you knew the true (population) standard deviation σ, then you'd say that the variable ξ=(x¯μ)n/σ is from the standard normal distribution N(0,1). The trouble's that you usually do not know σ, and can only estimate it σ^. So, Gosset figured out the distribution when you substitute σ with σ^ in the denominator, and the distribution is now called after his pseduonym "Student t".

The technicalities of linear regression lead to a situation where we can estimate the standard error σ^β of the coefficient estimate β^, but we do not know the true σ, therefore Student t distribution is applied here too.

Aksakal
fonte