Quando usar a distribuição Student ou Normal na regressão linear?

10

Estou analisando alguns problemas e, em alguns, para testar os coeficientes, às vezes vejo pessoas usando a distribuição de Student e às vezes vejo distribuição normal. Qual é a regra?

Leo
fonte
3
Esta não é uma resposta, mas observe que a distribuição aproxima da distribuição normal à medida que o parâmetro de graus de liberdade aumenta. Após , não há diferença significativa, principalmente na maioria das estruturas de teste de hipóteses. O comportamento limitante é "de cima" no sentido de que se if e , entãoé estocticamente maior que. ν ν 30 t ~ t ν Z ~ N ( 0 , 1 ) | T |tνν30TtνZN(0,1)|T||Z|
cardeal

Respostas:

15

A distribuição normal é a grande distribuição de amostra em muitos problemas estatísticos significativos que envolvem alguma versão do Teorema do Limite Central: você tem (aproximadamente) partes independentes de informações que estão sendo adicionadas para chegar à resposta. Se as estimativas de parâmetros forem assintoticamente normais, suas funções também serão assintoticamente normais (em casos regulares).

Por outro lado, a distribuição Student é derivada sob condições mais restritivas dos erros normais de regressão. Se você pode comprar essa suposição, pode comprar a distribuição usada para testar a hipótese em regressão linear. O uso dessa distribuição fornece intervalos de confiança mais amplos do que o uso da distribuição normal. O significado substantivo disso é que, em amostras pequenas, é necessário estimar sua medida de incerteza, o erro quadrático médio da regressão ou o desvio padrão dos resíduos, . (Em amostras grandes, você tem tanta informação quanto se a conhecesse, então a distribuição degenera para a distribuição normal.)t σ tttσt

Existem algumas ocasiões em regressão linear, mesmo com amostras finitas, em que a distribuição de Student não pode ser justificada. Eles estão relacionados a violações das condições de segunda ordem em erros de regressão; ou seja, que eles são (1) variação constante e (2) independentes. Se essas suposições forem violadas, e você corrigir seus erros padrão usando o estimador Eicker / White para resíduos heterocedásticos, mas independentes; ou Newey-West para erros correlacionados em série ou erros padrão em clusterpara dados correlacionados a cluster, não há como você obter uma justificativa razoável para a distribuição de Alunos. No entanto, empregando uma versão apropriada do argumento de normalidade assintótica (matrizes traingulares e outras), você pode justificar a aproximação normal (embora você deva ter em mente que seus intervalos de confiança provavelmente serão muito estreitos).

StasK
fonte
11
(+1) Adoro a implicação, na abertura do terceiro parágrafo, de que a regressão linear é feita com amostras infinitas (não "finitas")!
whuber
@ whuber: :) Nos meus livros, se for normal, deve estar confiando no CLT ou em algo assintótico. Caso contrário, faz tanto sentido quanto isso .
StasK
6

Gosto da representação da distribuição t do aluno como uma mistura de uma distribuição normal e uma distribuição gama:

Student(x|μ,σ2,ν)=0Normal(x|μ,σ2ρ)Gamma(ρ|ν2,ν2)dρ

Observe que a média da distribuição gama é e a variação dessa distribuição é . Portanto, podemos ver a distribuição t como generalizando a suposição de variância constante para uma suposição de variância "semelhante". controla basicamente o quão similar permitimos que as variações sejam. Você também vê isso como regressão "aleatória ponderada", pois podemos usar a integral acima como uma representação de "variável oculta" da seguinte maneira:V [ ρ | ν ] = 2E[ρ|ν]=1 νV[ρ|ν]=2νν

yi=μi+eiρi

Onde e todas as variáveis ​​independentes. De fato, isso é basicamente apenas a definição da distribuição t, comoρ iG a m m a ( νeiN(0,σ2)Lummmum(νρiGamma(ν2,ν2)Gamma(ν2,ν2)1νχν2

Você pode ver por que esse resultado torna a distribuição do aluno "robusta" em comparação com a normal porque um grande erro pode ocorrer devido a um grande valor de ou a um pequeno valor de . Agora, porque é comum a todas as observações, mas é específico à i-ésima, a coisa geral do "senso comum" a concluir é que os discrepantes fornecem evidências de pequenos . Além disso, se você fizer regressão linear , descobrirá que é o peso da i-ésima observação, assumindo que seja conhecido .:σ 2 ρ i σ 2 ρ i ρ iyiμiσ2ρiσ2ρiρiρ i ρ iμi=xiTβρiρi

β^=(iρixixiT)1(iρixiyi)

Portanto, um outlier constitui uma evidência para small que significa que a i-ésima observação ganha menos peso. Além disso, um pequeno "outlier" - uma observação que é prevista / ajustada muito melhor do que o resto - constitui evidência para grandes . Portanto, essa observação terá mais peso na regressão. Isso está de acordo com o que alguém faria intuitivamente com um ponto de dados externo ou bom.ρ iρiρi

Observe que não há uma "regra" para decidir essas coisas, embora a minha e outras respostas a essa pergunta possam ser úteis para encontrar alguns testes que você pode fazer no caminho da variação finita (o aluno t é variação infinita para graus de liberdade menores ou iguais para dois).

probabilityislogic
fonte
+1: parece correto, mas acho que você não deve dizer uma mistura de uma distribuição normal e gama, mas sim uma distribuição composta normal-gama-normal e motivar essa construção dizendo que a distribuição gama normal é a conjugado antes da distribuição normal (parametrizado por média e precisão).
28412 Neil G
Sim, ponto de vista sobre a mistura - embora eu não consiga pensar em uma maneira não desajeitada de corrigi-la agora. Observe que este formulário não é exclusivo para conjugar distribuições - por exemplo, se substituirmos o pdf gama por um pdf exponencial invertido, obteremos a distribuição laplace. Isso leva a "desvios mínimos absolutos" em vez de mínimos quadrados como uma forma de robustecer a distribuição normal. Outras distribuições levariam a outras "robustações" - talvez não tão analiticamente bonitas quanto as dos alunos.
probabilityislogic
Se X é uma variável aleatória normal padrão e U é uma variável aleatória qui-quadrado com ν graus de liberdade, então é um aluno t (v) variável aleatória. aqui . X(U/ν)
Carl