Como a distribuição do termo de erro afeta a distribuição da resposta?

14

Portanto, quando suponho que os termos do erro sejam normalmente distribuídos em uma regressão linear, o que isso significa para a variável de resposta ?y

MarkDollar
fonte

Respostas:

7

Talvez eu esteja de folga, mas acho que deveríamos estar pensando em , que é como eu leio o OP. No caso mais simples de regressão linear, se o seu modelo for y = X β + ϵ , o único componente estocástico no seu modelo é o termo do erro. Como tal, determina a distribuição amostral de y . Se ε ~ N ( 0 , σ 2 I ) , em seguida, y | X , β N ( X β ,f(y|β,X)y=Xβ+ϵyϵN(0,σ2I) . O que @Aniko diz é certamente verdade sobre f ( y ) (marginalmente acima de X , β ), no entanto. Portanto, a questão é um pouco vaga.y|X,βN(Xβ,σ2I)f(y)X,β

JMS
fonte
Eu gosto de todos os comentários! E todos eles parecem estar certos. Mas eu estava apenas procurando a resposta mais fácil :) O que acontece quando você assume que o termo incorreto é distribuído normalmente. Que isso ocorra agora com muita frequência na realidade fica claro com as outras respostas! Muito obrigado!
MarkDollar
17

A resposta curta é que você não pode concluir nada sobre a distribuição de , porque depende da distribuição dos xs e da força e forma do relacionamento. Mais formalmente, y terá uma distribuição de "mistura de normais", que na prática pode ser praticamente qualquer coisa.yxy

Aqui estão dois exemplos extremos para ilustrar isso:

  1. Suponha que haja apenas dois valores possíveis de , 0 an 1 e y = 10 x + N ( 0 , 1 ) . Então y terá uma distribuição fortemente bimodal com saliências em 0 e 10.xy=10x+N(0,1)y
  2. Agora assuma o mesmo relacionamento, mas permita que seja distribuído uniformemente no intervalo 0-1 com muitos valores. Então y será distribuído quase uniformemente no intervalo de 0 a 10 (com algumas caudas semi-normais nas bordas).xy

De fato, como toda distribuição pode ser aproximada arbitrariamente bem com a mistura de normais, é possível obter realmente qualquer distribuição para .y

Aniko
fonte
8
+1 Quanto à última afirmação: uma vez cometi o erro de pensar isso também. Matematicamente, você está correto, mas, na prática, é quase impossível aproximar um pico não diferenciável de normais (como distribuições em forma de J ou U): os normais são muito baixos em seus picos para capturar a densidade dos picos. Você precisa de muitos componentes. As normais são boas para aproximar distribuições cujos PDFs são muito suaves.
whuber
1
@whuber concordou. Eu não sugeriria usar uma aproximação de mistura normal para qualquer distribuição na prática; estava apenas tentando dar um contra-exemplo extremo.
Aniko 27/05
5

Inventamos o termo de erro impondo um modelo fictício a dados reais; a distribuição do termo de erro não afeta a distribuição da resposta.

Geralmente assumimos que o erro é distribuído normalmente e, portanto, tentamos construir o modelo de modo que nossos resíduos estimados sejam normalmente distribuídos. Isso pode ser difícil para algumas distribuições de . Nesses casos, suponho que você possa dizer que a distribuição da resposta afeta o termo do erro.y

Thomas Levine
fonte
2
"Nós muitas vezes tentam construir o modelo de tal forma que o nosso termo de erro é normalmente distribuída" - para ser mais preciso, eu acho que você está se referindo ao resíduos . Estas são as estimativas dos termos de erro, da mesma forma que X β é uma estimativa de E ( Y ) = X β . Gostaríamos que os resíduos parecessem normais, porque é o que assumimos sobre os termos de erro para começar. Nós "inventamos" o termo de erro especificando um modelo, não o ajustando. yXβ^Xβ^E(y)=Xβ
JMS 28/05
Eu concordo com a sua precisão, JMS. +1 e eu ajustarei minha resposta.
Thomas Levine
2

Se você escrever a resposta como Onde m é o "modelo" (a previsão para y ) ee são os "erros", isso pode ser reorganizado para indicar y - m = e 0 , σ 2 ) basicamente diz que os erros são pequenos em unidades de σ . A idéia é que as previsões do modelo tendem a ser "erradas" em quantidades semelhantes para observações diferentes e são "quase certas" na escala de σ . Por outro lado, uma atribuição alternativa é C a u c h y

y=m+e
myeym=e . Portanto, atribuir uma distribuição para os erros é o mesmo que indicar as maneiras pelas quais seu modelo está incompleto. Em outras palavras, indica em que medida você não sabe por que a resposta observada foi o valor que realmente era e não o que o modelo previu. Se você soubesse que seu modelo era perfeito, atribuiria uma distribuição de probabilidade com toda a sua massa em zero para os erros. Atribuindo um N(0,σ2)σσ que diz que a maioria dos erros é pequena, mas alguns são grandes - o modelo apresenta ocasionalmente "erro" ou "choque" em termos de prever a resposta.Cauchy(0,γ)

Em certo sentido, a distribuição de erros está mais intimamente ligada ao modelo do que à resposta. Isto pode ser visto a partir da não-identificabilidade da equação acima, para se ambos e E são desconhecidos, em seguida, adicionando um vector arbitrário para m e subtraindo-o e leva para o mesmo valor de y , y = m + e = ( m + b ) + ( e - b ) = m . A atribuição de uma distribuição de erro e uma equação de modelo basicamente diz quais vetores arbitrários são mais plausíveis que outros.memeyy=m+e=(m+b)+(eb)=m+e

probabilityislogic
fonte
H0:yf0H1:yf1
nyiYxiY=Xβ+ϵϵY|β,X
@JMS - Acho que devo excluir esse primeiro parágrafo. Acho que não acrescenta nada à minha resposta (além de confusão).
probabilityislogic
uma das minhas coisas favoritas para adicionar aos meus respostas :)
JMS