Portanto, quando suponho que os termos do erro sejam normalmente distribuídos em uma regressão linear, o que isso significa para a variável de resposta ?
regression
distributions
MarkDollar
fonte
fonte
A resposta curta é que você não pode concluir nada sobre a distribuição de , porque depende da distribuição dos xs e da força e forma do relacionamento. Mais formalmente, y terá uma distribuição de "mistura de normais", que na prática pode ser praticamente qualquer coisa.y x y
Aqui estão dois exemplos extremos para ilustrar isso:
De fato, como toda distribuição pode ser aproximada arbitrariamente bem com a mistura de normais, é possível obter realmente qualquer distribuição para .y
fonte
Inventamos o termo de erro impondo um modelo fictício a dados reais; a distribuição do termo de erro não afeta a distribuição da resposta.
Geralmente assumimos que o erro é distribuído normalmente e, portanto, tentamos construir o modelo de modo que nossos resíduos estimados sejam normalmente distribuídos. Isso pode ser difícil para algumas distribuições de . Nesses casos, suponho que você possa dizer que a distribuição da resposta afeta o termo do erro.y
fonte
Se você escrever a resposta como Onde m é o "modelo" (a previsão para y ) ee são os "erros", isso pode ser reorganizado para indicar y - m = e 0 , σ 2 ) basicamente diz que os erros são pequenos em unidades de σ . A idéia é que as previsões do modelo tendem a ser "erradas" em quantidades semelhantes para observações diferentes e são "quase certas" na escala de σ . Por outro lado, uma atribuição alternativa é C a u c h y
Em certo sentido, a distribuição de erros está mais intimamente ligada ao modelo do que à resposta. Isto pode ser visto a partir da não-identificabilidade da equação acima, para se ambos e E são desconhecidos, em seguida, adicionando um vector arbitrário para m e subtraindo-o e leva para o mesmo valor de y , y = m + e = ( m + b ) + ( e - b ) = m ′ . A atribuição de uma distribuição de erro e uma equação de modelo basicamente diz quais vetores arbitrários são mais plausíveis que outros.m e m e y y=m+e=(m+b)+(e−b)=m′+e′
fonte