Pergunta bastante básica:
O que significa uma distribuição normal de resíduos de uma regressão linear? Em termos de, como isso se reflete nos meus dados originais da regressão?
Estou totalmente perplexo, obrigado pessoal
fonte
Pergunta bastante básica:
O que significa uma distribuição normal de resíduos de uma regressão linear? Em termos de, como isso se reflete nos meus dados originais da regressão?
Estou totalmente perplexo, obrigado pessoal
De fato, a regressão linear modela os valores condicionais esperados do seu resultado. Isso significa: se você soubesse os valores reais dos parâmetros de regressão (digamos e β 1 ), dado um valor do seu preditor X, preenchendo-o na equação E [ Y | X ] = β 0 + β 1 X vai fazer com que o cálculo do valor esperado para Y sobre todos os possíveis () observações que têm esse valor dado para X .
No entanto: você realmente não espera que nenhum valor único para esse valor X seja exatamente igual à média (condicional). Não porque seu modelo esteja errado, mas porque existem alguns efeitos que você não considerou (por exemplo, erro de medição). Portanto, esses valores Y para um dado valor X flutuam em torno do valor médio (ou seja, geometricamente: em torno do ponto da linha de regressão para esse X ).
A suposição de normalidade, agora, diz que a diferença entre os e seus pares E [ Y | X ] segue uma distribuição normal com média zero. Isso significa que, se você tiver um valor X , poderá obter uma amostra de um valor Y calculando primeiro β 0 + β 1 X (ou seja, novamente E [ Y | X ] , o ponto na linha de regressão), próxima amostragem ϵ a partir do normal distribuição e adição: Y ′ = E [ Y | X
Resumindo: essa distribuição normal representa a variabilidade do resultado, além da variabilidade explicada pelo modelo.
Nota: na maioria dos conjuntos de dados, você não possui vários valores para um determinado X (a menos que seu conjunto de preditores seja categórico), mas essa normalidade se aplica a toda a população, não apenas às observações em seu conjunto de dados.
Nota: Fiz o raciocínio para a regressão linear com um preditor, mas o mesmo vale para mais: basta substituir "line" por "hyperplane" acima.
Pode significar muito ou não pode significar nada. Se você encaixa um modelo para obter o R-quadrado mais alto, isso pode significar que você foi tolo. Se você encaixa um modelo para ser parcimonioso, pois as variáveis são necessárias e necessárias e se preocupa em identificar discrepantes, você fez um bom trabalho. Dê uma olhada aqui para obter mais informações sobre este http://www.autobox.com/cms/index.php?option=com_content&view=article&id=175
fonte
A normalidade dos resíduos é uma suposição de executar um modelo linear. Portanto, se seus resíduos são normais, significa que sua suposição é válida e a inferência do modelo (intervalos de confiança, previsões do modelo) também deve ser válida. É simples assim!
fonte