Estou participando de uma aula de análise de dados e algumas das minhas idéias bem enraizadas estão sendo abaladas. Nomeadamente, a ideia de que o erro (epsilon), assim como qualquer outro tipo de variação, se aplica apenas (pensei) a um grupo (uma amostra ou uma população inteira). Agora, estamos aprendendo que uma das suposições de regressão é que a variação é "a mesma para todos os indivíduos". Isso é de alguma forma chocante para mim. Eu sempre pensei que era a variação em Y entre todos os valores de X que era assumida como constante.
Conversei com o professor, que me disse que, quando fazemos uma regressão, assumimos que nosso modelo é verdadeiro. E acho que essa é a parte complicada. Para mim, o termo erro (epsilon) sempre significou algo como "quaisquer elementos que não conhecemos e que possam afetar nossa variável de resultado, além de algum erro de medição". Na maneira como a turma é ministrada, não existem outras coisas; presume-se que nosso modelo seja verdadeiro e completo. Isso significa que toda variação residual deve ser pensada como um produto de erro de medição (portanto, a medição de um indivíduo 20 vezes deve produzir a mesma variação que a medição de 20 indivíduos por vez).
Sinto que algo está errado em algum lugar, gostaria de ter alguma opinião de especialista sobre isso ... Existe algum espaço para interpretação sobre qual é o termo do erro, conceitualmente falando?
fonte
Respostas:
Se há aspectos de indivíduos que afetam os valores y resultantes, ou existe uma maneira de chegar a esses aspectos (nesse caso, eles devem fazer parte do preditor x) ou não há como chegar a esse ponto em formação.
Se não há como obter essas informações e não há como medir repetidamente os valores de y para os indivíduos, isso realmente não importa. Se você pode medir y repetidamente, e se o seu conjunto de dados realmente contém medições repetidas para alguns indivíduos, você tem um problema potencial em suas mãos, pois a teoria estatística assume a independência dos erros / resíduos de medição.
Por exemplo, suponha que você esteja tentando ajustar um modelo do formulário
e isso para cada indivíduo,
onde z depende do indivíduo e é normalmente distribuído com média 0 e desvio padrão 10. Para cada medição repetida de um indivíduo,
onde é normalmente distribuído com média 0 e desvio padrão 0,1.e
Você pode tentar modelar isso como
ondeϵ é normalmente distribuído com média 0 e desvio padrão
Contanto que você tenha apenas uma medida para cada indivíduo, tudo bem. No entanto, se você tiver várias medidas para o mesmo indivíduo, seus resíduos não serão mais independentes!
fonte
Penso que "erro" é melhor descrito como "a parte das observações imprevisíveis, dada a nossa informação atual". Tentar pensar em termos de população versus amostra leva a problemas conceituais (do mesmo modo para mim), assim como pensar nos erros como "puramente aleatórios", extraídos de alguma distribuição. pensar em termos de previsão e "previsibilidade" faz muito mais sentido para mim.
fonte
Aqui está um link muito útil para explicar a regressão linear simples: http://www.dangoldstein.com/dsn/archives/2006/03/every_wonder_ho.html talvez possa ajudar a entender o conceito de "erro".
FD
fonte
Eu discordo da formulação do professor disso. Como você diz, a ideia de que a variação é a mesma para cada indivíduo implica que o termo de erro representa apenas erro de medição. Geralmente, não é assim que o modelo básico de regressão múltipla é construído. Além disso, como você diz, a variação é definida para um grupo (seja um grupo de sujeitos individuais ou um grupo de medidas). Não se aplica no nível individual, a menos que você tenha repetido as medidas.
Um modelo precisa ser completo, pois o termo de erro não deve conter influências de nenhuma variável correlacionada com preditores. A suposição é que o termo de erro é independente dos preditores. Se alguma variável correlacionada for omitida, você obterá coeficientes de polarização (isso é chamado de polarização de variável omitida ).
fonte