Como conceitualizar o erro em um modelo de regressão?

11

Estou participando de uma aula de análise de dados e algumas das minhas idéias bem enraizadas estão sendo abaladas. Nomeadamente, a ideia de que o erro (epsilon), assim como qualquer outro tipo de variação, se aplica apenas (pensei) a um grupo (uma amostra ou uma população inteira). Agora, estamos aprendendo que uma das suposições de regressão é que a variação é "a mesma para todos os indivíduos". Isso é de alguma forma chocante para mim. Eu sempre pensei que era a variação em Y entre todos os valores de X que era assumida como constante.

Conversei com o professor, que me disse que, quando fazemos uma regressão, assumimos que nosso modelo é verdadeiro. E acho que essa é a parte complicada. Para mim, o termo erro (epsilon) sempre significou algo como "quaisquer elementos que não conhecemos e que possam afetar nossa variável de resultado, além de algum erro de medição". Na maneira como a turma é ministrada, não existem outras coisas; presume-se que nosso modelo seja verdadeiro e completo. Isso significa que toda variação residual deve ser pensada como um produto de erro de medição (portanto, a medição de um indivíduo 20 vezes deve produzir a mesma variação que a medição de 20 indivíduos por vez).

Sinto que algo está errado em algum lugar, gostaria de ter alguma opinião de especialista sobre isso ... Existe algum espaço para interpretação sobre qual é o termo do erro, conceitualmente falando?

Dominic Comtois
fonte
3
Talvez o que ele quis dizer tenha sido que, mesmo que o modelo seja verdadeiro, ainda exista variação aleatória nas respostas - isso é capturado pela variação do erro - isso pode, por exemplo, ser atribuído a um aparato de medição imperfeito. Outros, às vezes, conceituam a variação de erro como a resultante de preditores ausentes (não necessariamente erros na forma do modelo), implicando que, se todos os preditores possíveis fossem medidos, a variação de erro seria 0. Isso não é inconsistente com o primeiro - os erros na medição pode ser pensado como um "preditor ausente".
Macro
Acho que uma coisa que sempre é difícil de entender a princípio é que "erro" pode significar coisas diferentes nesse caso. "Erro" pode se referir à diferença entre os valores ajustados que obtemos de nosso modelo e os valores observados (a discrepância pode ser devida a um modelo bastante parcimonioso, por exemplo). "Erro" também pode significar a diferença entre os valores observados e os valores verdadeiros (a discrepância pode ser devida, por exemplo, ao dispositivo usado para medir os valores arredondados para o número inteiro mais próximo / décimo decimal / etc.). [O primeiro tipo é o local em que você ouviria termos como "resíduos / variação residual".]
@ Macro Sim, isso me parece uma maneira natural de pensar no erro. No entanto, estou tentando entender por que o professor insistiu na definição mais rígida (pensar nisso como aplicável a cada indivíduo, mesmo sabendo que, na realidade, isso não é verdade).
Dominic Comtois
@MikeWierzbicki Right. E se eu entendi corretamente, tudo isso está agrupado no ponto de vista "estrito". Significando que toda a diferença entre os valores observados e os previstos é proveniente de erro de medição, pois nosso modelo "precisa ser verdadeiro".
Dominic Comtois

Respostas:

2

Se há aspectos de indivíduos que afetam os valores y resultantes, ou existe uma maneira de chegar a esses aspectos (nesse caso, eles devem fazer parte do preditor x) ou não há como chegar a esse ponto em formação.

Se não há como obter essas informações e não há como medir repetidamente os valores de y para os indivíduos, isso realmente não importa. Se você pode medir y repetidamente, e se o seu conjunto de dados realmente contém medições repetidas para alguns indivíduos, você tem um problema potencial em suas mãos, pois a teoria estatística assume a independência dos erros / resíduos de medição.

Por exemplo, suponha que você esteja tentando ajustar um modelo do formulário

y=β0+β1x ,

e isso para cada indivíduo,

yind=100+10x+z ,

onde z depende do indivíduo e é normalmente distribuído com média 0 e desvio padrão 10. Para cada medição repetida de um indivíduo,

ymeas=100+10x+z+e ,

onde é normalmente distribuído com média 0 e desvio padrão 0,1. e

Você pode tentar modelar isso como

y=β0+β1x+ϵ ,

ondeϵ é normalmente distribuído com média 0 e desvio padrão

σ=102+0.12=100.01

Contanto que você tenha apenas uma medida para cada indivíduo, tudo bem. No entanto, se você tiver várias medidas para o mesmo indivíduo, seus resíduos não serão mais independentes!

β0=100β1=10χ2

Brian Borchers
fonte
Tentei evitar o uso do termo assustador "modelagem multinível" em minha resposta, mas você deve estar ciente de que, em alguns casos, ele fornece uma maneira de lidar com esse tipo de situação.
Brian Borchers
1

Penso que "erro" é melhor descrito como "a parte das observações imprevisíveis, dada a nossa informação atual". Tentar pensar em termos de população versus amostra leva a problemas conceituais (do mesmo modo para mim), assim como pensar nos erros como "puramente aleatórios", extraídos de alguma distribuição. pensar em termos de previsão e "previsibilidade" faz muito mais sentido para mim.

p(e1,,en)E(1ni=1nei2)=σ2σ2σ

n

probabilityislogic
fonte
σ2
p(e1,,en)1
E por perto i divergência média kl é minimizado
probabilityislogic
O dilema não está entre amostra e população. Trata-se de pensar no erro como aplicável a indivíduos versus a amostra / população.
Dominic Comtois
1

Eu discordo da formulação do professor disso. Como você diz, a ideia de que a variação é a mesma para cada indivíduo implica que o termo de erro representa apenas erro de medição. Geralmente, não é assim que o modelo básico de regressão múltipla é construído. Além disso, como você diz, a variação é definida para um grupo (seja um grupo de sujeitos individuais ou um grupo de medidas). Não se aplica no nível individual, a menos que você tenha repetido as medidas.

Um modelo precisa ser completo, pois o termo de erro não deve conter influências de nenhuma variável correlacionada com preditores. A suposição é que o termo de erro é independente dos preditores. Se alguma variável correlacionada for omitida, você obterá coeficientes de polarização (isso é chamado de polarização de variável omitida ).

Anne Z.
fonte
Não entendo bem essa resposta. parece reconhecer a diferença entre erro devido à falta de ajuste e erro aleatório, mas a última pergunta retórica parece confusa. De uma perspectiva puramente formal, essencialmente qualquer inferência feita com relação a um modelo de regressão depende de suposições muito explícitas sobre a estrutura do ruído.
cardinal
1
Meu argumento é que, em muitos casos, o objetivo da modelagem de regressão é descobrir o que está acontecendo, mesmo quando não sabemos todas as causas de um resultado específico. Mas, como parece claro, vou remover essa pergunta.
Anne Z.
Obrigado. O ponto em seu comentário é bom. A pergunta anterior que você declarou pode ser lida como questionando toda a base sobre a qual a teoria da regressão se apóia. :)
cardeal
Concordo com você na sua discordância (daí a minha pergunta!), E o viés de variável omitido é bastante relevante para o problema. Obrigado.
Dominic Comtois