O que significa (intuitivamente) manter outras variáveis ​​constantes na regressão?

9

Estou procurando uma explicação mecânica 1) e 2) intuitiva de como os efeitos de variáveis ​​individuais são determinados mantendo outras variáveis ​​constantes.

Em um exemplo usando dados de pesquisa, o que exatamente significa dizer:

"mantendo idade, sexo e renda constantes, o efeito da educação é ___"

Meu entendimento é que, com a regressão, estamos tentando recriar o cenário experimental e, no exemplo acima, estamos tentando comparar subpopulações com a mesma idade, sexo, renda, etc., mas com diferentes níveis de educação e estimando a diferença em média dessas subpopulações. Questões:

  1. Esta intuição está correta?
  2. Essas subpopulações existem necessariamente? E se a pesquisa não contiver respondentes com exatamente os mesmos valores nos controles?
  3. Como é determinada a incerteza sobre as estimativas dessas subpopulações?
FlacoT
fonte
As derivadas parciais são "intuitivas" para você?
Aksakal

Respostas:

5

A intuição é um assunto complicado, depende do histórico da pessoa. Por exemplo, estudei estatística depois de estudar física matemática. Para mim, a intuição está em derivadas parciais. Considere um modelo de regressão Ele pode ser atualizado como que

yi=a+bxxi+bzzi+εi
yi=f(xi,zi)+εi,
f(x,z)=bxx+bzz

Tome uma derivada total da função : f()

df=fxdx+fzdz

É assim que a derivada parcial wrt é definida: Você mantém constante e se afasta de . A derivada parcial diz você haw sensível é a uma mudança de . Você pode ver que o beta (coeficiente) é a inclinação da variável de interesse: x zxfxf

fx=limΔx0f(x+Δx,z)f(x,z)Δx
zxfx
fx=bx

Em outras palavras, no modelo linear simples, seus coeficientes são derivadas parciais (declives) em relação às variáveis. Isso é o que "manter constante" significa para mim intuitivamente.

Aksakal
fonte
1
Aprecio essa intuição, mas algumas partes da sua descrição podem ser inesperadamente problemáticas para algumas pessoas. Eu chamaria sua atenção para (1) como definir uma derivada parcial para regressores categóricos e (2) decidir como definir derivadas parciais quando os regressores são funções de outros regressores, como na regressão polinomial ou quando as interações são incluídas.
whuber
2
  1. A intuição está correta em sua base. Vou tentar responder de maneira breve e intuitiva também
  2. Essas subpopulações necessariamente existem porque você as mantém constantes por meio de: (a) amostragem de seus sujeitos em relação às suas covariáveis ​​especuladas OU (b) você coloca uma restrição em sua variabilidade (ou seja, variância = 0). Isso é feito com 1 grupo (por exemplo, somente homens, apenas loiros, etc.) se sua variável categórica ou medindo uma média de uma determinada covariável (idade, escolaridade, renda e assim por diante).
user122677
fonte
6
Essa resposta parece excluir todas as aplicações possíveis de regressão a conjuntos de dados não experimentais ou observacionais (exceto talvez aqueles que podem ser ampliados com mais observações, que são raras). Como tal, parece ser desnecessariamente restritivo e, portanto, provavelmente não faz justiça aos conceitos subjacentes.
whuber
2

Como o usuário122677 respondeu, a intuição está certa: na regressão linear, todo coeficiente é a quantidade de mudança no resultado quando um valor variável é aumentado por uma unidade, enquanto todas as outras variáveis ​​permanecem constantes. Em outras palavras, os coeficientes são derivadas parciais da previsão do modelo em relação a cada variável.

De qualquer forma, lembre-se de que, se nosso modelo incluir interações, as variáveis ​​não poderão ser alteradas sem alterar a interação e, portanto, essa interpretação de um coeficiente não poderá fazer sentido como uma mudança real. O mesmo acontece com a regressão polinomial, na qual nenhum termo pode mudar sem alterar outros termos.

Sobre a existência dessas subpopulações, elas não precisam existir. Em alguns projetos experimentais eles podem existir, mas em estudos observacionais com variáveis ​​contínuas é muito improvável que existam. Por exemplo:

  • Em projetos completos de experimentos com variáveis ​​binárias (ou finitas discretas), toda combinação de valores de variáveis ​​está na amostra.
  • Em estudos observacionais com variáveis ​​contínuas, é muito provável que cada observação obtenha valores únicos para todas as variáveis ​​e, portanto, é improvável que existam dois elementos com todas as variáveis ​​iguais, exceto uma.
Pere
fonte