Estou procurando uma explicação mecânica 1) e 2) intuitiva de como os efeitos de variáveis individuais são determinados mantendo outras variáveis constantes.
Em um exemplo usando dados de pesquisa, o que exatamente significa dizer:
"mantendo idade, sexo e renda constantes, o efeito da educação é ___"
Meu entendimento é que, com a regressão, estamos tentando recriar o cenário experimental e, no exemplo acima, estamos tentando comparar subpopulações com a mesma idade, sexo, renda, etc., mas com diferentes níveis de educação e estimando a diferença em média dessas subpopulações. Questões:
- Esta intuição está correta?
- Essas subpopulações existem necessariamente? E se a pesquisa não contiver respondentes com exatamente os mesmos valores nos controles?
- Como é determinada a incerteza sobre as estimativas dessas subpopulações?
regression
interpretation
FlacoT
fonte
fonte
Respostas:
A intuição é um assunto complicado, depende do histórico da pessoa. Por exemplo, estudei estatística depois de estudar física matemática. Para mim, a intuição está em derivadas parciais. Considere um modelo de regressão Ele pode ser atualizado como que
Tome uma derivada total da função :f()
É assim que a derivada parcial wrt é definida: Você mantém constante e se afasta de . A derivada parcial diz você haw sensível é a uma mudança de . Você pode ver que o beta (coeficiente) é a inclinação da variável de interesse:x zxfx∂f
Em outras palavras, no modelo linear simples, seus coeficientes são derivadas parciais (declives) em relação às variáveis. Isso é o que "manter constante" significa para mim intuitivamente.
fonte
fonte
Como o usuário122677 respondeu, a intuição está certa: na regressão linear, todo coeficiente é a quantidade de mudança no resultado quando um valor variável é aumentado por uma unidade, enquanto todas as outras variáveis permanecem constantes. Em outras palavras, os coeficientes são derivadas parciais da previsão do modelo em relação a cada variável.
De qualquer forma, lembre-se de que, se nosso modelo incluir interações, as variáveis não poderão ser alteradas sem alterar a interação e, portanto, essa interpretação de um coeficiente não poderá fazer sentido como uma mudança real. O mesmo acontece com a regressão polinomial, na qual nenhum termo pode mudar sem alterar outros termos.
Sobre a existência dessas subpopulações, elas não precisam existir. Em alguns projetos experimentais eles podem existir, mas em estudos observacionais com variáveis contínuas é muito improvável que existam. Por exemplo:
fonte