A questão é sobre efeitos marginais (de X em Y), eu acho, não tanto sobre a interpretação de coeficientes individuais. Como as pessoas notaram com utilidade, elas são identificadas apenas com o tamanho de um efeito, por exemplo, quando existem relações lineares e aditivas.
Se esse é o foco, a maneira (conceitualmente, se não praticamente) mais simples de pensar sobre o problema parece ser a seguinte:
Para obter o efeito marginal de X em Y, em um modelo de regressão linear normal, sem interações, você pode simplesmente olhar para o coeficiente de X. Mas isso não é suficiente, uma vez que é estimado não é conhecido. De qualquer forma, o que se realmente deseja para efeitos marginais é algum tipo de gráfico ou resumo que forneça uma previsão sobre Y para uma faixa de valores de X e uma medida de incerteza. Normalmente, pode-se querer a média Y prevista e um intervalo de confiança, mas também se pode desejar previsões para a distribuição condicional completa de Y para um X. Essa distribuição é mais ampla que a estimativa sigma do modelo ajustado porque leva em consideração a incerteza sobre os coeficientes do modelo. .
Existem várias soluções de formulário fechado para modelos simples como este. Para os propósitos atuais, podemos ignorá-los e, em vez disso, pensar mais em como obter esse gráfico de efeitos marginais por simulação, de uma maneira que lide com modelos arbitrariamente complexos.
Suponha que você queira os efeitos da variação de X na média de Y e fique feliz em corrigir todas as outras variáveis em alguns valores significativos. Para cada novo valor de X, tire uma amostra do tamanho B da distribuição dos coeficientes do modelo. Uma maneira fácil de fazer isso em R é assumir que é Normal com coef(model)
matriz de média e covariância vcov(model)
. Calcule um novo Y esperado para cada conjunto de coeficientes e resuma o lote com um intervalo. Em seguida, passe para o próximo valor de X.
Parece-me que esse método não deve ser afetado por transformações sofisticadas aplicadas a qualquer uma das variáveis, desde que você também as aplique (ou seus inversos) em cada etapa da amostragem. Portanto, se o modelo ajustado tiver log (X) como preditor, registre seu novo X antes de multiplicá-lo pelo coeficiente amostrado. Se o modelo ajustado tiver sqrt (Y) como uma variável dependente, calcule ao quadrado cada média prevista na amostra antes de resumi-la como um intervalo.
Em resumo, mais programação, mas menos cálculo de probabilidade e efeitos marginais clinicamente compreensíveis como resultado. Este 'método' é algumas vezes referido como CLARIFY na literatura de ciência política, mas é bastante geral.