Modelo linear com resposta transformada por log vs. modelo linear generalizado com link de log

46

Em deste artigo intitulado "escolhendo entre lineares generalizados modelos aplicados a médico de dados", escrevem os autores:

Em um modelo linear generalizado, a média é transformada pela função de link, em vez de transformar a própria resposta. Os dois métodos de transformação podem levar a resultados bastante diferentes; por exemplo, a média das respostas transformadas por log não é a mesma que o logaritmo da resposta média . Em geral, o primeiro não pode ser facilmente transformado em uma resposta média. Assim, a transformação da média geralmente permite que os resultados sejam mais facilmente interpretados, especialmente porque os parâmetros médios permanecem na mesma escala que as respostas medidas.

Parece que eles aconselham a adaptação de um modelo linear generalizado (GLM) com link de log em vez de um modelo linear (LM) com resposta transformada por log. Não compreendo as vantagens dessa abordagem e isso me parece bastante incomum.

Minha variável de resposta parece log-normalmente distribuída. Eu obtenho resultados semelhantes em termos de coeficientes e seus erros padrão em qualquer uma das abordagens.

Ainda me pergunto: se uma variável tem uma distribuição log-normal, a média da variável transformada log não é preferível ao log da variável média não transformada , pois a média é o resumo natural de uma distribuição normal e o log variável transformada é normalmente distribuída, enquanto a variável em si não é?

generalized-linear-model model-selection lognormal miura
fonte

3

Concordo com a sua pista se tivermos uma variável distribuída log-normal. No entanto, a média precisa ser "transformada de volta" para obter uma estatística facilmente compreensível com base na escala de dados original. Isso pode explicar a conclusão do artigo. Além disso, após a transformação do log, podemos não obter uma variável normalmente distribuída e, nesse caso, não sei qual abordagem seria melhor.

soufanom 17/01

46

Embora possa parecer que a média das variáveis transformadas por log seja preferível (uma vez que é assim que o log-normal é tipicamente parametrizado), de um ponto de vista prático, o log da média é tipicamente muito mais útil.

Isso é particularmente verdadeiro quando o modelo não está exatamente correto e para citar George Box: "Todos os modelos estão errados, alguns são úteis"

Suponha que alguma quantidade seja normalmente distribuída, digamos a pressão arterial (não sou médico!), E tenhamos duas populações, homens e mulheres. Pode-se supor que a pressão arterial média seja maior em mulheres do que em homens. Isso corresponde exatamente a perguntar se o registro da pressão arterial média é maior nas mulheres do que nos homens. Não é o mesmo que perguntar se a média da pressão arterial logarítmica é maior nas mulheres desse homem .

$\mu_{\ln}$

$\mu = e^{\mu_{\ln} + \sigma_{\ln}^2/2}$

$\sigma^2 = (e^{\sigma^2_{\ln}} -1)e^{2 \mu_{\ln} + \sigma_{\ln}^2}$

Obviamente, isso torna a álgebra terrivelmente complicada, mas ainda funciona e significa a mesma coisa.

$\ln(\mu)$ $\sigma^2_{\ln}$ $\mu_{\ln}$

$\mu_{\ln}$

Até agora, assumimos que a pressão arterial é genuinamente normal. Se as verdadeiras distribuições não forem muito normais, a transformação dos dados (normalmente) tornará as coisas ainda piores do que as anteriores - já que não saberemos o que realmente significa o nosso parâmetro "mean". Ou seja, não saberemos essas duas equações para média e variância que eu dei acima estão corretas. Usar esses para transformar e para trás irá introduzir erros adicionais.

Corone
fonte

Achei isso muito útil: christoph-scherber.de/content/PDF%20Files/…

Aditya

2

Corone, destaquei duas frases importantes em sua resposta. Espero que você não se importe. Reverta se não concorda.

Stefan

17

Aqui estão meus dois centavos de um curso avançado de análise de dados que eu fiz enquanto estudava bioestatística (embora eu não tenha nenhuma referência além das anotações do meu professor):

Tudo se resume a se você precisa ou não tratar linearidade e heterocedasticidade (variações desiguais) em seus dados, ou apenas linearidade.

Ela observa que a transformação dos dados afeta as suposições de linearidade e variância de um modelo. Por exemplo, se seus resíduos apresentarem problemas com ambos, considere transformar os dados, o que potencialmente pode corrigir os dois. A transformação transforma os erros e, portanto, sua variação.

Por outro lado, o uso da função de link afeta apenas a suposição de linearidade, não a variação. O log é obtido da média (valor esperado) e, portanto, a variação dos resíduos não é afetada.

Em resumo, se você não tiver um problema com variação não constante, ela sugere o uso da função de link sobre a transformação, porque você não deseja alterar sua variação nesse caso (você já está cumprindo a suposição).

Meg
fonte

6

Enquanto a função de link afeta apenas a média, a função de link é apenas uma parte de um GLM. Seus comentários funcionam para um glm gaussiano com link de log. Um GLM gama com link de log terá a mesma suposição de função de variação (variação proporcional à média ao quadrado) da obtenção de logs e do ajuste de uma variação constante nessa escala de logs. Outras famílias dentro da estrutura do GLM terão outras funções de variação. Infelizmente, a tabela na página da Wikipedia para GLMs omite as funções de variação para as famílias de distribuição que ele fornece.

Glen_b

2

Eles mencionam alguns exemplos aqui . Aqui está a gama

Glen_b 15/10

-1

Se a resposta verdadeira não for simétrica (não distribuída normalmente), mas a resposta transformada em log for normal, será utilizada a regressão linear na resposta transformada e o coeficiente do expoente nos fornecerá a razão da média geométrica.

Se a resposta verdadeira é simétrica (distribuída como normal), mas a relação entre explicativa (X) e a resposta não é linear, mas o valor esperado do log é função linear de X, então o GLM com link de log deve ser usado e o coeficiente do expoente nos fornece a razão da média aritmética

Md Ahshanul Haque
fonte

Esta resposta não é clara. Você quis dizer "variável" em vez de "verdadeiro"?

Michael Chernick

Este é um fragmento de uma resposta. Você precisa deixar claro como isso se relaciona com a pergunta e qual a resposta para a pergunta realmente se baseia nesse pedaço de insight.

ReneBt

Modelo linear com resposta transformada por log vs. modelo linear generalizado com link de log

Respostas: