Em deste artigo intitulado "escolhendo entre lineares generalizados modelos aplicados a médico de dados", escrevem os autores:
Em um modelo linear generalizado, a média é transformada pela função de link, em vez de transformar a própria resposta. Os dois métodos de transformação podem levar a resultados bastante diferentes; por exemplo, a média das respostas transformadas por log não é a mesma que o logaritmo da resposta média . Em geral, o primeiro não pode ser facilmente transformado em uma resposta média. Assim, a transformação da média geralmente permite que os resultados sejam mais facilmente interpretados, especialmente porque os parâmetros médios permanecem na mesma escala que as respostas medidas.
Parece que eles aconselham a adaptação de um modelo linear generalizado (GLM) com link de log em vez de um modelo linear (LM) com resposta transformada por log. Não compreendo as vantagens dessa abordagem e isso me parece bastante incomum.
Minha variável de resposta parece log-normalmente distribuída. Eu obtenho resultados semelhantes em termos de coeficientes e seus erros padrão em qualquer uma das abordagens.
Ainda me pergunto: se uma variável tem uma distribuição log-normal, a média da variável transformada log não é preferível ao log da variável média não transformada , pois a média é o resumo natural de uma distribuição normal e o log variável transformada é normalmente distribuída, enquanto a variável em si não é?
Respostas:
Embora possa parecer que a média das variáveis transformadas por log seja preferível (uma vez que é assim que o log-normal é tipicamente parametrizado), de um ponto de vista prático, o log da média é tipicamente muito mais útil.
Isso é particularmente verdadeiro quando o modelo não está exatamente correto e para citar George Box: "Todos os modelos estão errados, alguns são úteis"
Suponha que alguma quantidade seja normalmente distribuída, digamos a pressão arterial (não sou médico!), E tenhamos duas populações, homens e mulheres. Pode-se supor que a pressão arterial média seja maior em mulheres do que em homens. Isso corresponde exatamente a perguntar se o registro da pressão arterial média é maior nas mulheres do que nos homens. Não é o mesmo que perguntar se a média da pressão arterial logarítmica é maior nas mulheres desse homem .
Obviamente, isso torna a álgebra terrivelmente complicada, mas ainda funciona e significa a mesma coisa.
Até agora, assumimos que a pressão arterial é genuinamente normal. Se as verdadeiras distribuições não forem muito normais, a transformação dos dados (normalmente) tornará as coisas ainda piores do que as anteriores - já que não saberemos o que realmente significa o nosso parâmetro "mean". Ou seja, não saberemos essas duas equações para média e variância que eu dei acima estão corretas. Usar esses para transformar e para trás irá introduzir erros adicionais.
fonte
Aqui estão meus dois centavos de um curso avançado de análise de dados que eu fiz enquanto estudava bioestatística (embora eu não tenha nenhuma referência além das anotações do meu professor):
Tudo se resume a se você precisa ou não tratar linearidade e heterocedasticidade (variações desiguais) em seus dados, ou apenas linearidade.
Ela observa que a transformação dos dados afeta as suposições de linearidade e variância de um modelo. Por exemplo, se seus resíduos apresentarem problemas com ambos, considere transformar os dados, o que potencialmente pode corrigir os dois. A transformação transforma os erros e, portanto, sua variação.
Por outro lado, o uso da função de link afeta apenas a suposição de linearidade, não a variação. O log é obtido da média (valor esperado) e, portanto, a variação dos resíduos não é afetada.
Em resumo, se você não tiver um problema com variação não constante, ela sugere o uso da função de link sobre a transformação, porque você não deseja alterar sua variação nesse caso (você já está cumprindo a suposição).
fonte
Se a resposta verdadeira não for simétrica (não distribuída normalmente), mas a resposta transformada em log for normal, será utilizada a regressão linear na resposta transformada e o coeficiente do expoente nos fornecerá a razão da média geométrica.
Se a resposta verdadeira é simétrica (distribuída como normal), mas a relação entre explicativa (X) e a resposta não é linear, mas o valor esperado do log é função linear de X, então o GLM com link de log deve ser usado e o coeficiente do expoente nos fornece a razão da média aritmética
fonte