Atualmente, estou trabalhando para modelar mortes por AIDS ao longo do tempo usando um GLM em R. Sei que existem duas opções possíveis para a função de link para dados de Poisson, log e raiz quadrada.
Eu sei que a raiz quadrada resolveria problemas de variabilidade, enquanto o log é necessário para endireitar a curva. Mas como posso realmente testar qual link é melhor para os dados?
Respostas:
Você está confundindo o efeito de uma transformação de dados com o uso de uma função de link em um GLM.
Se você fizer uma transformação de log da resposta, ela "endireitará o relacionamento" se estiver no formato . Da mesma forma, se você pegar a raiz quadrada da resposta, ela tornará a variação quase constante, se a variação for proporcional à média (como ocorre com um Poisson, onde é igual à média).E(Y|x) exp(a+bx)
No entanto, em um GLM, a função de link não é usada para transformar os dados.
O próprio GLM leva em consideração o fato de que a variação do Poisson aumenta com a média; você não precisa fazer nada sobre isso (desde que a suposição de Poisson seja adequada).
A única coisa que deixou para explicar a relação entre o preditor e a resposta. A função de link especifica a forma do relacionamento entre a média condicional da resposta e o preditor.
O link sqrt é usado principalmente para fins de comparação com uma análise mais antiga, na qual uma transformação de raiz quadrada foi usada para aplicar a regressão de mínimos quadrados. Usando o link da raiz quadrada, você pode ajustar um modelo da mesma forma funcional, mas com uma estimativa completa dos parâmetros de ML.
Se você estava pensando em usar o log devido ao fato de ele linearizar o relacionamento, esse é definitivamente o link que você deve usar. (Geralmente, o link do log também é mais fácil de interpretar.)
Se você realmente quisesse entreter as duas funções de link e escolher entre elas, poderia comparar os AICs; ou você pode comparar os desvios (é claro que existem outras opções, mas ambos já são fornecidos na saída do resumo e eles medem o "ajuste"; o que você observar, eles devem levar à mesma conclusão). No entanto, a menos que haja alguma indicação clara de que o link de log é inadequado ou algum outro motivo para manter o link de raiz quadrada, eu simplesmente faria o link de log.
Observe que, se você usar os dados para escolher entre as funções de link, os testes de hipóteses subsequentes estimados a partir dos mesmos pontos de dados (entre outras coisas) não terão mais suas propriedades nominais (os erros padrão serão muito pequenos, os intervalos de confiança muito estreitos). , valores-p não significam a mesma coisa ...)
(A propósito, essas não são as únicas duas opções de função de link para um Poisson em R, já que também há o link de identidade ... e isso não conta o que você pode fazer se mudar para um ajuste quase Poisson)
Um aviso: se você estiver modelando uma variável ao longo do tempo, lembre-se de que (a) provavelmente existe dependência de tempo em suas contagens, de uma maneira que invalidaria as suposições de independência do GLM (por exemplo, seus erros padrão poderiam facilmente estar errado); e (b) a noção de regressão espúria pode ser aplicada tão prontamente a uma regressão de Poisson quanto uma regressão comum (para que suas estimativas de parâmetros também possam ser facilmente erradas / enganosas).
Duvido que suas séries sejam estacionárias, portanto, isso é potencialmente uma séria ameaça às suas conclusões - mas a regressão espúria pode ser um problema mesmo com séries estacionárias (um ponto que não é tão amplamente compreendido; dou uma referência a isso neste resposta que resposta também ilustra o fenômeno com correlações no caso não estacionário com um exemplo simples de lançamento de moeda).
fonte
Se você estiver ajustando um GLiM com uma distribuição Poisson especificada para a resposta, não precisará tentar estabilizar a variação condicional da resposta. Isso é resolvido automaticamente para você. O Poisson GLiM não assume variação constante no sentido em que um modelo de regressão linear regular (gaussiano) assume.
O efeito da função de link será alterar a forma da linha de regressão no espaço de dados original e, assim, alterar a interpretação dos coeficientes. Se você estiver preocupado com a adequação da forma / quantidade da curvatura, sempre poderá usar splines. Portanto, você pode escolher qual link usar com base na interpretabilidade de seus coeficientes. Na minha opinião, isso normalmente favorece o link do log.
Se você quiser usar apenas suas covariáveis sem funções de spline e determinar qual forma melhor se ajusta aos seus dados, poderá usar a validação cruzada e examinar o erro preditivo fora da amostra.
Embora escrito no contexto de GLiMs binomiais (não Poisson), você ainda pode estar interessado em ler minha resposta aqui: Diferença entre os modelos logit e probit .
fonte