Uma colega de trabalho está analisando alguns dados biológicos para sua dissertação com alguma heteroscedasticidade desagradável (figura abaixo). Ela está analisando com um modelo misto, mas ainda está tendo problemas com os resíduos.
A transformação de log das variáveis de resposta limpa as coisas e, com base no feedback dessa pergunta, essa parece ser uma abordagem apropriada. Originalmente, no entanto, pensávamos que havia problemas no uso de variáveis transformadas com modelos mistos. Acontece que tínhamos interpretado mal uma declaração no SAS para modelos mistos de Littell & Milliken (2006), que estava apontando por que é inadequado transformar dados de contagem e analisá-los com um modelo linear linear normal (a cotação completa está abaixo) .
Uma abordagem que também melhorou os resíduos foi usar um modelo linear generalizado com uma distribuição de Poisson. Eu li que a distribuição Poisson pode ser usada para modelar dados contínuos (por exemplo, conforme discutido neste post ), e os pacotes de estatísticas permitem isso, mas não entendo o que está acontecendo quando o modelo é adequado.
Para entender como os cálculos subjacentes estão sendo feitos, minhas perguntas são: Quando você ajusta uma distribuição Poisson a dados contínuos, 1) os dados são arredondados para o número inteiro mais próximo 2) isso resulta na perda de informações e 3) Quando, se for o caso, é apropriado usar um modelo de Poisson para dados contínuos?
Littel & Milliken 2006, pág. 529 "transformar os dados [count] pode ser contraproducente. Por exemplo, uma transformação pode distorcer a distribuição dos efeitos aleatórios do modelo ou a linearidade do modelo. Mais importante, transformar os dados ainda deixa em aberto a possibilidade de contagens previstas negativas. Consequentemente, a inferência de um modelo misto usando dados transformados é altamente suspeita ".
fonte
Respostas:
Estive estimando resultados positivos contínuos regressões de Poisson com o estimador de variância linearizado Huber / White / Sandwich com bastante frequência. No entanto, esse não é um motivo particularmente bom para fazer qualquer coisa, então aqui estão algumas referências reais.
Há também algumas evidências encorajadoras de simulação de Santos Silva e Tenreyro (2006), onde o Poisson é o best-in-show. Também funciona bem em uma simulação com muitos zeros no resultado . Você também pode facilmente fazer sua própria simulação para se convencer de que isso funciona no seu estojo de floco de neve.
Finalmente, você também pode usar um GLM com uma função de link de log e a família Poisson. Isso produz resultados idênticos e apazigua as reações de empurrão no joelho com apenas dados de contagem.
Referências sem links ungated:
Gourieroux, C., A. Monfort e A. Trognon (1984). "Métodos de probabilidade pseudo-máxima: aplicações em modelos de Poisson" , Econometrica , 52, 701-720.
fonte
A distribuição de Poisson é apenas para dados de contagem, tentar alimentá-lo com dados contínuos é desagradável e acredito que não deve ser feito. Uma das razões é que você não sabe como dimensionar sua variável contínua. E o Poisson depende muito da escala! Eu tentei explicar com um exemplo simples aqui . Portanto, por esse motivo, eu não usaria Poisson para nada além de contar dados.
Lembre-se também de que o GLM faz duas coisas - função de link (transformando a resposta var., Faça logon no caso Poisson) e resíduos (distrubuição de Poisson nesse caso). Pense na tarefa biológica, nos resíduos e selecione o método adequado. Às vezes, faz sentido usar a transformação de log, mas fique com os resíduos normalmente distribuídos.
Eu ouvi isso pela primeira vez! Não faz nenhum sentido para mim. O modelo misto pode ser como um modelo linear normal, apenas com efeitos aleatórios adicionados. Você pode colocar uma citação exata aqui? Na minha opinião, se a transformação de log esclarecer as coisas, use-a!
fonte
Aqui está outra ótima discussão sobre como usar o modelo de Poisson para ajustar as regressões logarítmicas: http://blog.stata.com/2011/08/22/use-poisson-rather-than-regress-tell-a-friend/ (Estou dizendo a um amigo, exatamente como a entrada do blog sugere). O impulso básico é que usamos apenas a parte do modelo de Poisson que é o link do log. A parte que exige que a variação seja igual à média pode ser substituída por uma estimativa sanduíche da variação. Isso é tudo para dados iid, no entanto; as extensões de modelo em cluster / misto foram adequadamente referenciadas por Dimitriy Masterov .
fonte
Se o problema for a variação da variação com a média, mas você tiver dados contínuos, pensou em usar distribuições contínuas que podem acomodar os problemas que você está tendo. Talvez um gama? A variação terá uma relação quadrática com a média - bem como um binômio negativo, na verdade.
fonte