Como uma distribuição de Poisson funciona ao modelar dados contínuos e resulta em perda de informações?

20

Uma colega de trabalho está analisando alguns dados biológicos para sua dissertação com alguma heteroscedasticidade desagradável (figura abaixo). Ela está analisando com um modelo misto, mas ainda está tendo problemas com os resíduos.

A transformação de log das variáveis ​​de resposta limpa as coisas e, com base no feedback dessa pergunta, essa parece ser uma abordagem apropriada. Originalmente, no entanto, pensávamos que havia problemas no uso de variáveis ​​transformadas com modelos mistos. Acontece que tínhamos interpretado mal uma declaração no SAS para modelos mistos de Littell & Milliken (2006), que estava apontando por que é inadequado transformar dados de contagem e analisá-los com um modelo linear linear normal (a cotação completa está abaixo) .

Uma abordagem que também melhorou os resíduos foi usar um modelo linear generalizado com uma distribuição de Poisson. Eu li que a distribuição Poisson pode ser usada para modelar dados contínuos (por exemplo, conforme discutido neste post ), e os pacotes de estatísticas permitem isso, mas não entendo o que está acontecendo quando o modelo é adequado.

Para entender como os cálculos subjacentes estão sendo feitos, minhas perguntas são: Quando você ajusta uma distribuição Poisson a dados contínuos, 1) os dados são arredondados para o número inteiro mais próximo 2) isso resulta na perda de informações e 3) Quando, se for o caso, é apropriado usar um modelo de Poisson para dados contínuos?

Littel & Milliken 2006, pág. 529 "transformar os dados [count] pode ser contraproducente. Por exemplo, uma transformação pode distorcer a distribuição dos efeitos aleatórios do modelo ou a linearidade do modelo. Mais importante, transformar os dados ainda deixa em aberto a possibilidade de contagens previstas negativas. Consequentemente, a inferência de um modelo misto usando dados transformados é altamente suspeita ".

insira a descrição da imagem aqui

N Brouwer
fonte
1
Como @Tomas, não sei por que você não deve transformar variáveis ​​antes de um modelo misto, e eu li bastante sobre esse tópico. Eu tenho o livro de Ramon e Littel ... que página você está consultando?
Peter Flom - Restabelece Monica
Acontece que estávamos interpretando mal uma declaração sobre pg 529.
N Brouwer

Respostas:

22

Estive estimando resultados positivos contínuos regressões de Poisson com o estimador de variância linearizado Huber / White / Sandwich com bastante frequência. No entanto, esse não é um motivo particularmente bom para fazer qualquer coisa, então aqui estão algumas referências reais.

y

Há também algumas evidências encorajadoras de simulação de Santos Silva e Tenreyro (2006), onde o Poisson é o best-in-show. Também funciona bem em uma simulação com muitos zeros no resultado . Você também pode facilmente fazer sua própria simulação para se convencer de que isso funciona no seu estojo de floco de neve.

Finalmente, você também pode usar um GLM com uma função de link de log e a família Poisson. Isso produz resultados idênticos e apazigua as reações de empurrão no joelho com apenas dados de contagem.

Referências sem links ungated:

Gourieroux, C., A. Monfort e A. Trognon (1984). "Métodos de probabilidade pseudo-máxima: aplicações em modelos de Poisson" , Econometrica , 52, 701-720.

Dimitriy V. Masterov
fonte
2
Veja também este blog entrada agradável no Stata blog escrito por Bill Gould - blog.stata.com/2011/08/22/...
Boscovich
1
yprecisa ser um número inteiro para que o estimador com base na função de probabilidade de Poisson seja consistente. Os dados nem precisam ser Poisson. "--- esses dois pontos parecem contraditórios. O primeiro deveria incluir a palavra" não "entre 'não' e 'precisa'?
Glen_b -Reinstate Monica
Há uma postagem relacionada no blog Stata que oferece evidências adicionais de simulação .
Dimitriy V. Masterov 30/08/16
6

A distribuição de Poisson é apenas para dados de contagem, tentar alimentá-lo com dados contínuos é desagradável e acredito que não deve ser feito. Uma das razões é que você não sabe como dimensionar sua variável contínua. E o Poisson depende muito da escala! Eu tentei explicar com um exemplo simples aqui . Portanto, por esse motivo, eu não usaria Poisson para nada além de contar dados.

Lembre-se também de que o GLM faz duas coisas - função de link (transformando a resposta var., Faça logon no caso Poisson) e resíduos (distrubuição de Poisson nesse caso). Pense na tarefa biológica, nos resíduos e selecione o método adequado. Às vezes, faz sentido usar a transformação de log, mas fique com os resíduos normalmente distribuídos.

"mas parece que a sabedoria convencional é que você não deve transformar dados inseridos em um modelo misto"

Eu ouvi isso pela primeira vez! Não faz nenhum sentido para mim. O modelo misto pode ser como um modelo linear normal, apenas com efeitos aleatórios adicionados. Você pode colocar uma citação exata aqui? Na minha opinião, se a transformação de log esclarecer as coisas, use-a!

Curioso
fonte
Obrigado pela ajuda; o que eu pensava ser "sabedoria convencional" era uma leitura errada de Littel e Milliken. Eu editei a minha pergunta e acrescentou a citação de L & M 2006.
N Brouwer
@ NBrouwer: sim, parece que você realmente o interpretou mal. É desagradável transformar dados de contagem e ainda mais desagradável transformar dados contínuos para contar dados e tentar encaixar o Poisson nele! Foi o que tentei explicar para você. Não faça isso. Simplesmente transforme seus dados contínuos conforme necessário. Isso é muito comum nas estatísticas, não precisa se preocupar com isso.
Curioso
5

Aqui está outra ótima discussão sobre como usar o modelo de Poisson para ajustar as regressões logarítmicas: http://blog.stata.com/2011/08/22/use-poisson-rather-than-regress-tell-a-friend/ (Estou dizendo a um amigo, exatamente como a entrada do blog sugere). O impulso básico é que usamos apenas a parte do modelo de Poisson que é o link do log. A parte que exige que a variação seja igual à média pode ser substituída por uma estimativa sanduíche da variação. Isso é tudo para dados iid, no entanto; as extensões de modelo em cluster / misto foram adequadamente referenciadas por Dimitriy Masterov .

StasK
fonte
1

Se o problema for a variação da variação com a média, mas você tiver dados contínuos, pensou em usar distribuições contínuas que podem acomodar os problemas que você está tendo. Talvez um gama? A variação terá uma relação quadrática com a média - bem como um binômio negativo, na verdade.

jebyrnes
fonte