Como lidar com a super-dispersão na regressão de Poisson: quase-probabilidade, GLM binomial negativo ou efeito aleatório no nível do sujeito?

A regressão de Poisson é apenas um GLM:

As pessoas costumam falar da lógica paramétrica para aplicar a regressão de Poisson. De fato, a regressão de Poisson é apenas um GLM. Isso significa que a regressão de Poisson é justificada para qualquer tipo de dados (contagens, classificações, notas nos exames, eventos binários etc.) quando duas premissas são atendidas: 1) o log do resultado médio é uma combinação linear dos preditores e 2) a variação do resultado é igual à média . Essas duas condições são respectivamente denominadas relação modelo-média e relação média-variância.

A suposição do modelo médio pode ser relaxada um pouco usando um conjunto complexo de ajustes para preditores. Isso é bom porque a função de link afeta a interpretação dos parâmetros; a sutileza da interpretação faz a diferença entre responder a uma pergunta científica e iludir completamente os consumidores de sua análise estatística. Em outro post SE , discuto a utilidade das transformações logarítmicas para interpretação.

Acontece, no entanto, que a segunda suposição (relação de variância média) tem fortes implicações na inferência. Quando a relação média-variância não é verdadeira, as estimativas dos parâmetros não são tendenciosas . No entanto, os erros padrão, intervalos de confiança, valores-p e previsões são todos mal calibrados. Isso significa que você não pode controlar o erro Tipo I e pode ter potência abaixo do ideal.

E se a variação média pudesse ser relaxada para que a variação seja simplesmente proporcional à média? A regressão binomial negativa e a regressão de Quasipoisson fazem isso.

Modelos Quasipoisson

Os modelos de Quasipoisson não são baseados em probabilidade. Eles maximizam uma "quase-probabilidade", que é uma probabilidade de Poisson até uma constante proporcional. Essa constante proporcional passa a ser a dispersão. A dispersão é considerada um incômodoparâmetro. Enquanto a rotina de maximização apresenta uma estimativa do parâmetro incômodo, essa estimativa é apenas um artefato dos dados, e não qualquer valor que generalize para a população. A dispersão serve apenas para "encolher" ou "ampliar" os SEs dos parâmetros de regressão de acordo com a variação ser proporcionalmente menor ou maior que a média. Como a dispersão é tratada como um parâmetro incômodo, os modelos de quasipoisson desfrutam de uma série de propriedades robustas: os dados podem ser de fato heterocedásticos (não atendendo à suposição proporcional de variância média) e até exibir pequenas fontes de dependência, e o modelo médio não precisa esteja exatamente correto, mas os ICs de 95% para os parâmetros de regressão estão assintoticamente corretos.Se o seu objetivo da análise de dados é medir a associação entre um conjunto de parâmetros de regressão e o resultado, os modelos de quase -ipoissonação geralmente são o caminho a percorrer. Uma limitação desses modelos é que eles não podem gerar intervalos de previsão, os resíduos de Pearson não podem dizer muito sobre a precisão do modelo médio e critérios de informação como o AIC ou o BIC não podem comparar efetivamente esses modelos com outros tipos de modelos.

Modelos binomiais negativos

É mais útil entender a regressão binomial negativa como uma regressão de Poisson com 2 parâmetros. O modelo médio é o mesmo dos modelos de Poisson e Quasipoisson, em que o log do resultado é uma combinação linear de preditores. Além disso, o parâmetro "scale" modela uma relação de variância média onde a variância é meramente proporcional à média como antes. No entanto, diferentemente dos modelos de quase-consórcio, esse tipo de modelo é um procedimento exatamente baseado em probabilidade. Nesse caso, a dispersão é um parâmetro real que tem alguma extensão de generalização para a população. Isso apresenta algumas vantagens sobre o quasipoisson, mas, na minha opinião, impõe mais suposições (não testáveis). Ao contrário dos modelos de quasipoisson: os dados devem ser independentes, o modelo médio deve estar correto e o parâmetro de escala deve ser homocedástico ao longo da faixa de valores ajustados para obter inferência correta. No entanto, eles podem ser avaliados de alguma forma inspecionando os resíduos de Pearson, e o modelo produz predição viável e intervalos de predição, e é passível de comparação com os critérios de informação.

Modelos de probabilidade binomial negativa surgem de uma mistura de Poisson-Gama. Ou seja, existe uma variável aleatória Gamma flutuante desconhecida "alimentando" o parâmetro de taxa de Poisson. Como o ajuste de NB GLM é baseado em probabilidade, geralmente é útil declarar crenças anteriores sobre o mecanismo de geração de dados e conectá-las à lógica probabilística do modelo em questão. Por exemplo, se estou testando um número de corredores que se aposentam de corridas de resistência de 24 horas, posso considerar que as condições ambientais são todas estressoras que não medi e, portanto, contribuem para o risco de DNF, como umidade ou temperatura fria afetando o pneu tração e, portanto, o risco de spin-out e destruição.

Modelos para dados dependentes: GLMMs vs GEE

Os modelos mistos lineares generalizados (GLMMs) para dados de Poisson não se comparam com as abordagens acima. Os GLMMs respondem a uma pergunta diferente e são usados em diferentes estruturas de dados. Aqui, as fontes de dependência entre os dados são medidas explicitamente. Os GLMMs usam interceptações aleatórias e inclinações aleatórias para explicar a heterogeneidade no nível individual. Isso modifica o que estimamos. Os efeitos aleatórios modificam a média e a variação modelada, e não apenas a variação, como discutido acima.

Existem dois níveis possíveis de associação que podem ser medidos em dados dependentes: nível populacional (marginal) e nível individual (condicional). Os GLMMs afirmam medir associações de nível individual (condicional): isto é, dado todo o conjunto de colaboradores de nível individual para o resultado, qual é o efeito relativo de uma combinação de preditores. Como exemplo, os cursos preparatórios para exames podem ter pouco efeito para as crianças que frequentam escolas exemplares, enquanto as crianças do centro da cidade podem se beneficiar tremendamente. O efeito no nível individual é então substancialmente mais alto nessa circunstância, uma vez que as crianças favorecidas estão muito acima da curva em termos de exposições positivas.

Se aplicássemos ingenuamente modelos quasipoisson ou binomiais negativos a dados dependentes, os modelos NB estariam errados e os modelos Quasipoisson seriam ineficientes. O GEE, no entanto, estende o modelo quasipoisson para modelar explicitamente estruturas de dependência como o GLMM, mas o GEE mede uma tendência marginal (nível da população) e obtém os pesos corretos, erros padrão e inferência.

Exemplo de análise de dados:

Este post já é muito longo :) Há uma boa ilustração dos dois primeiros modelos deste tutorial , junto com referências a mais leituras, se você estiver interessado. Os dados em questão envolvem os hábitos de nidificação de caranguejos em ferradura: as fêmeas sentam-se em ninhos e os machos (satélites) se ligam a ela. Os investigadores queriam medir o número de homens ligados a uma mulher em função das características da mulher. Espero ter sublinhado por que os modelos mistos são incomparáveis: se você possui dados dependentes, deve usar o modelo correto para a pergunta que esses dados dependentes estão tentando responder, seja um GLM ou um GEE.

Referências:

[1] Agresti, Análise de dados categóricos, 2ª edição

[2] Diggle, Heagerty, Liang, Zeger, Analysis of Longitudinal Data 2nd ed.

AdamO
fonte