Quando usar erros padrão robustos na regressão de Poisson?

10

Estou usando um modelo de regressão de Poisson para dados de contagem e estou me perguntando se há razões para não usar o erro padrão robusto para as estimativas de parâmetros? Estou particularmente preocupado porque algumas das minhas estimativas sem robustez não são significativas (por exemplo, p = 0,13), mas com robusta são significativas (p <0,01).

No SAS, isso está disponível usando a declaração repetida em proc genmod(por exemplo, repeated subject=patid;). Eu tenho usado http://www.ats.ucla.edu/stat/sas/dae/poissonreg.htm como um exemplo que cita um artigo de Cameron e Trivedi (2009) no suporte ao uso de erros padrão robustos.

kara
fonte

Respostas:

6

Em geral, se você tem alguma suspeita de que seus erros sejam heterocedásticos, use erros padrão robustos. O fato de suas estimativas se tornarem não significativas quando você não usa SEs robustos sugere (mas não prova) a necessidade de SEs robustos! Essas SEs são "robustas" ao viés que a heterocedasticidade pode causar em um modelo linear generalizado.

Essa situação é um pouco diferente, no entanto, porque você as coloca sobre a regressão de Poisson.

Poisson tem uma propriedade bem conhecida que força a dispersão a ser igual à média, independentemente de os dados suportarem isso. Antes de considerar erros padrão robustos, tentaria uma regressão binomial negativa, que não sofre com esse problema. Há um teste (veja o comentário) para ajudar a determinar se a alteração resultante nos erros padrão é significativa.

Não sei ao certo se a alteração que você está vendo (mudar para SEs robustas reduz o IC) implica em sub-dispersão, mas parece provável. Dê uma olhada no modelo apropriado (acho binômio negativo, mas uma pesquisa rápida também sugere quase Poisson para sub-dispersão?) E veja o que você obtém nesse cenário.

Ari B. Friedman
fonte
Boa resposta! Normalmente, na OLS, a heterocedasticidade não faz com que os parâmetros sejam imparciais (apenas ineficientes). Isso não é verdade, porém, para modelos lineares generalizados, consulte este post de Dave Giles sobre isso para obter referências. Acho que não vi o teste de Vuong recomendado para isso (para comparações de modelos inflados a zero não aninhados, vi sugerido). Poisson está aninhado dentro do Neg. Modelo binomial, para que se possa usar um teste de razão de verossimilhança para o parâmetro de dispersão.
Andy W
Obrigado pela sua resposta. Tentei a regressão binomial negativa, mas corri para o aviso: "O critério de convergência hessiana relativo de 0,0046138565 é maior que o limite de 0,0001. A convergência é questionável". Observe que minha variável de resposta é uma contagem com valores que variam de 0 a 4. Existe uma transformação da variável dependente ou independente que ajudaria a convergência? Ou o que se faz neste caso?
kara
Além disso, relacionado aos SEs não robustos serem menores - em minha análise, vejo que são os SEs robustos que são menores e é aí que reside a significância (não nos resultados não robustos). É por isso que quero ter cuidado ao informar ou não os resultados robustos - não quero escolher esse método apenas por causa de valores significativos! Obrigado novamente!
kara
@ AndyW Verifiquei minhas anotações e Vuong é de fato ZI vs Poisson. Postagem atualizada. kara Perdi a reversão. Você poderia ter sob dispersa dados, caso em que a NBD é também potencialmente a solução :-)
Ari B. Friedman
@kara Difícil de diagnosticar seu problema de não convergência nos comentários. Eu tentaria uma nova pergunta apenas com o máximo de informações possível.
Ari B. Friedman
1

Diferenciarei as análises usando erros padrão baseados em modelo versus erros padrão robustos, referindo-me a este último como "GEEs", que é de fato uma definição intercambiável. Além da fantástica explicação de Scortchi:

Os GEEs podem ser "tendenciosos" em amostras pequenas, isto é, 10 a 50 indivíduos: (Lipsitz, Laird e Harrington, 1990; Emrich e Piedmonte, 1992; Sharples e Breslow, 1992; Lipsitz et al., 1994; Lipsitz et al., 1994; Qu, Piedmonte e Williams, 1994; Gunsolley, Getchell e Chinchilli, 1995; Sherman e le Cessie, 1997.) Quando digo que os GEEs são tendenciosos, quero dizer que a estimativa de erro padrão pode ser conservadora ou anticonservadora devido à contagem de células pequena ou zero , dependendo de quais valores ajustados exibem esse comportamento e de quão consistentes são com a tendência geral do modelo de regressão.

Em geral, quando o modelo paramétrico é especificado corretamente, você ainda obtém estimativas de erro padrão corretas dos ICs baseados no modelo, mas o objetivo principal do uso do GEE é acomodar esse "se" muito grande. Os GEEs permitem que o estatístico apenas especifique um modelo de probabilidade de trabalho para os dados, e os parâmetros (em vez de serem interpretados na estrutura estritamente paramétrica) são considerados um tipo de "peneira" que pode gerar valores reproduzíveis, independentemente da geração de dados desconhecida subjacente mecanismo. Esse é o coração e a alma da análise semi-paramétrica, da qual um GEE é um exemplo.

Os GEEs também lidam com fontes não medidas de covariação nos dados, mesmo com a especificação de uma matriz de correlação independente. Isso se deve ao uso da matriz de covariância empírica em vez de baseada em modelo. Na modelagem de Poisson, por exemplo, você pode estar interessado nas taxas de fertilidade do salmão amostrado de vários riachos. Os óvulos colhidos de peixes fêmeas podem ter uma distribuição subjacente de Poisson, mas a variação genética que inclui herdabilidade compartilhada e recursos disponíveis em riachos específicos pode tornar os peixes dentro desses riachos mais semelhantes do que entre outros riachos. O GEE fornecerá estimativas corretas de erro padrão da população, desde que a taxa de amostragem seja consistente com a proporção da população (ou seja, de outras formas, estratificada).

AdamO
fonte
1

Você faz um teste do nulo de equidispersão. É uma regressão OLS auxiliar simples. Há uma descrição na página 670 de Cameron e Trivedi. Com grande sobredispersão, os erros padrão são muito deflacionados, portanto, seria muito cauteloso com os resultados que dependem de um VCE não robusto quando há sobredispersão. Com a subdispersão, o oposto será verdadeiro, que soa como o cenário em que você está.

Dimitriy V. Masterov
fonte