Estou usando um modelo de regressão de Poisson para dados de contagem e estou me perguntando se há razões para não usar o erro padrão robusto para as estimativas de parâmetros? Estou particularmente preocupado porque algumas das minhas estimativas sem robustez não são significativas (por exemplo, p = 0,13), mas com robusta são significativas (p <0,01).
No SAS, isso está disponível usando a declaração repetida em proc genmod
(por exemplo, repeated subject=patid;
). Eu tenho usado http://www.ats.ucla.edu/stat/sas/dae/poissonreg.htm como um exemplo que cita um artigo de Cameron e Trivedi (2009) no suporte ao uso de erros padrão robustos.
Diferenciarei as análises usando erros padrão baseados em modelo versus erros padrão robustos, referindo-me a este último como "GEEs", que é de fato uma definição intercambiável. Além da fantástica explicação de Scortchi:
Os GEEs podem ser "tendenciosos" em amostras pequenas, isto é, 10 a 50 indivíduos: (Lipsitz, Laird e Harrington, 1990; Emrich e Piedmonte, 1992; Sharples e Breslow, 1992; Lipsitz et al., 1994; Lipsitz et al., 1994; Qu, Piedmonte e Williams, 1994; Gunsolley, Getchell e Chinchilli, 1995; Sherman e le Cessie, 1997.) Quando digo que os GEEs são tendenciosos, quero dizer que a estimativa de erro padrão pode ser conservadora ou anticonservadora devido à contagem de células pequena ou zero , dependendo de quais valores ajustados exibem esse comportamento e de quão consistentes são com a tendência geral do modelo de regressão.
Em geral, quando o modelo paramétrico é especificado corretamente, você ainda obtém estimativas de erro padrão corretas dos ICs baseados no modelo, mas o objetivo principal do uso do GEE é acomodar esse "se" muito grande. Os GEEs permitem que o estatístico apenas especifique um modelo de probabilidade de trabalho para os dados, e os parâmetros (em vez de serem interpretados na estrutura estritamente paramétrica) são considerados um tipo de "peneira" que pode gerar valores reproduzíveis, independentemente da geração de dados desconhecida subjacente mecanismo. Esse é o coração e a alma da análise semi-paramétrica, da qual um GEE é um exemplo.
Os GEEs também lidam com fontes não medidas de covariação nos dados, mesmo com a especificação de uma matriz de correlação independente. Isso se deve ao uso da matriz de covariância empírica em vez de baseada em modelo. Na modelagem de Poisson, por exemplo, você pode estar interessado nas taxas de fertilidade do salmão amostrado de vários riachos. Os óvulos colhidos de peixes fêmeas podem ter uma distribuição subjacente de Poisson, mas a variação genética que inclui herdabilidade compartilhada e recursos disponíveis em riachos específicos pode tornar os peixes dentro desses riachos mais semelhantes do que entre outros riachos. O GEE fornecerá estimativas corretas de erro padrão da população, desde que a taxa de amostragem seja consistente com a proporção da população (ou seja, de outras formas, estratificada).
fonte
Você faz um teste do nulo de equidispersão. É uma regressão OLS auxiliar simples. Há uma descrição na página 670 de Cameron e Trivedi. Com grande sobredispersão, os erros padrão são muito deflacionados, portanto, seria muito cauteloso com os resultados que dependem de um VCE não robusto quando há sobredispersão. Com a subdispersão, o oposto será verdadeiro, que soa como o cenário em que você está.
fonte