Quais diagnósticos podem validar o uso de uma família específica de GLM?

19

Isso parece tão elementar, mas eu sempre fico preso neste momento ...

A maioria dos dados com os quais eu lido não é normal e a maioria das análises é baseada em uma estrutura GLM. Para minha análise atual, tenho uma variável de resposta que é "velocidade de caminhada" (metros / minuto). É fácil para mim identificar que não posso usar o OLS, mas tenho uma grande incerteza ao decidir qual família (Gamma, Weibull etc.) é apropriada!

Uso o Stata e analiso diagnósticos como resíduos e heterocedasticidade, resíduos versus valores ajustados, etc.

Estou ciente de que os dados de contagem podem assumir a forma de uma taxa (por exemplo, taxas de incidência) e usaram gama (o analógico para modelos binomiais negativos discretos superdispersos), mas gostaria apenas que uma "arma fumegante" dissesse SIM, VOCÊ TEM O CERTO FAMÍLIA. Observar os resíduos padronizados versus os valores ajustados é a única e melhor maneira de fazer isso? Gostaria de usar um modelo misto para dar conta de alguma hierarquia nos dados, mas primeiro preciso resolver qual família melhor descreve minha variável de resposta.

Qualquer ajuda apreciada. Linguagem Stata especialmente apreciada!

RLang
fonte
4
" Gostaria que uma" arma fumegante "dissesse SIM, VOCÊ TEM A FAMÍLIA CERTA " - nada lhe dirá isso. O melhor que você pode esperar é uma família que não esteja claramente errada. Existem várias maneiras de escolher uma família distributiva, mas em geral ela tende a envolver uma combinação de considerações a priori ou teóricas e as indicações dos dados em si.
Glen_b -Reinstala Monica

Respostas:

14

Eu tenho algumas dicas:

(1) Como os resíduos devem ser comparados aos ajustes nem sempre é tão óbvio, por isso é bom estar familiarizado com o diagnóstico de modelos específicos. Nos modelos de regressão logística, por exemplo, a estatística Hosmer-Lemeshow é usada para avaliar a qualidade do ajuste; os valores de alavancagem tendem a ser pequenos onde as probabilidades estimadas são muito grandes, muito pequenas ou aproximadamente; & em breve.

(2) Às vezes, uma família de modelos pode ser vista como um caso especial de outra; portanto, você pode usar um teste de hipótese em um parâmetro para ajudá-lo a escolher. Exponencial vs Weibull, por exemplo.

(3) O Critério de Informação de Akaike é útil na escolha entre diferentes modelos, o que inclui a escolha entre diferentes famílias.

(4) O conhecimento teórico / empírico sobre o que você está modelando restringe o campo dos modelos plausíveis.

Mas não há maneira automática de encontrar a família 'certa'; os dados da vida real podem vir de distribuições tão complicadas quanto você quiser, e a complexidade dos modelos que vale a pena tentar ajustar aumenta com a quantidade de dados que você possui. Isso faz parte do ditado de Box de que nenhum modelo é verdadeiro, mas alguns são úteis.

Comentário de Re @ gung: parece que o teste de Hosmer-Lemeshow comumente usado é (a) surpreendentemente sensível à escolha das caixas, & (b) geralmente menos poderoso do que alguns outros testes contra algumas classes relevantes de hipótese alternativa. Isso não prejudica o ponto (1): também é bom estar atualizado.

Scortchi - Restabelecer Monica
fonte
Obrigado! Suas sugestões são sucintas e precisas. Sou limitado nas famílias que posso usar devido à estrutura da minha variável de resposta (positiva, contínua, mas altamente distorcida). Entre a família exponencial, parece que gama é realmente a única opção. Enquanto isso, encontrei algumas ferramentas úteis de NJ Cox, como aparece em Stata Jounal 5 (2): 259-273 - gammafit (estima parâmetros de forma e escala) e o dpplot permite a sobreposição do gráfico de probabilidade de densidade e minha variável de resposta (pode ser feito com muitas distribuições e me permite combinar a melhor família com meus dados) .Obrigado por outras sugestões também!
RLang
1
Observe que o teste Hosmer-Lemeshow GoF demonstrou depender da classificação usada / não é confiável.
gung - Restabelece Monica
@ Gung, isso depende claramente do binning usado - não é o ideal, mas não tenho certeza se isso é um grande problema, a menos que você comece a mexer com os binnings para tentar o resultado desejado. Como não é confiável e que outros testes são melhores?
Scortchi - Restabelece Monica
1
Veja a resposta de Frank Harrell aqui: Seleção de modelo por etapas, estatística de Hosmer-Lemeshow e sucesso de previsão do modelo em regressão logística aninhada em R para uma discussão sobre esses problemas.
gung - Restabelece Monica
1
Você está certo de que "inválido" é muito forte; Eu só disse "não confiável" e Harrell usa "obsoleto", no entanto.
gung - Restabelece Monica
8

Você pode achar que é interessante para ler a vinheta (manual introdutório) para o pacote de R fitdistrplus. Reconheço que você prefere trabalhar na Stata, mas acho que a vinheta será suficientemente autoexplicativa para que você possa obter algumas idéias sobre o processo de inferir famílias de distribuição a partir de dados. Você provavelmente poderá implementar algumas das idéias no Stata por meio de seu próprio código. Em particular, acho que o gráfico de Cullen e Frey, se é / poderia ser implementado no Stata, pode ser útil para você.

- Reinstate Monica
fonte
Revi esse problema novamente e mudei para R e estou usando Zuur e Ieno como orientação. Ainda existem muitos problemas, mas, em geral, acho que, usando varIdent, meus diagnósticos de modelo parecem ter "pequena heterogeneidade". A plotagem de resíduos contra o ajuste parece boa, e os resíduo em cada covariável fornecem alguns resultados interessantes para uma das variáveis ​​do meu modelo (elevação) - principalmente em função do tamanho pequeno da amostra em alta elevação. Obrigado pelo seu comentário sobre fitdistrplus. Agora que estou usando R e Rstudio (adorei!), Isso será útil!
precisa saber é o seguinte
1
O link está quebrado. Este é o manual de introdução que você estava falando? cran.r-project.org/doc/contrib/Ricci-distributions-en.pdf Ou foi esse: cran.r-project.org/web/packages/fitdistrplus/vignettes/…
emschorsch
O último link parece ser uma versão diferente da vinheta à qual eu estava me referindo.
gung - Restabelece Monica