Isso parece tão elementar, mas eu sempre fico preso neste momento ...
A maioria dos dados com os quais eu lido não é normal e a maioria das análises é baseada em uma estrutura GLM. Para minha análise atual, tenho uma variável de resposta que é "velocidade de caminhada" (metros / minuto). É fácil para mim identificar que não posso usar o OLS, mas tenho uma grande incerteza ao decidir qual família (Gamma, Weibull etc.) é apropriada!
Uso o Stata e analiso diagnósticos como resíduos e heterocedasticidade, resíduos versus valores ajustados, etc.
Estou ciente de que os dados de contagem podem assumir a forma de uma taxa (por exemplo, taxas de incidência) e usaram gama (o analógico para modelos binomiais negativos discretos superdispersos), mas gostaria apenas que uma "arma fumegante" dissesse SIM, VOCÊ TEM O CERTO FAMÍLIA. Observar os resíduos padronizados versus os valores ajustados é a única e melhor maneira de fazer isso? Gostaria de usar um modelo misto para dar conta de alguma hierarquia nos dados, mas primeiro preciso resolver qual família melhor descreve minha variável de resposta.
Qualquer ajuda apreciada. Linguagem Stata especialmente apreciada!
Respostas:
Eu tenho algumas dicas:
(1) Como os resíduos devem ser comparados aos ajustes nem sempre é tão óbvio, por isso é bom estar familiarizado com o diagnóstico de modelos específicos. Nos modelos de regressão logística, por exemplo, a estatística Hosmer-Lemeshow é usada para avaliar a qualidade do ajuste; os valores de alavancagem tendem a ser pequenos onde as probabilidades estimadas são muito grandes, muito pequenas ou aproximadamente; & em breve.
(2) Às vezes, uma família de modelos pode ser vista como um caso especial de outra; portanto, você pode usar um teste de hipótese em um parâmetro para ajudá-lo a escolher. Exponencial vs Weibull, por exemplo.
(3) O Critério de Informação de Akaike é útil na escolha entre diferentes modelos, o que inclui a escolha entre diferentes famílias.
(4) O conhecimento teórico / empírico sobre o que você está modelando restringe o campo dos modelos plausíveis.
Mas não há maneira automática de encontrar a família 'certa'; os dados da vida real podem vir de distribuições tão complicadas quanto você quiser, e a complexidade dos modelos que vale a pena tentar ajustar aumenta com a quantidade de dados que você possui. Isso faz parte do ditado de Box de que nenhum modelo é verdadeiro, mas alguns são úteis.
Comentário de Re @ gung: parece que o teste de Hosmer-Lemeshow comumente usado é (a) surpreendentemente sensível à escolha das caixas, & (b) geralmente menos poderoso do que alguns outros testes contra algumas classes relevantes de hipótese alternativa. Isso não prejudica o ponto (1): também é bom estar atualizado.
fonte
Você pode achar que é interessante para ler a vinheta (manual introdutório) para o pacote de R
fitdistrplus
. Reconheço que você prefere trabalhar na Stata, mas acho que a vinheta será suficientemente autoexplicativa para que você possa obter algumas idéias sobre o processo de inferir famílias de distribuição a partir de dados. Você provavelmente poderá implementar algumas das idéias no Stata por meio de seu próprio código. Em particular, acho que o gráfico de Cullen e Frey, se é / poderia ser implementado no Stata, pode ser útil para você.fonte