Eu identifiquei vários lugares nos livros onde o GLM é descrito com 5 distribuições (a saber, Gama, Gaussiana, Binomial, Gaussiana Inversa e Poisson). Isso também é exemplificado na função familiar em R.
Ocasionalmente, encontro referências ao GLM, onde distribuições adicionais estão incluídas ( exemplo ). Alguém pode explicar por que esses 5 são especiais ou estão sempre no GLM, mas às vezes outros são?
Pelo que aprendi até agora, as distribuições GLM na família exponencial se encaixam na forma: que é o parâmetro de dispersão e é o parâmetro canônico.
Nenhuma distribuição pode ser transformada para caber no GLM?
r
probability
distributions
generalized-linear-model
timothy.s.lau
fonte
fonte
Respostas:
Como você indica, a qualificação para usar uma distribuição em um GLM é que ela seja da família exponencial (nota: isso não é a mesma coisa que a distribuição exponencial! Embora a distribuição exponencial, como uma distribuição gama, faça parte do família exponencial). As cinco distribuições que você lista são de toda essa família e, mais importante, são MUITO comuns, portanto elas são usadas como exemplos e explicações.
Como Zhanxiong observa, a distribuição uniforme (com limites desconhecidos) é um exemplo clássico de uma distribuição familiar não exponencial. shf8888 está confundindo a distribuição uniforme geral, em qualquer intervalo, com um uniforme (0, 1). A distribuição Uniforme (0,1) é um caso especial da distribuição beta, que é uma família exponencial. Outras distribuições familiares não exponenciais são os modelos de mistura e a distribuição t.
Você tem a definição da família exponencial correta e o parâmetro canônico é muito importante para usar o GLM. Mesmo assim, sempre achei um pouco mais fácil entender a família exponencial escrevendo-a como:
Existe uma maneira mais geral de escrever isso, com um vetor vez de um escalar ; mas o caso unidimensional explica muito. Especificamente, você deve poder fatorar a parte não exponenciada da sua densidade em duas funções, uma de parâmetro desconhecido mas não os dados observados e um de e não ; e o mesmo para a parte exponenciada. Pode ser difícil ver como, por exemplo, a distribuição binomial pode ser escrita dessa maneira; mas com algum malabarismo algébrico, fica claro eventualmente.θ θ θ x x θ
Usamos a família exponencial porque facilita muito as coisas: por exemplo, encontrar estatísticas suficientes e testar hipóteses. No GLM, o parâmetro canônico é frequentemente usado para encontrar uma função de link. Finalmente, uma ilustração relacionada do motivo pelo qual os estatísticos preferem usar a família exponencial em quase todos os casos está tentando fazer alguma inferência estatística clássica em, digamos, uma distribuição uniforme ( , ) em que e são desconhecidos . Não é impossível, mas é muito mais complicado e envolvido do que fazer o mesmo para distribuições familiares exponenciais.θ1 θ2 θ1 θ2
fonte