Quantas distribuições existem no GLM?

11

Eu identifiquei vários lugares nos livros onde o GLM é descrito com 5 distribuições (a saber, Gama, Gaussiana, Binomial, Gaussiana Inversa e Poisson). Isso também é exemplificado na função familiar em R.

Ocasionalmente, encontro referências ao GLM, onde distribuições adicionais estão incluídas ( exemplo ). Alguém pode explicar por que esses 5 são especiais ou estão sempre no GLM, mas às vezes outros são?

Pelo que aprendi até agora, as distribuições GLM na família exponencial se encaixam na forma: que é o parâmetro de dispersão e é o parâmetro canônico.

f(y;θ,ϕ)=exp{yθb(θ)ϕ+c(y,ϕ)}
ϕθ

Nenhuma distribuição pode ser transformada para caber no GLM?

timothy.s.lau
fonte
5
Claramente, a distribuição uniforme não pertence à família exponencial.
Zhanxiong 19/07/2015
Boa pergunta. Por exemplo, o que acontece com o lognormal?
22615 Michael M
1
@Zhanxiong, não é uniforme um caso especial de distribuição beta, e a distribuição beta está na família exponencial?
shf8888
@ shf8888 AFAIK é apenas uma distribuição da família exponencial no limite, quando converge para a distribuição gama.
shadowtalker
@ Zhanxiong, obrigado por esclarecer! Desculpas, você está certo, com limites desconhecidos não é uma distribuição familiar exponencial.
shf8888

Respostas:

4

Como você indica, a qualificação para usar uma distribuição em um GLM é que ela seja da família exponencial (nota: isso não é a mesma coisa que a distribuição exponencial! Embora a distribuição exponencial, como uma distribuição gama, faça parte do família exponencial). As cinco distribuições que você lista são de toda essa família e, mais importante, são MUITO comuns, portanto elas são usadas como exemplos e explicações.

Como Zhanxiong observa, a distribuição uniforme (com limites desconhecidos) é um exemplo clássico de uma distribuição familiar não exponencial. shf8888 está confundindo a distribuição uniforme geral, em qualquer intervalo, com um uniforme (0, 1). A distribuição Uniforme (0,1) é um caso especial da distribuição beta, que é uma família exponencial. Outras distribuições familiares não exponenciais são os modelos de mistura e a distribuição t.

Você tem a definição da família exponencial correta e o parâmetro canônico é muito importante para usar o GLM. Mesmo assim, sempre achei um pouco mais fácil entender a família exponencial escrevendo-a como:

f(x;θ)=a(θ)g(x)exp[b(θ)R(x)]

Existe uma maneira mais geral de escrever isso, com um vetor vez de um escalar ; mas o caso unidimensional explica muito. Especificamente, você deve poder fatorar a parte não exponenciada da sua densidade em duas funções, uma de parâmetro desconhecido mas não os dados observados e um de e não ; e o mesmo para a parte exponenciada. Pode ser difícil ver como, por exemplo, a distribuição binomial pode ser escrita dessa maneira; mas com algum malabarismo algébrico, fica claro eventualmente.θθθxxθ

Usamos a família exponencial porque facilita muito as coisas: por exemplo, encontrar estatísticas suficientes e testar hipóteses. No GLM, o parâmetro canônico é frequentemente usado para encontrar uma função de link. Finalmente, uma ilustração relacionada do motivo pelo qual os estatísticos preferem usar a família exponencial em quase todos os casos está tentando fazer alguma inferência estatística clássica em, digamos, uma distribuição uniforme ( , ) em que e são desconhecidos . Não é impossível, mas é muito mais complicado e envolvido do que fazer o mesmo para distribuições familiares exponenciais.θ1θ2θ1θ2

Henry
fonte
A distribuição beta com os dois parâmetros desconhecidos ainda é uma família exponencial (mas uma família exponencial de 2 parâmetros). O que faz você pensar que não é? www2.stat.duke.edu/courses/Spring11/sta114/lec/… ou wikipedia
DavidR:
Obrigado por apontar isso, eu mudei meu comentário ... você está certo! Eu realmente não sei o que eu quis dizer
Henry