A premissa é esta citação da vinheta do pacote R betareg
1 .
Além disso, o modelo compartilha algumas propriedades (como preditor linear, função de link, parâmetro de dispersão) com modelos lineares generalizados (GLMs; McCullagh e Nelder 1989), mas não é um caso especial dessa estrutura (nem mesmo para dispersão fixa). )
Esta resposta também faz alusão ao fato:
[...] Este é um tipo de modelo de regressão apropriado quando a variável de resposta é distribuída como Beta. Você pode pensar nisso como análogo a um modelo linear generalizado. É exatamente o que você está procurando [...] (grifo meu)
O título da pergunta diz tudo: por que a regressão Beta / Dirichlet não é considerada modelo linear generalizado (não é)?
Até onde eu sei, o Modelo Linear Generalizado define modelos construídos com base na expectativa de suas variáveis dependentes, condicionadas às independentes.
é a função de link que mapeia a expectativa, é a distribuição de probabilidade, os resultados e os preditores, são parâmetros lineares e a variância.
GLMs diferentes impõem (ou relaxam) a relação entre a média e a variância, mas deve ser uma distribuição de probabilidade na família exponencial, uma propriedade desejável que deve melhorar a robustez da estimativa, se bem me lembro. As distribuições Beta e Dirichlet são parte da família exponencial, portanto, estou sem ideias.
[1] Cribari-Neto, F. e Zeileis, A. (2009). Regressão beta em R.
Respostas:
Verifique a referência original:
como observam os autores, os parâmetros da distribuição beta re-parametrizada são correlacionados,
Portanto, embora o modelo se pareça com um GLM e seja charmoso como um GLM, ele não se encaixa perfeitamente na estrutura.
fonte
A resposta de @probabilityislogic está no caminho certo.
A distribuição beta está na família exponencial de dois parâmetros . Os modelos GLM simples descritos por Nelder e Wedderburn (1972) não incluem todas as distribuições na família exponencial de dois parâmetros.
Nos termos do artigo de N&W, o GLM aplica-se às funções de densidade do tipo a seguir (posteriormente denominado família de dispersão exponencial em Jørgensen 1987 ):
com uma função de ligação adicional e modelo linear para o parâmetro natural θ = f ( μ ) = f ( X β ) .f() θ=f(μ)=f(Xβ)
Para podermos reescrever a distribuição acima também:
A família exponencial de dois parâmetros é:
que parece semelhante, mas mais geral (também se um dos for constante).θ
A diferença é clara, e também não é possível colocar a distribuição beta em um formato como GLM.
No entanto, me falta compreensão suficiente para criar uma resposta mais intuitiva e bem informada (sinto que pode haver relacionamentos muito mais profundos e elegantes com uma variedade de princípios fundamentais). O GLM generaliza a distribuição do erro usando um único modelo de dispersão exponencial variável no lugar de um modelo de mínimos quadrados e generaliza a relação linear na média, usando uma função de link.
A melhor e mais simples intuição parece ser o dispersão- α ( ϕ ) no exponencial, que se multiplica com tudo e, portanto, a dispersão não varia com θ . Enquanto várias famílias exponenciais de dois parâmetros e métodos de quase-probabilidade, permitem que o parâmetro de dispersão também seja uma função de θ .α(ϕ) θ θ
fonte
Não acho que a distribuição beta faça parte da família de dispersão exponencial . Para conseguir isso, você precisa ter uma densidade
para as funções especificadas e d ( ) . A média é dada como c ′ ( θ ) e a variação é dada como τ c ″ ( θ ) . O parâmetro θ é chamado de parâmetro canônico.c() d() c′(θ) τc′′(θ) θ
A distribuição beta não pode ser escrito desta forma - um caminho para ver este é de notar que não há termo na probabilidade de log - tem de log [ y ] e log [ 1 - y ] em vezy log[y] log[1−y]
Ainda outra maneira de ver que beta não é uma família de dispersão exponencial é que ele pode ser escrito como quexezsão independentes e ambos seguem distribuições gama com o mesmo parâmetro de escala (e gama é família exponencial).y=xx+z x z
fonte