Quando usar o GLM em vez do LM?

Quando usar um modelo linear generalizado sobre um modelo linear?

Eu sei que o modelo linear generalizado permite, por exemplo, que os erros tenham alguma outra distribuição além da normal, mas por que alguém se preocupa com as distribuições dos erros? Como por que diferentes distribuições de erro são úteis?

generalized-linear-model mavavilj
fonte

Se a suposição feita sobre o erro for verdadeira, você obtém estimativas que (em geral) são as mais eficientes. Algumas vezes a distribuição você impõe tem algumas propriedades agradáveis ... como encaixar um resultado fictício com logit ou probit ao invés de OLS

Repmat

@ Repep É porque é possível relaxar na suposição do modelo linear "os erros devem ser normalmente distribuídos" e, como não precisam, então é possível obter um ajuste melhor? Existem categorias gerais de problemas que são mais adequadas para GLMs do que LMs?

mavavilj

Respostas:

Um GLM é uma versão mais geral de um modelo linear: o modelo linear é um caso especial de um GLM gaussiano com o link de identidade. Portanto, a questão é: por que usamos outras funções de link ou outros relacionamentos de variação média? Ajustamos GLMs porque eles respondem a uma pergunta específica na qual estamos interessados .

Por exemplo, não há nada inerentemente errado em ajustar uma resposta binária em um modelo de regressão linear se você estiver interessado na associação entre essas variáveis. De fato, se uma proporção mais alta de resultados negativos tende a ser observada no percentil 50 mais baixo de uma exposição e uma proporção mais alta de resultados positivos é observada no percentil 50, isso produzirá uma linha inclinada positivamente que descreve corretamente uma associação positiva entre esses duas variáveis.

Como alternativa, você pode estar interessado em modelar a associação mencionada acima usando uma curva em forma de S. A inclinação e a interceptação de tal curva são responsáveis por uma tendência de risco extremo a tender para uma probabilidade de 0/1. Além disso, a inclinação de uma curva logit é interpretada como uma razão log-odds. Isso motiva o uso de uma função de link de logit. Da mesma forma, probabilidades ajustadas muito próximas de 1 ou 0 podem tender a ser menos variáveis nas repetições do desenho do estudo e, portanto, podem ser explicadas por uma relação binomial de média e variância, dizendo que $se(\hat{Y}) = \hat{Y}(1-\hat{Y})$ o que motiva a regressão logística. Nesse sentido, uma abordagem mais moderna para esse problema sugere a adaptação de um modelo de risco relativo que utiliza um link de log, de modo que a inclinação da linha de tendência exponencial seja interpretada como um risco relativo de log, um valor mais prático do que um log- razão de probabilidade.

AdamO
fonte

Bem, há muitas razões para escolher uma distribuição de erro diferente. Mas acredito que você não sabe por que temos distribuições para variáveis em primeiro lugar. Se isso é óbvio, acredito que minha resposta é inútil para você, desculpe.

Por que as distribuições são importantes

Veja, ter distribuições nos permite considerar um modelo de forma probabilística, o que significa que podemos quantificar incertezas sobre o nosso modelo. Quando na estatística 101 aprendemos que a distribuição amostral da amostra significa $\bar{X} \dot{\sim} \mathcal{N}(\mu,\sigma)$ (assintoticamente), podemos, em uma estrutura probabilística, contar muitas coisas sobre essa estimativa, como testar hipóteses, construir intervalos de confiança.

Distribuições probabilísticas em modelos lineares e lineares generalizados

Quando em uma estrutura de modelo linear, podemos basicamente fazer o mesmo, se soubermos a distribuição do termo de erro. Por quê? Isso é resultado da combinação linear de variáveis aleatórias ( veja esta resposta ). Mas o ponto é que, quando essa estrutura probabilística está presente no modelo, podemos novamente fazer algum tipo de coisa. Mais notavelmente, além do teste de hipóteses e da construção de IC, podemos construir previsões com incerteza quantificada, seleção de modelo, qualidade dos testes de ajuste e várias outras coisas.

Agora, por que precisamos especificamente de GLMs? Primeiro, a estrutura probabilística de um modelo linear não pode lidar com diferentes tipos disso, como contagens ou dados binários. Esses tipos de dados são intrinsecamente diferentes, como dados contínuos regulares, o que significa que é possível ter uma altura de 1,83 metros, mas é inútil ter 4,5 luzes elétricas não funcionando.

Portanto, a motivação para GLMs começa com o tratamento de diferentes tipos de dados, principalmente pelo uso de funções de link ou / e pela manipulação inteligente do modelo pretendido para uma "estrutura" linear conhecida. Essas necessidades e idéias estão conectadas diretamente à forma como os erros são modelados pela "estrutura" que está sendo usada.

Guilherme Marthe
fonte

"erros" não têm distribuições, exceto em algumas formulações de modelos OLS. Se você estiver falando sobre uma distribuição de

Y

$Y$ condicional em

X

$X$ , pode ser demonstrado que alguns GLMs são uma técnica de probabilidade máxima usando parametrização natural. No entanto, nem todos os MLG são MLE, mas, no entanto, muito útil

Adamo

Há duas coisas com as quais devemos nos preocupar,

consistência,
eficiência.

Se não tivermos 1, aperte 2. Mas se tivermos 1, gostaríamos de obter 2, se possível.

Se você executar o OLS, ele será consistente com suposições muito gerais sobre a distribuição de erros (você só precisa de exogeneidade). No entanto, o GLS pode ser mais eficiente. Isso é particularmente bom se você tiver uma amostra pequena.

Superpronker
fonte

A linearidade geral é realmente apenas sobre eficiência na computação?

mavavilj

Estou falando de eficiência estatística: ou seja, quantas observações são necessárias para atingir um certo nível de precisão (em probabilidade).

Superpronker

@ Superpronker Eu acho que uma omissão bastante flagrante é interpretabilidade ou utilidade. Nesse sentido, Cox disse: "É preciso enfatizar que o fornecimento de estimadores precisos, quase ou quase imparciais, raramente é, se é que alguma vez, importante por si só". De fato, aposto que existem exemplos em que um modelo OLS mal especificado seria mais eficiente que um GLM.

AdamO

@ Adamo, bom ponto. Além disso, como OP sugere, eficiência computacional: se podemos evitar a otimização numérica completamente, isso também é preferível.

Superpronker

@ Superpronker O GLM realmente não tem nada a ver com otimização. Acontece que, para famílias exponenciais regulares, uma relação de variância média torna possível obter a máxima probabilidade com GLMs, mas, em geral, é apenas uma abordagem de equação de estimativa. Nós encontramos uma raiz para a equação

D^{T} V^{- 1} (Y - g^{- 1} (β X))

$D^TV^{-1} \left(Y - g^{-1} (\beta X) \right)$ para qualquer idade

D

$D$ ou

V

$V$ .

211116 AdamOf: