Quando usar um modelo linear generalizado sobre um modelo linear?
Eu sei que o modelo linear generalizado permite, por exemplo, que os erros tenham alguma outra distribuição além da normal, mas por que alguém se preocupa com as distribuições dos erros? Como por que diferentes distribuições de erro são úteis?
generalized-linear-model
mavavilj
fonte
fonte
Respostas:
Um GLM é uma versão mais geral de um modelo linear: o modelo linear é um caso especial de um GLM gaussiano com o link de identidade. Portanto, a questão é: por que usamos outras funções de link ou outros relacionamentos de variação média? Ajustamos GLMs porque eles respondem a uma pergunta específica na qual estamos interessados .
Por exemplo, não há nada inerentemente errado em ajustar uma resposta binária em um modelo de regressão linear se você estiver interessado na associação entre essas variáveis. De fato, se uma proporção mais alta de resultados negativos tende a ser observada no percentil 50 mais baixo de uma exposição e uma proporção mais alta de resultados positivos é observada no percentil 50, isso produzirá uma linha inclinada positivamente que descreve corretamente uma associação positiva entre esses duas variáveis.
Como alternativa, você pode estar interessado em modelar a associação mencionada acima usando uma curva em forma de S. A inclinação e a interceptação de tal curva são responsáveis por uma tendência de risco extremo a tender para uma probabilidade de 0/1. Além disso, a inclinação de uma curva logit é interpretada como uma razão log-odds. Isso motiva o uso de uma função de link de logit. Da mesma forma, probabilidades ajustadas muito próximas de 1 ou 0 podem tender a ser menos variáveis nas repetições do desenho do estudo e, portanto, podem ser explicadas por uma relação binomial de média e variância, dizendo ques e (Y^) =Y^( 1 -Y^) o que motiva a regressão logística. Nesse sentido, uma abordagem mais moderna para esse problema sugere a adaptação de um modelo de risco relativo que utiliza um link de log, de modo que a inclinação da linha de tendência exponencial seja interpretada como um risco relativo de log, um valor mais prático do que um log- razão de probabilidade.
fonte
Bem, há muitas razões para escolher uma distribuição de erro diferente. Mas acredito que você não sabe por que temos distribuições para variáveis em primeiro lugar. Se isso é óbvio, acredito que minha resposta é inútil para você, desculpe.
Por que as distribuições são importantes
Veja, ter distribuições nos permite considerar um modelo de forma probabilística, o que significa que podemos quantificar incertezas sobre o nosso modelo. Quando na estatística 101 aprendemos que a distribuição amostral da amostra significaX¯∼˙N( μ , σ) (assintoticamente), podemos, em uma estrutura probabilística, contar muitas coisas sobre essa estimativa, como testar hipóteses, construir intervalos de confiança.
Distribuições probabilísticas em modelos lineares e lineares generalizados
Quando em uma estrutura de modelo linear, podemos basicamente fazer o mesmo, se soubermos a distribuição do termo de erro. Por quê? Isso é resultado da combinação linear de variáveis aleatórias ( veja esta resposta ). Mas o ponto é que, quando essa estrutura probabilística está presente no modelo, podemos novamente fazer algum tipo de coisa. Mais notavelmente, além do teste de hipóteses e da construção de IC, podemos construir previsões com incerteza quantificada, seleção de modelo, qualidade dos testes de ajuste e várias outras coisas.
Agora, por que precisamos especificamente de GLMs? Primeiro, a estrutura probabilística de um modelo linear não pode lidar com diferentes tipos disso, como contagens ou dados binários. Esses tipos de dados são intrinsecamente diferentes, como dados contínuos regulares, o que significa que é possível ter uma altura de 1,83 metros, mas é inútil ter 4,5 luzes elétricas não funcionando.
Portanto, a motivação para GLMs começa com o tratamento de diferentes tipos de dados, principalmente pelo uso de funções de link ou / e pela manipulação inteligente do modelo pretendido para uma "estrutura" linear conhecida. Essas necessidades e idéias estão conectadas diretamente à forma como os erros são modelados pela "estrutura" que está sendo usada.
fonte
Há duas coisas com as quais devemos nos preocupar,
Se não tivermos 1, aperte 2. Mas se tivermos 1, gostaríamos de obter 2, se possível.
Se você executar o OLS, ele será consistente com suposições muito gerais sobre a distribuição de erros (você só precisa de exogeneidade). No entanto, o GLS pode ser mais eficiente. Isso é particularmente bom se você tiver uma amostra pequena.
fonte