Sei que essa pode ser uma questão potencialmente ampla, mas fiquei imaginando se existem suposições generalizáveis que indicam o uso de um GAM (modelo aditivo generalizado) sobre um GLM (modelo linear generalizado)?
Alguém me disse recentemente que os GAMs devem ser usados apenas quando eu suponho que a estrutura de dados seja "aditiva", ou seja, espero que adições de x prevejam y. Outra pessoa apontou que um GAM faz um tipo diferente de análise de regressão que um GLM e que um GLM é preferido quando se pode assumir linearidade.
No passado, eu estava usando um GAM para dados ecológicos, por exemplo:
- séries temporais contínuas
- quando os dados não tinham uma forma linear
- Eu tinha vários x para prever o meu y, que pensava ter alguma interação não linear que eu poderia visualizar usando "gráficos de superfície" junto com um teste estatístico
Obviamente, não compreendo muito bem o que um GAM faz diferente de um GLM. Acredito que seja um teste estatístico válido (e vejo um aumento no uso de GAMs, pelo menos em periódicos ecológicos), mas preciso saber melhor quando seu uso é indicado em outras análises de regressão.
fonte
Respostas:
fonte
mgcv
faz um monte de coisas que você não pode fazer comglm
, mas poderia ter sido feito nesse âmbito também ...mgcv
)?Eu enfatizaria que os GAMs são muito mais flexíveis que os GLMs e, portanto, precisam de mais cuidado em seu uso. Com maior poder vem maior responsabilidade.
Você menciona o uso deles em ecologia, o que eu também notei. Eu estava na Costa Rica e vi algum tipo de estudo em uma floresta tropical, onde alguns estudantes de pós-graduação jogaram alguns dados em um GAM e aceitaram seus smoothers de complexos malucos porque o software dizia isso. Foi bastante deprimente, exceto pelo fato bem-humorado / admirável de que eles incluíram rigorosamente uma nota de rodapé que documentava o fato de terem usado um GAM e os smoothers de alta ordem resultantes.
Você não precisa entender exatamente como os GAMs funcionam para usá-los, mas realmente precisa pensar nos seus dados, no problema em questão, na seleção automatizada de parâmetros do seu software, como pedidos mais suaves, suas escolhas (quais smoothers você especifica, interações, se um mais suave for justificado, etc.) e a plausibilidade de seus resultados.
Faça muitas plotagens e observe suas curvas de suavização. Eles enlouquecem em áreas com poucos dados? O que acontece quando você especifica uma suavidade de ordem baixa ou remove completamente a suavização? Um grau 7 é mais suave e realista para essa variável, é excessivamente adequado, apesar das garantias de que está validando cruzadamente suas escolhas? Você tem dados suficientes? É de alta qualidade ou barulhento?
Gosto de GAMS e acho que eles são subestimados na exploração de dados. Eles são simplesmente super flexíveis e, se você se permitir fazer ciência sem rigor, eles o levarão mais longe na região estatística do que os modelos mais simples, como os GLMs.
fonte
mgcv
lida com meus dados. Tento ser parcimonioso com meus parâmetros e verifico quão bem os valores previstos correspondem aos meus dados. seus comentários são um bom lembrete para ser um pouco mais rigoroso - e, finalmente, obter o livro de simon woods!Não tenho reputação de simplesmente adicionar um comentário. Eu concordo totalmente com o comentário de Wayne: com maior poder vem uma maior responsabilidade . Os GAMs podem ser muito flexíveis e, muitas vezes, obtemos / vemos smoothers de complexos malucos . Recomendo fortemente aos pesquisadores que restrinjam os graus de liberdade (número de nós) das funções suaves e testem diferentes estruturas do modelo (interações / sem interações etc.).
Os GAMs podem ser considerados entre as abordagens orientadas por modelo (embora a borda seja difusa, eu incluiria GLM nesse grupo) e as abordagens orientadas a dados (por exemplo, Redes Neurais Artificiais ou Florestas Aleatórias que assumem efeitos de variáveis não lineares que interagem totalmente). De acordo, não concordo totalmente com Hastie e Tibshirani porque os GAMs ainda precisam de algum trabalho de detetive (espero que ninguém me mate por dizer isso).
De uma perspectiva ecológica, eu recomendaria usar o esquema do pacote R para evitar essas variáveis não confiáveis e complexas . Foi desenvolvido por Natalya Pya e Simon Wood e permite restringir as curvas suaves às formas desejadas (por exemplo, unimodal ou monotônica), mesmo para interações bidirecionais. Acho que o GLM se torna uma alternativa menor depois de restringir a forma das funções suaves, mas essa é apenas minha opinião pessoal.
Pya, N., Wood, SN, 2015. Modelos aditivos de forma restrita. Estado. Comput. 25 (3), 543–559. 10.1007 / s11222-013-9448-7
fonte