Estou procurando um estudo de caso de regressão linear avançada que ilustra as etapas necessárias para modelar relacionamentos não lineares complexos e múltiplos usando GLM ou OLS. É surpreendentemente difícil encontrar recursos que vão além dos exemplos básicos da escola: a maioria dos livros que li não vai além de uma transformação logarítmica da resposta juntamente com um BoxCox de um preditor ou um spline natural no melhor dos casos. Além disso, todos os exemplos que vi até agora abordam cada problema de transformação de dados em um modelo separado, geralmente em um único modelo preditivo.
Eu sei o que é uma transformação BoxCox ou YeoJohnson. O que estou procurando é um estudo de caso detalhado da vida real, onde a resposta / relacionamento não seja clara. Por exemplo, a resposta não é estritamente positiva (portanto, você não pode usar o log ou o BoxCox), os preditores têm relações não lineares entre si e contra a resposta, e as transformações de dados com máxima probabilidade não parecem implicar um padrão 0,33 ou 0,5 expoente. Além disso, a variância residual é constatada como não constante (nunca é), portanto a resposta também precisa ser transformada e escolhas devem ser feitas entre uma regressão da família GLM não padrão ou uma transformação de resposta. O pesquisador provavelmente fará escolhas para evitar o excesso de ajuste dos dados.
EDITAR
Até agora, reuni os seguintes recursos:
- Estratégias de modelagem de regressão, F. Harrell
- Série Econômica Aplicada, W. Enders
- Modelos lineares dinâmicos com R, G. Petris
- Análise de regressão aplicada, D. Kleinbaum
- Uma Introdução à Aprendizagem Estatística, G. James / D. Witten
Eu só li o último (ISLR) e é um texto muito bom (cinco estrelas no meu relógio), embora mais orientado para o ML do que para a modelagem de regressão avançada.
Há também uma boa publicação no CV que apresenta um caso de regressão desafiador.
fonte
Respostas:
Estratégias de modelagem de regressão e ISLR, que já foram mencionadas por outros, são duas sugestões muito boas. Eu tenho alguns outros que você pode querer considerar.
A Modelagem Preditiva Aplicada de Kuhn e Johnson contém vários bons estudos de caso e é bastante prática.
A Practical Data Science with R trata a modelagem prática (regressão) no contexto de suas aplicações principalmente como modelos preditivos em uma situação de negócios.-
Modelos aditivos generalizados: Uma introdução ao R por Simon Wood é um bom tratamento de modelos aditivos generalizados e como você os encaixa usando seu
mgcv
pacote para R. Ele contém alguns exemplos práticos não triviais. O uso de modelos GAM é uma alternativa para descobrir a transformação "correta", pois isso é feito de maneira adaptável aos dados por meio de uma expansão de spline e estimativa penalizada da máxima probabilidade máxima. No entanto, ainda existem outras opções que precisam ser feitas, por exemplo, a escolha da função de link.O pacote mboost para R também se encaixa nos modelos GAM, mas usando uma abordagem diferente via otimização. Eu recomendo o tutorial para o pacote (uma das vinhetas).
Mencionarei também a Descoberta do Modelo Empírico e a Avaliação Teórica de Hendry e Doornik, embora ainda não tenha lido este livro. Foi recomendado para mim.
fonte
Um dos melhores materiais de curso que você pode encontrar sobre regressão avançada, múltipla e complexa (incluindo não-linear) é baseado no livro Estratégias de Modelagem de Regressão, de Frank E. Harrell Jr.
O livro está sendo discutido nos comentários, mas não neste material, que por si só é um grande recurso.
fonte
Eu recomendaria o livro Mostly Harmless Econometrics de Joshua D. Angrist e Jörn-Steffen Pischke
Este é o texto que eu mais possuo no mundo real, sal e terra, e é super barato, em torno de US $ 26,00 novos. O livro foi escrito para o estatístico / economista graduado, por isso é bastante avançado.
Agora, este livro não é exatamente o que você está pedindo, no sentido de que não se concentra em "relações complexas e múltiplas não lineares", tanto quanto em fundamentos fundamentais, como endoegeneidade, interpretação e design inteligente de regressão.
Mas estou oferecendo este livro para tentar fazer uma observação. Ou seja, quando se trata da aplicação da análise de regressão no mundo real, as questões mais desafiadoras geralmente não têm a ver com o fato de nossos modelos não serem suficientemente complexos ... acredite, somos muito bons em percussão muito complexa modelos! Em vez disso, os maiores problemas são coisas como
Um entendimento firme do GMM, filtros não lineares e regressão não paramétrica abrange praticamente todos os tópicos que você listou e pode ser aprendido à medida que avança. No entanto, com dados do mundo real, essas estruturas podem ser desnecessariamente complexas, geralmente prejudiciais.
Com frequência, é a capacidade de ser inteligentemente simples, em vez de completamente generalizada e altamente sofisticada, que mais beneficia você com a análise do mundo real. Este livro irá ajudá-lo com o primeiro.
fonte
Você pode consultar Introdução ao aprendizado estatístico com R (ISLR), o livro fala sobre splines e regressão polinomial em detalhes nos casos.
fonte
Não tenho certeza de qual é o objetivo da sua pergunta. Posso recomendar o texto de Análise Econométrica de Greene . Tem uma tonelada de referências a papéis dentro. Praticamente cada exemplo do livro faz referência a um artigo publicado.
Para dar uma ideia, veja o Exemplo 7.6 "Efeitos de interação em um modelo loglinear para renda" na p.195. Refere-se a um artigo e ao conjunto de dados: Regina T. Riphahn, Achim Wambach e Andreas Million, " Efeitos de incentivo na demanda por serviços de saúde: uma estimativa de dados de contagem de painéis bivariados ", Journal of Applied Econometrics, vol. 18, n. 4, 2003, pp. 387-405.
O exemplo é sobre o uso dos modelos lineares logísticos e os efeitos de interação. Você pode ler o artigo inteiro ou a descrição deste livro. Este não é um caso de uso inventado. É uma verdadeira pesquisa publicada. É assim que as pessoas realmente usam os métodos estatísticos na pesquisa econômica.
Como escrevi, o livro é incomodado com casos de uso como este sobre o uso de métodos estatísticos avançados.
fonte
Você já examinou alguns dos cursos / livros de Análise de séries temporais financeiras que Ruey Tsay (UChicago) escreve?
http://faculty.chicagobooth.edu/ruey.tsay/teaching/
As aulas de Ruey Tsays e o livro fornecem vários exemplos do mundo real em Finanças de regressões complexas do tipo criado para uso nos mercados financeiros. O capítulo 1 começa com modelos de regressão multifatorial e expande-se para modelos de séries temporais autoregressivas sazonais pelo capítulo 5 ou 6.
fonte