Exemplos avançados de modelagem de regressão

22

Estou procurando um estudo de caso de regressão linear avançada que ilustra as etapas necessárias para modelar relacionamentos não lineares complexos e múltiplos usando GLM ou OLS. É surpreendentemente difícil encontrar recursos que vão além dos exemplos básicos da escola: a maioria dos livros que li não vai além de uma transformação logarítmica da resposta juntamente com um BoxCox de um preditor ou um spline natural no melhor dos casos. Além disso, todos os exemplos que vi até agora abordam cada problema de transformação de dados em um modelo separado, geralmente em um único modelo preditivo.

Eu sei o que é uma transformação BoxCox ou YeoJohnson. O que estou procurando é um estudo de caso detalhado da vida real, onde a resposta / relacionamento não seja clara. Por exemplo, a resposta não é estritamente positiva (portanto, você não pode usar o log ou o BoxCox), os preditores têm relações não lineares entre si e contra a resposta, e as transformações de dados com máxima probabilidade não parecem implicar um padrão 0,33 ou 0,5 expoente. Além disso, a variância residual é constatada como não constante (nunca é), portanto a resposta também precisa ser transformada e escolhas devem ser feitas entre uma regressão da família GLM não padrão ou uma transformação de resposta. O pesquisador provavelmente fará escolhas para evitar o excesso de ajuste dos dados.

EDITAR

Até agora, reuni os seguintes recursos:

  • Estratégias de modelagem de regressão, F. Harrell
  • Série Econômica Aplicada, W. Enders
  • Modelos lineares dinâmicos com R, G. Petris
  • Análise de regressão aplicada, D. Kleinbaum
  • Uma Introdução à Aprendizagem Estatística, G. James / D. Witten

Eu só li o último (ISLR) e é um texto muito bom (cinco estrelas no meu relógio), embora mais orientado para o ML do que para a modelagem de regressão avançada.

Há também uma boa publicação no CV que apresenta um caso de regressão desafiador.

Robert Kubrick
fonte
8
Acredito que o livro de Frank Harrells ( amazon.com/… ) possa ser útil.
Adam Robinsson
@AdamRobinsson Vejo que o sumário está abordando vários assuntos relevantes (modelos multivariados, splines, multicolinearidade), mas essas metodologias são ilustradas juntas em um exemplo da vida real ou cada tópico é explicado separadamente? Porque geralmente em exemplos da vida real todos os problemas surgem juntos e nunca é óbvio como gerenciá-los bem.
Robert Kubrick
1
Ainda não li o livro inteiro, mas as primeiras 150 páginas foram absolutamente ótimas (não sou estatista, apenas entusiasta). Exemplos são extensos e elaborados. O livro é acompanhado pelo pacote RMS (estratégias de modelagem de regressão) para R. Também vi o livro concorrente de David Kleinbaums (esqueci o título infelizmente), mas continha muito menos sobre estratégias e exemplos (e era duas vezes mais caro).
11138 Adam Robinsson #
3
@RobertKubrick: "Regressão multivariada" significa com mais de uma resposta (consulte o wiki da tag que você adicionou, ou aqui ). "Regressão múltipla" significa com mais de um preditor.
Scortchi - Restabelece Monica
3
Talvez você queira conferir a Série Econômica Aplicada da Enders. A nova versão abrange modelos não lineares no final do livro. Quase todos os dados estão disponíveis ao público no site do St. Louis Fed (acessível via quantmod em R) para que você possa acompanhar exemplos da vida real. Os modelos lineares dinâmicos com R também têm alguns exemplos com dados reais bastante decentes.
Eric Brady

Respostas:

10

Estratégias de modelagem de regressão e ISLR, que já foram mencionadas por outros, são duas sugestões muito boas. Eu tenho alguns outros que você pode querer considerar.

A Modelagem Preditiva Aplicada de Kuhn e Johnson contém vários bons estudos de caso e é bastante prática.

A Practical Data Science with R trata a modelagem prática (regressão) no contexto de suas aplicações principalmente como modelos preditivos em uma situação de negócios.-

Modelos aditivos generalizados: Uma introdução ao R por Simon Wood é um bom tratamento de modelos aditivos generalizados e como você os encaixa usando seu mgcvpacote para R. Ele contém alguns exemplos práticos não triviais. O uso de modelos GAM é uma alternativa para descobrir a transformação "correta", pois isso é feito de maneira adaptável aos dados por meio de uma expansão de spline e estimativa penalizada da máxima probabilidade máxima. No entanto, ainda existem outras opções que precisam ser feitas, por exemplo, a escolha da função de link.

O pacote mboost para R também se encaixa nos modelos GAM, mas usando uma abordagem diferente via otimização. Eu recomendo o tutorial para o pacote (uma das vinhetas).

Mencionarei também a Descoberta do Modelo Empírico e a Avaliação Teórica de Hendry e Doornik, embora ainda não tenha lido este livro. Foi recomendado para mim.

NRH
fonte
Modelagem Preditiva Aplicada ... mais ou menos. Eu prefiro o ISLR.
Robert Kubrick
5

Um dos melhores materiais de curso que você pode encontrar sobre regressão avançada, múltipla e complexa (incluindo não-linear) é baseado no livro Estratégias de Modelagem de Regressão, de Frank E. Harrell Jr.

O livro está sendo discutido nos comentários, mas não neste material, que por si só é um grande recurso.

rnso
fonte
2

Eu recomendaria o livro Mostly Harmless Econometrics de Joshua D. Angrist e Jörn-Steffen Pischke

Este é o texto que eu mais possuo no mundo real, sal e terra, e é super barato, em torno de US $ 26,00 novos. O livro foi escrito para o estatístico / economista graduado, por isso é bastante avançado.

Agora, este livro não é exatamente o que você está pedindo, no sentido de que não se concentra em "relações complexas e múltiplas não lineares", tanto quanto em fundamentos fundamentais, como endoegeneidade, interpretação e design inteligente de regressão.

Mas estou oferecendo este livro para tentar fazer uma observação. Ou seja, quando se trata da aplicação da análise de regressão no mundo real, as questões mais desafiadoras geralmente não têm a ver com o fato de nossos modelos não serem suficientemente complexos ... acredite, somos muito bons em percussão muito complexa modelos! Em vez disso, os maiores problemas são coisas como

  1. Endogeneidade
  2. não tendo todos os dados que precisamos
  3. Ter muitos dados ... e está tudo uma bagunça!
  4. Muitas pessoas não conseguem interpretar seus próprios modelos corretamente (um problema que se torna mais prevalente à medida que tornamos os modelos mais complexos)

Um entendimento firme do GMM, filtros não lineares e regressão não paramétrica abrange praticamente todos os tópicos que você listou e pode ser aprendido à medida que avança. No entanto, com dados do mundo real, essas estruturas podem ser desnecessariamente complexas, geralmente prejudiciais.

Com frequência, é a capacidade de ser inteligentemente simples, em vez de completamente generalizada e altamente sofisticada, que mais beneficia você com a análise do mundo real. Este livro irá ajudá-lo com o primeiro.

Zachary Blumenfeld
fonte
1

Você pode consultar Introdução ao aprendizado estatístico com R (ISLR), o livro fala sobre splines e regressão polinomial em detalhes nos casos.

Vikram Venkat
fonte
1

Não tenho certeza de qual é o objetivo da sua pergunta. Posso recomendar o texto de Análise Econométrica de Greene . Tem uma tonelada de referências a papéis dentro. Praticamente cada exemplo do livro faz referência a um artigo publicado.

Para dar uma ideia, veja o Exemplo 7.6 "Efeitos de interação em um modelo loglinear para renda" na p.195. Refere-se a um artigo e ao conjunto de dados: Regina T. Riphahn, Achim Wambach e Andreas Million, " Efeitos de incentivo na demanda por serviços de saúde: uma estimativa de dados de contagem de painéis bivariados ", Journal of Applied Econometrics, vol. 18, n. 4, 2003, pp. 387-405.

O exemplo é sobre o uso dos modelos lineares logísticos e os efeitos de interação. Você pode ler o artigo inteiro ou a descrição deste livro. Este não é um caso de uso inventado. É uma verdadeira pesquisa publicada. É assim que as pessoas realmente usam os métodos estatísticos na pesquisa econômica.

Como escrevi, o livro é incomodado com casos de uso como este sobre o uso de métodos estatísticos avançados.

Aksakal
fonte
0

Você já examinou alguns dos cursos / livros de Análise de séries temporais financeiras que Ruey Tsay (UChicago) escreve?

http://faculty.chicagobooth.edu/ruey.tsay/teaching/

As aulas de Ruey Tsays e o livro fornecem vários exemplos do mundo real em Finanças de regressões complexas do tipo criado para uso nos mercados financeiros. O capítulo 1 começa com modelos de regressão multifatorial e expande-se para modelos de séries temporais autoregressivas sazonais pelo capítulo 5 ou 6.

zhqiat
fonte
2
Sim, eu gostei e não gostei nada disso. É muito amplo (qualquer coisa, desde modelos de volatilidade a alta frequência e ARIMA ...), toca levemente cada assunto (como não era possível com tantos tópicos em mãos) e os estudos e desafios do R são reduzidos ao mínimo. É uma reformulação dos trabalhos acadêmicos e da teoria / modelos já declarados que você pode encontrar em outro lugar. É exatamente isso que quero dizer com casos escolares que nunca lidam com a complexidade de múltiplos desafios em um problema avançado do mundo real.
Robert Kubrick