Conselhos gerais sobre modelagem

9

Formular um modelo matemático para um problema é um dos aspectos mais subjetivos da estatística, mas também um dos mais importantes. Quais são as melhores referências para lidar com esse tópico crucial, mas muitas vezes negligenciado? E qual famoso estatístico disse algo como "Deixe os dados guiarem o modelo?"

charles.y.zheng
fonte

Respostas:

8

Na minha opinião, as "Estratégias de Modelagem de Regressão" de Frank Harrell são uma boa referência. Na verdade, é provavelmente o meu livro de estatísticas favorito.

Até agora, estudei menos da metade do livro, mas obtive muitas coisas boas, por exemplo, representando preditores como splines para evitar a linearidade, a imputação múltipla de dados ausentes e a validação do modelo de autoinicialização. Talvez a minha coisa favorita sobre o livro seja o tema geral de que um objetivo importante é obter resultados que serão replicados em novos dados, e não resultados que se mantêm apenas nos dados atuais.

Benefícios adicionais são as empresas de pacotes R de Frank Harrell, que facilitam muitas das coisas descritas no livro e sua disposição em responder perguntas aqui e na R-help.

mark999
fonte
3
(+1) Um bom manual é o Clinical Prediction Models , de EW Steyerberg (especialmente para aqueles interessados ​​em resultados clínicos).
chl
@chl Obrigado pela sugestão. Eu não tinha ouvido falar desse livro e ficarei interessado em dar uma olhada nele.
mark999
2
@ user152509 Até onde eu sei, distribuir uma cópia eletrônica seria ilegal. Se você não puder comprar o livro ou obtê-lo de uma biblioteca, poderá vê-lo no Google Livros e existem alguns recursos relacionados na página da web do Departamento de Bioestatística do Vanderbilt Department.
mark999
6

A última afirmação parece estar no espírito da crítica de Sims ((1980) Macroeconomics and Reality , Econometrica, janeiro, pp. 1-48.) Onde ele

... defende o uso de modelos VAR como um método livre de teoria para estimar relações econômicas, sendo assim uma alternativa às "restrições de identificação incríveis" em modelos estruturais [do wiki]

Mas provavelmente S.Johansen (um dos pioneiros da análise de cointegração) poderia seguir o mesmo espírito. Pelo que aprendi, a sequência de construção do modelo é como:

  1. Esclareça o objetivo principal do modelo: previsão, relações estruturais (simulações), relações causais, fatores latentes, etc.
  2. O modelo abstrato é o mundo real que pode ser "muito real" para cobrir completamente em seu aplicativo, mas fornece uma sensação (ou entendimento) sobre o que está acontecendo
  3. O modelo verbal traz alguma teoria ou traduz sua compreensão em afirmações e hipóteses a serem testadas, fatos empíricos (às vezes chamados de estilizados) são coletados nesta etapa
  4. Modelo matemático somente agora você pode formular sua teoria na forma de equações (diferença, diferencial); esses modelos costumam ser determinísticos (embora seja possível mesclar essa etapa com a última e considerar, por exemplo, equações diferenciais estocásticas), portanto, você precisa. ..
  5. Modelo econométrico (estatístico) adicionando partes estocásticas, a teoria e métodos da estatística aplicada e teoria da probabilidade, micro e macroeconomia.

Espero que isso tenha sido útil.

Dmitrij Celov
fonte
1
Alguma referência para "Sim" ou "Johansen"? Obrigado!
Charles.y.zheng
2

A referência a "deixar os dados guiarem o modelo" pode ser atribuída a George EP Box e Gwilym M. Jenkins . No capítulo 2 de seu livro clássico, Análise de séries temporais: previsão e controle (1976), diz-se que:

A obtenção de estimativas amostrais da função de autocorrelação e do espectro são abordagens não estruturais, análogas à representação de uma função de distribuição empírica por um histograma. Ambas são maneiras de permitir que os dados das séries estacionárias `` falem por si '' e fornecem um primeiro passo na análise de séries temporais, assim como um histograma pode fornecer um primeiro passo na análise distributiva de dados, apontando o caminho para algum modelo paramétrico no qual a análise subsequente será baseada.

Esse procedimento de modelagem de deixar os dados falarem , como defendido por Box & Jenkins, é obviamente referido em toda a literatura sobre modelagem ARIMA. Por exemplo, no contexto de identificação de modelos ARIMA provisórios, Pankratz (1983) diz:

Observe que não abordamos os dados disponíveis com uma idéia rígida e preconcebida sobre qual modelo usaremos. Em vez disso, permitimos que os dados disponíveis `` conversem conosco '' na forma de uma função estimada de autocorrelação e uma função parcial de autocorrelação.

Assim, pode-se dizer que a ideia de '' deixar os dados guiarem o modelo '' é uma característica predominante na análise de séries temporais.

Noções semelhantes podem, no entanto, ser encontradas em outros (sub) campos de estudo. Por exemplo, @Dmitrij Celov fez corretamente referência ao artigo pioneiro de Christopher Sims, Macroeconomics and Reality (1980), que foi uma reação contra o uso de modelos de equações simultâneas em larga escala em macroeconomia.

A abordagem tradicional em macroeconomia era usar a teoria econômica como um guia para construir modelos macroeconômicos. Freqüentemente, os modelos eram compostos de centenas de equações e restrições, como a pré-decisão dos sinais de alguns coeficientes, seriam impostas a eles. Sims (1980) foi crítico ao usar esse conhecimento a priori para construir modelos macroeconômicos:

O fato de grandes modelos macroeconômicos serem dinâmicos é uma fonte rica de restrições espúrias "a priori".

Como já mencionado por @Dmitrij Celov, a abordagem alternativa defendida por Sims (1980) era especificar equações autoregressivas de vetores - que são (essencialmente) baseadas nos próprios valores defasados ​​das variáveis ​​e nos valores defasados ​​de outras variáveis.

Embora eu seja fã da noção de `` deixar os dados falarem por si '' , não tenho muita certeza se essa metodologia pode ser estendida completamente em todas as áreas de estudo. Por exemplo, considere fazer um estudo em economia do trabalho para tentar explicar a diferença entre os salários entre homens e mulheres em um determinado país. A seleção do conjunto de regressores nesse modelo provavelmente será guiada pela teoria do capital humano . Em outros contextos, o conjunto de regressores pode ser selecionado com base no que nos interessa e no que o senso comum nos diz. Verbeek (2008) diz:

É uma boa prática selecionar o conjunto de variáveis potencialmente relevantes com base em argumentos econômicos e não estatísticos. Embora às vezes seja sugerido de outra forma, argumentos estatísticos nunca são argumentos de certeza.

Realmente, só posso arranhar a superfície aqui porque é um tópico tão grande, mas a melhor referência que me deparei sobre modelagem é Granger (1991). Se sua formação não é econômica, não deixe o título do livro te adiar. A maior parte da discussão ocorre no contexto da modelagem de séries econômicas, mas tenho certeza de que as de outras áreas se beneficiariam muito disso e acharão útil.

O livro contém excelentes discussões sobre diferentes metodologias de modelagem, como:

  • A abordagem geral para específica (ou metodologia LSE), como defendido por David Hendry.
  • A abordagem específica para geral.
  • A metodologia de Edward Leamer (geralmente associada aos termos "análise de sensibilidade (ou limites extremos)" e "bayesiana" ).
  • Coincidentemente, a abordagem de Christophers Sims também é abordada.

Vale a pena notar que Granger (1991) é realmente uma coleção de papéis; portanto, em vez de tentar obter uma cópia do livro, é claro que você pode procurar o índice e tentar encontrar os artigos por conta própria. (Veja o link abaixo.)

Espero que isso tenha sido útil!

Referências:

Graeme Walsh
fonte