Formular um modelo matemático para um problema é um dos aspectos mais subjetivos da estatística, mas também um dos mais importantes. Quais são as melhores referências para lidar com esse tópico crucial, mas muitas vezes negligenciado? E qual famoso estatístico disse algo como "Deixe os dados guiarem o modelo?"
Na minha opinião, as "Estratégias de Modelagem de Regressão" de Frank Harrell são uma boa referência. Na verdade, é provavelmente o meu livro de estatísticas favorito.
Até agora, estudei menos da metade do livro, mas obtive muitas coisas boas, por exemplo, representando preditores como splines para evitar a linearidade, a imputação múltipla de dados ausentes e a validação do modelo de autoinicialização. Talvez a minha coisa favorita sobre o livro seja o tema geral de que um objetivo importante é obter resultados que serão replicados em novos dados, e não resultados que se mantêm apenas nos dados atuais.
Benefícios adicionais são as empresas de pacotes R de Frank Harrell, que facilitam muitas das coisas descritas no livro e sua disposição em responder perguntas aqui e na R-help.
(+1) Um bom manual é o Clinical Prediction Models , de EW Steyerberg (especialmente para aqueles interessados em resultados clínicos).
chl
@chl Obrigado pela sugestão. Eu não tinha ouvido falar desse livro e ficarei interessado em dar uma olhada nele.
mark999
2
@ user152509 Até onde eu sei, distribuir uma cópia eletrônica seria ilegal. Se você não puder comprar o livro ou obtê-lo de uma biblioteca, poderá vê-lo no Google Livros e existem alguns recursos relacionados na página da web do Departamento de Bioestatística do Vanderbilt Department.
mark999
6
A última afirmação parece estar no espírito da crítica de Sims ((1980) Macroeconomics and Reality , Econometrica, janeiro, pp. 1-48.) Onde ele
... defende o uso de modelos VAR como um método livre de teoria para estimar relações econômicas, sendo assim uma alternativa às "restrições de identificação incríveis" em modelos estruturais [do wiki]
Mas provavelmente S.Johansen (um dos pioneiros da análise de cointegração) poderia seguir o mesmo espírito. Pelo que aprendi, a sequência de construção do modelo é como:
Esclareça o objetivo principal do modelo: previsão, relações estruturais (simulações), relações causais, fatores latentes, etc.
O modelo abstrato é o mundo real que pode ser "muito real" para cobrir completamente em seu aplicativo, mas fornece uma sensação (ou entendimento) sobre o que está acontecendo
O modelo verbal traz alguma teoria ou traduz sua compreensão em afirmações e hipóteses a serem testadas, fatos empíricos (às vezes chamados de estilizados) são coletados nesta etapa
Modelo matemático somente agora você pode formular sua teoria na forma de equações (diferença, diferencial); esses modelos costumam ser determinísticos (embora seja possível mesclar essa etapa com a última e considerar, por exemplo, equações diferenciais estocásticas), portanto, você precisa. ..
Modelo econométrico (estatístico) adicionando partes estocásticas, a teoria e métodos da estatística aplicada e teoria da probabilidade, micro e macroeconomia.
Alguma referência para "Sim" ou "Johansen"? Obrigado!
Charles.y.zheng
2
A referência a "deixar os dados guiarem o modelo" pode ser atribuída a George EP Box e Gwilym M. Jenkins . No capítulo 2 de seu livro clássico, Análise de séries temporais: previsão e controle (1976), diz-se que:
A obtenção de estimativas amostrais da função de autocorrelação e do espectro são abordagens não estruturais, análogas à representação de uma função de distribuição empírica por um histograma. Ambas são maneiras de permitir que os dados das séries estacionárias `` falem por si '' e fornecem um primeiro passo na análise de séries temporais, assim como um histograma pode fornecer um primeiro passo na análise distributiva de dados, apontando o caminho para algum modelo paramétrico no qual a análise subsequente será baseada.
Esse procedimento de modelagem de deixar os dados falarem , como defendido por Box & Jenkins, é obviamente referido em toda a literatura sobre modelagem ARIMA. Por exemplo, no contexto de identificação de modelos ARIMA provisórios, Pankratz (1983) diz:
Observe que não abordamos os dados disponíveis com uma idéia rígida e preconcebida sobre qual modelo usaremos. Em vez disso, permitimos que os dados disponíveis `` conversem conosco '' na forma de uma função estimada de autocorrelação e uma função parcial de autocorrelação.
Assim, pode-se dizer que a ideia de '' deixar os dados guiarem o modelo '' é uma característica predominante na análise de séries temporais.
Noções semelhantes podem, no entanto, ser encontradas em outros (sub) campos de estudo. Por exemplo, @Dmitrij Celov fez corretamente referência ao artigo pioneiro de Christopher Sims, Macroeconomics and Reality (1980), que foi uma reação contra o uso de modelos de equações simultâneas em larga escala em macroeconomia.
A abordagem tradicional em macroeconomia era usar a teoria econômica como um guia para construir modelos macroeconômicos. Freqüentemente, os modelos eram compostos de centenas de equações e restrições, como a pré-decisão dos sinais de alguns coeficientes, seriam impostas a eles. Sims (1980) foi crítico ao usar esse conhecimento a priori para construir modelos macroeconômicos:
O fato de grandes modelos macroeconômicos serem dinâmicos é uma fonte rica de restrições espúrias "a priori".
Como já mencionado por @Dmitrij Celov, a abordagem alternativa defendida por Sims (1980) era especificar equações autoregressivas de vetores - que são (essencialmente) baseadas nos próprios valores defasados das variáveis e nos valores defasados de outras variáveis.
Embora eu seja fã da noção de `` deixar os dados falarem por si '' , não tenho muita certeza se essa metodologia pode ser estendida completamente em todas as áreas de estudo. Por exemplo, considere fazer um estudo em economia do trabalho para tentar explicar a diferença entre os salários entre homens e mulheres em um determinado país. A seleção do conjunto de regressores nesse modelo provavelmente será guiada pela teoria do capital humano . Em outros contextos, o conjunto de regressores pode ser selecionado com base no que nos interessa e no que o senso comum nos diz. Verbeek (2008) diz:
É uma boa prática selecionar o conjunto de variáveis potencialmente relevantes com base em argumentos econômicos e não estatísticos. Embora às vezes seja sugerido de outra forma, argumentos estatísticos nunca são argumentos de certeza.
Realmente, só posso arranhar a superfície aqui porque é um tópico tão grande, mas a melhor referência que me deparei sobre modelagem é Granger (1991). Se sua formação não é econômica, não deixe o título do livro te adiar. A maior parte da discussão ocorre no contexto da modelagem de séries econômicas, mas tenho certeza de que as de outras áreas se beneficiariam muito disso e acharão útil.
O livro contém excelentes discussões sobre diferentes metodologias de modelagem, como:
A abordagem geral para específica (ou metodologia LSE), como defendido por David Hendry.
A abordagem específica para geral.
A metodologia de Edward Leamer (geralmente associada aos termos "análise de sensibilidade (ou limites extremos)" e "bayesiana" ).
Coincidentemente, a abordagem de Christophers Sims também é abordada.
Vale a pena notar que Granger (1991) é realmente uma coleção de papéis; portanto, em vez de tentar obter uma cópia do livro, é claro que você pode procurar o índice e tentar encontrar os artigos por conta própria. (Veja o link abaixo.)
Espero que isso tenha sido útil!
Referências:
Box, GE; Jenkins, GM (1976). Análise de séries temporais: Previsão e controle. Série Holden-Day em análise de séries temporais.
A última afirmação parece estar no espírito da crítica de Sims ((1980) Macroeconomics and Reality , Econometrica, janeiro, pp. 1-48.) Onde ele
Mas provavelmente S.Johansen (um dos pioneiros da análise de cointegração) poderia seguir o mesmo espírito. Pelo que aprendi, a sequência de construção do modelo é como:
Espero que isso tenha sido útil.
fonte
A referência a "deixar os dados guiarem o modelo" pode ser atribuída a George EP Box e Gwilym M. Jenkins . No capítulo 2 de seu livro clássico, Análise de séries temporais: previsão e controle (1976), diz-se que:
Esse procedimento de modelagem de deixar os dados falarem , como defendido por Box & Jenkins, é obviamente referido em toda a literatura sobre modelagem ARIMA. Por exemplo, no contexto de identificação de modelos ARIMA provisórios, Pankratz (1983) diz:
Assim, pode-se dizer que a ideia de '' deixar os dados guiarem o modelo '' é uma característica predominante na análise de séries temporais.
Noções semelhantes podem, no entanto, ser encontradas em outros (sub) campos de estudo. Por exemplo, @Dmitrij Celov fez corretamente referência ao artigo pioneiro de Christopher Sims, Macroeconomics and Reality (1980), que foi uma reação contra o uso de modelos de equações simultâneas em larga escala em macroeconomia.
A abordagem tradicional em macroeconomia era usar a teoria econômica como um guia para construir modelos macroeconômicos. Freqüentemente, os modelos eram compostos de centenas de equações e restrições, como a pré-decisão dos sinais de alguns coeficientes, seriam impostas a eles. Sims (1980) foi crítico ao usar esse conhecimento a priori para construir modelos macroeconômicos:
Como já mencionado por @Dmitrij Celov, a abordagem alternativa defendida por Sims (1980) era especificar equações autoregressivas de vetores - que são (essencialmente) baseadas nos próprios valores defasados das variáveis e nos valores defasados de outras variáveis.
Embora eu seja fã da noção de `` deixar os dados falarem por si '' , não tenho muita certeza se essa metodologia pode ser estendida completamente em todas as áreas de estudo. Por exemplo, considere fazer um estudo em economia do trabalho para tentar explicar a diferença entre os salários entre homens e mulheres em um determinado país. A seleção do conjunto de regressores nesse modelo provavelmente será guiada pela teoria do capital humano . Em outros contextos, o conjunto de regressores pode ser selecionado com base no que nos interessa e no que o senso comum nos diz. Verbeek (2008) diz:
Realmente, só posso arranhar a superfície aqui porque é um tópico tão grande, mas a melhor referência que me deparei sobre modelagem é Granger (1991). Se sua formação não é econômica, não deixe o título do livro te adiar. A maior parte da discussão ocorre no contexto da modelagem de séries econômicas, mas tenho certeza de que as de outras áreas se beneficiariam muito disso e acharão útil.
O livro contém excelentes discussões sobre diferentes metodologias de modelagem, como:
Vale a pena notar que Granger (1991) é realmente uma coleção de papéis; portanto, em vez de tentar obter uma cópia do livro, é claro que você pode procurar o índice e tentar encontrar os artigos por conta própria. (Veja o link abaixo.)
Espero que isso tenha sido útil!
Referências:
fonte