Acabei de receber uma rejeição de uma revista de economia. Entre os motivos citados para a rejeição estavam:
os benefícios do uso do método semi-paramétrico não são evidenciados claramente em comparação com técnicas mais simples alternativas, com identificação limpa de relações causais
Certamente é possível que eu pudesse ter feito um trabalho melhor de motivar a metodologia para um grupo de economistas que geralmente se apega ao OLS. Mas eu violei a "identificação limpa"? Por favor, julgue por si mesmo e deixe-me saber o que você pensa:
Minha principal equação de estimativa é é contínuo, e são binários. Eu posso justificadamente supor que O que significa que o coeficiente em é imparcial, condicional às variáveis fictícias no nível individual ("efeitos fixos" na fala da econometria). Quando incluo variável contínua , estou simplesmente olha a heterogeneidade em efeitos de tratamento estimados ao longo de gradientes . Portanto, o efeito causal médio do tratamento
O modelo é etimado por splines quadráticos penalizados (por exemplo: Ruppert et al. 2003). Especificamente:
Isso é resolvido por
onde inclui os termos paramétricos e os termos do nó, e onde a penalidade na crista se aplica apenas aos termos do nó e é escolhido para minimizar o AIC. (Não posso fazer justiça à metodologia - veja Ruppert et al, ou o livro de Simon Wood sobre o GAM).
Obviamente, eu uso esses semiparamétricos porque não quero impor formas funcionais infundadas aos meus dados. Fazer isso naturalmente influenciaria minhas estimativas tanto quanto impor um ajuste logarítmico em uma função sinusoidal influenciaria minhas estimativas. Mas há algo inerente aos splines penalizados, como os descrevi, que inerentemente tornariam a declaração a seguir falsa?
fonte
Respostas:
A "identificação limpa" dos parâmetros de regressão não é um conceito estabelecido. Acredito que o que o revisor quer dizer com isso é que você deve especificar um parâmetro interpretável, testável, de baixa dimensionalidade e para o qual a análise é decentemente acionada para detectar, de modo que uma estimativa imparcial possa ser obtida com uma eficiência relativamente boa.
O desejo de "identificação limpa" não implica que o OLS seja a única ferramenta adequada para o trabalho. O OLS é, no entanto, uma ferramenta teórica e praticamente sólida para especificar e estimar parâmetros sob uma variedade de configurações. O desejo de "identificação limpa" também não exclui a inferência semiparamétrica. Como uma observação, o spline estende um modelo OLS criando (a) representações complexas de covariáveis. A inferência semiparamétrica envolve modelagem flexível para eliminar a influência das estatísticas auxiliares, mas no seu modelo parece que a principal exposição é tratada dessa maneira.
Penso que o revisor levanta duas preocupações fundamentadas. Primeiro é a lógica da penalização. Métodos de regressão penalizados são valiosos para previsão. Eles raramente são usados para inferência. Métodos penalizados, como regressão de crista, são tendenciosos e é difícil descrever ou avaliar o viés. O objetivo de minimizar o AIC é obter as melhores previsões, inferência não válida. A segunda preocupação comprovada é se o spline é mesmo necessário para modelar a exposição principal. É verdade que você diz que um spline é capaz de modelar formas funcionais não lineares complexas. No entanto, um spline simplifica muito pouco. É uma representação complexa de alta dimensão, com pontos de nó e ajustes que podem ser uma fonte de viés do pesquisador e covariáveis que são quase incompreensíveis para qualquer pessoa, exceto estatísticos altamente treinados. Muitas tendências estatisticamente significativas que são modeladas com precisão por splines têm aproximações lineares subjacentes que não são estatisticamente nem praticamente significativas.
Se a forma funcional da exposição principal for especificada incorretamente, é possível usar os erros padrão do Huber White para obter inferência consistente e imparcial para a inclinação dos mínimos quadrados como uma aproximação de primeira ordem a qualquer tendência não linear. As splines podem ser usadas para modelar variáveis de precisão, nas quais você não baseia a inferência, quando há um design complexo para os dados. Isso serve para corresponder e reduzir efetivamente a variabilidade quando houver heterogeneidade complexa nos dados.
Penso que os comentários dos revisores podem ser abordados ajustando um modelo linear para a exposição e conduzindo a inferência com os erros do Huber White Sandwich. Se a inferência concordar principalmente com a inferência de spline, comente o modelo de spline, na medida em que demonstra uma tendência curvilínea entre a exposição e a resposta.
fonte