Por que os pesquisadores de economia usam regressão linear para variáveis ​​de resposta binária?

13

Ultimamente, tive que ler vários artigos em economia (um campo com o qual não estou muito familiarizado). Uma coisa que eu notei é que, mesmo quando a variável de resposta é binária, os modelos de regressão linear ajustados usando OLS são onipresentes. Minha pergunta é, portanto:

Por que a regressão linear é preferida, por exemplo, à regressão logística no campo da economia? Isso é simplesmente prática comum ou é um procedimento que é ativamente defendido (em artigos, por professores, etc.)?

Observe que não estou perguntando por que usar regressão linear com uma resposta binária pode ser uma má ideia ou quais são os métodos alternativos. Pelo contrário, estou perguntando por que as pessoas usam regressão linear nesse cenário porque conheço as respostas para essas duas perguntas.

MånsT
fonte
5
Você pode dar algum exemplo?
precisa saber é o seguinte
7
Isto não está correto. Economia e econometria também têm uma vasta literatura sobre logit e probit e modelos relacionados. Também sou um estranho e não consigo quantificar facilmente o uso relativo, mas a literatura é grande o suficiente para refutar "onipresente" (ou seja, em toda parte!). Há uma pergunta aqui sobre por que o chamado modelo de probabilidade linear é usado, e eu não acho que a explicação precise ser profunda ou difícil de encontrar: é simples de entender e, às vezes, funciona adequadamente.
Nick Cox
3
A economia tem apenas uma relação muito casual com a matemática. Eu não me preocuparia muito com isso.
Sycorax diz Reinstate Monica
1
@ Sycorax Eu tenho uma sensação semelhante. E se alguém é desleixado com a matemática, ele / ela ainda será capaz de construir algo que "funcione".
Haitao Du
1
@ Sycorax Isso não é verdade nem é justo. Certamente, afirmar que "você não se preocuparia muito com isso" é irresponsável à pergunta. Dependendo do subcampo, a Economia pode ter uma relação muito forte com a matemática e a estatística. Só que os economistas geralmente se preocupam com a inferência causal e, ao mesmo tempo, precisam lidar com dados observacionais (como muitas ciências sociais fazem). Isso torna extremamente difícil estabelecer um forte rigor matemático sem trazer alguma intuição econômica.
StAtS 22/09

Respostas:

18

Esta postagem no blog de econometria de Dave Giles descreve principalmente as desvantagens do Modelo de Probabilidade Linear (LPM).

No entanto , ele inclui uma pequena lista de razões pelas quais os pesquisadores optam por usá-lo:

  • É computacionalmente mais simples.
  • É mais fácil interpretar os "efeitos marginais".
  • Evita o risco de erros de especificação da "função de link".
  • Existem complicações com o Logit ou Probit se você tiver regressores fictícios endógenos.
  • Os efeitos marginais estimados dos modelos LPM, Logit e Probit são geralmente muito semelhantes, especialmente se você tiver um tamanho de amostra grande.

Não sei se o LPM é normalmente usado em comparação com o logit ou probit, mas algumas dessas razões acima são sensatas para mim.

Ótimo38
fonte
2
+1, obrigado pelo termo Modelo de Probabilidade Linear, que eu não conhecia antes.
Haitao Du
1
Há uma ótima seção sobre isso em "Econometria principalmente inofensiva", de Angrist e Pischke, se você estiver interessado em mais.
shf8888
2

Eu tive perguntas semelhantes ao ler artigos de outros arquivos. E fez muitas perguntas relacionadas a isso, como esta na comunidade de Mineração de Dados Educacionais: Por que usar perda quadrada em probabilidades em vez de perda logística?

Aqui apresentarei muitas opiniões pessoais.


Sinto que a função de perda não importa muito em muitos casos de uso prático. Algum pesquisador pode saber mais sobre a perda ao quadrado e construir um sistema, ainda funciona e resolve problemas do mundo real. Os pesquisadores podem nunca conhecer a perda logística ou a perda de dobradiça, e querem tentar. Além disso, eles podem não estar interessados ​​em encontrar o modelo matemático ideal, mas querem resolver problemas reais que ninguém tentou resolver antes.

Este é outro exemplo: se você verificar esta resposta à minha pergunta, todas elas são semelhantes. Quais são os impactos da escolha de diferentes funções de perda na classificação para aproximar a perda de 0-1


Mais informações: uma pesquisa de aprendizado de máquina pode gastar muito tempo com o modelo escolhido e como otimizar o modelo. Isso ocorre porque um pesquisador de aprendizado de máquina pode não ter a capacidade de coletar mais dados / obter mais medidas. E o trabalho de um pesquisador de aprendizado de máquina está melhorando a matemática, não resolvendo melhor um problema específico do mundo real.

Por outro lado, no mundo real, se os dados são melhores, superam tudo. Portanto, escolher rede neural ou floresta aleatória pode não importar muito. Todos esses modelos são semelhantes aos de uma pessoa que deseja usar o aprendizado de máquina como uma ferramenta para resolver problemas do mundo real. Uma pessoa que não esteja interessada em desenvolver ferramentas ou matemática pode gastar mais tempo usando conhecimentos específicos de domínio para melhorar o sistema.

Como eu mencionei no comentário. E se alguém é desleixado com a matemática, ele / ela ainda será capaz de construir algo que funcione.

Haitao Du
fonte
1
(+1) Isso é um monte de "aspas" hxd, o que eles deveriam se comunicar? "Funciona" significa "eles acham que funciona, mas não" ou significa "funciona"?
Matthew Drury
@MatthewDrury obrigado pelo comentário. Acho que tive muitos sentimentos pessoais e não sei como anotá-los. Eu acho que muitos deles não são formais ou muito subjetivos. é por isso que eu tive muitas citações.
Haitao Du
Eu acho que é mais claro apenas rotulá-los como opiniões pessoais. Isto é o que eu faço em sala de aula com os alunos: "Este é beirando a opinião pessoal mas, SVMs sugar" (não um exemplo real, ou é ...)
Matthew Drury
@MatthewDrury obrigado por me aconselhar a escrever, não, não há aspas na resposta!
Haitao Du