Ultimamente, tive que ler vários artigos em economia (um campo com o qual não estou muito familiarizado). Uma coisa que eu notei é que, mesmo quando a variável de resposta é binária, os modelos de regressão linear ajustados usando OLS são onipresentes. Minha pergunta é, portanto:
Por que a regressão linear é preferida, por exemplo, à regressão logística no campo da economia? Isso é simplesmente prática comum ou é um procedimento que é ativamente defendido (em artigos, por professores, etc.)?
Observe que não estou perguntando por que usar regressão linear com uma resposta binária pode ser uma má ideia ou quais são os métodos alternativos. Pelo contrário, estou perguntando por que as pessoas usam regressão linear nesse cenário porque conheço as respostas para essas duas perguntas.
fonte
Respostas:
Esta postagem no blog de econometria de Dave Giles descreve principalmente as desvantagens do Modelo de Probabilidade Linear (LPM).
No entanto , ele inclui uma pequena lista de razões pelas quais os pesquisadores optam por usá-lo:
Não sei se o LPM é normalmente usado em comparação com o logit ou probit, mas algumas dessas razões acima são sensatas para mim.
fonte
Eu tive perguntas semelhantes ao ler artigos de outros arquivos. E fez muitas perguntas relacionadas a isso, como esta na comunidade de Mineração de Dados Educacionais: Por que usar perda quadrada em probabilidades em vez de perda logística?
Aqui apresentarei muitas opiniões pessoais.
Sinto que a função de perda não importa muito em muitos casos de uso prático. Algum pesquisador pode saber mais sobre a perda ao quadrado e construir um sistema, ainda funciona e resolve problemas do mundo real. Os pesquisadores podem nunca conhecer a perda logística ou a perda de dobradiça, e querem tentar. Além disso, eles podem não estar interessados em encontrar o modelo matemático ideal, mas querem resolver problemas reais que ninguém tentou resolver antes.
Este é outro exemplo: se você verificar esta resposta à minha pergunta, todas elas são semelhantes. Quais são os impactos da escolha de diferentes funções de perda na classificação para aproximar a perda de 0-1
Mais informações: uma pesquisa de aprendizado de máquina pode gastar muito tempo com o modelo escolhido e como otimizar o modelo. Isso ocorre porque um pesquisador de aprendizado de máquina pode não ter a capacidade de coletar mais dados / obter mais medidas. E o trabalho de um pesquisador de aprendizado de máquina está melhorando a matemática, não resolvendo melhor um problema específico do mundo real.
Por outro lado, no mundo real, se os dados são melhores, superam tudo. Portanto, escolher rede neural ou floresta aleatória pode não importar muito. Todos esses modelos são semelhantes aos de uma pessoa que deseja usar o aprendizado de máquina como uma ferramenta para resolver problemas do mundo real. Uma pessoa que não esteja interessada em desenvolver ferramentas ou matemática pode gastar mais tempo usando conhecimentos específicos de domínio para melhorar o sistema.
Como eu mencionei no comentário. E se alguém é desleixado com a matemática, ele / ela ainda será capaz de construir algo que funcione.
fonte