Minimizando o viés na modelagem explicativa, por quê? (“Explique ou Preveja”, de Galit Shmueli)

15

Esta pergunta faz referência ao artigo de Galit Shmueli, "Explicar ou prever" .

Especificamente, na seção 1.5, "Explicar e prever são diferentes", o professor Shmueli escreve:

Na modelagem explicativa, o foco é minimizar o viés para obter a representação mais precisa da teoria subjacente.

Isso me intrigou cada vez que li o jornal. Em que sentido minimizar o viés nas estimativas fornece a representação mais precisa da teoria subjacente?

Também assisti à palestra do professor Shmueli aqui , proferida no JMP Discovery Summit 2017, e ela declara:

... coisas que são como modelos de encolhimento, conjuntos, você nunca verá isso. Porque esses modelos, por design, introduzem viés para reduzir o viés / variação geral. É por isso que eles não estarão lá, não faz nenhum sentido teórico fazer isso. Por que você faria seu modelo tendencioso de propósito?

Isso realmente não esclarece minha pergunta, simplesmente reafirma a alegação de que não entendo.

Se a teoria tiver muitos parâmetros e tivermos poucos dados para estimar, o erro de estimativa será dominado pela variação. Por que seria inapropriado usar um procedimento de estimativa tendenciosa como a regressão de crista (resultando em estimativas tendenciosas de menor variância) nessa situação?

Matthew Drury
fonte
1
Boa pergunta! +1 Fiz uma pergunta relacionada em stats.stackexchange.com/questions/204386/…
Adrian
@ Adrian Essa é uma ótima pergunta, bem feita. Eu também adoraria ver uma resposta completa a essa!
Matthew Drury

Respostas:

6

Essa é realmente uma ótima pergunta, que requer uma visita ao mundo do uso de modelos estatísticos na pesquisa em ciências econômicas e sociais (pelo que vi, estatísticos aplicados e mineradores de dados que fazem trabalhos descritivos ou preditivos geralmente não lidam com viés deste formulário). O termo "preconceito" que usei no artigo é o que econometristas e cientistas sociais tratam como um sério perigo para inferir causalidade a partir de estudos empíricos. Refere-se à diferença entre o seu modelo estatístico e o modelo teórico causal subjacente a ele . Um termo relacionado é "especificação de modelo", um tópico ensinado fortemente em econometria devido à importância de "especificar corretamente seu modelo de regressão" (com relação à teoria) quando seu objetivo é uma explicação causal. Vejoo artigo da Wikipedia sobre Especificações para uma breve descrição. Um grande problema de especificação incorreta é a subespecificação, chamada "OVB (Omitted Variable Bias"), em que você omite uma variável explicativa da regressão que deveria estar lá (de acordo com a teoria) - essa é uma variável que se correlaciona com a variável dependente e com pelo menos uma das variáveis ​​explicativas. Veja esta descrição detalhada ) que explica quais são as implicações desse tipo de viés. Do ponto de vista da teoria, o OVB prejudica sua capacidade de inferir causalidade a partir do modelo.

No apêndice do meu artigo Explicar ou Prever? há um exemplo que mostra como um modelo não especificado ("errado") às vezes pode ter maior poder preditivo. Mas agora espero que você possa ver por que isso contradiz o objetivo de um "bom modelo explicativo causal".

Galit Shmueli
fonte
2
Acho que ainda há muita confusão sobre modelos preditivos versus modelos explicativos. Entrevistei um cientista de dados de uma grande companhia de seguros e perguntei se eles construíam modelos preditivos ou explicativos em sua equipe. Ele disse que "realmente não importa" - acho que ele não sabia a diferença.
robertf