Esta pergunta faz referência ao artigo de Galit Shmueli, "Explicar ou prever" .
Especificamente, na seção 1.5, "Explicar e prever são diferentes", o professor Shmueli escreve:
Na modelagem explicativa, o foco é minimizar o viés para obter a representação mais precisa da teoria subjacente.
Isso me intrigou cada vez que li o jornal. Em que sentido minimizar o viés nas estimativas fornece a representação mais precisa da teoria subjacente?
Também assisti à palestra do professor Shmueli aqui , proferida no JMP Discovery Summit 2017, e ela declara:
... coisas que são como modelos de encolhimento, conjuntos, você nunca verá isso. Porque esses modelos, por design, introduzem viés para reduzir o viés / variação geral. É por isso que eles não estarão lá, não faz nenhum sentido teórico fazer isso. Por que você faria seu modelo tendencioso de propósito?
Isso realmente não esclarece minha pergunta, simplesmente reafirma a alegação de que não entendo.
Se a teoria tiver muitos parâmetros e tivermos poucos dados para estimar, o erro de estimativa será dominado pela variação. Por que seria inapropriado usar um procedimento de estimativa tendenciosa como a regressão de crista (resultando em estimativas tendenciosas de menor variância) nessa situação?
fonte
Respostas:
Essa é realmente uma ótima pergunta, que requer uma visita ao mundo do uso de modelos estatísticos na pesquisa em ciências econômicas e sociais (pelo que vi, estatísticos aplicados e mineradores de dados que fazem trabalhos descritivos ou preditivos geralmente não lidam com viés deste formulário). O termo "preconceito" que usei no artigo é o que econometristas e cientistas sociais tratam como um sério perigo para inferir causalidade a partir de estudos empíricos. Refere-se à diferença entre o seu modelo estatístico e o modelo teórico causal subjacente a ele . Um termo relacionado é "especificação de modelo", um tópico ensinado fortemente em econometria devido à importância de "especificar corretamente seu modelo de regressão" (com relação à teoria) quando seu objetivo é uma explicação causal. Vejoo artigo da Wikipedia sobre Especificações para uma breve descrição. Um grande problema de especificação incorreta é a subespecificação, chamada "OVB (Omitted Variable Bias"), em que você omite uma variável explicativa da regressão que deveria estar lá (de acordo com a teoria) - essa é uma variável que se correlaciona com a variável dependente e com pelo menos uma das variáveis explicativas. Veja esta descrição detalhada ) que explica quais são as implicações desse tipo de viés. Do ponto de vista da teoria, o OVB prejudica sua capacidade de inferir causalidade a partir do modelo.
No apêndice do meu artigo Explicar ou Prever? há um exemplo que mostra como um modelo não especificado ("errado") às vezes pode ter maior poder preditivo. Mas agora espero que você possa ver por que isso contradiz o objetivo de um "bom modelo explicativo causal".
fonte