Em abril, participei de uma palestra na série de seminários do grupo de Estatísticas do Departamento de Matemática da UMD denominada "Explicar ou prever?". A palestra foi proferida pelo Prof. Galit Shmueli, que leciona na Smith Business School da UMD. Sua palestra foi baseada na pesquisa que ela fez para um artigo intitulado "Modelagem Preditiva vs. Modelagem Explicativa na Pesquisa em SI" e em um documento de trabalho de acompanhamento intitulado "Explicar ou prever?" .
O argumento do Dr. Shmueli é que os termos preditivo e explicativo em um contexto de modelagem estatística se confundiram e que falta à literatura estatística uma discussão aprofundada das diferenças. No artigo, ela contrasta os dois e fala sobre suas implicações práticas. Convido você a ler os jornais.
As perguntas que eu gostaria de fazer para a comunidade de profissionais são:
- Como você define um exercício preditivo versus um exercício explicativo / descritivo? Seria útil se você pudesse falar sobre o aplicativo específico.
- Você já caiu na armadilha de usar um quando pretendia usar o outro? Eu certamente tenho. Como você sabe qual usar?
fonte
Respostas:
Em uma frase
A modelagem preditiva tem a ver com "o que provavelmente acontecerá?", Enquanto a modelagem explicativa tem a ver com "o que podemos fazer sobre isso?"
Em muitas frases
Eu acho que a principal diferença é o que se pretende fazer com a análise. Eu sugeriria que a explicação é muito mais importante para a intervenção do que a previsão. Se você quiser fazer algo para alterar um resultado, é melhor procurar explicar por que é assim. A modelagem explicativa, se bem feita, mostrará como intervir (que entrada deve ser ajustada). No entanto, se você simplesmente quiser entender como será o futuro, sem nenhuma intenção (ou capacidade) de intervir, é mais provável que a modelagem preditiva seja apropriada.
Como um exemplo incrivelmente solto, usando "dados de câncer".
A modelagem preditiva usando "dados sobre o câncer" seria apropriada (ou pelo menos útil) se você estivesse financiando as enfermarias de câncer de diferentes hospitais. Você realmente não precisa explicar por que as pessoas sofrem de câncer, mas apenas uma estimativa precisa de quantos serviços serão necessários. A modelagem explicativa provavelmente não ajudaria muito aqui. Por exemplo, saber que fumar causa maior risco de câncer por si só não indica se você deve dar mais financiamento à ala A ou à ala B.
A modelagem explicativa dos "dados sobre o câncer" seria apropriada se você quisesse diminuir a taxa nacional de câncer - a modelagem preditiva seria bastante obsoleta aqui. A capacidade de prever com precisão as taxas de câncer dificilmente o ajudará a decidir como reduzi-lo. No entanto, saber que fumar leva a um risco maior de câncer é uma informação valiosa - porque se você diminuir as taxas de fumo (por exemplo, tornando os cigarros mais caros), isso leva a mais pessoas com menos risco, o que (espero) leva a uma diminuição esperada no câncer taxas.
Olhando para o problema dessa maneira, eu pensaria que a modelagem explicativa se concentraria principalmente em variáveis que estão no controle do usuário, direta ou indiretamente. Pode haver uma necessidade de coletar outras variáveis, mas se você não puder alterar nenhuma das variáveis na análise, duvido que a modelagem explicativa seja útil, exceto talvez para lhe dar o desejo de obter controle ou influência sobre essas variáveis que são importantes. A modelagem preditiva, basicamente, apenas procura associações entre variáveis, controladas ou não pelo usuário. Você só precisa conhecer as entradas / recursos / variáveis independentes / etc .. para fazer uma previsão, mas precisa modificar ou influenciar as entradas / recursos / variáveis independentes / etc .. para intervir e alterar um resultado .
fonte
Na minha opinião, as diferenças são as seguintes:
Explicativo / Descritivo
Ao procurar uma resposta explicativa / descritiva, o foco principal está nos dados que temos e procuramos descobrir as relações subjacentes entre os dados após o ruído ter sido contabilizado.
Exemplo: é verdade que se exercitar regularmente (digamos 30 minutos por dia) leva a uma pressão arterial mais baixa? Para responder a essa pergunta, podemos coletar dados de pacientes sobre seu regime de exercícios e seus valores de pressão arterial ao longo do tempo. O objetivo é verificar se podemos explicar variações na pressão arterial por variações no regime de exercícios.
A pressão sanguínea é afetada não apenas pelo exercício, pela ampla variedade de outros fatores, como também pela quantidade de sódio que uma pessoa ingere etc. pressão sanguínea.
Predição
Ao fazer um exercício preditivo, estamos extrapolando para o desconhecido usando os relacionamentos conhecidos entre os dados que temos em mãos. A relação conhecida pode emergir de uma análise explicativa / descritiva ou de alguma outra técnica.
Exemplo: se eu exercitar 1 hora por dia, em que extensão minha pressão arterial provavelmente cairá? Para responder a essa pergunta, podemos usar uma relação anteriormente descoberta entre pressão arterial e regime de exercícios para realizar a previsão.
No contexto acima, o foco não está na explicação, embora um modelo explicativo possa ajudar no processo de previsão. Também existem abordagens não explicativas (por exemplo, redes neurais) que são boas em prever o desconhecido, sem necessariamente acrescentar ao nosso conhecimento a natureza do relacionamento subjacente entre as variáveis.
fonte
Uma questão prática que surge aqui é a seleção variável na modelagem. Uma variável pode ser uma variável explicativa importante (por exemplo, é estatisticamente significativa), mas pode não ser útil para fins preditivos (ou seja, sua inclusão no modelo leva a uma pior precisão preditiva). Vejo esse erro quase todos os dias em artigos publicados.
Outra diferença está na distinção entre análise de componentes principais e análise fatorial. O PCA é frequentemente usado na previsão, mas não é tão útil para explicação. A FA envolve a etapa adicional de rotação que é feita para melhorar a interpretação (e, portanto, a explicação). Hoje há um bom post no blog de Galit Shmueli sobre isso .
Atualização: um terceiro caso surge em séries temporais em que uma variável pode ser uma variável explicativa importante, mas simplesmente não está disponível para o futuro. Por exemplo, os empréstimos à habitação podem estar fortemente relacionados ao PIB, mas isso não ajuda muito em prever futuros empréstimos à habitação, a menos que também tenhamos boas previsões do PIB.
fonte
Embora algumas pessoas achem mais fácil pensar na distinção em termos do modelo / algoritmo usado (por exemplo, redes neurais = preditivas), esse é apenas um aspecto específico da distinção explicação / previsão. Aqui está um conjunto de slides que eu uso no meu curso de mineração de dados para ensinar regressão linear de ambos os ângulos. Mesmo com a regressão linear sozinha e com este pequeno exemplo, surgem várias questões que levam a modelos diferentes para objetivos explicativos versus objetivos preditivos (escolha de variáveis, seleção de variáveis, medidas de desempenho etc.)
Galit
fonte
Exemplo: Um exemplo clássico que eu já vi está no contexto de prever o desempenho humano. A autoeficácia (ou seja, o grau em que uma pessoa pensa que pode executar bem uma tarefa) geralmente é um forte indicador do desempenho da tarefa. Assim, se você colocar a autoeficácia em uma regressão múltipla junto com outras variáveis, como inteligência e grau de experiência anterior, geralmente descobrirá que a autoeficácia é um forte preditor.
Isso levou alguns pesquisadores a sugerir que a autoeficácia causa o desempenho da tarefa. E que intervenções eficazes são aquelas que se concentram no aumento do senso de auto-eficácia de uma pessoa.
No entanto, o modelo teórico alternativo vê a autoeficácia em grande parte como consequência do desempenho da tarefa. Ou seja, se você é bom, você saberá. Nesse contexto, as intervenções devem se concentrar no aumento da competência real e da competência não percebida.
Portanto, incluir uma variável como autoeficácia pode aumentar a previsão, mas, assumindo que você adota o modelo de autoeficácia como conseqüência, ele não deve ser incluído como preditor se o objetivo do modelo é elucidar processos causais que influenciam o desempenho.
É claro que isso levanta a questão de como desenvolver e validar um modelo teórico causal. Isso se baseia claramente em vários estudos, idealmente com alguma manipulação experimental e em um argumento coerente sobre processos dinâmicos.
Proximal versus distal : já vi problemas semelhantes quando os pesquisadores estão interessados nos efeitos de causas distais e proximais. Causas proximais tendem a prever melhor do que causas distais. No entanto, o interesse teórico pode estar no entendimento das maneiras pelas quais as causas distais e proximais operam.
Problema de seleção variável : Finalmente, um grande problema na pesquisa em ciências sociais é o problema de seleção variável. Em qualquer estudo, existe um número infinito de variáveis que poderiam ter sido medidas, mas não foram. Assim, a interpretação de modelos precisa considerar as implicações disso ao fazer interpretações teóricas.
fonte
Modelagem Estatística: Duas Culturas (2001) de L. Breiman é, talvez, o melhor artigo sobre este ponto. Suas principais conclusões (veja também as respostas de outros estatísticos importantes no final do documento) são as seguintes:
fonte
Não li o trabalho dela além do resumo do artigo vinculado, mas meu senso é que a distinção entre "explicação" e "previsão" deve ser descartada e substituída pela distinção entre os objetivos do praticante, que são " causal "ou" preditivo ". Em geral, acho que "explicação" é uma palavra tão vaga que quase não significa nada. Por exemplo, a Lei de Hooke é explicativa ou preditiva? No outro extremo do espectro, os sistemas de recomendação preditivamente precisos são bons modelos causais de classificações explícitas de itens? Acho que todos compartilhamos a intuição de que o objetivo da ciência é a explicação, enquanto o objetivo da tecnologia é a previsão; e essa intuição de alguma forma se perde em consideração às ferramentas que usamos, como algoritmos de aprendizado supervisionado,
Dito tudo isso, talvez a única palavra que eu aplicaria a um modelo seja interpretável. Regressões são geralmente interpretáveis; redes neurais com muitas camadas geralmente não são. Eu acho que as pessoas às vezes assumem ingenuamente que um modelo interpretável está fornecendo informações causais, enquanto modelos não interpretáveis apenas fornecem informações preditivas. Essa atitude parece simplesmente confusa para mim.
fonte
Ainda estou um pouco incerto sobre qual é a questão. Dito isto, a meu ver, a diferença fundamental entre os modelos preditivo e explicativo é a diferença em seu foco.
Modelos explicativos
Por definição, os modelos explicativos têm como foco principal o objetivo de explicar algo no mundo real. Na maioria dos casos, procuramos oferecer explicações simples e limpas. Com simples, quero dizer que preferimos parcimônia (explique os fenômenos com o menor número possível de parâmetros) e com limpo, quero dizer que gostaríamos de fazer declarações da seguinte forma: "o efeito de alterar por uma unidade altera por mantendo todo o resto constante ". Dado esses objetivos de explicações simples e claras, os modelos explicativos buscam penalizar modelos complexos (usando critérios apropriados, como AIC) e preferem obter variáveis independentes ortogonais (por meio de experimentos controlados ou por transformações de dados adequadas).y βx y β
Modelos preditivos
O objetivo dos modelos preditivos é prever algo. Assim, eles tendem a se concentrar menos na parcimônia ou na simplicidade, mas mais na capacidade de prever a variável dependente.
No entanto, o exposto acima é uma distinção artificial, pois modelos explicativos podem ser usados para previsão e, às vezes, modelos preditivos podem explicar alguma coisa.
fonte
como outros já disseram, a distinção é um tanto sem sentido, exceto no que diz respeito aos objetivos do pesquisador.
Brad Efron, um dos comentaristas do artigo As Duas Culturas , fez a seguinte observação (conforme discutido na minha pergunta anterior ):
Certos campos (por exemplo, Medicina) colocam um peso pesado no ajuste do modelo como processo explicativo (a distribuição, etc.), como um meio de entender o processo subjacente que gera os dados. Outros campos estão menos preocupados com isso e ficarão felizes com um modelo de "caixa preta" que tem um sucesso preditivo muito alto. Isso também pode entrar no processo de construção do modelo.
fonte
Com respeito, essa questão poderia ser mais focada. As pessoas já usaram um termo quando o outro era mais apropriado? Sim, claro. Às vezes, é claro o suficiente do contexto, ou você não quer ser pedante. Às vezes, as pessoas são apenas desleixadas ou preguiçosas em sua terminologia. Isso é verdade para muitas pessoas, e certamente não sou melhor.
O que tem valor potencial aqui (discutindo explicação versus previsão no CV) é esclarecer a distinção entre as duas abordagens. Em suma, a distinção se concentra no papel da causalidade. Se você deseja entender alguma dinâmica do mundo e explicar por que algo acontece do jeito que acontece, é necessário identificar as relações causais entre as variáveis relevantes. Para prever, você pode ignorar a causalidade. Por exemplo, você pode prever um efeito do conhecimento sobre sua causa; você pode prever a existência da causa pelo conhecimento de que o efeito ocorreu; e você pode prever o nível aproximado de um efeito pelo conhecimento de outro efeito que é impulsionado pela mesma causa. Por que alguém iria querer fazer isso? Aumentar o conhecimento sobre o que pode acontecer no futuro, para que eles possam planejar adequadamente. Por exemplo, um conselho de liberdade condicional pode querer prever a probabilidade de um condenado recidivar se for condicional. No entanto, isso não é suficiente para explicação. Claro, estimar a verdadeira relação causal entre duas variáveis pode ser extremamente difícil. Além disso, os modelos que capturam (o que se pensa ser) os relacionamentos causais reais muitas vezes são piores para fazer previsões. Então, por que fazer isso? Primeiro, a maior parte disso é feita na ciência, onde a compreensão é buscada por si mesma. Segundo, se pudermos identificar com segurança causas verdadeiras e desenvolver a capacidade de afetá-las, podemos exercer alguma influência sobre os efeitos.
No que diz respeito à estratégia de modelagem estatística, não há uma grande diferença. Principalmente a diferença está em como conduzir o estudo. Se seu objetivo for capaz de prever, descubra quais informações estarão disponíveis para os usuários do modelo quando eles precisarão fazer a previsão. As informações às quais eles não terão acesso não têm valor. Se é provável que eles desejem ser capazes de prever em um determinado nível (ou dentro de um intervalo estreito) dos preditores, tente centralizar o intervalo amostrado do preditor nesse nível e superexaminar lá. Por exemplo, se um comitê de liberdade condicional quiser saber mais sobre criminosos com duas condenações principais, você poderá coletar informações sobre criminosos com 1, 2 e 3 condenações. Por outro lado, avaliar o status causal de uma variável requer basicamente um experimento. Isso é, unidades experimentais precisam ser atribuídas aleatoriamente a níveis pré-especificados das variáveis explicativas. Se houver preocupação sobre se a natureza do efeito causal depende ou não de alguma outra variável, essa variável deve ser incluída no experimento. Se não for possível realizar um experimento verdadeiro, você enfrenta uma situação muito mais difícil, complexa demais para ser abordada aqui.
fonte
A maioria das respostas ajudou a esclarecer o que são modelagem para explicação e modelagem para previsão e por que diferem. O que não está claro, até agora, é como eles diferem. Então, pensei em oferecer um exemplo que pode ser útil.
Suponha que estejamos envolvidos na modelagem do College GPA em função da preparação acadêmica. Como medidas de preparação acadêmica, temos:
Estratégia para Previsão
Se o objetivo for previsão, eu poderia usar todas essas variáveis simultaneamente em um modelo linear e minha principal preocupação seria a precisão preditiva. Qualquer uma das variáveis que se prove mais útil para prever o GPA da faculdade seria incluída no modelo final.
Estratégia para Explicação
Se o objetivo é a explicação, posso estar mais preocupado com a redução de dados e pensar com cuidado nas correlações entre as variáveis independentes. Minha principal preocupação seria interpretar os coeficientes.
Exemplo
Em um problema multivariado típico com preditores correlacionados, não seria incomum observar coeficientes de regressão "inesperados". Dadas as inter-relações entre as variáveis independentes, não seria surpreendente ver coeficientes parciais para algumas dessas variáveis que não estão na mesma direção que seus relacionamentos de ordem zero e que podem parecer contra-intuitivas e difíceis de explicar.
Por exemplo, suponha que o modelo sugira que (com as pontuações dos testes de aptidão e o número de testes de AP concluídos com sucesso), os GPAs mais altos do ensino médio estão associados aos GPAs mais baixos da faculdade. Este não é um problema para previsão, mas apresenta problemas para um modelo explicativo em que essa relação é difícil de interpretar . Esse modelo pode fornecer as melhores previsões fora da amostra, mas pouco ajuda a entender a relação entre a preparação acadêmica e o GPA da faculdade.
Em vez disso, uma estratégia explicativa pode buscar alguma forma de redução de variável, como componentes principais, análise fatorial ou MEV para:
Estratégias como essas podem reduzir o poder preditivo do modelo, mas podem proporcionar uma melhor compreensão de como a Preparação Acadêmica está relacionada ao GPA da faculdade.
fonte
Eu gostaria de oferecer uma visão centrada no modelo sobre o assunto.
Modelagem preditiva é o que acontece na maioria das análises. Por exemplo, um pesquisador estabelece um modelo de regressão com vários preditores. Os coeficientes de regressão representam comparações preditivas entre os grupos. O aspecto preditivo deriva do modelo de probabilidade: a inferência é feita em relação a um modelo de superpopulação que pode ter produzido a população ou amostra observada. O objetivo deste modelo é prever novos resultados para as unidades emergentes dessa superpopulação. Muitas vezes, esse é um objetivo inútil, porque as coisas estão sempre mudando, especialmente no mundo social. Ou porque seu modelo é sobre unidades raras, como países, e você não pode desenhar uma nova amostra. A utilidade do modelo, neste caso, é deixada à apreciação do analista.
Quando você tenta generalizar os resultados para outros grupos ou unidades futuras, isso ainda é uma previsão, mas de um tipo diferente. Podemos chamá-lo de previsão, por exemplo. O ponto principal é que o poder preditivo dos modelos estimados é, por padrão, de natureza descritiva . Você compara um resultado entre grupos e propõe um modelo de probabilidade para essas comparações, mas não pode concluir que essas comparações constituem efeitos causais.
A razão é que esses grupos podem sofrer viés de seleção . Ou seja, eles podem naturalmente ter uma pontuação mais alta no resultado do interesse, independentemente do tratamento (a intervenção causal hipotética). Ou eles podem estar sujeitos a um tamanho de efeito de tratamento diferente dos outros grupos. É por isso que, especialmente para dados observacionais, os modelos estimados são geralmente sobre comparações preditivas e não explicações. A explicação é sobre a identificação e estimativa do efeito causal e requer experimentos bem projetados ou uso ponderado de variáveis instrumentais. Nesse caso, as comparações preditivas são cortadas de qualquer viés de seleção e representam efeitos causais. O modelo pode, portanto, ser considerado explicativo.
Descobri que pensar nesses termos geralmente esclarece o que realmente estava fazendo ao configurar um modelo para alguns dados.
fonte
Podemos aprender muito mais do que pensamos nos modelos "preditivos" da caixa preta. A chave está na execução de diferentes tipos de análises e simulações de sensibilidade para realmente entender como o modelo OUTPUT é afetado pelas alterações no espaço INPUT. Nesse sentido, mesmo um modelo puramente preditivo pode fornecer informações explicativas. Esse é um ponto que muitas vezes é esquecido ou mal compreendido pela comunidade de pesquisa. Só porque não entendemos por que um algoritmo está funcionando não significa que ele não tenha poder explicativo ...
No geral, do ponto de vista convencional, a resposta sucinta do probabilityislogic está absolutamente correta ...
fonte
Há uma distinção entre o que ela chama de aplicações explicativas e preditivas em estatística. Ela diz que devemos saber toda vez que usamos um ou outro qual exatamente está sendo usado. Ela diz que costumamos confundi-los, daí a confusão .
Concordo que nas aplicações das ciências sociais , a distinção é sensata, mas nas ciências naturais elas são e devem ser as mesmas. Também os chamo de inferência versus previsão e concordo que nas ciências sociais não se deve confundi-las.
Vou começar com as ciências naturais. Na física, estamos focados em explicar, estamos tentando entender como o mundo funciona, o que causa o que etc. Então, o foco está na causalidade, inferência e outras coisas. Por outro lado, o aspecto preditivo também faz parte do processo científico. De fato, a maneira como você prova uma teoria, que já explicou bem as observações (pense em amostra), é prever novas observações e depois verificar como a previsão funcionou. Qualquer teoria que não possua habilidades preditivas terá grandes problemas em obter aceitação na física. É por isso que experimentos como o de Michelson-Morley são tão importantes.
Nas ciências sociais, infelizmente, os fenômenos subjacentes são instáveis, irrepetíveis, improdutíveis. Se você observar a deterioração dos núcleos, obterá os mesmos resultados toda vez que os observar, e os mesmos resultados que eu ou um cara cem anos atrás. Não em economia ou finanças. Além disso, a capacidade de conduzir experimentos é muito limitada, quase inexistente para todos os fins práticos, apenas observamos e conduzimos amostras aleatóriasde observações. Eu posso continuar, mas a ideia é que os fenômenos com os quais lidamos são muito instáveis, portanto nossas teorias não têm a mesma qualidade que na física. Portanto, uma das maneiras pelas quais lidamos com a situação é focar na inferência (quando você tenta entender o que causa o que ou afeta o que) ou na previsão (basta dizer o que acha que acontecerá com isso ou que ignore a estrutura).
fonte
Um modelo estrutural daria explicação e um modelo preditivo daria previsão. Um modelo estrutural teria variáveis latentes. Um modelo estrutural é o culminar simultâneo de regressão e análise fatorial
As variáveis latentes se manifestam na forma de multicolinearidade em modelos preditivos (regressão).
fonte