Pensamentos práticos sobre modelagem explicativa vs. modelagem preditiva

70

Em abril, participei de uma palestra na série de seminários do grupo de Estatísticas do Departamento de Matemática da UMD denominada "Explicar ou prever?". A palestra foi proferida pelo Prof. Galit Shmueli, que leciona na Smith Business School da UMD. Sua palestra foi baseada na pesquisa que ela fez para um artigo intitulado "Modelagem Preditiva vs. Modelagem Explicativa na Pesquisa em SI" e em um documento de trabalho de acompanhamento intitulado "Explicar ou prever?" .

O argumento do Dr. Shmueli é que os termos preditivo e explicativo em um contexto de modelagem estatística se confundiram e que falta à literatura estatística uma discussão aprofundada das diferenças. No artigo, ela contrasta os dois e fala sobre suas implicações práticas. Convido você a ler os jornais.

As perguntas que eu gostaria de fazer para a comunidade de profissionais são:

  • Como você define um exercício preditivo versus um exercício explicativo / descritivo? Seria útil se você pudesse falar sobre o aplicativo específico.
  • Você já caiu na armadilha de usar um quando pretendia usar o outro? Eu certamente tenho. Como você sabe qual usar?
wahalulu
fonte
2
Esta questão é proposta para ser encerrada. Veja: meta.stats.stackexchange.com/questions/213/… Vejo que possui 2 votos. Poderiam os eleitores em ascensão ou o OP comentar por que eles gostariam de ver a pergunta em aberto no meta thread?
9
Em vez de dizer "isso deve ser fechado. Alguém deve defendê-lo", que tal começar por explicar por que você deseja que ele seja fechado. Muito vago? Depois peça esclarecimentos. Esta parece uma pergunta razoável para mim. O solicitante apresenta um trabalho e pergunta sobre a diferença entre estatística preditiva e estatística. A única mudança que eu faria na pergunta é esclarecer exatamente a pergunta, facilitando a votação.
JD Long
2
Eu já ofereci uma razão para o meta thread. Eu sinto que 'meta-discussões' sobre a questão entrariam nessa página em particular.
2
@Srikant @JD Eu vou reforçar a questão. Obrigado pelo feedback. Eu acho que esse é um tópico que merece discussão.
wahalulu
4
Você poderia adicionar links adequados para as palestras / artigos mencionados acima?
chl

Respostas:

39

Em uma frase

A modelagem preditiva tem a ver com "o que provavelmente acontecerá?", Enquanto a modelagem explicativa tem a ver com "o que podemos fazer sobre isso?"

Em muitas frases

Eu acho que a principal diferença é o que se pretende fazer com a análise. Eu sugeriria que a explicação é muito mais importante para a intervenção do que a previsão. Se você quiser fazer algo para alterar um resultado, é melhor procurar explicar por que é assim. A modelagem explicativa, se bem feita, mostrará como intervir (que entrada deve ser ajustada). No entanto, se você simplesmente quiser entender como será o futuro, sem nenhuma intenção (ou capacidade) de intervir, é mais provável que a modelagem preditiva seja apropriada.

Como um exemplo incrivelmente solto, usando "dados de câncer".

A modelagem preditiva usando "dados sobre o câncer" seria apropriada (ou pelo menos útil) se você estivesse financiando as enfermarias de câncer de diferentes hospitais. Você realmente não precisa explicar por que as pessoas sofrem de câncer, mas apenas uma estimativa precisa de quantos serviços serão necessários. A modelagem explicativa provavelmente não ajudaria muito aqui. Por exemplo, saber que fumar causa maior risco de câncer por si só não indica se você deve dar mais financiamento à ala A ou à ala B.

A modelagem explicativa dos "dados sobre o câncer" seria apropriada se você quisesse diminuir a taxa nacional de câncer - a modelagem preditiva seria bastante obsoleta aqui. A capacidade de prever com precisão as taxas de câncer dificilmente o ajudará a decidir como reduzi-lo. No entanto, saber que fumar leva a um risco maior de câncer é uma informação valiosa - porque se você diminuir as taxas de fumo (por exemplo, tornando os cigarros mais caros), isso leva a mais pessoas com menos risco, o que (espero) leva a uma diminuição esperada no câncer taxas.

Olhando para o problema dessa maneira, eu pensaria que a modelagem explicativa se concentraria principalmente em variáveis ​​que estão no controle do usuário, direta ou indiretamente. Pode haver uma necessidade de coletar outras variáveis, mas se você não puder alterar nenhuma das variáveis ​​na análise, duvido que a modelagem explicativa seja útil, exceto talvez para lhe dar o desejo de obter controle ou influência sobre essas variáveis que são importantes. A modelagem preditiva, basicamente, apenas procura associações entre variáveis, controladas ou não pelo usuário. Você só precisa conhecer as entradas / recursos / variáveis ​​independentes / etc .. para fazer uma previsão, mas precisa modificar ou influenciar as entradas / recursos / variáveis ​​independentes / etc .. para intervir e alterar um resultado .

probabilityislogic
fonte
9
+1, muito bem feito! Detesto nitpick, mas quero observar que a previsão não precisa ser sobre o futuro. Por exemplo, um arqueólogo pode querer determinar (ou seja, prever) o nível de chuva em uma área em um ponto no passado pelo conhecimento dos traços (isto é, efeitos da chuva) que restam.
gung - Restabelece Monica
@gung - Eu pensei que tinha redigido minha resposta para que isso não acontecesse. Claramente, eu perdi um :-) local
probabilityislogic
Boa resposta. Penso que, em muitos casos, precisamos saber como é o futuro e por quê. Suponha que, ao estudar a rotatividade de clientes, você queira saber quantos clientes (e exatamente qual cliente) se movimentam no próximo N mês e, em seguida, por que eles agitam para que o marketing possa intervir para retê-los. Então, precisamos de preditivo (para saber o número e os clientes futuros) e explicativo para nos dizer o porquê, para que possamos reduzir os roteadores. Então, temos um modelo híbrido de ambos ou um basta? Varty retoca dizendo "O relacionamento conhecido pode emergir de uma análise explicativa / descritiva ou de alguma outra técnica"
Espanta
@gung Eu amo a procurar defeitos: o arqueólogo deseja prever experiências em seu futuro (ou seja, prever onde ela vai, em algum momento no futuro encontrar vestígios de alta pluviosidade passado).
Alexis
@ Alexis, isso é certamente possível, mas também é possível que esse não seja o interesse principal da pesquisa do arqueólogo e que esses dados já tenham sido coletados por outros pesquisadores (paleoclimatologistas) e o arqueólogo simplesmente queira usar esses dados para testar teorias que são seu principal interesse teórico ( Gill, 200 ).
gung - Restabelece Monica
30

Na minha opinião, as diferenças são as seguintes:

Explicativo / Descritivo

Ao procurar uma resposta explicativa / descritiva, o foco principal está nos dados que temos e procuramos descobrir as relações subjacentes entre os dados após o ruído ter sido contabilizado.

Exemplo: é verdade que se exercitar regularmente (digamos 30 minutos por dia) leva a uma pressão arterial mais baixa? Para responder a essa pergunta, podemos coletar dados de pacientes sobre seu regime de exercícios e seus valores de pressão arterial ao longo do tempo. O objetivo é verificar se podemos explicar variações na pressão arterial por variações no regime de exercícios.

A pressão sanguínea é afetada não apenas pelo exercício, pela ampla variedade de outros fatores, como também pela quantidade de sódio que uma pessoa ingere etc. pressão sanguínea.

Predição

Ao fazer um exercício preditivo, estamos extrapolando para o desconhecido usando os relacionamentos conhecidos entre os dados que temos em mãos. A relação conhecida pode emergir de uma análise explicativa / descritiva ou de alguma outra técnica.

Exemplo: se eu exercitar 1 hora por dia, em que extensão minha pressão arterial provavelmente cairá? Para responder a essa pergunta, podemos usar uma relação anteriormente descoberta entre pressão arterial e regime de exercícios para realizar a previsão.

No contexto acima, o foco não está na explicação, embora um modelo explicativo possa ajudar no processo de previsão. Também existem abordagens não explicativas (por exemplo, redes neurais) que são boas em prever o desconhecido, sem necessariamente acrescentar ao nosso conhecimento a natureza do relacionamento subjacente entre as variáveis.

varty
fonte
6
+1 Esta resposta evita amplamente a associação confusa com a causalidade, usando a linguagem da explicação, descrição e relacionamento. Isso confere um grau desejável de clareza.
whuber
4
Em Explicação, você escreveu "o foco principal está nos dados que temos" - acho que você está tentando dizer que a tarefa é retrospectiva (em oposição à natureza prospectiva da previsão). Na explicação (leia-se "explicação causal"), há realmente um grande foco na teoria e no conhecimento do domínio, e os dados são usados ​​para testar essas suposições / teorias. Por outro lado, na previsão, é mais orientado a dados e você tem uma mente mais aberta sobre relacionamentos, porque não está procurando causalidade, mas sim correlação.
Galit Shmueli 26/11
@GalitShmueli Reg teoria / conhecimento de domínio - sim, eu concordo com esse ponto. Eu estava simplesmente tentando contrastar a previsão em relação à explicação, concentrando-me no que me parece a distinção chave - extrapolar o valor de uma variável versus descobrir a relação entre as variáveis. No processo, sou naturalmente culpado por negligenciar nuances sutis entre os dois paradigmas.
Varty
11
@varty Concordo com o seu ponto: na explicação / descrição que você está interessado em um relacionamento / efeito global / média enquanto que na previsão você está interessado na previsão de valores individuais (não necessariamente extrapolação)
Galit Shmueli
19

Uma questão prática que surge aqui é a seleção variável na modelagem. Uma variável pode ser uma variável explicativa importante (por exemplo, é estatisticamente significativa), mas pode não ser útil para fins preditivos (ou seja, sua inclusão no modelo leva a uma pior precisão preditiva). Vejo esse erro quase todos os dias em artigos publicados.

Outra diferença está na distinção entre análise de componentes principais e análise fatorial. O PCA é frequentemente usado na previsão, mas não é tão útil para explicação. A FA envolve a etapa adicional de rotação que é feita para melhorar a interpretação (e, portanto, a explicação). Hoje há um bom post no blog de Galit Shmueli sobre isso .

Atualização: um terceiro caso surge em séries temporais em que uma variável pode ser uma variável explicativa importante, mas simplesmente não está disponível para o futuro. Por exemplo, os empréstimos à habitação podem estar fortemente relacionados ao PIB, mas isso não ajuda muito em prever futuros empréstimos à habitação, a menos que também tenhamos boas previsões do PIB.

Rob Hyndman
fonte
3
Por que / como uma variável explicativa importante reduziria a precisão preditiva?
3
@Srikant. Isso pode acontecer quando a variável explicativa tem um relacionamento fraco, mas significativo, com a variável resposta. Então o coeficiente pode ser estatisticamente significativo, mas difícil de estimar. Consequentemente, o MSE de previsões pode aumentar quando a variável é incluída em comparação com quando é omitida. (A polarização é reduzida com a sua inclusão, mas a variância é aumentada.)
Rob Hyndman
O primeiro parágrafo é um ponto muito, muito bom. Ainda às vezes é ainda pior; aqui PMID: 18052912 é um ótimo exemplo de que algumas vezes um modelo melhor pode ser criado na parte de ruído do conjunto do que em um verdadeiro - é óbvio que é possível fazer um bom modelo em dados aleatórios, mas isso é um pouco chocante .
11
perdoe minha ingestão, mas a rotação normalmente não faz parte do PCA e da FA?
richiemorrisroe
3
Um estatisticamente sig. mas o preditor fraco raramente é eficaz para previsão ou explicação. Por exemplo, se uma solução de regressão linear tiver um RSQ de 0,40 sem incluir o preditor X1, e se a inclusão de X1 adicionar 0,01 ao RSQ, X1 será "importante" nem para previsão nem explicação.
Rolando2
17

Embora algumas pessoas achem mais fácil pensar na distinção em termos do modelo / algoritmo usado (por exemplo, redes neurais = preditivas), esse é apenas um aspecto específico da distinção explicação / previsão. Aqui está um conjunto de slides que eu uso no meu curso de mineração de dados para ensinar regressão linear de ambos os ângulos. Mesmo com a regressão linear sozinha e com este pequeno exemplo, surgem várias questões que levam a modelos diferentes para objetivos explicativos versus objetivos preditivos (escolha de variáveis, seleção de variáveis, medidas de desempenho etc.)

Galit

Galit Shmueli
fonte
5
Por curiosidade, é intencional que, em sua discussão sobre regressão para previsão (a partir da p. 33), você escolha preditores (etapa 1) antes de particionar em conjuntos de dados de treinamento e validação (etapa 3)? Eu pensei que o procedimento mais objetivo e honesto seria particionar desde o início, mesmo antes de analisar os gráficos de dispersão (etapa 2). Se os regressores forem escolhidos com base em todo o conjunto de dados, isso não aumentaria os níveis de significância aparente em muitos testes, mesmo quando aplicados posteriormente aos dados de validação?
whuber
Penso que a questão mais geral é se você executa a visualização de dados antes de manter um controle. Quando o conjunto de dados é grande, isso realmente não importa. Com uma amostra pequena, usar a visualização para escolher preditores é realmente perigoso. Nos meus slides, não quero dizer usar a visualização para seleção de variáveis. Os "selecionar preditores" são geralmente "selecionar um conjunto potencial de preditores disponíveis que sejam razoáveis". Trata-se de incorporar o conhecimento do domínio para selecionar um conjunto razoável.
Galit Shmueli
Continuando o tópico "Para explicar ou prever", eu tenho uma pergunta relacionada aqui . Eu apreciaria se você desse uma olhada, já que a pergunta é baseada principalmente no seu trabalho.
Richard Hardy
Professor Shmueli, você diz na página 291 do seu trabalho sobre esse tópico que está considerando apenas 'previsão não estástica', conforme definido por Geisser, 1993. Onde eu iria encontrar a definição completa de previsão não estástica? Fico feliz em começar um novo post também, mas pensei em perguntar aqui primeiro.
user0 3/02
11

Exemplo: Um exemplo clássico que eu já vi está no contexto de prever o desempenho humano. A autoeficácia (ou seja, o grau em que uma pessoa pensa que pode executar bem uma tarefa) geralmente é um forte indicador do desempenho da tarefa. Assim, se você colocar a autoeficácia em uma regressão múltipla junto com outras variáveis, como inteligência e grau de experiência anterior, geralmente descobrirá que a autoeficácia é um forte preditor.

Isso levou alguns pesquisadores a sugerir que a autoeficácia causa o desempenho da tarefa. E que intervenções eficazes são aquelas que se concentram no aumento do senso de auto-eficácia de uma pessoa.

No entanto, o modelo teórico alternativo vê a autoeficácia em grande parte como consequência do desempenho da tarefa. Ou seja, se você é bom, você saberá. Nesse contexto, as intervenções devem se concentrar no aumento da competência real e da competência não percebida.

Portanto, incluir uma variável como autoeficácia pode aumentar a previsão, mas, assumindo que você adota o modelo de autoeficácia como conseqüência, ele não deve ser incluído como preditor se o objetivo do modelo é elucidar processos causais que influenciam o desempenho.

É claro que isso levanta a questão de como desenvolver e validar um modelo teórico causal. Isso se baseia claramente em vários estudos, idealmente com alguma manipulação experimental e em um argumento coerente sobre processos dinâmicos.

Proximal versus distal : já vi problemas semelhantes quando os pesquisadores estão interessados ​​nos efeitos de causas distais e proximais. Causas proximais tendem a prever melhor do que causas distais. No entanto, o interesse teórico pode estar no entendimento das maneiras pelas quais as causas distais e proximais operam.

Problema de seleção variável : Finalmente, um grande problema na pesquisa em ciências sociais é o problema de seleção variável. Em qualquer estudo, existe um número infinito de variáveis ​​que poderiam ter sido medidas, mas não foram. Assim, a interpretação de modelos precisa considerar as implicações disso ao fazer interpretações teóricas.

Jeromy Anglim
fonte
Há também um problema nas ciências sociais da "hipótese fraca" (por exemplo, o efeito é positivo versus negativo). E nesse exemplo de "auto-eficácia", você pode ver isso como um preditor interno de desempenho que cada pessoa construiu. Portanto, é provavelmente semelhante ao uso de uma previsão de "caixa preta" como uma variável explicativa.
probabilityislogic
9

Modelagem Estatística: Duas Culturas (2001) de L. Breiman é, talvez, o melhor artigo sobre este ponto. Suas principais conclusões (veja também as respostas de outros estatísticos importantes no final do documento) são as seguintes:

  • "Maior precisão preditiva está associada a informações mais confiáveis ​​sobre o mecanismo de dados subjacente. Precisão preditiva fraca pode levar a conclusões questionáveis".
  • "Os modelos algorítmicos podem fornecer melhor precisão preditiva que os modelos de dados e fornecer melhores informações sobre o mecanismo subjacente".
Nikita Zhiltsov
fonte
3
Apenas para fazer um link com uma pergunta relacionada anterior: As Duas Culturas: estatística versus aprendizado de máquina?
chl 27/11
3
O problema com os modelos algorítmicos é que eles são difíceis de entender. Isso dificulta o diagnóstico e a correção de possíveis problemas que possam surgir. Um modelo estrutural é muito mais fácil de avaliar porque você sabe como deve ser cada componente.
probabilityislogic
8

Não li o trabalho dela além do resumo do artigo vinculado, mas meu senso é que a distinção entre "explicação" e "previsão" deve ser descartada e substituída pela distinção entre os objetivos do praticante, que são " causal "ou" preditivo ". Em geral, acho que "explicação" é uma palavra tão vaga que quase não significa nada. Por exemplo, a Lei de Hooke é explicativa ou preditiva? No outro extremo do espectro, os sistemas de recomendação preditivamente precisos são bons modelos causais de classificações explícitas de itens? Acho que todos compartilhamos a intuição de que o objetivo da ciência é a explicação, enquanto o objetivo da tecnologia é a previsão; e essa intuição de alguma forma se perde em consideração às ferramentas que usamos, como algoritmos de aprendizado supervisionado,

Dito tudo isso, talvez a única palavra que eu aplicaria a um modelo seja interpretável. Regressões são geralmente interpretáveis; redes neurais com muitas camadas geralmente não são. Eu acho que as pessoas às vezes assumem ingenuamente que um modelo interpretável está fornecendo informações causais, enquanto modelos não interpretáveis ​​apenas fornecem informações preditivas. Essa atitude parece simplesmente confusa para mim.

John Myles White
fonte
7

Ainda estou um pouco incerto sobre qual é a questão. Dito isto, a meu ver, a diferença fundamental entre os modelos preditivo e explicativo é a diferença em seu foco.

Modelos explicativos

Por definição, os modelos explicativos têm como foco principal o objetivo de explicar algo no mundo real. Na maioria dos casos, procuramos oferecer explicações simples e limpas. Com simples, quero dizer que preferimos parcimônia (explique os fenômenos com o menor número possível de parâmetros) e com limpo, quero dizer que gostaríamos de fazer declarações da seguinte forma: "o efeito de alterar por uma unidade altera por mantendo todo o resto constante ". Dado esses objetivos de explicações simples e claras, os modelos explicativos buscam penalizar modelos complexos (usando critérios apropriados, como AIC) e preferem obter variáveis ​​independentes ortogonais (por meio de experimentos controlados ou por transformações de dados adequadas).y βxyβ

Modelos preditivos

O objetivo dos modelos preditivos é prever algo. Assim, eles tendem a se concentrar menos na parcimônia ou na simplicidade, mas mais na capacidade de prever a variável dependente.

No entanto, o exposto acima é uma distinção artificial, pois modelos explicativos podem ser usados ​​para previsão e, às vezes, modelos preditivos podem explicar alguma coisa.

user28
fonte
+1 por mencionar a complexidade que não foi mencionada diretamente pelas respostas principais. No entanto, o desafio surge quando modelos explicativos são usados ​​para intervenções. Como garantir que os coeficientes estimados não sejam tendenciosos, o que é um problema comum resultante da parcimônia?
Thomas Speidel
5

como outros já disseram, a distinção é um tanto sem sentido, exceto no que diz respeito aos objetivos do pesquisador.

Brad Efron, um dos comentaristas do artigo As Duas Culturas , fez a seguinte observação (conforme discutido na minha pergunta anterior ):

A previsão por si só é apenas ocasionalmente suficiente. Os correios estão satisfeitos com qualquer método que preveja endereços corretos de rabiscos manuscritos. Peter Gregory realizou seu estudo para fins de previsão, mas também para entender melhor a base médica da hepatite. A maioria das pesquisas estatísticas tem como objetivo final a identificação de fatores causais.

Certos campos (por exemplo, Medicina) colocam um peso pesado no ajuste do modelo como processo explicativo (a distribuição, etc.), como um meio de entender o processo subjacente que gera os dados. Outros campos estão menos preocupados com isso e ficarão felizes com um modelo de "caixa preta" que tem um sucesso preditivo muito alto. Isso também pode entrar no processo de construção do modelo.

Shane
fonte
5

Com respeito, essa questão poderia ser mais focada. As pessoas já usaram um termo quando o outro era mais apropriado? Sim, claro. Às vezes, é claro o suficiente do contexto, ou você não quer ser pedante. Às vezes, as pessoas são apenas desleixadas ou preguiçosas em sua terminologia. Isso é verdade para muitas pessoas, e certamente não sou melhor.

O que tem valor potencial aqui (discutindo explicação versus previsão no CV) é esclarecer a distinção entre as duas abordagens. Em suma, a distinção se concentra no papel da causalidade. Se você deseja entender alguma dinâmica do mundo e explicar por que algo acontece do jeito que acontece, é necessário identificar as relações causais entre as variáveis ​​relevantes. Para prever, você pode ignorar a causalidade. Por exemplo, você pode prever um efeito do conhecimento sobre sua causa; você pode prever a existência da causa pelo conhecimento de que o efeito ocorreu; e você pode prever o nível aproximado de um efeito pelo conhecimento de outro efeito que é impulsionado pela mesma causa. Por que alguém iria querer fazer isso? Aumentar o conhecimento sobre o que pode acontecer no futuro, para que eles possam planejar adequadamente. Por exemplo, um conselho de liberdade condicional pode querer prever a probabilidade de um condenado recidivar se for condicional. No entanto, isso não é suficiente para explicação. Claro, estimar a verdadeira relação causal entre duas variáveis ​​pode ser extremamente difícil. Além disso, os modelos que capturam (o que se pensa ser) os relacionamentos causais reais muitas vezes são piores para fazer previsões. Então, por que fazer isso? Primeiro, a maior parte disso é feita na ciência, onde a compreensão é buscada por si mesma. Segundo, se pudermos identificar com segurança causas verdadeiras e desenvolver a capacidade de afetá-las, podemos exercer alguma influência sobre os efeitos.

No que diz respeito à estratégia de modelagem estatística, não há uma grande diferença. Principalmente a diferença está em como conduzir o estudo. Se seu objetivo for capaz de prever, descubra quais informações estarão disponíveis para os usuários do modelo quando eles precisarão fazer a previsão. As informações às quais eles não terão acesso não têm valor. Se é provável que eles desejem ser capazes de prever em um determinado nível (ou dentro de um intervalo estreito) dos preditores, tente centralizar o intervalo amostrado do preditor nesse nível e superexaminar lá. Por exemplo, se um comitê de liberdade condicional quiser saber mais sobre criminosos com duas condenações principais, você poderá coletar informações sobre criminosos com 1, 2 e 3 condenações. Por outro lado, avaliar o status causal de uma variável requer basicamente um experimento. Isso é, unidades experimentais precisam ser atribuídas aleatoriamente a níveis pré-especificados das variáveis ​​explicativas. Se houver preocupação sobre se a natureza do efeito causal depende ou não de alguma outra variável, essa variável deve ser incluída no experimento. Se não for possível realizar um experimento verdadeiro, você enfrenta uma situação muito mais difícil, complexa demais para ser abordada aqui.

- Reinstate Monica
fonte
11
Eu me pergunto sobre o papel da causalidade. Por exemplo, suponha que tenhamos um conjunto de dados das dimensões e volumes de um conjunto de blocos e modelemos sua associação regredindo em (e suas interações) ) Em que sentido pode-se dizer que duas dimensões e um volume "causam" a terceira dimensão? A distinção, portanto, entre explicação e previsão parece ser baseada em algo fundamentalmente diferente; ou seja, o objetivo da análise. Quanto ao seu último parágrafo, existem muitas contas neste site que atestam diferenças acentuadas na estratégia. z ( x , y , v )(x,y,z,v)z(x,y,v)
whuber
11
Você está certo, isso depende do objetivo do estudo. Suponho que não tenha explicitado isso (falei apenas sobre o que você deseja alcançar). Também é verdade que a explicação não precisa se preocupar exatamente com a causalidade - algo análogo à causalidade se encaixa também (por exemplo, as dimensões - o caso do volume é uma implicação lógica / matemática). No entanto, a maioria das modelagens explicativas se concentra na causalidade; Acho que pensei que poderia pular esse tipo de coisa por uma questão de simplicidade. Finalmente, a estratégia difere durante o desenho do estudo e a coleta de dados, mas a regressão de y em x é praticamente a mesma.
gung - Restabelece Monica
Obrigado pela resposta. De outras trocas neste site, aprendi a entender declarações universais como "a maioria dos modelos de modelagem explicativos sobre causalidade" para refletir os antecedentes e a experiência do escritor, em vez de serem literalmente verdadeiras. Nas ciências físicas e "duras", essa afirmação pode estar correta, mas nas ciências sociais e "leves" duvido que os praticantes fizessem uma afirmação tão forte. De fato, acredita-se que as relações em estudo tenham causas ocultas comuns, mas não refletem a causa direta entre os regressores e o regressando.
whuber
@whuber certamente é verdade que minhas idéias são influenciadas pela minha formação e experiência. Se esta resposta não for útil (reparei que ainda não obtive nenhum voto), posso excluí-la. Vários outros forneceram respostas que cobrem as idéias que eu pretendia transmitir.
gung - Restabelece Monica
@ whuber - um bom exemplo de causalidade leve é ​​"fumar causa câncer", embora eu tenha certeza de que você poderia encontrar um fumante em cadeia que não tenha câncer. A noção de causalidade está interligada com o tempo dos eventos. A causa deve acontecer antes do efeito - o que explica por que o exemplo do cubo não faz sentido.
probabilityislogic
4

A maioria das respostas ajudou a esclarecer o que são modelagem para explicação e modelagem para previsão e por que diferem. O que não está claro, até agora, é como eles diferem. Então, pensei em oferecer um exemplo que pode ser útil.

Suponha que estejamos envolvidos na modelagem do College GPA em função da preparação acadêmica. Como medidas de preparação acadêmica, temos:

  1. Pontuações dos Testes de Aptidão;
  2. GPA do HS; e
  3. Número de testes de AP aprovados.

Estratégia para Previsão

Se o objetivo for previsão, eu poderia usar todas essas variáveis ​​simultaneamente em um modelo linear e minha principal preocupação seria a precisão preditiva. Qualquer uma das variáveis ​​que se prove mais útil para prever o GPA da faculdade seria incluída no modelo final.

Estratégia para Explicação

Se o objetivo é a explicação, posso estar mais preocupado com a redução de dados e pensar com cuidado nas correlações entre as variáveis ​​independentes. Minha principal preocupação seria interpretar os coeficientes.

Exemplo

Em um problema multivariado típico com preditores correlacionados, não seria incomum observar coeficientes de regressão "inesperados". Dadas as inter-relações entre as variáveis ​​independentes, não seria surpreendente ver coeficientes parciais para algumas dessas variáveis ​​que não estão na mesma direção que seus relacionamentos de ordem zero e que podem parecer contra-intuitivas e difíceis de explicar.

Por exemplo, suponha que o modelo sugira que (com as pontuações dos testes de aptidão e o número de testes de AP concluídos com sucesso), os GPAs mais altos do ensino médio estão associados aos GPAs mais baixos da faculdade. Este não é um problema para previsão, mas apresenta problemas para um modelo explicativo em que essa relação é difícil de interpretar . Esse modelo pode fornecer as melhores previsões fora da amostra, mas pouco ajuda a entender a relação entre a preparação acadêmica e o GPA da faculdade.

Em vez disso, uma estratégia explicativa pode buscar alguma forma de redução de variável, como componentes principais, análise fatorial ou MEV para:

  1. concentre-se na variável que é a melhor medida de "desempenho acadêmico" e modele o GPA da faculdade nessa única variável; ou
  2. use escores fatoriais / variáveis ​​latentes derivadas da combinação das três medidas de preparação acadêmica em vez das variáveis ​​originais.

Estratégias como essas podem reduzir o poder preditivo do modelo, mas podem proporcionar uma melhor compreensão de como a Preparação Acadêmica está relacionada ao GPA da faculdade.

Brett
fonte
Em relação ao sinal contra-intuitivo, pergunto-me se é porque nossa intuição está interpretando a covariável errada - como um efeito principal, como se fosse um efeito aninhado ou de interação.
probabilityislogic
3

Eu gostaria de oferecer uma visão centrada no modelo sobre o assunto.

Modelagem preditiva é o que acontece na maioria das análises. Por exemplo, um pesquisador estabelece um modelo de regressão com vários preditores. Os coeficientes de regressão representam comparações preditivas entre os grupos. O aspecto preditivo deriva do modelo de probabilidade: a inferência é feita em relação a um modelo de superpopulação que pode ter produzido a população ou amostra observada. O objetivo deste modelo é prever novos resultados para as unidades emergentes dessa superpopulação. Muitas vezes, esse é um objetivo inútil, porque as coisas estão sempre mudando, especialmente no mundo social. Ou porque seu modelo é sobre unidades raras, como países, e você não pode desenhar uma nova amostra. A utilidade do modelo, neste caso, é deixada à apreciação do analista.

Quando você tenta generalizar os resultados para outros grupos ou unidades futuras, isso ainda é uma previsão, mas de um tipo diferente. Podemos chamá-lo de previsão, por exemplo. O ponto principal é que o poder preditivo dos modelos estimados é, por padrão, de natureza descritiva . Você compara um resultado entre grupos e propõe um modelo de probabilidade para essas comparações, mas não pode concluir que essas comparações constituem efeitos causais.

A razão é que esses grupos podem sofrer viés de seleção . Ou seja, eles podem naturalmente ter uma pontuação mais alta no resultado do interesse, independentemente do tratamento (a intervenção causal hipotética). Ou eles podem estar sujeitos a um tamanho de efeito de tratamento diferente dos outros grupos. É por isso que, especialmente para dados observacionais, os modelos estimados são geralmente sobre comparações preditivas e não explicações. A explicação é sobre a identificação e estimativa do efeito causal e requer experimentos bem projetados ou uso ponderado de variáveis ​​instrumentais. Nesse caso, as comparações preditivas são cortadas de qualquer viés de seleção e representam efeitos causais. O modelo pode, portanto, ser considerado explicativo.

Descobri que pensar nesses termos geralmente esclarece o que realmente estava fazendo ao configurar um modelo para alguns dados.

yoplait
fonte
+1, há boas informações aqui. Eu seria cauteloso em relação à afirmação "Modelagem preditiva é o que acontece na maioria das análises", no entanto. Se a modelagem preditiva é ou não mais comum variará de acordo com a disciplina, etc. Meu palpite seria que a maioria das modelagens no meio acadêmico é explicativa e que muita modelagem / mineração de dados é realizada no setor privado (por exemplo, identifique possíveis clientes recorrentes) é preditivo. Eu poderia facilmente estar errado, mas será difícil dizer, a priori, o que acontece na maioria das vezes.
gung - Restabelece Monica
11
Bem, na minha opinião, a maioria dos modelos de dados observacionais é preditiva, mesmo que o objetivo seja explicativo. Se você não randomizar a atribuição do tratamento e realmente induzir uma alteração em uma configuração experimental, seus coeficientes de regressão terão apenas um valor descritivo, ou seja, eles apenas fornecerão os meios para comparações preditivas. Por exemplo, você pode prever o sucesso na escola com base nas características demográficas, mas isso não significa que esses dados demográficos sejam efeitos causais explicativos. O motivo é que as previsões comparativas são expostas ao viés de seleção.
Lionel Henry
1

Podemos aprender muito mais do que pensamos nos modelos "preditivos" da caixa preta. A chave está na execução de diferentes tipos de análises e simulações de sensibilidade para realmente entender como o modelo OUTPUT é afetado pelas alterações no espaço INPUT. Nesse sentido, mesmo um modelo puramente preditivo pode fornecer informações explicativas. Esse é um ponto que muitas vezes é esquecido ou mal compreendido pela comunidade de pesquisa. Só porque não entendemos por que um algoritmo está funcionando não significa que ele não tenha poder explicativo ...

No geral, do ponto de vista convencional, a resposta sucinta do probabilityislogic está absolutamente correta ...

Convidado com um pensamento
fonte
Não está claro quais "insights explicativos" podem ser obtidos dessa maneira, se por essa frase você implica causalidade.
gung - Restabelece Monica
1

Há uma distinção entre o que ela chama de aplicações explicativas e preditivas em estatística. Ela diz que devemos saber toda vez que usamos um ou outro qual exatamente está sendo usado. Ela diz que costumamos confundi-los, daí a confusão .

Concordo que nas aplicações das ciências sociais , a distinção é sensata, mas nas ciências naturais elas são e devem ser as mesmas. Também os chamo de inferência versus previsão e concordo que nas ciências sociais não se deve confundi-las.

Vou começar com as ciências naturais. Na física, estamos focados em explicar, estamos tentando entender como o mundo funciona, o que causa o que etc. Então, o foco está na causalidade, inferência e outras coisas. Por outro lado, o aspecto preditivo também faz parte do processo científico. De fato, a maneira como você prova uma teoria, que já explicou bem as observações (pense em amostra), é prever novas observações e depois verificar como a previsão funcionou. Qualquer teoria que não possua habilidades preditivas terá grandes problemas em obter aceitação na física. É por isso que experimentos como o de Michelson-Morley são tão importantes.

Nas ciências sociais, infelizmente, os fenômenos subjacentes são instáveis, irrepetíveis, improdutíveis. Se você observar a deterioração dos núcleos, obterá os mesmos resultados toda vez que os observar, e os mesmos resultados que eu ou um cara cem anos atrás. Não em economia ou finanças. Além disso, a capacidade de conduzir experimentos é muito limitada, quase inexistente para todos os fins práticos, apenas observamos e conduzimos amostras aleatóriasde observações. Eu posso continuar, mas a ideia é que os fenômenos com os quais lidamos são muito instáveis, portanto nossas teorias não têm a mesma qualidade que na física. Portanto, uma das maneiras pelas quais lidamos com a situação é focar na inferência (quando você tenta entender o que causa o que ou afeta o que) ou na previsão (basta dizer o que acha que acontecerá com isso ou que ignore a estrutura).

Aksakal
fonte
0

Um modelo estrutural daria explicação e um modelo preditivo daria previsão. Um modelo estrutural teria variáveis ​​latentes. Um modelo estrutural é o culminar simultâneo de regressão e análise fatorial

As variáveis ​​latentes se manifestam na forma de multicolinearidade em modelos preditivos (regressão).

Brijesh
fonte