O aprendizado de máquina é menos útil para entender a causalidade e, portanto, menos interessante para as ciências sociais?

42

Minha compreensão da diferença entre aprendizado de máquina / outras técnicas de previsão estatística versus o tipo de estatística que os cientistas sociais (por exemplo, economistas) usam é que os economistas parecem muito interessados ​​em entender o efeito de uma única ou várias variáveis ​​- tanto em termos de magnitude e detectar se o relacionamento é causal. Para isso, você acaba se preocupando com métodos experimentais e quase-experimentais, etc.

O aprendizado de máquina ou modelagem estatística que é preditivo geralmente negligencia completamente esse aspecto e, em muitos casos, não fornece um grau específico em que uma variável afeta o resultado (logit e probit parecem fazer as duas coisas).

Uma questão relacionada é até que ponto os modelos econômicos ou comportamentais inspirados teoricamente têm uma vantagem sobre os modelos ateóricos ao prever novos domínios? O que um estatístico de aprendizado de máquina ou orientado a previsões diria às críticas de que, sem um modelo econômico, você não seria capaz de prever corretamente novas amostras onde as covariáveis ​​eram muito diferentes.

Eu ficaria muito feliz em ouvir as pessoas entenderem isso de todas as perspectivas.

d_a_c321
fonte
Questão. Você quis escrever 'modelos ateóricos' e, em caso afirmativo, o que você quis dizer com isso? OU você quis dizer apenas 'teórico'?
FaHemem Mitha
2
Você está olhando para modelos generativos versus discriminativos? O aprendizado de máquina se inclina para modelos e técnicas discriminativas.
Wayne
@FaheemMitha: 'athorético': sem teoria.
precisa saber é o seguinte

Respostas:

32

Não existem diferenças formais no IMHO que distinguem o aprendizado de máquina e as estatísticas no nível fundamental de adaptação dos modelos aos dados. Pode haver diferenças culturais na escolha dos modelos, nos objetivos de ajustar os modelos aos dados e, em alguns casos, estender as interpretações.

Nos exemplos típicos em que consigo pensar, sempre temos

  • uma coleção de modelos para para algum conjunto de índices ,MiiII
  • e para cada um componente desconhecido (os parâmetros podem ser dimensionais infinitos) do modelo .iθiMi

Ajustar aos dados quase sempre é um problema de otimização matemática que consiste em encontrar a escolha ideal do componente desconhecido para fazer com que ajuste os dados, conforme medido por alguma função favorita.MiθiMi

A seleção entre os modelos é menos padrão e há várias técnicas disponíveis. Se o objetivo do ajuste do modelo é puramente preditivo, a seleção do modelo é feita com uma tentativa de obter um bom desempenho preditivo, enquanto que o objetivo principal é interpretar os modelos resultantes, modelos mais facilmente interpretáveis ​​podem ser selecionados em relação a outros modelos, mesmo que seus o poder preditivo deverá ser pior.Mi

O que poderia ser chamado de seleção de modelo estatístico da velha escola é baseado em testes estatísticos, talvez combinados com estratégias de seleção passo a passo, enquanto a seleção de modelo de aprendizado de máquina geralmente se concentra no erro de generalização esperado, que geralmente é estimado usando a validação cruzada. Os desenvolvimentos atuais e os entendimentos da seleção de modelos, no entanto, parecem convergir para um terreno mais comum; veja, por exemplo, Seleção de Modelo e Média do Modelo .

Inferindo causalidade de modelos

O cerne da questão é como podemos interpretar um modelo? Se os dados obtidos são de um experimento cuidadosamente projetado e o modelo é adequado, é plausível que possamos interpretar o efeito de uma alteração de uma variável no modelo como um efeito causal, e se repetirmos o experimento e intervirmos nessa variável específica podemos esperar observar o efeito estimado. Se, no entanto, os dados forem observacionais, não podemos esperar que os efeitos estimados no modelo correspondam aos efeitos observáveis ​​da intervenção. Isso exigirá suposições adicionais, independentemente de o modelo ser um "modelo de aprendizado de máquina" ou "modelo estatístico clássico".

Pode ser que as pessoas treinadas no uso de modelos estatísticos clássicos com foco em estimativas univariadas de parâmetros e interpretações de tamanho de efeito tenham a impressão de que uma interpretação causal é mais válida nessa estrutura do que em uma estrutura de aprendizado de máquina. Eu diria que não é.

A área de inferência causal nas estatísticas não remove realmente o problema, mas faz as suposições sobre as quais conclusões causais se baseiam explícitas. Eles são chamados de suposições não testáveis . O artigo Inferência causal nas estatísticas: Uma visão geral da Judea Pearl é um bom artigo para ler. Uma contribuição importante da inferência causal é a coleta de métodos para a estimativa de efeitos causais sob premissas onde, na verdade, existem fatores de confusão não observados, o que, de outra forma, é uma grande preocupação. Consulte a Seção 3.3 no documento Pearl acima. Um exemplo mais avançado pode ser encontrado no artigo Modelos Estruturais Marginais e Inferência Causal em Epidemiologia .

É uma questão de assunto se as suposições não testáveis ​​se mantêm. Eles são precisamente não testáveis ​​porque não podemos testá-los usando os dados. Para justificar as suposições, outros argumentos são necessários.

Como um exemplo de onde o aprendizado de máquina e a inferência causal se encontram, as idéias da estimativa de máxima verossimilhança direcionada , apresentadas em Mark van der Laan e Daniel Rubin, normalmente aprendem a verossimilhança de máxima verossimilhança, normalmente exploram técnicas de aprendizado de máquina para estimação não paramétrica seguida pelo "direcionamento" "em direção a um parâmetro de interesse. O último poderia muito bem ser um parâmetro com uma interpretação causal. A ideia no Super Alunoé confiar fortemente nas técnicas de aprendizado de máquina para estimar parâmetros de interesse. É um ponto importante de Mark van der Laan (comunicação pessoal) que modelos estatísticos clássicos, simples e "interpretáveis" geralmente estão errados, o que leva a estimadores tendenciosos e avaliação otimista demais da incerteza das estimativas.

NRH
fonte
Obrigado por esta resposta incrível ... Estou ansioso para acompanhar todos os links que você forneceu. Uma pergunta que tenho é sobre técnicas. Existe um análogo de aprendizado de máquina de algo como variáveis ​​instrumentais para dados observacionais? Além disso - no caso de randomização de uma variável, qual seria a alternativa de aprendizado de máquina em relação a um simples teste t de diferenças entre tratamentos? É necessária uma técnica de resposta de aprendizado de máquina, que vantagem ela teria?
d_a_c321
@dchandler, minha experiência com variáveis ​​instrumentais é muito limitada, mas novamente não vejo nenhuma razão formal para distinguir entre aprendizado de máquina e metodologia estatística para ajuste de modelo , portanto, você pode incluir variáveis ​​instrumentais se isso servir a um propósito. Acho que a questão mais interessante relacionada à causalidade é o efeito da intervenção. Isso é basicamente uma questão de previsões, mas talvez não esteja sob a distribuição dos dados observacionais.
NRH 14/11
@dchandler, para a segunda pergunta, eu não colocaria isso como uma questão de uma relação individual de métodos em aprendizado de máquina e métodos em estatística. Um teste é calculado para responder à pergunta: Existe evidência nos dados para rejeitar a hipótese nula de que as médias são iguais? Podemos ter uma longa discussão sobre se isso é interessante e mesmo se o teste e o valor correspondente fornecem uma boa resposta, mas acho que não há sentido em perguntar se existe uma alternativa de aprendizado de máquina. ttp
NRH 14/11
Depois de fazer a intervenção, que tipo de estatística o aprendizado de máquina empregaria? As estatísticas básicas do projeto experimental são geralmente fáceis de matar o cérebro (comparar médias por meio de um teste t). Em econometria, com mais suposições, você pode tentar recuperar diferentes quantis ou a distribuição dos efeitos do tratamento. O que uma análise de aprendizado de máquina faria além da comparação de meios?
d_a_c321
O que é fácil com morte cerebral é calcular algo, o que não é tão fácil é justificar as suposições necessárias. A abordagem TMLE de Mark é na estimativa de tamanhos de efeito (parâmetros de interesse, em geral, talvez efeitos de intervenção, talvez efeitos observacionais) e fornece intervalos de confiança honestos com premissas de modelo menos restritivas. O ajuste de modelo flexível com a seleção de modelo com base na validação cruzada é usado para evitar um modelo paramétrico restritivo e errado.
NRH 14/11
10

Existe um conjunto (bastante limitado) de ferramentas estatísticas para a chamada "inferência causal". Eles foram projetados para avaliar realmente as relações causais e comprovadamente fazem isso corretamente. Excelente, mas não para os mansos de coração (ou cérebro).

Além disso, em muitos casos, a capacidade de implicar causalidade é muito mais uma conseqüência do seu design do que das técnicas disponíveis: se você tem controle sobre 'todas' as variáveis ​​em seu experimento e vê algo acontecendo toda vez que você ( apenas) alterar uma variável, é razoável chamar a coisa que acontece de "consequência" da coisa que você altera (infelizmente, em pesquisas reais, esses casos extremos raramente ocorrem). Outro raciocínio intuitivo, porém sólido, é baseado no tempo: se você mudar aleatoriamente (mas de maneira controlada) uma variável e outra mudar no dia seguinte, a causalidade também estará chegando.

Todo o meu segundo parágrafo funciona basicamente independentemente de quais métodos você usa para descobrir quais variáveis ​​foram alteradas em quais condições, portanto, pelo menos em teoria, não há razão para que o Aprendizado de Máquina (ML) seja pior do que os métodos baseados em Estatística.

Disclaimer : Parágrafo altamente subjetivo

No entanto, na minha experiência, muitas vezes as técnicas de ML são liberadas em um blob de dados, sem levar em consideração de onde os dados vieram ou como foram coletados (isto é, desconsiderando o design). Nesses casos, muitas vezes um resultado aumenta, mas será extremamente difícil dizer algo útil sobre causalidade. Isso vaiseja exatamente o mesmo quando algum método estatisticamente correto for executado com os mesmos dados. No entanto, pessoas com forte histórico estatístico são treinadas para serem críticas em relação a esses assuntos e, se tudo der certo, evitarão essas armadilhas. Talvez seja simplesmente a mentalidade dos primeiros (mas desleixados) adotantes das técnicas de ML (normalmente não os desenvolvedores de novas técnicas, mas aqueles ansiosos por 'provar' alguns resultados com eles em seu campo de interesse) que deu à ML sua má reputação nesse sentido. conta. (note que eu estou não dizendo estatísticas é melhor do que ML, ou que todas as pessoas que fazem ML são desleixados e essas estatísticas fazendo não são)

Nick Sabbe
fonte
Muito obrigado pela resposta. Eu realmente gosto da sua explicação de como a causalidade é mais uma consequência do design do que das técnicas. Uma dúvida que tenho sobre técnicas é se há algo como variáveis ​​instrumentais para o aprendizado de máquina. Além disso - no caso de randomização de uma variável, qual seria a alternativa de aprendizado de máquina em relação a um simples teste t de diferenças entre tratamentos?
d_a_c321
9

Minha opinião é que os modelos usados ​​na economia e nas outras ciências sociais são úteis apenas na medida em que têm poder preditivo no mundo real - um modelo que não prediz o mundo real é apenas uma matemática inteligente. Um ditado favorito dos meus colegas é que "os dados são importantes".

Parece-me que sua pergunta levanta duas críticas a uma abordagem preditiva. Primeiro, você aponta que os modelos produzidos pelas técnicas de aprendizado de máquina podem não ser interpretáveis . Segundo, você sugere que os métodos usados ​​pelas ciências sociais são mais úteis para descobrir relacionamentos causais do que aprendizado de máquina.

Para abordar o primeiro ponto, eu ofereceria o seguinte contra-argumento. A atual moda no aprendizado de máquina favorece métodos (como SVMs e NN) que não são nada fáceis para um leigo entender. Isso não significa que todas as técnicas de aprendizado de máquina tenham essa propriedade. Por exemplo, a venerável árvore de decisão C4.5 ainda é amplamente usada 20 anos após atingir o estágio final de seu desenvolvimento e produz como saída várias regras de classificação. Eu argumentaria que essas regras se prestam melhor à interpretação do que conceitos como o log odds ratio, mas essa é uma afirmação subjetiva. De qualquer forma, esses modelos são interpretáveis.

Ao abordar o segundo ponto, admitirei que, se você treinar um modelo de aprendizado de máquina em um ambiente e testá-lo em outro, provavelmente falhará; no entanto, não há razão para supor a priori que isso também não seja verdade. modelo mais convencional: se você construir seu modelo com um conjunto de suposições e depois avalia-lo com outro, obterá maus resultados. Para cooptar uma frase da programação de computadores: "entrada de lixo, saída de lixo" se aplica igualmente bem ao aprendizado de máquina e aos modelos projetados.

John Doucette
fonte
9

Não. A inferência causal é uma área ativa de pesquisa em aprendizado de máquina, por exemplo, veja os procedimentos deste workshop e deste . No entanto, gostaria de salientar que, mesmo que a inferência causal ou a interpretação do modelo seja o seu interesse principal, ainda é uma boa idéia tentar uma abordagem puramente preditiva opaca em paralelo, para que você saiba se existe uma penalidade significativa no desempenho ao insistir em um modelo interpretável.

Dikran Marsupial
fonte
1
interopretável? Possivelmente você quer dizer interpretável?
Faheem Mitha 11/09/13
4

Não reiterarei os pontos muito bons já apresentados em outras respostas, mas gostaria de acrescentar uma perspectiva um pouco diferente. O que digo aqui é um tanto filosófico, não necessariamente extraído da experiência profissional, mas de uma experiência mista em ciências físicas, teoria de sistemas complexos e aprendizado de máquina (e, devo admitir, em grande parte estatística de graduação).

Uma diferença substancial entre o aprendizado de máquina e as abordagens estatísticas clássicas (que eu conheço) está no conjunto de suposições feitas. Nas estatísticas clássicas, muitas suposições sobre os processos e distribuições subjacentes são fixas e tendem a ser um dado adquirido. No aprendizado de máquina, no entanto, essas premissas são explicitamente escolhidas para cada modelo, resultando em um conjunto muito mais amplo de possibilidades e talvez em uma maior conscientização das premissas feitas.

Estamos vendo cada vez mais que os sistemas do mundo ao nosso redor se comportam de maneiras complexas e não lineares, e que muitos processos não obedecem a premissas de normalidade etc. normalmente presentes nas estatísticas clássicas. Eu argumentaria que, devido à flexibilidade e variedade de suposições do modelo, as abordagens de aprendizado de máquina geralmente levam a um modelo mais robusto nesses casos.

Existem fortes suposições de modelo incorporadas a frases como "magnitude do efeito", "relação causal" e "grau em que uma variável afeta o resultado". Em um sistema complexo (como uma economia), essas suposições serão válidas apenas dentro de uma determinada janela de possíveis estados do sistema. Com alguns observáveis ​​e processos, essa janela pode ser grande, levando a modelos relativamente robustos. Com outros, pode ser pequeno ou até vazio. Talvez o maior perigo seja o meio termo: um modelo pode parecer estar funcionando, mas quando o sistema muda, falha de maneira repentina e surpreendente.

O aprendizado de máquina não é panacéia. Em vez disso, vejo isso como uma busca de novas maneiras de captar significados a partir de nossas observações, buscando novos paradigmas necessários para lidar efetivamente com a complexidade que estamos começando a perceber no mundo ao nosso redor.

drevicko
fonte