As duas culturas: estatística versus aprendizado de máquina?

420

No ano passado, li uma postagem de Brendan O'Connor no blog intitulada "Estatística versus aprendizado de máquina, lute!" que discutiu algumas das diferenças entre os dois campos. Andrew Gelman respondeu favoravelmente a isso :

Simon Blomberg:

Do pacote da sorte de R: Parafraseando provocativamente, 'aprendizado de máquina é estatística menos qualquer verificação de modelos e suposições'. - Brian D. Ripley (sobre a diferença entre aprendizado de máquina e estatística) useR! 2004, Viena (maio de 2004) :-) Saudações da estação!

Andrew Gelman:

Nesse caso, talvez devêssemos nos livrar da verificação de modelos e suposições com mais frequência. Talvez possamos resolver alguns dos problemas que o pessoal do aprendizado de máquina pode resolver, mas não podemos!

Houve também o artigo "Modelagem Estatística: As Duas Culturas" , de Leo Breiman, em 2001, que argumentava que os estatísticos dependem muito da modelagem de dados e que as técnicas de aprendizado de máquina estão progredindo, ao invés disso, confiam na precisão preditiva dos modelos.

O campo de estatísticas mudou na última década em resposta a essas críticas? As duas culturas ainda existem ou as estatísticas cresceram para adotar técnicas de aprendizado de máquina, como redes neurais e máquinas de vetores de suporte?

Shane
fonte
21
Obrigado @robin; feito CW. Embora eu não veja isso inteiramente como "argumentativo"; existem dois campos que se informaram (isso é um fato), e a questão é o quanto eles evoluíram juntos na última década.
Shane
16
Adicione uma terceira cultura: mineração de dados . Os aprendizes de máquina e os mineradores de dados falam idiomas bastante diferentes. Geralmente, os aprendizes de máquina nem entendem o que é diferente na mineração de dados. Para eles, é apenas aprendizado não supervisionado; eles ignoram os aspectos de gerenciamento de dados e aplicam a mineração de dados de palavras - chave ao aprendizado de máquina, aumentando ainda mais a confusão.
Anony-Mousse
4
Há uma pergunta semelhante sobre mineração de dados e estatísticas
naught101
2
Uma discussão interessante no blog de Wasserman .
2
Parece-me que, na verdade, o vínculo entre ML e estatística não está sendo enfatizado o suficiente. Muitos estudantes de CS ignoram o aprendizado de estatística durante seus dias de fundação porque não entendem a importância crítica de uma estatística sólida fundamentada na realização de tarefas de BC. Talvez até muitos departamentos de CS do mundo demorassem a agir também. Seria um erro muito caro e certamente espero que haja mais consciência sobre a importância do conhecimento estatístico no CS. Basicamente ML = Estatísticas em muitos sentidos.
Xji

Respostas:

195

Eu acho que a resposta para sua primeira pergunta é simplesmente afirmativa. Faça qualquer edição da Statistical Science, JASA, Annals of Statistics dos últimos 10 anos e você encontrará artigos sobre reforço, SVM e redes neurais, embora essa área esteja menos ativa agora. Os estatísticos se apropriaram do trabalho de Valiant e Vapnik, mas, por outro lado, os cientistas da computação absorveram o trabalho de Donoho e Talagrand. Acho que não há mais muita diferença no escopo e nos métodos. Nunca comprei o argumento de Breiman de que as pessoas da CS estavam interessadas apenas em minimizar as perdas usando o que funcionasse. Essa visão foi fortemente influenciada por sua participação em conferências da Neural Networks e seu trabalho de consultoria; mas PAC, SVMs, Boosting têm todas as bases sólidas. E hoje, ao contrário de 2001, o Statistics está mais preocupado com as propriedades de amostras finitas,

Mas acho que ainda existem três diferenças importantes que não desaparecerão em breve.

  1. Os documentos de Estatística Metodológica ainda são esmagadoramente formais e dedutivos, enquanto os pesquisadores de Aprendizado de Máquina são mais tolerantes com novas abordagens, mesmo que não apresentem uma prova anexada;
  2. A comunidade do ML compartilha principalmente novos resultados e publicações em conferências e procedimentos relacionados, enquanto os estatísticos usam artigos de periódicos. Isso atrasa o progresso em estatística e identificação de pesquisadores-estrela. John Langford tem um bom post sobre o assunto há algum tempo;
  3. As estatísticas ainda cobrem áreas que são (por enquanto) pouco preocupantes para o BC, como design de pesquisa, amostragem, estatísticas industriais etc.
gappy
fonte
20
Ótimo post! Observe que Vapnick tinha um PhD em estatística. Não sei se há muitos cientistas da computação que conhecem o nome Talagrand e tenho certeza de que 0,01% deles podem indicar pela memória um resultado do talagrand :) você pode? Eu não sei o trabalho de Valiant :)
robin Girard
Vejo as diferentes respostas quando se trata de pesquisas e aplicações acadêmicas. Eu acho que você respondeu no contexto do primeiro. Nas aplicações, acho que a maior diferença está na maneira como os campos estão se expandindo. ML através do canal de ciência de dados aceita todos que podem codificar, literalmente. Nas estatísticas, você ainda precisa de um diploma formal em estatísticas ou campos próximos para entrar na força de trabalho.
Aksakal
1
Tanto a amostragem quanto as estatísticas industriais são campos de bilhões de dólares (a seção de métodos de pesquisa da American Statistical Association é a terceira maior após biometria e consultoria, e a última inclui também um grande número de estatísticos industriais. Há uma seção separada sobre qualidade. , e ainda existe um material Six-Sigma e outros métodos de controle de qualidade, nem todos inteiramente em estatísticas). Ambos têm escassez crítica de estatísticos, pois a atual força de trabalho dos baby boomers que vieram trabalhar nessas áreas na década de 1960 está se aposentando.
StasK 06/07/2015
4
Enquanto algumas pessoas conseguem seu emprego posando no tapete vermelho em conferências, outras encontram o emprego aplicando os métodos no mundo real. As últimas pessoas não têm que muito interesse em identificar as estrelas de qualquer tipo; eles preferem identificar os métodos que funcionam, embora em muitas ocasiões, depois de alguns anos em um determinado campo, você seja levado repetidamente aos mesmos nomes.
StasK 06/07/2015
Por que a amostragem não preocupa a ML? Não é muito parecido com o problema de ter os dados de treinamento rotulados corretamente no ML?
gerrit 27/06
169

A maior diferença que vejo entre as comunidades é que a estatística enfatiza a inferência, enquanto o aprendizado de máquina enfatiza a previsão. Ao fazer estatísticas, você deseja inferir o processo pelo qual os dados que você possui foram gerados. Ao fazer o aprendizado de máquina, você deseja saber como pode prever como os dados futuros serão exibidos em alguma variável.

Claro que os dois se sobrepõem. Saber como os dados foram gerados fornecerá algumas dicas sobre o que seria um bom preditor, por exemplo. No entanto, um exemplo da diferença é que o aprendizado de máquina lida com o problema p >> n (mais recursos / variáveis ​​do que amostras de treinamento) desde a sua infância, enquanto as estatísticas estão apenas começando a levar a sério esse problema. Por quê? Porque você ainda pode fazer boas previsões quando p >> n, mas não pode fazer inferências muito boas sobre quais variáveis ​​são realmente importantes e por quê.

dsimcha
fonte
13
Isso poderia ser (excessivamente) simplificado como algo como a diferença entre modelos generativo e discriminativo?
23711 Wayne Wayne
5
"Deve-se resolver o problema [classificação] diretamente e nunca resolver um problema mais geral como um passo intermediário ..." - Vapnik
Wayne
3
@mbq: Eu não quis sugerir que nenhuma inferência possa ser feita, apenas que esse não é o objetivo principal e que geralmente p >> n no ML, tornando muito mais difícil.
dsimcha 15/02
2
Eu discordo totalmente dessa visão. Parece errado. Coisas como redes neurais recorrentes também tentam inferir processos e até continuar gerando novas seqüências.
homem das cavernas
2
E a robótica? A robótica probabilística é amplamente focada na inferência e bastante dominante nas aplicações. Mas ainda um "sabor" diferente do que as estatísticas (e mais engenharia comparação com máquina / aprendizagem, ou seja, análise em tempo real / controle)
GeoMatt22
134

Bayesiano: "Olá, aprendiz de máquina!"

Frequentist: "Olá, aprendiz de máquina!"

Machine Learning: "Ouvi dizer que vocês são bons em coisas. Aqui estão alguns dados."

F: "Sim, vamos escrever um modelo e depois calcular o MLE."

B: "Ei, F, não foi isso que você me disse ontem! Eu tinha alguns dados univariados e queria estimar a variância, e calculei o MLE. Então você atacou e me disse para dividir por vez de por nn-1n . "

F: "Ah, sim, obrigado por me lembrar. Costumo pensar que devo usar o MLE para tudo, mas estou interessado em estimadores imparciais e assim por diante".

ML: "Eh, sobre o que é isso filosofar? Isso vai me ajudar?"

F: "OK, um estimador é uma caixa preta, você coloca dados e fornece alguns números. Nós, freqüentadores, não ligamos para como a caixa foi construída, sobre quais princípios foram usados ​​para projetá-la. Por exemplo, eu não sabe como derivar a regra . "÷(n-1)

ML: "Então, com o que você se importa?"

F: "Avaliação".

ML: "Eu gosto do som disso."

F: "Uma caixa preta é uma caixa preta. Se alguém afirma que um determinado estimador é um estimador imparcial para , então tentamos muitos valores de θ por sua vez, geramos muitas amostras de cada um com base em algum modelo assumido, pressionando-os pelo estimador , e encontre a média estimada θ . Se pudermos provar que a estimativa esperada é igual ao valor verdadeiro, para todos os valores, então dizemos que é imparcial ".θθθ

ML: "Parece ótimo! Parece que os freqüentadores são pessoas pragmáticas. Você julga cada caixa preta por seus resultados. A avaliação é fundamental."

F: "De fato! Entendo que vocês adotam uma abordagem semelhante. Validação cruzada, ou algo assim? Mas isso me parece confuso".

ML: "Desarrumado?"

F: "A idéia de testar seu estimador em dados reais parece perigosa para mim. Os dados empíricos que você usa podem ter todos os tipos de problemas com eles e podem não se comportar de acordo com o modelo que combinamos para a avaliação".

ML: "O quê? Pensei que você tivesse provado alguns resultados? Que seu estimador seria sempre imparcial, para todos os ".θ

F: "Sim. Embora seu método possa ter funcionado em um conjunto de dados (o conjunto de dados com dados de treinamento e teste) que você usou em sua avaliação, posso provar que o meu sempre funcionará."

ML: "Para todos os conjuntos de dados?"

F: "Não"

ML: "Então, meu método foi validado cruzadamente em um conjunto de dados. Você não testou o seu em nenhum conjunto de dados real?"

F: "Está certo."

ML: "Isso me coloca na liderança então! Meu método é melhor que o seu. Ele prevê câncer 90% das vezes. Sua 'prova' é válida apenas se todo o conjunto de dados se comportar de acordo com o modelo que você assumiu."

F: "Emm, sim, eu suponho."

ML: "E esse intervalo tem cobertura de 95% . Mas não me surpreenderia se ele contiver apenas o valor correto de 20% do tempo?"θ

F: "Está certo. A menos que os dados sejam realmente normais (ou seja o que for), minha prova é inútil."

ML: "Portanto, minha avaliação é mais confiável e abrangente? Ela funciona apenas nos conjuntos de dados que eu tentei até agora, mas pelo menos são conjuntos de dados reais, verrugas e tudo mais. Lá estava você, tentando afirmar que era mais 'conservador 'e' completo 'e que você estava interessado em verificar modelos e outras coisas ".

B: (interrompe) "Ei pessoal, desculpe interromper. Eu adoraria intervir e equilibrar as coisas, talvez demonstrando alguns outros problemas, mas eu realmente amo assistir meu colega freqüentador se contorcer."

F: "Uau!"

ML: "OK, crianças. Era tudo uma questão de avaliação. Um estimador é uma caixa preta. Os dados entram, os dados saem. Aprovamos ou desaprovamos um estimador com base no desempenho em avaliação. Não nos importamos sobre as 'receitas' ou 'princípios de design' usados ​​".

F: "Sim. Mas temos idéias muito diferentes sobre quais avaliações são importantes. O ML fará treinamento e teste em dados reais. Considerando que eu farei uma avaliação que é mais geral (porque envolve uma prova amplamente aplicável) e também mais limitado (porque não sei se o seu conjunto de dados é realmente extraído das suposições de modelagem que utilizo ao projetar minha avaliação.) "

ML: "Que avaliação você usa, B?"

F: (interrompe) "Ei. Não me faça rir. Ele não avalia nada. Ele apenas usa suas crenças subjetivas e segue em frente. Ou algo assim."

B: "Essa é a interpretação comum. Mas também é possível definir o bayesianismo pelas avaliações preferidas. Então, podemos usar a ideia de que nenhum de nós se importa com o que está na caixa preta, mas apenas com maneiras diferentes de avaliar".

B continua: "Exemplo clássico: exame médico. O resultado do exame de sangue é positivo ou negativo. Um freqüentador estará interessado, nas pessoas saudáveis, em que proporção obtém um resultado negativo. E, similarmente, em que proporção de pessoas doentes haverá obtenha um positivo. O frequentista irá calculá-los para cada método de exame de sangue que está sendo considerado e, em seguida, recomendar que utilizemos o teste que obteve a melhor pontuação. "

F: "Exatamente. O que mais você poderia querer?"

B: "E aqueles indivíduos que obtiveram um resultado positivo no teste? Eles vão querer saber 'daqueles que obtiveram um resultado positivo, quantos ficarão doentes?' e 'daqueles que obtêm um resultado negativo, quantos são saudáveis?' "

ML: "Ah, sim, isso parece um melhor par de perguntas a fazer."

F: "HERESIA!"

B: "Aqui vamos nós novamente. Ele não gosta de onde isso está indo."

ML: "Isso é sobre 'priors', não é?"

F: "MAL".

B: "De qualquer forma, sim, você está certo. ML. Para calcular a proporção de pessoas com resultado positivo doentes, você deve fazer uma de duas coisas. Uma opção é executar os testes em muitas pessoas e apenas observar o proporções relevantes. Quantas dessas pessoas morrem da doença, por exemplo ".

ML: "Parece o que eu faço. Use treinar e testar."

B: "Mas você pode calcular esses números antecipadamente, se estiver disposto a fazer uma suposição sobre a taxa de doença na população. O freqüentador também faz seus cálculos com antecedência, mas sem usar essa taxa de doença no nível da população".

F: "Mais suposições sem fundamento".

B: "Ah, cale a boca. Anteriormente, você foi descoberto. ML descobriu que gosta tanto de suposições infundadas quanto qualquer outra pessoa. Suas probabilidades de cobertura" comprovadas "não se acumularão no mundo real, a menos que todas as suas suposições se sustentem. Por que minha suposição anterior é tão diferente? Você me chama de louco, mas finge que suas suposições são o trabalho de uma análise conservadora, sólida e isenta de suposições ".

B (continua): "De qualquer forma, ML, como eu estava dizendo. Os bayesianos gostam de um tipo diferente de avaliação. Estamos mais interessados ​​em condicionar os dados observados e em calcular a precisão de nosso estimador de acordo. Não podemos realizar essa avaliação sem usar Mas o interessante é que, uma vez que decidimos sobre essa forma de avaliação e uma vez escolhida a nossa prévia, temos uma 'receita' automática para criar um estimador apropriado. O frequentista não tem essa receita. estimador imparcial para um modelo complexo, ele não tem nenhuma maneira automatizada de construir um estimador adequado ".

ML: "E você faz? Você pode criar automaticamente um estimador?"

B: "Sim. Eu não tenho uma maneira automática de criar um estimador imparcial, porque acho que o viés é uma maneira ruim de avaliar um estimador. Mas, dada a estimativa de dados condicionais que eu gosto, e a anterior, eu pode conectar o anterior e a probabilidade de me fornecer o estimador ".

ML: "De qualquer forma, vamos recapitular. Todos temos maneiras diferentes de avaliar nossos métodos, e provavelmente nunca concordaremos sobre quais são os melhores."

B: "Bem, isso não é justo. Poderíamos misturá-los e combiná-los. Se algum de nós tiver bons dados de treinamento rotulados, provavelmente devemos testá-lo. E geralmente todos devemos testar o máximo de suposições que pudermos. E alguns 'freqüentadores 'provas também podem ser divertidas, prevendo o desempenho em algum modelo de geração de dados presumido ".

F: "Sim, pessoal. Vamos ser pragmáticos em relação à avaliação. E, na verdade, vou parar de ficar obcecado com as propriedades de amostras infinitas. Estou pedindo aos cientistas que me forneçam uma amostra infinita, mas eles ainda não o fizeram. hora de me concentrar novamente em amostras finitas ".

ML: "Então, temos apenas uma última pergunta. Discutimos muito sobre como avaliar nossos métodos, mas como criamos nossos métodos".

B: "Ah. Como eu estava começando, nós Bayesianos temos o método geral mais poderoso. Pode ser complicado, mas sempre podemos escrever algum tipo de algoritmo (talvez uma forma ingênua de MCMC) que será amostrado em nosso posterior. "

F (interpõe): "Mas pode ter um viés".

B: "Seus métodos também podem. Preciso lembrá-lo de que o MLE é frequentemente tendencioso? Às vezes, você tem uma grande dificuldade em encontrar estimadores imparciais, e mesmo quando possui um estimador estúpido (para algum modelo realmente complexo) que diz o a variação é negativa. E você chama isso de imparcial. Imparcial, sim. Mas útil, não! "

ML: "OK pessoal. Você está reclamando novamente. Deixe-me fazer uma pergunta, F. Você já comparou o viés do seu método com o viés do método de B, quando vocês dois trabalharam no mesmo problema?"

F: "Sim. Na verdade, eu odeio admitir isso, mas a abordagem de B às vezes tem um viés e um MSE mais baixos do que meu estimador!"

ML: "A lição aqui é que, embora discordemos um pouco da avaliação, nenhum de nós tem o monopólio de como criar um estimador que possui propriedades que queremos".

B: "Sim, devemos ler um pouco mais o trabalho um do outro. Podemos nos inspirar para os estimadores. Podemos achar que os estimadores dos outros funcionam muito bem, prontos para uso, em nossos próprios problemas".

F: "E devo parar de ficar obcecado com o viés. Um estimador imparcial pode ter uma variação ridícula. Suponho que todos nós temos que" assumir a responsabilidade "pelas escolhas que fazemos na forma como avaliamos e pelas propriedades que desejamos ver em nossos avaliadores. Não podemos ficar atrás de uma filosofia. Tente todas as avaliações que puder. E continuarei dando uma olhada na literatura bayesiana para obter novas idéias para os estimadores! "

B: "De fato, muitas pessoas realmente não sabem qual é a sua própria filosofia. Eu nem tenho certeza. Se eu usar uma receita bayesiana e depois provar algum bom resultado teórico, isso não significa que eu Um frequentista se preocupa com as provas acima sobre desempenho, ele não se importa com receitas.E se eu fizer algum treinamento e teste (ou também), isso significa que eu sou aprendiz de máquina? "

ML: "Parece que somos todos muito parecidos então."

Aaron McDaid
fonte
8
Para os leitores que lerem essa resposta até o final, sugiro adicionar uma breve mensagem de retirada (e fornecer a citação apropriada, se for o caso).
chl
Com -2 votos até agora, acho que não há muito que eu possa fazer para salvá-lo :) Acho que o final, em que todos concordam um com o outro e admite que podem usar os métodos uns dos outros sem se preocupar com a filosofia um do outro, é um 'mensagem de retirada'.
Aaron McDaid
10
Nenhuma citação necessária. Eu mesmo inventei. Provavelmente não está muito bem informado, é baseado em minhas próprias (mis) interpretações de argumentos que tive com um pequeno número de colegas ao longo dos anos.
Aaron McDaid
3
Eu já vi esse diálogo (mais curto) no passado, e acho-os interessantes. Também fiquei preocupado com os votos negativos, daí a minha sugestão de colocar um breve resumo no topo, de modo a motivar os leitores a lerem o restante do seu post.
chl 19/10/2013
3
13/10 diria novamente
410_Gone
67

Nessa discussão, lembro sempre da famosa citação de Ken Thompson

Em caso de dúvida, use força bruta.

Nesse caso, o aprendizado de máquina é uma salvação quando as suposições são difíceis de entender; ou pelo menos é muito melhor do que supor que eles estão errados.


fonte
2
Com o aumento das capacidades computacionais desses anos e os auto-codificadores e técnicas associadas, isso é mais verdadeiro do que nunca.
Firebug
Para resolver um problema, os engenheiros usam fórmulas, técnicas e procedimentos que eles usaram anteriormente e têm certeza do seu sucesso ... Normalmente, é chamado de uso da força bruta ou o uso de regras de polegar ... Novas fórmulas, técnicas e Os procedimentos são usados ​​em um processo passo a passo ... As atividades de engenharia são atividades de grupo - onde Engenheiros, Técnicos e Trabalhadores manuais trabalham juntos. Quando um novo procedimento é introduzido, leva tempo para treinar os Técnicos e Trabalhadores com esse procedimento. Portanto, a modernização é introduzida em um processo evolutivo.
precisa saber é
64

O que impõe mais separação do que deveria haver é o léxico de cada disciplina.

Existem muitos casos em que ML usa um termo e Estatística usa um termo diferente - mas ambos se referem à mesma coisa - tudo bem, você esperaria isso e isso não causa nenhuma confusão permanente (por exemplo, recursos / atributos versus expectativa rede neural / MLP versus busca de projeção).

O que é muito mais problemático é que ambas as disciplinas usam o mesmo termo para se referir a conceitos completamente diferentes.

Alguns exemplos:

Função Kernel

No ML, as funções do kernel são usadas nos classificadores (por exemplo, SVM) e, é claro, nas máquinas do kernel. O termo refere-se a uma função simples ( cosseno, sigmoidal, rbf, polinomial ) para mapear separável não linearmente para um novo espaço de entrada, para que os dados agora sejam separáveis ​​linearmente nesse novo espaço de entrada. (versus usar um modelo não linear para começar).

Nas estatísticas, uma função do kernel é a função de ponderação usada na estimativa de densidade para suavizar a curva de densidade.

Regressão

No ML, algoritmos preditivos ou implementações desses algoritmos que retornam rótulos de classe "classificadores" são (às vezes) chamados de máquinas --eg, máquina de vetores de suporte , máquina de kernel . A contraparte das máquinas são regressores , que retornam uma pontuação (variável contínua) - por exemplo, suportam a regressão vetorial .

Raramente os algoritmos têm nomes diferentes com base no modo - por exemplo, um MLP é o termo usado para retornar um rótulo de classe ou uma variável contínua.

Em Estatística, regressão , se você estiver tentando construir um modelo baseado em dados empíricos, para prever alguma variável de resposta com base em uma ou mais variáveis ​​explicativas ou mais variáveis ​​- então você está fazendo uma análise de regressão . Não importa se a saída é uma variável contínua ou um rótulo de classe (por exemplo, regressão logística). Assim, por exemplo, a regressão de mínimos quadrados refere-se a um modelo que retorna um valor contínuo; regressão logística, por outro lado, retorna uma estimativa de probabilidade que é discretizada para os rótulos de uma classe.

Viés

Em ML, o termo de viés no algoritmo é conceitualmente idêntico ao termo de interceptação usado pelos estatísticos na modelagem de regressão.

Em Estatística, viés é erro não aleatório - ou seja, algum fenômeno influenciou todo o conjunto de dados na mesma direção, o que significa que esse tipo de erro não pode ser removido por reamostragem ou aumento do tamanho da amostra.

doug
fonte
19
Nas estatísticas, viés não é o mesmo que erro. O erro é puramente aleatório, o viés não é. Você tem um viés quando sabe que o valor esperado da sua estimativa não é igual ao valor verdadeiro.
Joris Meys
2
(@Joris Ou mesmo que você não saiba! Parece banal, mas apenas descobrir se há viés pode ser um problema prático considerável. A partir dos dados, como você pode ter certeza de que um parâmetro de regressão estimado está livre de variáveis ​​omitidas viés?) É um equívoco comum que o viés é uma característica dos dados, não uma propriedade de um estimador; Gostaria de saber se deriva de uso não técnico como "essa pesquisa é tendenciosa!" Os estatísticos também nem sempre são consistentes com termos como "erro": o erro quadrático médio (de um estimador) inclui um componente de viés ao quadrado, de modo que o "erro" não é "puramente aleatório".
quer
2
Eu acho que o termo "máquina" nos SVMs deve ser atribuído ao gosto pessoal de Vladimir Vapnic. Atualmente, acho que não é usado para nomear nenhum outro classificador.
Iliasfl
3
E[X^-X]
1
[0 0,1]1
25

O aprendizado de máquina parece ter sua base no pragmático - uma observação prática ou simulação da realidade. Mesmo dentro das estatísticas, a "checagem de modelos e suposições" sem sentido pode levar ao descarte de métodos úteis.

Por exemplo, anos atrás, o primeiro modelo de falência disponível comercialmente (e em funcionamento) implementado pelas agências de crédito foi criado por meio de um modelo de regressão linear simples e antigo, visando um resultado de 0-1. Tecnicamente, essa é uma abordagem ruim, mas praticamente funcionou.

Jay Stevens
fonte
4
é semelhante ao uso de modelos gravitacionais do planeta no tráfego urbano. Acho que é um absurdo, mas funciona tranquila com precisão, na verdade
dassouki
5
Estou interessado na última declaração: "o primeiro modelo de falência disponível comercialmente (e em funcionamento) implementado pelas agências de crédito foi criado por meio de um modelo de regressão linear simples e antigo, visando um resultado de 0-1". Que modelo era esse? Acredito que o primeiro modelo foi o RiskCalc da Moody's, e mesmo a primeira versão foi um modelo de regressão logística. Os desenvolvedores desse modelo não eram pessoas de CS com experiência em ML, mas sim em econometria.
gappy
2
Aposto que eles usaram a análise discriminante antes de regressão logística, como DA foi inventada muito antes LR
Neil McGuigan
1
@gappy Estou pensando no modelo de falência do consumidor MDS para registros de agências de crédito individuais. OiskCalc era uma avaliação de risco de crédito para empresas. O modelo de falência do MDS diferia dos modelos de risco da FICO na época em que a meta era falência e NÃO inadimplência de crédito (como as pontuações originais da FICO). Meu comentário foi menos sobre as especificidades do ML nesse contexto (porque ele mal estava em uso - se ainda assim - no momento em que o modelo BK foi construído) -, mas estava relacionado ao fato de que a eficácia prática não está necessariamente relacionada a restrições teóricas ou violações de suposições.
Jay Stevens
Apenas curioso, porque era tecnicamente uma abordagem ruim? Porque fez muitas suposições simplificadoras que diferem muito da realidade?
XJI
25

As maiores diferenças que tenho notado no ano passado são:

  • Os especialistas em aprendizado de máquina não dedicam tempo suficiente aos fundamentos e muitos deles não entendem a decisão ideal e as regras de pontuação de precisão adequadas. Eles não entendem que métodos preditivos que não fazem suposições requerem tamanhos de amostra maiores do que aqueles que o fazem.
  • Nós, estatísticos, gastamos muito pouco tempo aprendendo boas práticas de programação e novas linguagens computacionais. Somos muito lentos para mudar quando se trata de computação e adoção de novos métodos da literatura estatística.
Frank Harrell
fonte
2
Outra observação é que nós, estatísticos, tendemos a nos limitar a métodos que podemos provar com a matemática que funcionarão bem (sob um conjunto de suposições talvez ridículas), especialmente quando se trata de publicações. As pessoas do aprendizado de máquina estão muito felizes em usar métodos que funcionam empiricamente bem em alguns conjuntos de dados. Como resultado, acho que a literatura sobre ML se move muito mais rapidamente, mas também exige mais peneirar as bobagens.
Cliff AB
24

Não concordo com essa pergunta, pois sugere que o aprendizado de máquina e a estatística são ciências diferentes ou conflitantes ... quando o oposto é verdadeiro!

o aprendizado de máquina faz amplo uso de estatísticas ... uma pesquisa rápida de qualquer pacote de software de aprendizado de máquina ou de mineração de dados revelará técnicas de cluster, como k-means, também encontradas nas estatísticas ... também mostrará técnicas de redução de dimensão, como análise de componentes principais também uma técnica estatística ... até regressão logística ainda outra.

Na minha opinião, a principal diferença é que tradicionalmente a estatística era usada para provar uma teoria pré-concebida e, geralmente, a análise era projetada em torno dessa teoria principal. Onde na mineração de dados ou no aprendizado de máquina a abordagem oposta é geralmente a norma, pois temos o resultado, apenas queremos encontrar uma maneira de prever isso, em vez de fazer a pergunta ou formar a teoria, esse é o resultado!

Mojo
fonte
21

Eu falei sobre isso em um fórum diferente do eGroup ASA Statistical Consulting. Minha resposta foi mais especificamente à mineração de dados, mas os dois andam de mãos dadas. Nós, estatísticos, desprezamos o nariz de mineradores de dados, cientistas da computação e engenheiros. Está errado. Penso que parte da razão pela qual isso acontece é porque vemos algumas pessoas nesses campos ignorando a natureza estocástica do seu problema. Alguns estatísticos chamam de espionagem de dados ou pesca de dados. Algumas pessoas abusam e abusam dos métodos, mas os estatísticos ficaram para trás na mineração de dados e no aprendizado de máquina porque os pintamos com um pincel amplo. Alguns dos grandes resultados estatísticos vieram de fora do campo das estatísticas. Impulsionar é um exemplo importante. Mas estatísticos como Brieman, Friedman, Hastie, Tibshirani, Efron, Gelman e outros entenderam e sua liderança levou estatísticos à análise de microarrays e outros problemas de inferência em larga escala. Portanto, embora as culturas nunca possam se unir, agora há mais cooperação e colaboração entre os cientistas da computação, engenheiros e estatísticos.

Michael Chernick
fonte
19

O verdadeiro problema é que esta questão está equivocada. Não é aprendizado de máquina versus estatística, é aprendizado de máquina contra o avanço científico real. Se um dispositivo de aprendizado de máquina fornece as previsões corretas 90% do tempo, mas não consigo entender "por que", qual é a contribuição do aprendizado de máquina para a ciência em geral? Imagine se as técnicas de aprendizado de máquina fossem usadas para prever as posições dos planetas: haveria muitas pessoas presunçosas pensando que podem prever com precisão uma série de coisas com seus SVMs, mas o que elas realmente saberiam sobre o problema que têm em suas mãos ? Obviamente, a ciência não avança realmente por previsões numéricas, avança por meio de modelos (mentais, matemáticos) que nos permitem ver muito além dos números.

user36080
fonte
1
+1 Isso me lembra o uso de modelos em economia. Modelos econométricos são construídos para alguns propósitos; ou seja, análise e previsão de políticas. Em geral, ninguém se importa realmente com a previsão - são as simulações de políticas que mais importam. Como David Hendry tem dito, o melhor modelo de previsão não é necessariamente o melhor para a análise de políticas - e vice-versa. Precisa dar um passo atrás e pensar ... Qual é o objetivo do modelo? Que perguntas estamos tentando responder? E como isso se encaixa em fazer descobertas empíricas .
Graeme Walsh
17

O aprendizado estatístico (AKA Machine Learning) tem suas origens na busca de criar software "aprendendo com exemplos". Há muitas tarefas que gostaríamos que os computadores realizassem (por exemplo, visão computacional, reconhecimento de fala, controle de robôs) que são difíceis de programar, mas para as quais é fácil fornecer exemplos de treinamento. A comunidade de pesquisa em aprendizado de máquina / aprendizado estatístico desenvolveu algoritmos para aprender as funções desses exemplos. A função de perda estava tipicamente relacionada à tarefa de desempenho (visão, reconhecimento de fala). E, é claro, não tínhamos motivos para acreditar que houvesse um "modelo" simples subjacente a essas tarefas (porque, caso contrário, teríamos codificado esse programa simples). Portanto, toda a idéia de fazer inferência estatística não fazia nenhum sentido. O objetivo é precisão preditiva e nada mais.

Com o tempo, várias forças começaram a levar as pessoas do aprendizado de máquina a aprender mais sobre estatísticas. Uma era a necessidade de incorporar conhecimentos básicos e outras restrições ao processo de aprendizagem. Isso levou as pessoas a considerar modelos probabilísticos generativos, porque facilitam a incorporação de conhecimentos prévios por meio da estrutura do modelo e anteriores sobre os parâmetros e a estrutura do modelo. Isso levou o campo a descobrir a rica literatura estatística nessa área. Outra força foi a descoberta do fenômeno da super adaptação. Isso levou a comunidade do ML a aprender sobre validação cruzada e regularização e, novamente, descobrimos a rica literatura estatística sobre o assunto.

No entanto, o foco da maioria dos trabalhos de aprendizado de máquina é criar um sistema que exiba certo desempenho, em vez de fazer inferências sobre um processo desconhecido. Essa é a diferença fundamental entre ML e estatística.

Tom Dietterich
fonte
15

Idealmente, deve-se ter um conhecimento profundo das estatísticas e do aprendizado de máquina antes de tentar responder à sua pergunta. Sou muito neófito de ML, então me perdoe se eu disser que é ingênuo.

Tenho experiência limitada em SVMs e árvores de regressão. O que me parece falta de ML do ponto de vista estatístico é um conceito bem desenvolvido de inferência.

A inferência no ML parece se resumir quase exclusivamente à precisão do predício, medida por (por exemplo) erro de classificação média (MCE) ou taxa de erro balanceada (BER) ou similar. ML tem o hábito muito bom de dividir dados aleatoriamente (geralmente 2: 1) em um conjunto de treinamento e um conjunto de teste. Os modelos são adequados usando o conjunto de treinamento e o desempenho (MCE, BER etc.) é avaliado usando o conjunto de teste. Esta é uma excelente prática e está lentamente entrando nas estatísticas convencionais.

O ML também faz uso pesado de métodos de reamostragem (especialmente validação cruzada), cujas origens parecem estar nas estatísticas.

No entanto, ML parece carecer de um conceito totalmente desenvolvido de inferência - além da precisão preditiva. Isso tem dois resultados.

1) Não parece haver uma apreciação de que qualquer previsão (estimativa de parâmetros etc.) esteja sujeita a um erro aleatório e talvez erro de sistemática (viés). Os estatísticos aceitarão que essa é uma parte inevitável da previsão e tentarão estimar o erro. As técnicas estatísticas tentarão encontrar uma estimativa com viés mínimo e erro aleatório. Suas técnicas são geralmente guiadas por um modelo do processo de dados, mas nem sempre (por exemplo, Bootstrap).

2) Não parece haver um entendimento profundo no ML dos limites da aplicação de um modelo para novos dados em uma nova amostra da mesma população (apesar do que eu disse anteriormente sobre a abordagem do conjunto de dados de teste de treinamento). Várias técnicas estatísticas, entre elas validação cruzada e termos de penalidade aplicados a métodos baseados em verossimilhanças, orientam os estatísticos na troca entre parcimônia e complexidade do modelo. Tais diretrizes no ML parecem muito mais ad hoc.

Eu já vi vários artigos no ML nos quais a validação cruzada é usada para otimizar um ajuste de muitos modelos em um conjunto de dados de treinamento - produzindo um ajuste cada vez melhor à medida que a complexidade do modelo aumenta. Parece pouco saber que os pequenos ganhos em precisão não valem a complexidade extra e isso naturalmente leva a um excesso de ajuste. Todos esses modelos otimizados são aplicados ao conjunto de testes como uma verificação do desempenho preditivo e para evitar ajustes excessivos. Duas coisas foram esquecidas (acima). O desempenho preditivo terá um componente estocástico. Em segundo lugar, vários testes contra um conjunto de testes resultam novamente em excesso de ajuste. O "melhor" modelo será escolhido pelo praticante de ML sem uma avaliação completa que ele / ela escolheu de uma realização de muitos possíveis resultados dessa experiência.

Qualquer um dos meus 2 centavos vale. Temos muito a aprender um com o outro.

Thylacoleo
fonte
2
seu comentário sobre o "melhor" modelo será escolhido pelo profissional de ML ... também se aplica igualmente às estatísticas convencionais. Para a maioria dos procedimentos de seleção de modelos, basta condicionar o modelo final como se nenhuma pesquisa no espaço do modelo tivesse sido feita (dado que a média do modelo é relativamente nova). Então, eu acho que você não pode usar isso como um "clube" para derrotar o praticante de ML, por assim dizer.
probabilityislogic
Como praticante de ML, não reconheço a imagem que você está pintando. A literatura de ML é quase toda sobre variações de regularização, MDL, Bayesian, SRM e outras abordagens de controle da complexidade do modelo. De onde estou, parece que os métodos estatísticos de controle da complexidade são menos estruturados, mas isso é um viés para você.
Muhammad Alkarouri
13

Esta questão também pode ser estendida à chamada supercultura da ciência de dados em 2015 David Donoho, 50 anos de Ciência de Dados , onde ele confronta diferentes pontos de vista das estatísticas e da ciência da computação (incluindo aprendizado de máquina), por exemplo, pontos de vista diretos (de pessoas diferentes) tais que:

  • Por que precisamos de ciência de dados quando temos estatísticas há séculos?
  • Ciência de dados é estatística.
  • A Ciência de Dados sem estatística é possível, até desejável.
  • A estatística é a parte menos importante da ciência de dados.

e com considerações históricas e filosóficas, por exemplo:

É impressionante como, quando eu reviso uma apresentação sobre a ciência de dados de hoje, na qual as estatísticas são superficialmente muito escassas, não posso deixar de notar que as ferramentas, exemplos e idéias subjacentes que estão sendo ensinadas como ciência de dados estavam todos literalmente inventado por alguém treinado em Ph.D. estatísticas e, em muitos casos, o software em uso foi desenvolvido por alguém com mestrado ou doutorado. nas estatísticas. Os esforços acumulados de estatísticos ao longo dos séculos são esmagadores demais para serem completamente analisados ​​e não podem ser ocultados no ensino, pesquisa e exercício da Ciência de Dados.

Este ensaio gerou muitas respostas e contribuições para o debate.

Laurent Duval
fonte
3
Parece um artigo que valeria a pena mencionar neste recente thread popular stats.stackexchange.com/questions/195034 , acho que ninguém o mencionou lá.
Ameba 21/03
1
Eu acho que se você postar uma nova resposta resumindo este artigo, será ótimo.
Ameba 21/03
Eu irei, e preciso resumir todas as respostas dadas primeiro
Laurent Duval
12

Realmente não sei qual é a diferença conceitual / histórica entre aprendizado de máquina e estatística, mas tenho certeza de que não é tão óbvio ... e não tenho muito interesse em saber se sou aprendiz de máquina ou estatístico, acho 10 anos após o trabalho de Breiman, muitas pessoas são ...

Enfim, achei interessante a pergunta sobre precisão preditiva de modelos . Temos que lembrar que nem sempre é possível medir a precisão de um modelo e, mais precisamente, estamos frequentemente fazendo alguma modelagem implicitamente ao medir erros.

Por exemplo, o erro absoluto médio na previsão de séries temporais é uma média ao longo do tempo e mede o desempenho de um procedimento para prever a mediana com a suposição de que o desempenho é, em certo sentido, estacionário e mostra alguma ergódica propriedade . Se (por algum motivo) você precisar prever a temperatura média da Terra nos próximos 50 anos e se sua modelagem tiver um bom desempenho nos últimos 50 anos ... isso não significa que ...

Em geral, (se bem me lembro, é chamado de almoço grátis), você não pode fazer nada sem modelar ... Além disso, acho que a estatística está tentando encontrar uma resposta para a pergunta: "é algo significativo ou não", esta é uma pergunta muito importante na ciência e não pode ser respondida através de um processo de aprendizado. Para afirmar John Tukey (ele era estatístico?):

A combinação de alguns dados e um desejo ardente de resposta não garante que uma resposta razoável possa ser extraída de um determinado corpo de dados

Espero que isto ajude !

Robin Girard
fonte
12

Claramente, os dois campos enfrentam claramente problemas semelhantes, mas diferentes, de maneiras semelhantes, mas não idênticas, com conceitos análogos, mas não idênticos, e trabalham em diferentes departamentos, periódicos e conferências.

Quando leio a estatística de divergência de potência de Cressie e Read , tudo se encaixou no meu lugar. Sua fórmula generaliza as estatísticas de teste comumente usadas em uma que varia de acordo com um expoente, lambda. Existem dois casos especiais, lambda = 0 e lambda = 1.

Ciência da Computação e Estatística se encaixam em um continuum (que provavelmente poderia incluir outros pontos). Em um valor de lambda, você obtém estatísticas comumente citadas nos círculos Estatística e, no outro, obtém estatísticas comumente citadas nos círculos Comp Sci.

Estatisticas

  • Lambda = 1
  • Somas de quadrados aparecem muito
  • Variação como medida de variabilidade
  • Covariância como medida de associação
  • Estatística qui-quadrado como uma medida do ajuste do modelo

Ciência da Computação:

  • Lambda = 0
  • As somas dos logs aparecem muito
  • Entropia como medida de variabilidade
  • Informação mútua como medida de associação
  • Estatística do quadrado G como uma medida do ajuste do modelo
user645715
fonte
9

Você executa um algoritmo de computador sofisticado uma vez - e recebe um documento de apresentação / estatística da conferência de CS (uau, que convergência rápida!). Você o comercializa e o executa 1 milhão de vezes - e fica sem dinheiro (ai, por que estou obtendo resultados inúteis e improdutíveis o tempo todo ???), a menos que saiba empregar probabilidades e estatísticas para generalizar as propriedades do algoritmo.

StasK
fonte
3
Eu diminuí a votação desta resposta. Embora com uma pergunta como essa envolva inevitavelmente algumas opiniões pessoais, na OMI devemos nos esforçar por uma crítica mais substantiva. Isso só sai como um discurso retórico.
Andy W
@ AndyW, isso é, obviamente, um exagero do que vejo ao redor. Uma falha em pensar estatisticamente no futuro também é verdadeira no mundo acadêmico: a replicabilidade dos resultados publicados em psicologia ou ciências médicas é de no máximo 25% (veja, por exemplo, simplystatistics.tumblr.com/post/21326470429/… ) em vez do nominal 95%. O OP queria que as estatísticas adotassem a ciência da computação; talvez a ciência da computação deva adotar algumas estatísticas, e eu expliquei as razões.
StasK
5
@StasK Eu acho que você faz alguns pontos importantes, por que não tentar torná-los um pouco menos agressivos?
Gala #
2
Gostei dessa resposta concisa.
Ian Warburton
6

Há uma área de aplicação de estatísticas em que o foco no modelo de geração de dados faz muito sentido. Em experimentos projetados, por exemplo, estudos em animais, ensaios clínicos, EODs industriais, estatísticos podem ter uma mão no que é o modelo de geração de dados. O ML tende a não gastar muito tempo com esse problema muito importante, pois o ML geralmente se concentra em outro problema muito importante de previsão, com base em dados observacionais “grandes”. Isso não quer dizer que o BC não possa ser aplicado a experimentos projetados "grandes", mas é importante reconhecer que a estatística possui experiência específica em problemas "pequenos" de dados decorrentes de experimentos com restrições de recursos.

No final do dia, acho que todos podemos concordar em usar o que funciona melhor para resolver o problema em questão. Por exemplo, podemos ter um experimento projetado que produz dados muito amplos com o objetivo de previsão. Os princípios de design estatístico são muito úteis aqui e os métodos de ML podem ser úteis para construir o preditor.

Clark
fonte
4

Eu acho que o aprendizado de máquina precisa ser um sub-ramo da estatística, assim como, na minha opinião, a química precisa ser um sub-ramo da física.

Eu acho que a visão inspirada na física da química é bastante sólida (eu acho). Não acho que exista reação química cujo equivalente não seja conhecido em termos físicos. Eu acho que a física fez um trabalho incrível, explicando tudo o que podemos ver no nível da química. Agora, o desafio dos físicos parece estar explicando os pequenos mistérios no nível quântico, sob condições extremas que não são observáveis.

Agora, de volta ao aprendizado de máquina. Eu acho que muito deveria ser um sub-ramo sob estatística (exatamente como a química é um sub-ramo da física).

Mas parece-me que, de alguma forma, o estado atual do aprendizado de máquina ou a estatística não estão maduros o suficiente para realizar isso perfeitamente. Mas, a longo prazo, acho que um deve se tornar um sub-ramo do outro. Eu acho que é ML que vai ficar sob as estatísticas.

Pessoalmente, acho que "aprender" e "analisar amostras" para estimar / inferir funções ou previsões são essencialmente uma questão de estatística.

homem das cavernas
fonte
3
A biologia, a psicologia e a sociologia também deveriam ser "sub-ramos" da física?
Ameba
Certo. A psicologia é apenas uma entrada / saída que envolve máquinas biológicas altamente complicadas. Um dia, podemos precisar enviar nossos carros a um psicólogo para diagnosticar seus erros (o próprio psicólogo pode ser um computador).
homem das cavernas
1
Parece-me que a matemática é o pai de todos. A partir daí, aplicamos a matemática, da qual provêm a física e outras coisas. A estatística é uma dessas. Eu acho que o ML não precisa ser um ramo por si só e, em vez disso, se misturar às estatísticas. Mas se o ML se tornar um ramo próprio, eu prefiro que seja um filho / sub-ramo das estatísticas.
homem das cavernas
4

Do curso Coursera "Ciência de dados na vida real", de Brian Caffo

Machine Learning

  • Enfatize as previsões
  • Avalia resultados via desempenho de previsão
  • Preocupação com a adaptação excessiva, mas não a complexidade do modelo em si
  • Ênfase no desempenho
  • A generalização é obtida através do desempenho em novos conjuntos de dados
  • Normalmente, nenhum modelo de superpopulação especificado
  • Preocupação com desempenho e robustez

Análise estatística tradicional

  • Enfatiza a inferência de superpopulação
  • Concentra-se em hipóteses a priori
  • Modelos mais simples preferidos que os complexos (parcimônia), mesmo que os modelos mais complexos tenham desempenho um pouco melhor
  • Ênfase na interpretabilidade dos parâmetros
  • Modelagem estatística ou premissas de amostragem conectam dados a uma população de interesse
  • Preocupação com premissas e robustez
KoenBal
fonte
-5

Como cientista da computação, sempre fico intrigado ao olhar para abordagens estatísticas. Para mim, muitas vezes, parece que os modelos estatísticos usados ​​na análise estatística são muito complexos para os dados em muitas situações!

Por exemplo, há um forte vínculo entre compactação de dados e estatísticas. Basicamente, é necessário um bom modelo estatístico capaz de prever bem os dados e isso traz uma compressão muito boa dos dados. Na ciência da computação, ao compactar os dados, sempre é muito importante a complexidade do modelo estatístico e a precisão da previsão. Ninguém quer que NUNCA um arquivo de dados (contendo dados de som ou dados de imagem ou de vídeo) fique maior após a compactação!

Acho que há coisas mais dinâmicas na ciência da computação em relação às estatísticas, como, por exemplo, Comprimento Mínimo da Descrição e Probabilidade Máxima Normalizada .

cerb
fonte