No ano passado, li uma postagem de Brendan O'Connor no blog intitulada "Estatística versus aprendizado de máquina, lute!" que discutiu algumas das diferenças entre os dois campos. Andrew Gelman respondeu favoravelmente a isso :
Simon Blomberg:
Do pacote da sorte de R: Parafraseando provocativamente, 'aprendizado de máquina é estatística menos qualquer verificação de modelos e suposições'. - Brian D. Ripley (sobre a diferença entre aprendizado de máquina e estatística) useR! 2004, Viena (maio de 2004) :-) Saudações da estação!
Andrew Gelman:
Nesse caso, talvez devêssemos nos livrar da verificação de modelos e suposições com mais frequência. Talvez possamos resolver alguns dos problemas que o pessoal do aprendizado de máquina pode resolver, mas não podemos!
Houve também o artigo "Modelagem Estatística: As Duas Culturas" , de Leo Breiman, em 2001, que argumentava que os estatísticos dependem muito da modelagem de dados e que as técnicas de aprendizado de máquina estão progredindo, ao invés disso, confiam na precisão preditiva dos modelos.
O campo de estatísticas mudou na última década em resposta a essas críticas? As duas culturas ainda existem ou as estatísticas cresceram para adotar técnicas de aprendizado de máquina, como redes neurais e máquinas de vetores de suporte?
Respostas:
Eu acho que a resposta para sua primeira pergunta é simplesmente afirmativa. Faça qualquer edição da Statistical Science, JASA, Annals of Statistics dos últimos 10 anos e você encontrará artigos sobre reforço, SVM e redes neurais, embora essa área esteja menos ativa agora. Os estatísticos se apropriaram do trabalho de Valiant e Vapnik, mas, por outro lado, os cientistas da computação absorveram o trabalho de Donoho e Talagrand. Acho que não há mais muita diferença no escopo e nos métodos. Nunca comprei o argumento de Breiman de que as pessoas da CS estavam interessadas apenas em minimizar as perdas usando o que funcionasse. Essa visão foi fortemente influenciada por sua participação em conferências da Neural Networks e seu trabalho de consultoria; mas PAC, SVMs, Boosting têm todas as bases sólidas. E hoje, ao contrário de 2001, o Statistics está mais preocupado com as propriedades de amostras finitas,
Mas acho que ainda existem três diferenças importantes que não desaparecerão em breve.
fonte
A maior diferença que vejo entre as comunidades é que a estatística enfatiza a inferência, enquanto o aprendizado de máquina enfatiza a previsão. Ao fazer estatísticas, você deseja inferir o processo pelo qual os dados que você possui foram gerados. Ao fazer o aprendizado de máquina, você deseja saber como pode prever como os dados futuros serão exibidos em alguma variável.
Claro que os dois se sobrepõem. Saber como os dados foram gerados fornecerá algumas dicas sobre o que seria um bom preditor, por exemplo. No entanto, um exemplo da diferença é que o aprendizado de máquina lida com o problema p >> n (mais recursos / variáveis do que amostras de treinamento) desde a sua infância, enquanto as estatísticas estão apenas começando a levar a sério esse problema. Por quê? Porque você ainda pode fazer boas previsões quando p >> n, mas não pode fazer inferências muito boas sobre quais variáveis são realmente importantes e por quê.
fonte
Bayesiano: "Olá, aprendiz de máquina!"
Frequentist: "Olá, aprendiz de máquina!"
Machine Learning: "Ouvi dizer que vocês são bons em coisas. Aqui estão alguns dados."
F: "Sim, vamos escrever um modelo e depois calcular o MLE."
B: "Ei, F, não foi isso que você me disse ontem! Eu tinha alguns dados univariados e queria estimar a variância, e calculei o MLE. Então você atacou e me disse para dividir por vez de por nn - 1 n . "
F: "Ah, sim, obrigado por me lembrar. Costumo pensar que devo usar o MLE para tudo, mas estou interessado em estimadores imparciais e assim por diante".
ML: "Eh, sobre o que é isso filosofar? Isso vai me ajudar?"
F: "OK, um estimador é uma caixa preta, você coloca dados e fornece alguns números. Nós, freqüentadores, não ligamos para como a caixa foi construída, sobre quais princípios foram usados para projetá-la. Por exemplo, eu não sabe como derivar a regra . "÷ ( n - 1 )
ML: "Então, com o que você se importa?"
F: "Avaliação".
ML: "Eu gosto do som disso."
F: "Uma caixa preta é uma caixa preta. Se alguém afirma que um determinado estimador é um estimador imparcial para , então tentamos muitos valores de θ por sua vez, geramos muitas amostras de cada um com base em algum modelo assumido, pressionando-os pelo estimador , e encontre a média estimada θ . Se pudermos provar que a estimativa esperada é igual ao valor verdadeiro, para todos os valores, então dizemos que é imparcial ".θ θ θ
ML: "Parece ótimo! Parece que os freqüentadores são pessoas pragmáticas. Você julga cada caixa preta por seus resultados. A avaliação é fundamental."
F: "De fato! Entendo que vocês adotam uma abordagem semelhante. Validação cruzada, ou algo assim? Mas isso me parece confuso".
ML: "Desarrumado?"
F: "A idéia de testar seu estimador em dados reais parece perigosa para mim. Os dados empíricos que você usa podem ter todos os tipos de problemas com eles e podem não se comportar de acordo com o modelo que combinamos para a avaliação".
ML: "O quê? Pensei que você tivesse provado alguns resultados? Que seu estimador seria sempre imparcial, para todos os ".θ
F: "Sim. Embora seu método possa ter funcionado em um conjunto de dados (o conjunto de dados com dados de treinamento e teste) que você usou em sua avaliação, posso provar que o meu sempre funcionará."
ML: "Para todos os conjuntos de dados?"
F: "Não"
ML: "Então, meu método foi validado cruzadamente em um conjunto de dados. Você não testou o seu em nenhum conjunto de dados real?"
F: "Está certo."
ML: "Isso me coloca na liderança então! Meu método é melhor que o seu. Ele prevê câncer 90% das vezes. Sua 'prova' é válida apenas se todo o conjunto de dados se comportar de acordo com o modelo que você assumiu."
F: "Emm, sim, eu suponho."
ML: "E esse intervalo tem cobertura de 95% . Mas não me surpreenderia se ele contiver apenas o valor correto de 20% do tempo?"θ
F: "Está certo. A menos que os dados sejam realmente normais (ou seja o que for), minha prova é inútil."
ML: "Portanto, minha avaliação é mais confiável e abrangente? Ela funciona apenas nos conjuntos de dados que eu tentei até agora, mas pelo menos são conjuntos de dados reais, verrugas e tudo mais. Lá estava você, tentando afirmar que era mais 'conservador 'e' completo 'e que você estava interessado em verificar modelos e outras coisas ".
B: (interrompe) "Ei pessoal, desculpe interromper. Eu adoraria intervir e equilibrar as coisas, talvez demonstrando alguns outros problemas, mas eu realmente amo assistir meu colega freqüentador se contorcer."
F: "Uau!"
ML: "OK, crianças. Era tudo uma questão de avaliação. Um estimador é uma caixa preta. Os dados entram, os dados saem. Aprovamos ou desaprovamos um estimador com base no desempenho em avaliação. Não nos importamos sobre as 'receitas' ou 'princípios de design' usados ".
F: "Sim. Mas temos idéias muito diferentes sobre quais avaliações são importantes. O ML fará treinamento e teste em dados reais. Considerando que eu farei uma avaliação que é mais geral (porque envolve uma prova amplamente aplicável) e também mais limitado (porque não sei se o seu conjunto de dados é realmente extraído das suposições de modelagem que utilizo ao projetar minha avaliação.) "
ML: "Que avaliação você usa, B?"
F: (interrompe) "Ei. Não me faça rir. Ele não avalia nada. Ele apenas usa suas crenças subjetivas e segue em frente. Ou algo assim."
B: "Essa é a interpretação comum. Mas também é possível definir o bayesianismo pelas avaliações preferidas. Então, podemos usar a ideia de que nenhum de nós se importa com o que está na caixa preta, mas apenas com maneiras diferentes de avaliar".
B continua: "Exemplo clássico: exame médico. O resultado do exame de sangue é positivo ou negativo. Um freqüentador estará interessado, nas pessoas saudáveis, em que proporção obtém um resultado negativo. E, similarmente, em que proporção de pessoas doentes haverá obtenha um positivo. O frequentista irá calculá-los para cada método de exame de sangue que está sendo considerado e, em seguida, recomendar que utilizemos o teste que obteve a melhor pontuação. "
F: "Exatamente. O que mais você poderia querer?"
B: "E aqueles indivíduos que obtiveram um resultado positivo no teste? Eles vão querer saber 'daqueles que obtiveram um resultado positivo, quantos ficarão doentes?' e 'daqueles que obtêm um resultado negativo, quantos são saudáveis?' "
ML: "Ah, sim, isso parece um melhor par de perguntas a fazer."
F: "HERESIA!"
B: "Aqui vamos nós novamente. Ele não gosta de onde isso está indo."
ML: "Isso é sobre 'priors', não é?"
F: "MAL".
B: "De qualquer forma, sim, você está certo. ML. Para calcular a proporção de pessoas com resultado positivo doentes, você deve fazer uma de duas coisas. Uma opção é executar os testes em muitas pessoas e apenas observar o proporções relevantes. Quantas dessas pessoas morrem da doença, por exemplo ".
ML: "Parece o que eu faço. Use treinar e testar."
B: "Mas você pode calcular esses números antecipadamente, se estiver disposto a fazer uma suposição sobre a taxa de doença na população. O freqüentador também faz seus cálculos com antecedência, mas sem usar essa taxa de doença no nível da população".
F: "Mais suposições sem fundamento".
B: "Ah, cale a boca. Anteriormente, você foi descoberto. ML descobriu que gosta tanto de suposições infundadas quanto qualquer outra pessoa. Suas probabilidades de cobertura" comprovadas "não se acumularão no mundo real, a menos que todas as suas suposições se sustentem. Por que minha suposição anterior é tão diferente? Você me chama de louco, mas finge que suas suposições são o trabalho de uma análise conservadora, sólida e isenta de suposições ".
B (continua): "De qualquer forma, ML, como eu estava dizendo. Os bayesianos gostam de um tipo diferente de avaliação. Estamos mais interessados em condicionar os dados observados e em calcular a precisão de nosso estimador de acordo. Não podemos realizar essa avaliação sem usar Mas o interessante é que, uma vez que decidimos sobre essa forma de avaliação e uma vez escolhida a nossa prévia, temos uma 'receita' automática para criar um estimador apropriado. O frequentista não tem essa receita. estimador imparcial para um modelo complexo, ele não tem nenhuma maneira automatizada de construir um estimador adequado ".
ML: "E você faz? Você pode criar automaticamente um estimador?"
B: "Sim. Eu não tenho uma maneira automática de criar um estimador imparcial, porque acho que o viés é uma maneira ruim de avaliar um estimador. Mas, dada a estimativa de dados condicionais que eu gosto, e a anterior, eu pode conectar o anterior e a probabilidade de me fornecer o estimador ".
ML: "De qualquer forma, vamos recapitular. Todos temos maneiras diferentes de avaliar nossos métodos, e provavelmente nunca concordaremos sobre quais são os melhores."
B: "Bem, isso não é justo. Poderíamos misturá-los e combiná-los. Se algum de nós tiver bons dados de treinamento rotulados, provavelmente devemos testá-lo. E geralmente todos devemos testar o máximo de suposições que pudermos. E alguns 'freqüentadores 'provas também podem ser divertidas, prevendo o desempenho em algum modelo de geração de dados presumido ".
F: "Sim, pessoal. Vamos ser pragmáticos em relação à avaliação. E, na verdade, vou parar de ficar obcecado com as propriedades de amostras infinitas. Estou pedindo aos cientistas que me forneçam uma amostra infinita, mas eles ainda não o fizeram. hora de me concentrar novamente em amostras finitas ".
ML: "Então, temos apenas uma última pergunta. Discutimos muito sobre como avaliar nossos métodos, mas como criamos nossos métodos".
B: "Ah. Como eu estava começando, nós Bayesianos temos o método geral mais poderoso. Pode ser complicado, mas sempre podemos escrever algum tipo de algoritmo (talvez uma forma ingênua de MCMC) que será amostrado em nosso posterior. "
F (interpõe): "Mas pode ter um viés".
B: "Seus métodos também podem. Preciso lembrá-lo de que o MLE é frequentemente tendencioso? Às vezes, você tem uma grande dificuldade em encontrar estimadores imparciais, e mesmo quando possui um estimador estúpido (para algum modelo realmente complexo) que diz o a variação é negativa. E você chama isso de imparcial. Imparcial, sim. Mas útil, não! "
ML: "OK pessoal. Você está reclamando novamente. Deixe-me fazer uma pergunta, F. Você já comparou o viés do seu método com o viés do método de B, quando vocês dois trabalharam no mesmo problema?"
F: "Sim. Na verdade, eu odeio admitir isso, mas a abordagem de B às vezes tem um viés e um MSE mais baixos do que meu estimador!"
ML: "A lição aqui é que, embora discordemos um pouco da avaliação, nenhum de nós tem o monopólio de como criar um estimador que possui propriedades que queremos".
B: "Sim, devemos ler um pouco mais o trabalho um do outro. Podemos nos inspirar para os estimadores. Podemos achar que os estimadores dos outros funcionam muito bem, prontos para uso, em nossos próprios problemas".
F: "E devo parar de ficar obcecado com o viés. Um estimador imparcial pode ter uma variação ridícula. Suponho que todos nós temos que" assumir a responsabilidade "pelas escolhas que fazemos na forma como avaliamos e pelas propriedades que desejamos ver em nossos avaliadores. Não podemos ficar atrás de uma filosofia. Tente todas as avaliações que puder. E continuarei dando uma olhada na literatura bayesiana para obter novas idéias para os estimadores! "
B: "De fato, muitas pessoas realmente não sabem qual é a sua própria filosofia. Eu nem tenho certeza. Se eu usar uma receita bayesiana e depois provar algum bom resultado teórico, isso não significa que eu Um frequentista se preocupa com as provas acima sobre desempenho, ele não se importa com receitas.E se eu fizer algum treinamento e teste (ou também), isso significa que eu sou aprendiz de máquina? "
ML: "Parece que somos todos muito parecidos então."
fonte
Nessa discussão, lembro sempre da famosa citação de Ken Thompson
Nesse caso, o aprendizado de máquina é uma salvação quando as suposições são difíceis de entender; ou pelo menos é muito melhor do que supor que eles estão errados.
fonte
O que impõe mais separação do que deveria haver é o léxico de cada disciplina.
Existem muitos casos em que ML usa um termo e Estatística usa um termo diferente - mas ambos se referem à mesma coisa - tudo bem, você esperaria isso e isso não causa nenhuma confusão permanente (por exemplo, recursos / atributos versus expectativa rede neural / MLP versus busca de projeção).
O que é muito mais problemático é que ambas as disciplinas usam o mesmo termo para se referir a conceitos completamente diferentes.
Alguns exemplos:
Função Kernel
No ML, as funções do kernel são usadas nos classificadores (por exemplo, SVM) e, é claro, nas máquinas do kernel. O termo refere-se a uma função simples ( cosseno, sigmoidal, rbf, polinomial ) para mapear separável não linearmente para um novo espaço de entrada, para que os dados agora sejam separáveis linearmente nesse novo espaço de entrada. (versus usar um modelo não linear para começar).
Nas estatísticas, uma função do kernel é a função de ponderação usada na estimativa de densidade para suavizar a curva de densidade.
Regressão
No ML, algoritmos preditivos ou implementações desses algoritmos que retornam rótulos de classe "classificadores" são (às vezes) chamados de máquinas --eg, máquina de vetores de suporte , máquina de kernel . A contraparte das máquinas são regressores , que retornam uma pontuação (variável contínua) - por exemplo, suportam a regressão vetorial .
Raramente os algoritmos têm nomes diferentes com base no modo - por exemplo, um MLP é o termo usado para retornar um rótulo de classe ou uma variável contínua.
Em Estatística, regressão , se você estiver tentando construir um modelo baseado em dados empíricos, para prever alguma variável de resposta com base em uma ou mais variáveis explicativas ou mais variáveis - então você está fazendo uma análise de regressão . Não importa se a saída é uma variável contínua ou um rótulo de classe (por exemplo, regressão logística). Assim, por exemplo, a regressão de mínimos quadrados refere-se a um modelo que retorna um valor contínuo; regressão logística, por outro lado, retorna uma estimativa de probabilidade que é discretizada para os rótulos de uma classe.
Viés
Em ML, o termo de viés no algoritmo é conceitualmente idêntico ao termo de interceptação usado pelos estatísticos na modelagem de regressão.
Em Estatística, viés é erro não aleatório - ou seja, algum fenômeno influenciou todo o conjunto de dados na mesma direção, o que significa que esse tipo de erro não pode ser removido por reamostragem ou aumento do tamanho da amostra.
fonte
O aprendizado de máquina parece ter sua base no pragmático - uma observação prática ou simulação da realidade. Mesmo dentro das estatísticas, a "checagem de modelos e suposições" sem sentido pode levar ao descarte de métodos úteis.
Por exemplo, anos atrás, o primeiro modelo de falência disponível comercialmente (e em funcionamento) implementado pelas agências de crédito foi criado por meio de um modelo de regressão linear simples e antigo, visando um resultado de 0-1. Tecnicamente, essa é uma abordagem ruim, mas praticamente funcionou.
fonte
As maiores diferenças que tenho notado no ano passado são:
fonte
Não concordo com essa pergunta, pois sugere que o aprendizado de máquina e a estatística são ciências diferentes ou conflitantes ... quando o oposto é verdadeiro!
o aprendizado de máquina faz amplo uso de estatísticas ... uma pesquisa rápida de qualquer pacote de software de aprendizado de máquina ou de mineração de dados revelará técnicas de cluster, como k-means, também encontradas nas estatísticas ... também mostrará técnicas de redução de dimensão, como análise de componentes principais também uma técnica estatística ... até regressão logística ainda outra.
Na minha opinião, a principal diferença é que tradicionalmente a estatística era usada para provar uma teoria pré-concebida e, geralmente, a análise era projetada em torno dessa teoria principal. Onde na mineração de dados ou no aprendizado de máquina a abordagem oposta é geralmente a norma, pois temos o resultado, apenas queremos encontrar uma maneira de prever isso, em vez de fazer a pergunta ou formar a teoria, esse é o resultado!
fonte
Eu falei sobre isso em um fórum diferente do eGroup ASA Statistical Consulting. Minha resposta foi mais especificamente à mineração de dados, mas os dois andam de mãos dadas. Nós, estatísticos, desprezamos o nariz de mineradores de dados, cientistas da computação e engenheiros. Está errado. Penso que parte da razão pela qual isso acontece é porque vemos algumas pessoas nesses campos ignorando a natureza estocástica do seu problema. Alguns estatísticos chamam de espionagem de dados ou pesca de dados. Algumas pessoas abusam e abusam dos métodos, mas os estatísticos ficaram para trás na mineração de dados e no aprendizado de máquina porque os pintamos com um pincel amplo. Alguns dos grandes resultados estatísticos vieram de fora do campo das estatísticas. Impulsionar é um exemplo importante. Mas estatísticos como Brieman, Friedman, Hastie, Tibshirani, Efron, Gelman e outros entenderam e sua liderança levou estatísticos à análise de microarrays e outros problemas de inferência em larga escala. Portanto, embora as culturas nunca possam se unir, agora há mais cooperação e colaboração entre os cientistas da computação, engenheiros e estatísticos.
fonte
O verdadeiro problema é que esta questão está equivocada. Não é aprendizado de máquina versus estatística, é aprendizado de máquina contra o avanço científico real. Se um dispositivo de aprendizado de máquina fornece as previsões corretas 90% do tempo, mas não consigo entender "por que", qual é a contribuição do aprendizado de máquina para a ciência em geral? Imagine se as técnicas de aprendizado de máquina fossem usadas para prever as posições dos planetas: haveria muitas pessoas presunçosas pensando que podem prever com precisão uma série de coisas com seus SVMs, mas o que elas realmente saberiam sobre o problema que têm em suas mãos ? Obviamente, a ciência não avança realmente por previsões numéricas, avança por meio de modelos (mentais, matemáticos) que nos permitem ver muito além dos números.
fonte
O aprendizado estatístico (AKA Machine Learning) tem suas origens na busca de criar software "aprendendo com exemplos". Há muitas tarefas que gostaríamos que os computadores realizassem (por exemplo, visão computacional, reconhecimento de fala, controle de robôs) que são difíceis de programar, mas para as quais é fácil fornecer exemplos de treinamento. A comunidade de pesquisa em aprendizado de máquina / aprendizado estatístico desenvolveu algoritmos para aprender as funções desses exemplos. A função de perda estava tipicamente relacionada à tarefa de desempenho (visão, reconhecimento de fala). E, é claro, não tínhamos motivos para acreditar que houvesse um "modelo" simples subjacente a essas tarefas (porque, caso contrário, teríamos codificado esse programa simples). Portanto, toda a idéia de fazer inferência estatística não fazia nenhum sentido. O objetivo é precisão preditiva e nada mais.
Com o tempo, várias forças começaram a levar as pessoas do aprendizado de máquina a aprender mais sobre estatísticas. Uma era a necessidade de incorporar conhecimentos básicos e outras restrições ao processo de aprendizagem. Isso levou as pessoas a considerar modelos probabilísticos generativos, porque facilitam a incorporação de conhecimentos prévios por meio da estrutura do modelo e anteriores sobre os parâmetros e a estrutura do modelo. Isso levou o campo a descobrir a rica literatura estatística nessa área. Outra força foi a descoberta do fenômeno da super adaptação. Isso levou a comunidade do ML a aprender sobre validação cruzada e regularização e, novamente, descobrimos a rica literatura estatística sobre o assunto.
No entanto, o foco da maioria dos trabalhos de aprendizado de máquina é criar um sistema que exiba certo desempenho, em vez de fazer inferências sobre um processo desconhecido. Essa é a diferença fundamental entre ML e estatística.
fonte
Idealmente, deve-se ter um conhecimento profundo das estatísticas e do aprendizado de máquina antes de tentar responder à sua pergunta. Sou muito neófito de ML, então me perdoe se eu disser que é ingênuo.
Tenho experiência limitada em SVMs e árvores de regressão. O que me parece falta de ML do ponto de vista estatístico é um conceito bem desenvolvido de inferência.
A inferência no ML parece se resumir quase exclusivamente à precisão do predício, medida por (por exemplo) erro de classificação média (MCE) ou taxa de erro balanceada (BER) ou similar. ML tem o hábito muito bom de dividir dados aleatoriamente (geralmente 2: 1) em um conjunto de treinamento e um conjunto de teste. Os modelos são adequados usando o conjunto de treinamento e o desempenho (MCE, BER etc.) é avaliado usando o conjunto de teste. Esta é uma excelente prática e está lentamente entrando nas estatísticas convencionais.
O ML também faz uso pesado de métodos de reamostragem (especialmente validação cruzada), cujas origens parecem estar nas estatísticas.
No entanto, ML parece carecer de um conceito totalmente desenvolvido de inferência - além da precisão preditiva. Isso tem dois resultados.
1) Não parece haver uma apreciação de que qualquer previsão (estimativa de parâmetros etc.) esteja sujeita a um erro aleatório e talvez erro de sistemática (viés). Os estatísticos aceitarão que essa é uma parte inevitável da previsão e tentarão estimar o erro. As técnicas estatísticas tentarão encontrar uma estimativa com viés mínimo e erro aleatório. Suas técnicas são geralmente guiadas por um modelo do processo de dados, mas nem sempre (por exemplo, Bootstrap).
2) Não parece haver um entendimento profundo no ML dos limites da aplicação de um modelo para novos dados em uma nova amostra da mesma população (apesar do que eu disse anteriormente sobre a abordagem do conjunto de dados de teste de treinamento). Várias técnicas estatísticas, entre elas validação cruzada e termos de penalidade aplicados a métodos baseados em verossimilhanças, orientam os estatísticos na troca entre parcimônia e complexidade do modelo. Tais diretrizes no ML parecem muito mais ad hoc.
Eu já vi vários artigos no ML nos quais a validação cruzada é usada para otimizar um ajuste de muitos modelos em um conjunto de dados de treinamento - produzindo um ajuste cada vez melhor à medida que a complexidade do modelo aumenta. Parece pouco saber que os pequenos ganhos em precisão não valem a complexidade extra e isso naturalmente leva a um excesso de ajuste. Todos esses modelos otimizados são aplicados ao conjunto de testes como uma verificação do desempenho preditivo e para evitar ajustes excessivos. Duas coisas foram esquecidas (acima). O desempenho preditivo terá um componente estocástico. Em segundo lugar, vários testes contra um conjunto de testes resultam novamente em excesso de ajuste. O "melhor" modelo será escolhido pelo praticante de ML sem uma avaliação completa que ele / ela escolheu de uma realização de muitos possíveis resultados dessa experiência.
Qualquer um dos meus 2 centavos vale. Temos muito a aprender um com o outro.
fonte
Esta questão também pode ser estendida à chamada supercultura da ciência de dados em 2015 David Donoho, 50 anos de Ciência de Dados , onde ele confronta diferentes pontos de vista das estatísticas e da ciência da computação (incluindo aprendizado de máquina), por exemplo, pontos de vista diretos (de pessoas diferentes) tais que:
e com considerações históricas e filosóficas, por exemplo:
Este ensaio gerou muitas respostas e contribuições para o debate.
fonte
Realmente não sei qual é a diferença conceitual / histórica entre aprendizado de máquina e estatística, mas tenho certeza de que não é tão óbvio ... e não tenho muito interesse em saber se sou aprendiz de máquina ou estatístico, acho 10 anos após o trabalho de Breiman, muitas pessoas são ...
Enfim, achei interessante a pergunta sobre precisão preditiva de modelos . Temos que lembrar que nem sempre é possível medir a precisão de um modelo e, mais precisamente, estamos frequentemente fazendo alguma modelagem implicitamente ao medir erros.
Por exemplo, o erro absoluto médio na previsão de séries temporais é uma média ao longo do tempo e mede o desempenho de um procedimento para prever a mediana com a suposição de que o desempenho é, em certo sentido, estacionário e mostra alguma ergódica propriedade . Se (por algum motivo) você precisar prever a temperatura média da Terra nos próximos 50 anos e se sua modelagem tiver um bom desempenho nos últimos 50 anos ... isso não significa que ...
Em geral, (se bem me lembro, é chamado de almoço grátis), você não pode fazer nada sem modelar ... Além disso, acho que a estatística está tentando encontrar uma resposta para a pergunta: "é algo significativo ou não", esta é uma pergunta muito importante na ciência e não pode ser respondida através de um processo de aprendizado. Para afirmar John Tukey (ele era estatístico?):
Espero que isto ajude !
fonte
Claramente, os dois campos enfrentam claramente problemas semelhantes, mas diferentes, de maneiras semelhantes, mas não idênticas, com conceitos análogos, mas não idênticos, e trabalham em diferentes departamentos, periódicos e conferências.
Quando leio a estatística de divergência de potência de Cressie e Read , tudo se encaixou no meu lugar. Sua fórmula generaliza as estatísticas de teste comumente usadas em uma que varia de acordo com um expoente, lambda. Existem dois casos especiais, lambda = 0 e lambda = 1.
Ciência da Computação e Estatística se encaixam em um continuum (que provavelmente poderia incluir outros pontos). Em um valor de lambda, você obtém estatísticas comumente citadas nos círculos Estatística e, no outro, obtém estatísticas comumente citadas nos círculos Comp Sci.
Estatisticas
Ciência da Computação:
fonte
Você executa um algoritmo de computador sofisticado uma vez - e recebe um documento de apresentação / estatística da conferência de CS (uau, que convergência rápida!). Você o comercializa e o executa 1 milhão de vezes - e fica sem dinheiro (ai, por que estou obtendo resultados inúteis e improdutíveis o tempo todo ???), a menos que saiba empregar probabilidades e estatísticas para generalizar as propriedades do algoritmo.
fonte
Há uma área de aplicação de estatísticas em que o foco no modelo de geração de dados faz muito sentido. Em experimentos projetados, por exemplo, estudos em animais, ensaios clínicos, EODs industriais, estatísticos podem ter uma mão no que é o modelo de geração de dados. O ML tende a não gastar muito tempo com esse problema muito importante, pois o ML geralmente se concentra em outro problema muito importante de previsão, com base em dados observacionais “grandes”. Isso não quer dizer que o BC não possa ser aplicado a experimentos projetados "grandes", mas é importante reconhecer que a estatística possui experiência específica em problemas "pequenos" de dados decorrentes de experimentos com restrições de recursos.
No final do dia, acho que todos podemos concordar em usar o que funciona melhor para resolver o problema em questão. Por exemplo, podemos ter um experimento projetado que produz dados muito amplos com o objetivo de previsão. Os princípios de design estatístico são muito úteis aqui e os métodos de ML podem ser úteis para construir o preditor.
fonte
Eu acho que o aprendizado de máquina precisa ser um sub-ramo da estatística, assim como, na minha opinião, a química precisa ser um sub-ramo da física.
Eu acho que a visão inspirada na física da química é bastante sólida (eu acho). Não acho que exista reação química cujo equivalente não seja conhecido em termos físicos. Eu acho que a física fez um trabalho incrível, explicando tudo o que podemos ver no nível da química. Agora, o desafio dos físicos parece estar explicando os pequenos mistérios no nível quântico, sob condições extremas que não são observáveis.
Agora, de volta ao aprendizado de máquina. Eu acho que muito deveria ser um sub-ramo sob estatística (exatamente como a química é um sub-ramo da física).
Mas parece-me que, de alguma forma, o estado atual do aprendizado de máquina ou a estatística não estão maduros o suficiente para realizar isso perfeitamente. Mas, a longo prazo, acho que um deve se tornar um sub-ramo do outro. Eu acho que é ML que vai ficar sob as estatísticas.
Pessoalmente, acho que "aprender" e "analisar amostras" para estimar / inferir funções ou previsões são essencialmente uma questão de estatística.
fonte
Do curso Coursera "Ciência de dados na vida real", de Brian Caffo
Machine Learning
Análise estatística tradicional
fonte
Como cientista da computação, sempre fico intrigado ao olhar para abordagens estatísticas. Para mim, muitas vezes, parece que os modelos estatísticos usados na análise estatística são muito complexos para os dados em muitas situações!
Por exemplo, há um forte vínculo entre compactação de dados e estatísticas. Basicamente, é necessário um bom modelo estatístico capaz de prever bem os dados e isso traz uma compressão muito boa dos dados. Na ciência da computação, ao compactar os dados, sempre é muito importante a complexidade do modelo estatístico e a precisão da previsão. Ninguém quer que NUNCA um arquivo de dados (contendo dados de som ou dados de imagem ou de vídeo) fique maior após a compactação!
Acho que há coisas mais dinâmicas na ciência da computação em relação às estatísticas, como, por exemplo, Comprimento Mínimo da Descrição e Probabilidade Máxima Normalizada .
fonte