Qual é a diferença entre mineração de dados, estatística, aprendizado de máquina e IA?

208

Qual é a diferença entre mineração de dados, estatística, aprendizado de máquina e IA?

Seria correto dizer que são quatro campos tentando resolver problemas muito semelhantes, mas com abordagens diferentes? O que exatamente eles têm em comum e onde eles diferem? Se existe algum tipo de hierarquia entre eles, qual seria?

Perguntas semelhantes foram feitas anteriormente, mas ainda não o entendi:

Olivier Lalonde
fonte

Respostas:

109

Há uma sobreposição considerável entre eles, mas algumas distinções podem ser feitas. Por necessidade, terei que simplificar demais algumas coisas ou dar pouca atenção a outras, mas farei o possível para dar uma idéia dessas áreas.

Em primeiro lugar, a inteligência artificial é bastante distinta do resto. AI é o estudo de como criar agentes inteligentes. Na prática, é como programar um computador para se comportar e executar uma tarefa como um agente inteligente (digamos, uma pessoa). Isso não precisa envolver aprendizado ou indução, pode ser apenas uma maneira de "construir uma ratoeira melhor". Por exemplo, os aplicativos de IA incluem programas para monitorar e controlar processos em andamento (por exemplo, aumente o aspecto A se parecer muito baixo). Observe que a IA pode incluir tudo o que uma máquina faz, desde que não o faça 'estupidamente'.

Na prática, no entanto, a maioria das tarefas que requerem inteligência exige a capacidade de induzir novos conhecimentos a partir de experiências. Assim, uma grande área dentro da IA ​​é o aprendizado de máquina . Diz-se que um programa de computador aprende alguma tarefa com a experiência se seu desempenho na tarefa melhorar com a experiência, de acordo com alguma medida de desempenho. O aprendizado de máquina envolve o estudo de algoritmos que podem extrair informações automaticamente (ou seja, sem orientação humana on-line). Certamente, alguns desses procedimentos incluem idéias derivadas diretamente de, ou inspiradas por, estatísticas clássicas, mas elas não têmser estar. Da mesma forma que a IA, o aprendizado de máquina é muito amplo e pode incluir quase tudo, desde que haja algum componente indutivo. Um exemplo de algoritmo de aprendizado de máquina pode ser um filtro Kalman.

A mineração de dados é uma área que tirou grande parte de sua inspiração e técnicas do aprendizado de máquina (e algumas também da estatística), mas foi colocada em diferentes fins . A mineração de dados é realizada por uma pessoa , em uma situação específica, em um conjunto de dados específico, com um objetivo em mente. Normalmente, essa pessoa deseja aproveitar o poder das várias técnicas de reconhecimento de padrões desenvolvidas no aprendizado de máquina. Muitas vezes, o conjunto de dados é maciço , complicado e / ou pode ter problemas especiais(como existem mais variáveis ​​que observações). Normalmente, o objetivo é descobrir / gerar algumas idéias preliminares em uma área onde realmente havia pouco conhecimento de antemão, ou ser capaz de prever com precisão observações futuras. Além disso, os procedimentos de mineração de dados podem ser 'não supervisionados' (não sabemos a resposta - descoberta) ou 'supervisionados' (sabemos a resposta - previsão). Observe que o objetivo geralmente não é desenvolver um entendimento mais sofisticado do processo de geração de dados subjacente. Técnicas comuns de mineração de dados incluem análises de cluster, árvores de classificação e regressão e redes neurais.

Suponho que não preciso dizer muito para explicar o que são estatísticas neste site, mas talvez eu possa dizer algumas coisas. A estatística clássica (aqui, quero dizer, tanto freqüentista quanto bayesiana) é um subtópico da matemática. Penso nisso como a interseção entre o que sabemos sobre probabilidade e o que sabemos sobre otimização. Embora a estatística matemática possa ser estudada como simplesmente um objeto platônico de investigação, ela é entendida como mais prática e aplicada em caráter do que outras áreas mais rarefeitas da matemática. Como tal (e notadamente em contraste com a mineração de dados acima), ele é empregado principalmente para entender melhor alguns processos específicos de geração de dados. Assim, geralmente começa com um modelo formalmente especificado, e daí derivam procedimentos para extrair com precisão esse modelo de instâncias ruidosas (ou seja, estimativa - otimizando alguma função de perda) e ser capaz de diferenciá-lo de outras possibilidades (ou seja, inferências baseadas em propriedades conhecidas de distribuições de amostragem). A técnica estatística prototípica é a regressão.

gung
fonte
11
Eu concordo com a maior parte do post, mas eu diria que a IA na maioria das vezes não tenta criar agentes inteligentes (o que é inteligência, afinal?), Mas agentes racionais. Por racional, entende-se "ideal, dado o conhecimento disponível sobre o mundo". Embora seja certo que o objetivo final é algo como um solucionador de problemas geral.
kutschkem
3
desculpe, ainda não entendi a diferença entre mineração de dados e aprendizado de máquina. pelo que vejo, mineração de dados = aprendizado não supervisionado de aprendizado de máquina. o aprendizado de máquina não é supervisionado sobre a descoberta de novas idéias?
DTC
Um usuário anônimo sugeriu este post do blog para uma tabela que detalha as diferenças entre mineração de dados e aprendizado de máquina com base em parâmetros.
gung
11
Common data mining techniques would include cluster analyses, classification and regression trees, and neural networks.É seguro dizer que uma rede neural é um exemplo de uma ferramenta de aprendizado de máquina usada na mineração de dados, em comparação com uma análise de cluster que é um algoritmo não projetado para o aprendizado de máquina usado na mineração de dados?
precisa saber é
Na realidade, é tudo muito confuso, @ TomGranot-Scalosub. Eu diria que as redes neurais são definitivamente ML, e certamente a análise de cluster e CART são estudadas por pesquisadores de ML. Eu tento tornar as idéias um pouco mais claras e distintas, mas não há realmente uma linha clara entre essas categorias.
gung
41

Muitas das outras respostas abordaram os pontos principais, mas você solicitou uma hierarquia, se houver alguma, e a maneira como a vejo, embora sejam disciplinas por si só, existe uma hierarquia que ninguém parece ter mencionado ainda, pois cada uma delas se baseia em o anterior.

A estatística é apenas sobre os números e quantifica os dados. Existem muitas ferramentas para encontrar propriedades relevantes dos dados, mas isso é muito próximo da matemática pura.

A Mineração de Dados trata do uso de Estatísticas , bem como de outros métodos de programação, para encontrar padrões ocultos nos dados, para que você possa explicar algum fenômeno. O Data Mining cria intuição sobre o que realmente está acontecendo em alguns dados e ainda é um pouco mais voltado para a matemática do que para a programação, mas usa os dois.

O Machine Learning usa técnicas de Mineração de Dados e outros algoritmos de aprendizado para criar modelos do que está acontecendo por trás de alguns dados, para que possam prever resultados futuros. A matemática é a base para muitos dos algoritmos, mas isso é mais para a programação.

A Inteligência Artificial usa modelos criados pelo Machine Learning e outras maneiras de raciocinar sobre o mundo e dar origem a comportamentos inteligentes , seja jogando ou dirigindo um robô / carro. A Inteligência Artificial tem algum objetivo a alcançar, prevendo como as ações afetarão o modelo do mundo e escolhe as ações que melhor atingirão esse objetivo. Muito baseado em programação.

Em resumo

  • Estatísticas quantificam números
  • Mineração de Dados explica padrões
  • O Machine Learning prevê com modelos
  • A inteligência artificial se comporta e razões

Agora, sendo dito isso, haverá alguns problemas de IA que se enquadram apenas na IA e da mesma forma para os outros campos, mas a maioria dos problemas interessantes hoje (carros autônomos, por exemplo) poderia ser fácil e corretamente chamada de todos esses. Espero que isso esclareça o relacionamento entre eles sobre o qual você perguntou.

hackartist
fonte
Você já usou o WEKA ou o RapidMiner? Por exemplo, o EM está dentro da mineração de dados e aplica um modelo. Além disso, confira a definição dada por mariana soffer e compare-a com a sua resposta. Faz alguns anos que li Bishop e Russell / Norvig, mas até onde me lembro da defesa. por mariana soffer é mais adequado. A mineração de dados é ("somente") a etapa principal antes da descoberta do conhecimento. a mineração de dados apenas busca dados - e subsequentemente informações - ao usar um algoritmo com parâmetros adequados. a mineração de dados não pode explicar padrões.
Mnemônico
Não, @mnemonic, esta definição de AI é muito mais em linha com Russell e Norvig de Mariana, que é bastante datada
nealmcb
2
Eu acho que a descrição das estatísticas é ruim; quantifyinf numbers são as estatísticas que o departamento nacional de estatística relata, mas não é o mesmo que a ciência estatística que cria modelos para os dados, estima seus parâmetros e faz inferência. Além disso, a relação entre mineração de dados e aprendizado de máquina é invertida; a ciência de dados usa técnicas de aprendizado de máquina, e não o contrário. Veja a resposta de Ken van Haren também.
Richard Hardy
25
  • A estatística preocupa-se com modelos probabilísticos, especificamente inferência nesses modelos usando dados.
  • O Machine Learning está preocupado em prever um resultado específico, com base em alguns dados. Quase qualquer método razoável de aprendizado de máquina pode ser formulado como um modelo probabilístico formal; portanto, nesse sentido, o aprendizado de máquina é praticamente o mesmo que a estatística, mas difere no fato de que geralmente não se importa com estimativas de parâmetros (apenas previsão) e focaliza em eficiência computacional e grandes conjuntos de dados.
  • A mineração de dados é (como eu a entendo) o aprendizado de máquina aplicado. Ele se concentra mais nos aspectos práticos da implantação de algoritmos de aprendizado de máquina em grandes conjuntos de dados. É muito semelhante ao aprendizado de máquina.
  • Inteligência Artificial é qualquer coisa relacionada a (alguma definição arbitrária de) inteligência em computadores. Então, inclui muitas coisas.

Em geral, os modelos probabilísticos (e, portanto, as estatísticas) provaram ser a maneira mais eficaz de estruturar formalmente o conhecimento e o entendimento em uma máquina, a tal ponto que todos os outros três (AI, ML e DM) são hoje principalmente subcampos de Estatisticas. Não é a primeira disciplina a se tornar um braço sombrio da estatística ... (Economia, psicologia, bioinformática, etc.)

Ken Van Haren
fonte
5
@Ken - Seria impreciso descrever a psicologia econômica ou a IA como braços sombrios das estatísticas - mesmo que as estatísticas sejam usadas intensamente em cada um para analisar muitos dos problemas em que esses campos estão interessados. Você não gostaria de sugerir que a medicina é um braço sombrio de estatísticas, mesmo que a maioria das conclusões médicas dependa fortemente da análise de dados.
mpacer
@ Ken - Esta é uma ótima resposta, mas você pode descrever mais detalhadamente o que as outras coisas que a IA consiste. Por exemplo, historicamente a IA também incluiu grandes quantidades de análises de modelos não probabilísticos (por exemplo, sistemas de produção, autômatos celulares etc., por exemplo, ver Newell & Simon 1972). É claro que todos esses modelos são casos limitantes de algum modelo probabilístico, mas não foram analisados ​​nesse sentido até muito mais tarde.
mpacer
4
a mineração de dados vai além do aprendizado de máquina, pois na verdade envolve como os dados são armazenados e indexados para tornar os algoritmos muito mais rápidos. Ele pode ser caracterizado como usando métodos principalmente de IA, ML e estatísticas e combinando-os com técnicas de gerenciamento e layout de dados eficientes e inteligentes. Quando não envolve gerenciamento de dados, você pode frequentemente chamá-lo de "aprendizado de máquina". No entanto, existem algumas tarefas, em particular "não supervisionadas", nas quais não há "aprendizado" envolvido, mas também não há gerenciamento de dados, que ainda são chamados de "mineração de dados" (clustering, detecção de outlier).
Anony-Mousse
21

Podemos dizer que eles são todos relacionados, mas são coisas diferentes. Embora você possa ter coisas em comum entre eles, como em estatísticas e mineração de dados, você usa métodos de cluster.
Deixe-me tentar definir brevemente cada um:

  • A estatística é uma disciplina muito antiga, principalmente baseada em métodos matemáticos clássicos, que podem ser usados ​​para o mesmo objetivo que a mineração de dados às vezes é classificar e agrupar coisas.

  • A mineração de dados consiste em construir modelos para detectar os padrões que nos permitem classificar ou prever situações, dada uma quantidade de fatos ou fatores.

  • Inteligência artificial (veja Marvin Minsky *) é a disciplina que tenta imitar como o cérebro trabalha com métodos de programação, por exemplo, a construção de um programa que joga xadrez.

  • O aprendizado de máquina é a tarefa de construir conhecimento e armazená-lo de alguma forma no computador; esse formulário pode ser de modelos matemáticos, algoritmos, etc. Qualquer coisa que possa ajudar a detectar padrões.

mariana mais suave
fonte
2
Não, a maioria das IA modernas não segue essa abordagem inicial de "emular o cérebro". Ele se concentra na criação de "agentes racionais" que atuam em um ambiente para maximizar a utilidade e está mais intimamente relacionado ao aprendizado de máquina. Veja o livro de Russell e Norvig.
Nealmcb 01/07/19
11
Eu não vejo a diferença entre o ML e mineração de dados em sua definição
Martin Thoma
16

Eu estou mais familiarizado com o aprendizado de máquina - eixo de mineração de dados -, então vou me concentrar nisso:

O aprendizado de máquina tende a se interessar por inferência em situações não padronizadas, por exemplo, dados não-iid, aprendizado ativo, aprendizado semi-supervisionado, aprendizado com dados estruturados (por exemplo, strings ou gráficos). O ML também tende a se interessar por limites teóricos sobre o que é aprendível, o que geralmente forma a base dos algoritmos utilizados (por exemplo, a máquina de vetores de suporte). ML tende a ser de natureza bayesiana.

A mineração de dados está interessada em encontrar padrões nos dados que você ainda não conhece. Não sei se isso é significativamente diferente da análise exploratória de dados nas estatísticas, enquanto no aprendizado de máquina geralmente há um problema mais bem definido a ser resolvido.

O ML tende a se interessar mais por pequenos conjuntos de dados em que o ajuste excessivo é o problema e a mineração de dados tende a se interessar por conjuntos de dados em larga escala nos quais o problema está lidando com as quantidades de dados.

Estatísticas e aprendizado de máquina fornecem muitas das ferramentas básicas usadas pelos mineradores de dados.

Dikran Marsupial
fonte
Não concordo com "ML tende a estar mais interessado em pequenos conjuntos de dados".
Martin Thoma
a mineração de dados se torna muito mais difícil com pequenos conjuntos de dados, pois aumenta a chance de encontrar uma associação falsa (e aumenta a dificuldade de detectá-la). Com pequenos conjuntos de dados, inferências que fazem o menor número possível de escolhas tendem a ser muito mais seguras.
Dikran Marsupial 13/04/19
13

Aqui está a minha opinião. Vamos começar com as duas categorias muito amplas:

  • qualquer coisa que apenas finge ser inteligente é inteligência artificial (incluindo ML e DM).
  • qualquer coisa que resuma dados é estatística , embora você geralmente aplique isso apenas a métodos que prestam atenção à validade dos resultados (geralmente usados ​​em ML e DM)

Tanto o ML quanto o DM são geralmente IA e estatística, pois geralmente envolvem métodos básicos de ambos. Aqui estão algumas das diferenças:

  • no aprendizado de máquina , você tem um objetivo bem definido (geralmente previsão )
  • na mineração de dados , você basicamente tem o objetivo " algo que eu não sabia antes "

Além disso, a mineração de dados geralmente envolve muito mais gerenciamento de dados , como organizar os dados em estruturas e bancos de dados de índices eficientes.

Infelizmente, eles não são tão fáceis de separar. Por exemplo, há "aprendizado não supervisionado", que geralmente está mais relacionado ao DM do que ao ML, pois não pode otimizar em direção à meta. Por outro lado, os métodos de DM são difíceis de avaliar (como você avalia algo que você não conhece?) E geralmente são avaliados nas mesmas tarefas que o aprendizado de máquina, deixando de fora algumas informações. Isso, no entanto, geralmente fará com que pareçam funcionar pior do que os métodos de aprendizado de máquina que podem otimizar em direção ao objetivo de avaliação real.

Além disso, eles são frequentemente usados ​​em combinações. Por exemplo, um método de mineração de dados (digamos, agrupamento ou detecção externa não supervisionada) é usado para pré-processar os dados e, em seguida, o método de aprendizado de máquina é aplicado nos dados pré-processados ​​para treinar melhores classificadores.

O aprendizado de máquina geralmente é muito mais fácil de avaliar: há um objetivo, como pontuação ou previsão de classe. Você pode calcular precisão e recall. Na mineração de dados, a maioria das avaliações é feita deixando de fora algumas informações (como rótulos de classe) e testando se seu método descobriu a mesma estrutura. Isso é ingênuo no sentido, pois você supõe que os rótulos da classe codificam a estrutura dos dados completamente; você realmente pune o algoritmo de mineração de dados que descobre algo novo em seus dados. Outra maneira de - indiretamente - avaliar, é como a estrutura descoberta melhora o desempenho do algoritmo real de ML (por exemplo, ao particionar dados ou remover outliers). Ainda assim, essa avaliação é baseada na reprodução dos resultados existentes, o que não é realmente o objetivo da mineração de dados ...

Anony-Mousse
fonte
11
Sua resposta é muito perspicaz. Aprecio particularmente o último parágrafo, sobre as diferenças na avaliação do desempenho do ML e na avaliação do desempenho do DM.
Justis20
8

Eu acrescentaria algumas observações ao que foi dito ...

AI é um termo muito amplo para qualquer coisa que tenha a ver com máquinas que executam atividades semelhantes ao raciocínio ou que parecem sencientes, desde o planejamento de uma tarefa ou a cooperação com outras entidades, até o aprendizado de operar membros para andar. Uma definição concisa é que a IA é algo relacionado ao computador que ainda não sabemos como fazer bem. (Depois que sabemos como fazê-lo bem, geralmente ele recebe seu próprio nome e não é mais "AI").

Tenho a impressão, ao contrário da Wikipedia, de que o Reconhecimento de Padrões e o Aprendizado de Máquina são o mesmo campo, mas o primeiro é praticado por cientistas da computação, enquanto o segundo é praticado por estatísticos e engenheiros. (Muitos campos técnicos são descobertos repetidamente por diferentes subgrupos, que geralmente trazem sua própria linguagem e mentalidade para a mesa.)

A mineração de dados, em minha opinião, de qualquer maneira, pega o Machine Learning / reconhecimento de padrões (as técnicas que funcionam com os dados) e os envolve em banco de dados, infraestrutura e técnicas de validação / limpeza de dados.

Wayne
fonte
6
Aprendizado de máquina e reconhecimento de padrões não são a mesma coisa, o aprendizado de máquina também está interessado em coisas como regressão e inferência causal etc. O reconhecimento de padrões é apenas um dos problemas de interesse no aprendizado de máquina. A maioria das pessoas que aprendem sobre máquinas conhece-se nos departamentos de ciência da computação.
Dikran Marsupial
2
@Dikran Concordam, mas o ML e o PR geralmente são alternativos e apresentados em tópicos semelhantes de análise de dados. Meu livro preferido é de fato o Reconhecimento de Padrões e o Aprendizado de Máquina , de Christophe M. Bishop. Aqui está uma revisão de John MainDonald no JSS, j.mp/etg3w1 .
chl
Eu também sinto que a palavra "aprendizado de máquina" é muito mais comum do que "reconhecimento de padrões" no mundo do CS.
precisa saber é
Também sinta aqui que ML é mais um termo de CS.
Karl Morrison
3

Infelizmente, a diferença entre essas áreas é em grande parte onde elas são ensinadas: a estatística é baseada em depósitos de matemática, ai, aprendizado de máquina em depósitos de ciência da computação e a mineração de dados é mais aplicada (usada por depósitos de negócios ou marketing, desenvolvida por empresas de software) .

Em primeiro lugar, a IA (embora possa significar qualquer sistema inteligente) tradicionalmente significa abordagens baseadas em lógica (por exemplo, sistemas especialistas), em vez de estimativa estatística. A estatística, baseada em representações matemáticas, teve um entendimento teórico muito bom, juntamente com uma forte experiência aplicada em ciências experimentais, onde existe um modelo científico claro, e é necessária estatística para lidar com os limitados dados experimentais disponíveis. Muitas vezes, o foco está em extrair o máximo de informações de conjuntos de dados muito pequenos. além disso, existe uma tendência para as provas matemáticas: você não será publicado a menos que possa provar coisas sobre sua abordagem. Isso costuma significar que as estatísticas estão atrasadas no uso de computadores para automatizar a análise. Novamente, a falta de conhecimento de programação impediu que os estatísticos trabalhassem em problemas de larga escala, onde os problemas computacionais se tornavam importantes (considere GPUs e sistemas distribuídos, como o hadoop). Acredito que áreas como bioinformática agora mudaram mais as estatísticas nessa direção. Finalmente, eu diria que os estatísticos são um grupo mais cético: eles não afirmam que você descobre conhecimento com estatística - em vez disso, um cientista apresenta uma hipótese, e o trabalho do estatístico é verificar se a hipótese é suportada pelos dados. O aprendizado de máquina é ensinado nos departamentos cs, que infelizmente não ensinam a matemática apropriada: cálculo multivariável, probabilidade, estatística e otimização não são comuns ... temos conceitos vagos e "glamourosos", como aprender com exemplos ...Elementos de aprendizagem estatística página 30. Isso tende a significar que há muito pouco entendimento teórico e uma explosão de algoritmos, pois os pesquisadores sempre podem encontrar alguns conjuntos de dados nos quais seu algoritmo se mostra melhor. Portanto, existem enormes fases de hype à medida que os pesquisadores de ML buscam a próxima grande novidade: redes neurais, aprendizado profundo etc. Infelizmente, há muito mais dinheiro nos departamentos de CS (pense no Google, Microsoft, juntamente com o 'aprendizado' mais comercializável). estatísticos mais céticos são ignorados. Finalmente, há uma tendência empirista: basicamente, existe uma crença subjacente de que, se você lançar dados suficientes no algoritmo, ele 'aprenderá' as previsões corretas. Embora eu seja tendencioso contra o ML, há um insight fundamental no ML que os estatísticos ignoraram: que os computadores podem revolucionar a aplicação das estatísticas.

Existem duas maneiras: a) automatizar a aplicação de testes e modelos padrão. Por exemplo, executando uma bateria de modelos (regressão linear, florestas aleatórias, etc, tentando diferentes combinações de entradas, configurações de parâmetros, etc.). Isso realmente não aconteceu - embora eu suspeite que os concorrentes do kaggle desenvolvam suas próprias técnicas de automação. b) aplicação de modelos estatísticos padrão a dados enormes: pense, por exemplo, no google tradutor, em sistemas de recomendação etc. (ninguém está afirmando que, por exemplo, as pessoas traduzem ou recomendam dessa forma ... mas é uma ferramenta útil). Os modelos estatísticos subjacentes são diretos, mas existem enormes problemas computacionais na aplicação desses métodos a bilhões de pontos de dados.

A mineração de dados é o culminar dessa filosofia ... desenvolvendo maneiras automatizadas de extrair conhecimento dos dados. No entanto, possui uma abordagem mais prática: essencialmente é aplicada a dados comportamentais, onde não existe uma teoria científica abrangente (marketing, detecção de fraudes, spam, etc.) e o objetivo é automatizar a análise de grandes volumes de dados: sem dúvida, uma Uma equipe de estatísticos poderia produzir análises melhores com tempo suficiente, mas é mais econômico usar um computador. Além disso, como D. Hand explica, é a análise de dados secundários - dados que são registrados de qualquer maneira e não dados coletados explicitamente para responder a uma pergunta científica em um sólido projeto experimental. Estatísticas de mineração de dados e muito mais, D Hand

Então, eu resumiria que a IA tradicional é baseada na lógica e não estatística, o aprendizado de máquina é estatística sem teoria e estatística é 'estatística sem computadores' e a mineração de dados é o desenvolvimento de ferramentas automatizadas para análise estatística com o mínimo de intervenção do usuário.

seanv507
fonte
Essa resposta divaga muito, por isso é difícil de seguir e é desnecessariamente longa, mas realmente atinge a marca de que as diferenças têm mais a ver com tradições e ênfases disciplinares do que qualquer outra coisa.
Tripartio
1

A mineração de dados é descobrir padrões ocultos ou conhecimento desconhecido, que podem ser usados ​​para a tomada de decisões pelas pessoas.

O aprendizado de máquina consiste em aprender um modelo para classificar novos objetos.

Razan Paul
fonte
O aprendizado de máquina é apenas sobre classificação? O aprendizado de máquina não pode ser usado para servir a outros objetivos?
gung
@gung Absolutamente não. O aprendizado por reforço é, IMHO, o subcampo mais característico da ML e eu não diria que é baseado em classificação, mas em alcançar objetivos.
Nr 17/0318
@ nbro, esse comentário deveria ser uma dica para o OP reconsiderar quão estreitamente eles estavam definindo o ML.
gung
0

Na minha opinião, a Inteligência Artificial pode ser considerada o "superconjunto" de campos como Machine Learning, Mineração de Dados, Reconhecimento de Padrões etc.

  • Estatística, é um campo da matemática que inclui todos os modelos, técnicas e teoremas matemáticos que estão sendo usados ​​na IA.

  • O Machine Learning é um campo de IA que inclui todos os algoritmos que aplicam os Modelos Estatísticos mencionados acima e faz sentido dos dados, isto é, análises preditivas, como clustering e classificação.

  • Data Mining é a ciência que utiliza todas as técnicas acima (principalmente aprendizado de máquina) para extrair padrões úteis e importantes dos dados. A Mineração de Dados geralmente tem a ver com extrair informações úteis de conjuntos de dados massivos, ou seja, Big Data.

IrishDog
fonte
-1

Que tal: ensinar máquinas para aprender

Reconhecer padrões significativos nos dados: mineração de dados

Prever resultados a partir de padrões conhecidos: ML

Encontre novos recursos para remapear dados brutos: AI

Este cérebro de pássaro realmente precisa de definições simples.

Joel Malard
fonte
-1

Muitas vezes, a mineração de dados tenta "prever" alguns dados futuros ou "explicar" por que algo acontece.

As estatísticas são mais usadas para validar hipóteses aos meus olhos. Mas esta é uma discussão subjetiva.

Uma diferença óbvia entre estatísticos e mineradores de dados pode ser encontrada no tipo de estatística resumida que eles analisam.

As estatísticas geralmente se limitam ao R² e à precisão, enquanto os mineradores de dados analisam as curvas AUC, ROC, curvas de elevação etc. e também podem se preocupar em empregar uma curva de precisão relacionada a custos.

Os pacotes de mineração de dados (por exemplo, o Weka de código aberto), incorporaram técnicas para seleção de entrada, suportam a classificação de máquinas de vetores, etc., enquanto na maioria das vezes estão ausentes em pacotes estatísticos como o JMP. Recentemente, quando participei de um curso sobre "mineração de dados em jmp" do pessoal do jmp e, embora seja um pacote visualmente forte, algumas técnicas essenciais de pré / pós / meados de mineração de dados estão faltando. A seleção de entrada foi feita manualmente, para obter informações sobre os dados, ainda na mineração de dados, é apenas sua intenção liberar algoritmos, de forma inteligente, em dados grandes e ver automaticamente o que sai. O curso foi obviamente ministrado por pessoas de estatística, que enfatizavam a mentalidade diferente entre os dois.

dorien
fonte