Qual é a diferença entre mineração de dados e análise estatística?

19

Qual é a diferença entre mineração de dados e análise estatística?

Para alguns antecedentes, minha formação em estatística tem sido, eu acho, bastante tradicional. Uma pergunta específica é colocada, a pesquisa é projetada e os dados são coletados e analisados ​​para oferecer algumas dicas sobre essa questão. Como resultado, sempre fui cético em relação ao que considerava "dragagem de dados", ou seja, procurando padrões em um grande conjunto de dados e usando esses padrões para tirar conclusões. Costumo associar este último à mineração de dados e sempre considerei isso um pouco sem princípios (junto com coisas como rotinas de seleção de variáveis ​​algorítmicas).

No entanto, existe uma literatura grande e crescente sobre mineração de dados. Muitas vezes, vejo esse rótulo referindo-se a técnicas específicas, como agrupamento, classificação baseada em árvore etc. No entanto, pelo menos da minha perspectiva, essas técnicas podem ser "soltas" em um conjunto de dados ou usadas de maneira estruturada para abordar uma questão. questão. Eu chamaria a antiga mineração de dados e a última análise estatística.

Eu trabalho na administração acadêmica e me pediram para fazer uma "mineração de dados" para identificar problemas e oportunidades. Consistente com meu histórico, minhas primeiras perguntas foram: o que você quer aprender e quais são as coisas que você acha que contribuem para o problema? Pela resposta deles, ficou claro que eu e a pessoa que fizemos a pergunta tínhamos idéias diferentes sobre a natureza e o valor da mineração de dados.

Brett
fonte
1
duplicado? stats.stackexchange.com/questions/6/…
Neil McGuigan
3
Se for duplicado, acho que a mineração de dados e o aprendizado de máquina são a mesma coisa!
George Dontas
@ George Dontas Sim, eu vim aqui de um link nos comentários se a outra pergunta na esperança de ver se havia uma diferença entre ML e mineração de dados.
DJG

Respostas:

20

Jerome Friedman escreveu um artigo há algum tempo: Mineração de dados e estatística: o que é a conexão? , o que acho interessante.

A mineração de dados era uma preocupação amplamente comercial e impulsionada pelas necessidades de negócios (juntamente com a "necessidade" de fornecedores de vender sistemas de software e hardware para empresas). Uma coisa que Friedman observou foi que todos os "recursos" sensibilizados se originaram fora das estatísticas - de algoritmos e métodos como redes neurais à análise de dados orientada por GUI - e nenhuma das ofertas estatísticas tradicionais parecia fazer parte de qualquer um desses sistemas. (regressão, teste de hipóteses, etc.). "Nossa metodologia principal foi amplamente ignorada." Também foi vendido como orientado pelo usuário, de acordo com o que você anotou: eis os meus dados, eis a minha "pergunta comercial", me dê uma resposta.

Eu acho que Friedman estava tentando provocar. Ele não achava que a mineração de dados tivesse sérios fundamentos intelectuais no que se refere à metodologia, mas que isso mudaria e os estatísticos deveriam desempenhar um papel em vez de ignorá-lo.

Minha impressão é que isso aconteceu mais ou menos. As linhas foram borradas. Os estatísticos agora publicam em jornais de mineração de dados. Atualmente, os mineradores de dados parecem ter algum tipo de treinamento estatístico. Embora os pacotes de mineração de dados ainda não exagerem nos modelos lineares generalizados, a regressão logística é bem conhecida entre os analistas - além de redes neurais e de clustering. O design experimental ideal pode não fazer parte do núcleo de mineração de dados, mas o software pode ser coaxial para gerar valores-p. Progresso!

ars
fonte
1
Este é um excelente artigo e é consistente com minha perspectiva sobre o que é mineração de dados e como ela difere das estatísticas. O problema é que é de 1997! Observe uma acusação do artigo ou sua recomendação, mas o grau em que acompanhei a mineração de dados. Parece que preciso pegar um livro atual sobre mineração de dados para atualizar.
Brett
Heh, mantive a data de propósito, porque pensei que seria divertido perceber o tempo. :) Os livros de Michael Berry e Gordon Linoff são muito bons e atraem os estatísticos (para uma exposição mais ampla, em vez de aprender técnicas estatísticas). Se você quiser ter uma idéia do lado confuso e "corporativo" desse campo, percorrer um dos livros de um produto de fornecedor, como o Enterprise Miner da SAS ou a Clementine do SPSS, pode ajudar. Eu não recomendaria comprá-los, a menos que você trabalhe com o produto.
Ars
10

A diferença entre estatística e mineração de dados é amplamente histórica, uma vez que elas vieram de diferentes tradições: estatística e ciência da computação. A mineração de dados cresceu paralelamente sem trabalho na área de inteligência artificial e estatística.

A Seção 1.4 da Witten & Frank resume meu ponto de vista, então vou citar detalhadamente:

Qual é a diferença entre aprendizado de máquina e estatística? Os cínicos, olhando ironicamente para a explosão de interesse comercial (e hype) nessa área, equiparam a mineração de dados a estatísticas e marketing. Na verdade, você não deve procurar uma linha divisória entre aprendizado de máquina e estatística, porque há um continuum - e um multidimensional - nas técnicas de análise de dados. Alguns derivam das habilidades ensinadas nos cursos padrão de estatística e outros estão mais intimamente associados ao tipo de aprendizado de máquina que surgiu da ciência da computação. Historicamente, os dois lados tiveram tradições bastante diferentes. Se forçado a apontar para uma única diferença de ênfase, pode ser que a estatística tenha se preocupado mais com o teste de hipóteses,

No passado, métodos muito semelhantes foram desenvolvidos em paralelo em aprendizado de máquina e estatística ...

Mas agora as duas perspectivas convergiram.

NB1 IMO, mineração de dados e aprendizado de máquina são termos muito relacionados. Em certo sentido, técnicas de aprendizado de máquina são usadas na mineração de dados. Eu vejo esses termos regularmente como intercambiáveis ​​e, na medida em que são diferentes, eles geralmente andam juntos. Eu sugeriria examinar o artigo "As duas culturas" , bem como os outros tópicos da minha pergunta original.

NB2 O termo "mineração de dados" pode ter uma conotação negativa quando usado coloquialmente para significar a perda de algum algoritmo nos dados sem qualquer entendimento conceitual. A sensação é de que a mineração de dados levará a resultados espúrios e excesso de ajuste. Normalmente, evito usar o termo quando falo com não especialistas como resultado e, em vez disso, uso aprendizado de máquina ou aprendizado estatístico como sinônimo.

Shane
fonte
Sobre o NB2 - Acho que você está exatamente certo com relação à conotação da mineração de dados e eu não havia feito a conexão com o aprendizado de máquina. Meu treinamento sempre enfatizou os problemas de excesso de adequação, falsidade e capitalização do acaso e, como tal, tenho sido cético em relação ao DM - e ainda sou, talvez até que alguém realmente me diga o que está fazendo e como. Obrigado.
Brett
1
Minha única discussão sobre a distinção ML / DM seria que eu acho que o DM é mais amplo. Por exemplo, OLAP e ferramentas relacionadas incluem tecnologias de mineração. Mas eles vêm do lado do banco de dados da ciência da computação, e não do aprendizado de máquina. É difícil ignorar o papel do comércio na definição do "significado" da mineração de dados - ele traz elementos de ciências de gerenciamento, pesquisa operacional, aprendizado de máquina e estatística, conforme necessário. Também dá a impressão de algo frágil, mas isso geralmente é um problema para os puristas e não para os praticantes.
Ars
@ars: eu concordo. Eu estava tentando dizer que um pouco dizendo "técnicas de aprendizado de máquina são usadas na mineração de dados" (ou seja, a mineração de dados é um superconjunto). Seu ponto de vista sobre as aplicações comerciais também está no local. Embora alguém em um aplicativo comercial hoje em dia possa se referir a seu trabalho como outra coisa (por exemplo, "ciência de dados").
Shane
Certo, eu deveria ter dito que estava tentando detalhar as diferenças, em vez de realmente discutir com o que você escreveu. Desculpas pelo desvio de direção. Bom ponto de mudança de tempos e termos como a adoção da "ciência de dados". Um dos livros de Gelman não começa com algo como "estatística é a ciência dos dados"? Então "eles" estão roubando estatísticos. Novamente. :)
ars
8

A mineração de dados é categorizada como descritiva ou preditiva. A mineração descritiva de dados é pesquisar conjuntos de dados massivos e descobrir os locais de estruturas ou relacionamentos inesperados, padrões, tendências, clusters e outliers nos dados. Por outro lado, o Predictive é criar modelos e procedimentos para tarefas de regressão, classificação, reconhecimento de padrões ou aprendizado de máquina e avaliar a precisão preditiva desses modelos e procedimentos quando aplicados a novos dados.

O mecanismo usado para procurar padrões ou estrutura em dados de alta dimensão pode ser manual ou automatizado; a pesquisa pode exigir a consulta interativa de um sistema de gerenciamento de banco de dados ou pode envolver o uso de software de visualização para detectar anomalias nos dados. Em termos de aprendizado de máquina, a mineração descritiva de dados é conhecida como aprendizado não supervisionado, enquanto a mineração preditiva de dados é conhecida como aprendizado supervisionado.

A maioria dos métodos usados ​​na mineração de dados está relacionada a métodos desenvolvidos em estatística e aprendizado de máquina. Entre esses métodos, destacam-se os tópicos gerais de regressão, classificação, agrupamento e visualização. Devido aos enormes tamanhos dos conjuntos de dados, muitas aplicações de mineração de dados se concentram em técnicas de redução de dimensionalidade (por exemplo, seleção de variáveis) e situações nas quais há suspeita de dados de alta dimensão em hiperplanos de menor dimensão. Atenção recente foi direcionada aos métodos de identificação de dados de alta dimensão em superfícies ou coletores não lineares.

Também existem situações na mineração de dados em que a inferência estatística - no sentido clássico - não tem significado ou tem validade duvidosa: a primeira ocorre quando temos toda a população em busca de respostas, e a segunda ocorre quando um conjunto de dados é um Amostra de “conveniência”, em vez de ser uma amostra aleatória retirada de alguma população grande. Quando os dados são coletados ao longo do tempo (por exemplo, transações de varejo, transações no mercado de ações, registros de pacientes, registros climáticos), a amostragem também pode não fazer sentido; a ordem do tempo das observações é crucial para entender o fenômeno que gera os dados e tratar as observações como independentes quando elas podem ser altamente correlacionadas fornecerá resultados tendenciosos.

Os componentes centrais da mineração de dados são - além da teoria e dos métodos estatísticos - eficiência computacional e computacional, processamento automático de dados, técnicas de visualização dinâmica e interativa de dados e desenvolvimento de algoritmos.

Uma das questões mais importantes na mineração de dados é o problema computacional de escalabilidade . Os algoritmos desenvolvidos para calcular métodos estatísticos padrão de exploração e confirmação foram projetados para serem rápidos e eficientes em termos computacionais quando aplicados a conjuntos de dados pequenos e médios; no entanto, foi demonstrado que a maioria desses algoritmos não está à altura do desafio de lidar com grandes conjuntos de dados. À medida que os conjuntos de dados crescem, muitos algoritmos existentes demonstram uma tendência a desacelerar drasticamente (ou até interromper).

George Dontas
fonte
8

A mineração de dados é estatística, com algumas pequenas diferenças. Você pode pensar nisso como estatística de re-branding, porque os estatísticos são meio estranhos.

É frequentemente associado a estatísticas computacionais, ou seja, apenas coisas que você pode fazer com um computador.

Os mineradores de dados roubaram uma proporção significativa de estatísticas multivariadas e chamaram de próprias. Verifique o índice de qualquer livro multivariado dos anos 90 e compare-o com um novo livro de mineração de dados. Muito parecido.

A estatística está associada a hipóteses de teste e à construção de modelo, enquanto a mineração de dados está mais associada a previsão e classificação, independentemente de haver um modelo compreensível.

Neil McGuigan
fonte
1
Qual é a duplicata? Não vejo nada óbvio.
Rob Hyndman
1
Muito semelhante a esta Pensei: stats.stackexchange.com/questions/6/...
Neil McGuigan
1
Está bem. Eu estava procurando mineração de dados, não aprendizado de máquina. Vote para fechar se você acha que é uma duplicata.
Rob Hyndman
Hmm, então Data Mining == Machine Learning?
Ars
1
1) Não estou vendo a distinção entre comp stat. Os estatísticos não fazem muito que não exijam um computador. Suponho que você queira dizer procedimentos computacionalmente intensivos, como soluções iterativas, etc? Porém, isso também é comum no trabalho estatístico moderno que não é mineração de dados. 2) No meu próprio trabalho (estatísticas), eu tenho interesse em construir modelos para obter explicações e previsões, dependendo do problema - eu não consideraria essa mineração de dados. 3) Fico com a conclusão de que o DM moderno é uma aplicação particular de estatística, o que acho uma boa conclusão.
Brett
6

Escrevi anteriormente um post em que fiz algumas observações comparando a mineração de dados com a psicologia. Eu acho que essas observações podem capturar algumas das diferenças que você está identificando:

  1. "A mineração de dados parece mais preocupada com a previsão usando variáveis ​​observadas do que com o entendimento do sistema causal de variáveis ​​latentes; a psicologia normalmente está mais preocupada com o sistema causal das variáveis ​​latentes.
  2. A mineração de dados normalmente envolve conjuntos de dados maciços (por exemplo, 10.000 + linhas) coletados para uma finalidade diferente da finalidade da mineração de dados. Os conjuntos de dados psicológicos são geralmente pequenos (por exemplo, menos de 1.000 ou 100 linhas) e coletados explicitamente para explorar uma questão de pesquisa.
  3. A análise psicológica normalmente envolve o teste de modelos específicos. As abordagens de desenvolvimento automatizado de modelos tendem a não ser teoricamente interessantes. "- Data Mining and R
Jeromy Anglim
fonte
Penso que os pontos 2 e 3 são comentários úteis e consistentes com o que considero a distinção entre os dois SA e DM. Não tenho tanta certeza do seu primeiro ponto. Eu fiz um trabalho estatístico onde estava interessado em melhorar a compreensão sobre relacionamentos causais. No entanto, também fiz um trabalho estatístico em que a tarefa era estabelecer relacionamentos conhecidos e desenvolver modelos com o único objetivo de previsão, mas que não compartilhavam dos outros recursos da "mineração de dados".
Brett
4

Eu não acho que a distinção que você faz esteja realmente relacionada à diferença entre mineração de dados e análise estatística. Você está falando sobre a diferença entre análise exploratória e abordagem de previsão de modelagem.

Penso que a tradição da estatística é construída com todas as etapas: análise exploratória, modelagem, estimativa, teste e previsão / dedução. O estatístico faz análise exploratória para descobrir como são os dados (resumo da função em R!). Acho que a modelagem de dados é menos estruturada e pode ser identificada com a análise exploratória. No entanto, ele usa técnicas de estatísticas que são de estimativa, previsão, classificação ....

Robin Girard
fonte
Eu posso comprar isso. A mineração de dados é uma aplicação mais exploratória de técnicas estatísticas. No entanto, não acho que essa distinção seja suficiente. Quando estou fazendo EDA no meu conjunto de 100 observações de um experimento projetado, não acho que alguém chamaria isso de mineração de dados, seria?
Brett