Qual é a diferença entre mineração de dados e análise estatística?
Para alguns antecedentes, minha formação em estatística tem sido, eu acho, bastante tradicional. Uma pergunta específica é colocada, a pesquisa é projetada e os dados são coletados e analisados para oferecer algumas dicas sobre essa questão. Como resultado, sempre fui cético em relação ao que considerava "dragagem de dados", ou seja, procurando padrões em um grande conjunto de dados e usando esses padrões para tirar conclusões. Costumo associar este último à mineração de dados e sempre considerei isso um pouco sem princípios (junto com coisas como rotinas de seleção de variáveis algorítmicas).
No entanto, existe uma literatura grande e crescente sobre mineração de dados. Muitas vezes, vejo esse rótulo referindo-se a técnicas específicas, como agrupamento, classificação baseada em árvore etc. No entanto, pelo menos da minha perspectiva, essas técnicas podem ser "soltas" em um conjunto de dados ou usadas de maneira estruturada para abordar uma questão. questão. Eu chamaria a antiga mineração de dados e a última análise estatística.
Eu trabalho na administração acadêmica e me pediram para fazer uma "mineração de dados" para identificar problemas e oportunidades. Consistente com meu histórico, minhas primeiras perguntas foram: o que você quer aprender e quais são as coisas que você acha que contribuem para o problema? Pela resposta deles, ficou claro que eu e a pessoa que fizemos a pergunta tínhamos idéias diferentes sobre a natureza e o valor da mineração de dados.
fonte
Respostas:
Jerome Friedman escreveu um artigo há algum tempo: Mineração de dados e estatística: o que é a conexão? , o que acho interessante.
A mineração de dados era uma preocupação amplamente comercial e impulsionada pelas necessidades de negócios (juntamente com a "necessidade" de fornecedores de vender sistemas de software e hardware para empresas). Uma coisa que Friedman observou foi que todos os "recursos" sensibilizados se originaram fora das estatísticas - de algoritmos e métodos como redes neurais à análise de dados orientada por GUI - e nenhuma das ofertas estatísticas tradicionais parecia fazer parte de qualquer um desses sistemas. (regressão, teste de hipóteses, etc.). "Nossa metodologia principal foi amplamente ignorada." Também foi vendido como orientado pelo usuário, de acordo com o que você anotou: eis os meus dados, eis a minha "pergunta comercial", me dê uma resposta.
Eu acho que Friedman estava tentando provocar. Ele não achava que a mineração de dados tivesse sérios fundamentos intelectuais no que se refere à metodologia, mas que isso mudaria e os estatísticos deveriam desempenhar um papel em vez de ignorá-lo.
Minha impressão é que isso aconteceu mais ou menos. As linhas foram borradas. Os estatísticos agora publicam em jornais de mineração de dados. Atualmente, os mineradores de dados parecem ter algum tipo de treinamento estatístico. Embora os pacotes de mineração de dados ainda não exagerem nos modelos lineares generalizados, a regressão logística é bem conhecida entre os analistas - além de redes neurais e de clustering. O design experimental ideal pode não fazer parte do núcleo de mineração de dados, mas o software pode ser coaxial para gerar valores-p. Progresso!
fonte
A diferença entre estatística e mineração de dados é amplamente histórica, uma vez que elas vieram de diferentes tradições: estatística e ciência da computação. A mineração de dados cresceu paralelamente sem trabalho na área de inteligência artificial e estatística.
A Seção 1.4 da Witten & Frank resume meu ponto de vista, então vou citar detalhadamente:
NB1 IMO, mineração de dados e aprendizado de máquina são termos muito relacionados. Em certo sentido, técnicas de aprendizado de máquina são usadas na mineração de dados. Eu vejo esses termos regularmente como intercambiáveis e, na medida em que são diferentes, eles geralmente andam juntos. Eu sugeriria examinar o artigo "As duas culturas" , bem como os outros tópicos da minha pergunta original.
NB2 O termo "mineração de dados" pode ter uma conotação negativa quando usado coloquialmente para significar a perda de algum algoritmo nos dados sem qualquer entendimento conceitual. A sensação é de que a mineração de dados levará a resultados espúrios e excesso de ajuste. Normalmente, evito usar o termo quando falo com não especialistas como resultado e, em vez disso, uso aprendizado de máquina ou aprendizado estatístico como sinônimo.
fonte
A mineração de dados é categorizada como descritiva ou preditiva. A mineração descritiva de dados é pesquisar conjuntos de dados massivos e descobrir os locais de estruturas ou relacionamentos inesperados, padrões, tendências, clusters e outliers nos dados. Por outro lado, o Predictive é criar modelos e procedimentos para tarefas de regressão, classificação, reconhecimento de padrões ou aprendizado de máquina e avaliar a precisão preditiva desses modelos e procedimentos quando aplicados a novos dados.
O mecanismo usado para procurar padrões ou estrutura em dados de alta dimensão pode ser manual ou automatizado; a pesquisa pode exigir a consulta interativa de um sistema de gerenciamento de banco de dados ou pode envolver o uso de software de visualização para detectar anomalias nos dados. Em termos de aprendizado de máquina, a mineração descritiva de dados é conhecida como aprendizado não supervisionado, enquanto a mineração preditiva de dados é conhecida como aprendizado supervisionado.
A maioria dos métodos usados na mineração de dados está relacionada a métodos desenvolvidos em estatística e aprendizado de máquina. Entre esses métodos, destacam-se os tópicos gerais de regressão, classificação, agrupamento e visualização. Devido aos enormes tamanhos dos conjuntos de dados, muitas aplicações de mineração de dados se concentram em técnicas de redução de dimensionalidade (por exemplo, seleção de variáveis) e situações nas quais há suspeita de dados de alta dimensão em hiperplanos de menor dimensão. Atenção recente foi direcionada aos métodos de identificação de dados de alta dimensão em superfícies ou coletores não lineares.
Também existem situações na mineração de dados em que a inferência estatística - no sentido clássico - não tem significado ou tem validade duvidosa: a primeira ocorre quando temos toda a população em busca de respostas, e a segunda ocorre quando um conjunto de dados é um Amostra de “conveniência”, em vez de ser uma amostra aleatória retirada de alguma população grande. Quando os dados são coletados ao longo do tempo (por exemplo, transações de varejo, transações no mercado de ações, registros de pacientes, registros climáticos), a amostragem também pode não fazer sentido; a ordem do tempo das observações é crucial para entender o fenômeno que gera os dados e tratar as observações como independentes quando elas podem ser altamente correlacionadas fornecerá resultados tendenciosos.
Os componentes centrais da mineração de dados são - além da teoria e dos métodos estatísticos - eficiência computacional e computacional, processamento automático de dados, técnicas de visualização dinâmica e interativa de dados e desenvolvimento de algoritmos.
Uma das questões mais importantes na mineração de dados é o problema computacional de escalabilidade . Os algoritmos desenvolvidos para calcular métodos estatísticos padrão de exploração e confirmação foram projetados para serem rápidos e eficientes em termos computacionais quando aplicados a conjuntos de dados pequenos e médios; no entanto, foi demonstrado que a maioria desses algoritmos não está à altura do desafio de lidar com grandes conjuntos de dados. À medida que os conjuntos de dados crescem, muitos algoritmos existentes demonstram uma tendência a desacelerar drasticamente (ou até interromper).
fonte
A mineração de dados é estatística, com algumas pequenas diferenças. Você pode pensar nisso como estatística de re-branding, porque os estatísticos são meio estranhos.
É frequentemente associado a estatísticas computacionais, ou seja, apenas coisas que você pode fazer com um computador.
Os mineradores de dados roubaram uma proporção significativa de estatísticas multivariadas e chamaram de próprias. Verifique o índice de qualquer livro multivariado dos anos 90 e compare-o com um novo livro de mineração de dados. Muito parecido.
A estatística está associada a hipóteses de teste e à construção de modelo, enquanto a mineração de dados está mais associada a previsão e classificação, independentemente de haver um modelo compreensível.
fonte
Escrevi anteriormente um post em que fiz algumas observações comparando a mineração de dados com a psicologia. Eu acho que essas observações podem capturar algumas das diferenças que você está identificando:
fonte
Eu não acho que a distinção que você faz esteja realmente relacionada à diferença entre mineração de dados e análise estatística. Você está falando sobre a diferença entre análise exploratória e abordagem de previsão de modelagem.
Penso que a tradição da estatística é construída com todas as etapas: análise exploratória, modelagem, estimativa, teste e previsão / dedução. O estatístico faz análise exploratória para descobrir como são os dados (resumo da função em R!). Acho que a modelagem de dados é menos estruturada e pode ser identificada com a análise exploratória. No entanto, ele usa técnicas de estatísticas que são de estimativa, previsão, classificação ....
fonte