Uma pesquisa sobre ferramentas de software de mineração de dados

15

Embora tenha sido treinado como engenheiro, acho que estou me interessando mais pela mineração de dados. No momento, estou tentando investigar mais o campo. Em particular, eu gostaria de entender as diferentes categorias de ferramentas de software que existem e quais ferramentas são notáveis ​​em cada categoria e por quê. (Observe que eu não disse as "melhores" ferramentas, apenas as mais notáveis, para não começarmos uma guerra de chamas.) Especialmente, tome nota das ferramentas que são de código aberto e disponíveis gratuitamente - embora não entendam que isso significa que Estou interessado apenas em código aberto e gratuito.

John Berryman
fonte
1
Eu aconselho que este seja um wiki da comunidade.
Tal Galili
soa como uma pergunta lição de casa
Neil McGuigan
@ Tal Certamente, agora convertido.
@el chefe - É uma pergunta muito ampla e geral ... mas receio que não seja uma questão de lição de casa.
John Berryman

Respostas:

7

Esta é provavelmente a lista mais abrangente que você encontrará: mloss.org

Pedro Oliveira
fonte
Ele é focado no aprendizado de máquina, que pode ser visto como um campo relacionado à mineração de dados, assim como a IA. Embora geralmente seja usado como sinônimo, como "previsão" é um dos principais desafios na mineração de dados. Mas há mais do que "aprender" na mineração de dados.
parou - anony-Mousse
7

Dê uma olhada em

  • Weka (java, forte na classificação)
  • Laranja (script python, principalmente classificação)
  • GNU R (linguagem R, um pouco orientada a tabelas vetoriais, consulte a visão de tarefa Machine Learning e interface do usuário do Rattle )
  • ELKI (java, forte em cluster e detecção de outlier, suporte à estrutura de índices para acelerações, lista de algoritmos )
  • Mahout (Java, pertence ao Hadoop, se você tiver um cluster e grandes conjuntos de dados)

e o Repositório de aprendizado de máquina da UCI para conjuntos de dados.

chl
fonte
1
você pode adicionar Red-R à lista (tipo um clone de Orange em R): red-r.org
Amro
Eu baixei o R e agora estou jogando com ele.
John Berryman
@Amro Thanks! No entanto, ele não está disponível na plataforma Mac, a menos que eu esteja enganando?
chl
Não sou usuário de Mac, mas acho que a compilação do Linux pode funcionar para você (você precisa instalar manualmente todas as dependências do python): red-r.org/forum/topic.php?id=22#post-76
Amro
@ Amro Vou tentar; no passado, eu tenho testado RAnalyticFlow ( j.mp/bYF8xs ), mas não se convenceu: Eu sou basicamente um usuário CLI :-)
chl
3

Rattle é uma GUI de mineração de dados que fornece um front end para uma ampla variedade de pacotes R.

Jeromy Anglim
fonte
3

Dê uma olhada no KNIME .

Muito fácil de aprender. Com muitas possibilidades de progresso. Integra-se perfeitamente com Weka e R.

radek
fonte
2

RapidMiner (Java) [código aberto]

Amro
fonte
2

Existe o ELKI , um projeto universitário de código aberto um tanto comparável ao WEKA, mas muito mais forte quando se trata de agrupamento e detecção externa. WEKA, na verdade, não é realmente mineração de dados, mas software de aprendizado de máquina.

Tem QUIT - Anony-Mousse
fonte
1

Existe esse Red-R que possui uma interface gráfica agradável e interface de programação visual. Utiliza R para processar as várias análises de dados.

Stat-R
fonte
1

A Rexer Anlaytics faz uma pesquisa de kit de ferramentas todos os anos. O KDnuggets tem descrições de software por setor, bem como por intenção.

Dimitriy V. Masterov
fonte
0

O SQL Server Data Mining (SSDM) não é atualizado há muito tempo, mas ainda é bastante competitivo se você estiver explorando grandes bancos de dados e cubos relacionais. Estou lenta, mas sistematicamente, percorrendo os testes de tantas ferramentas de mineração quanto possível e a interface do Windows do SQL Server é a mais produtiva e estável que eu encontrei até agora (principalmente quando se trata de bancos de dados corporativos, alguns dos quais surpreendentemente interfaces desleixadas) apesar da idade. Eu preferiria uma interface moderna do Windows Presentation Foundation (WPF), mas essa é a próxima melhor coisa.

Eu escrevi uma série de tutoriais amadores detalhados sobre ele, intitulado A Rickety Stairway to SQL Server Data Mining , quando eu estava tentando adquirir algumas habilidades básicas de mineração. Apesar da minha inexperiência, eles ainda são úteis para ajudar a identificar algumas das "pegadinhas" com antecedência.

SQLServerSteve
fonte