Hein,
existem muitas ferramentas e bibliotecas com a funcionalidade disponível.
Qual escolher depende se você deseja usar uma GUI para o seu trabalho ou se deseja incorporá-la em algum outro programa.
Ferramentas independentes de mineração de dados (existem outros itens como o WEKA com interface Java):
- Rapid Miner
- laranja
- GUI de chocalho para R
- KNIME
Baseado em texto:
Libs:
- Scikit para Python
- Mahout no Hadoop
Se você conhece uma linguagem de programação o suficiente, eu usaria uma lib para essa linguagem ou tentaria R. Caso contrário, você pode tentar uma das ferramentas com GUI.
Um exemplo de árvore em R:
# we are using the iris dataset
data(iris)
# for our tree based model we use the rpart package
# to download it type install.packages("rpart")
library(rpart)
# Building the tree
fit <- rpart(Species ~ Petal.Length + Petal.Width, method="class", data=iris)
# Plot the tree
plot(fit)
text(fit)
Conforme sugerido, a análise com R exige que você se codifique, mas você encontrará um pacote para a maioria das tarefas de classificação que funcionarão imediatamente. Uma visão geral pode ser encontrada aqui Machine Learning Task Ver
Para começar com o RapidMinder, você deve dar uma olhada no Youtube. Existem alguns screencasts, mesmo para árvores de decisão.
Weka é um conjunto de ferramentas de aprendizado de máquina gratuito e de código aberto. Eles têm uma GUI e uma API para chamar do seu código Java, se desejar.
Eles têm muitos algoritmos de classificação, incluindo vários algoritmos de árvore de decisão. Eles estão disponíveis na interface do usuário. Os vizinhos mais próximos são um pouco mais complicados e parece que você precisa usar a API diretamente .
Acho que o Rapid Miner provavelmente suporta esse tipo de coisa, mas não o usei para esses propósitos antes.
Você também pode considerar R , mas isso pode exigir que as mãos fiquem um pouco mais sujas.
Observe que a Netflix fez um monte de trabalho na classificação de classificação de filmes. Há vários anos, eles ofereceram um prêmio de US $ 1 milhão ao grupo que melhor poderia melhorar sua classificação. Você pode estar interessado em ler como várias equipes abordaram esse problema.
fonte
Pode ser ... WEKA? http://www.cs.waikato.ac.nz/ml/weka/
fonte