Estou procurando alguns documentos / sites / etc de médio a longo prazo sobre mineração de dados, especificamente onde um conjunto de dados é explorado em profundidade, desde a preparação dos dados até o modelo final. Estou particularmente interessado em discussões sobre a aplicação de algos de aprendizado de máquina e também sobre modelagem de dados básica. Um exemplo seria o livro de Luis Torgo 'Data Mining with R'. Todas as sugestões serão apreciadas.
r
data-mining
Coruja
fonte
fonte
Respostas:
Confira o blog Kaggle.com , onde os vencedores discutem suas abordagens para solucionar uma competição de mineração de dados. Você pode voltar ao site kaggle.com para obter a descrição e os dados e testá-lo você mesmo.
fonte
Aqui está um bom lugar para começar:
Os 10 principais algoritmos da mineração de dados
Não há muito em termos de preparação de dados, mas muitas aplicações. E muitos bons links para artigos relevantes para ler.
fonte
Eu recomendo artigos do Journal of Statistical Software gratuitamente .
Você pode encontrar diferentes aplicações de mineração de dados / aprendizado de máquina, juntamente com a análise de exemplos de dados reais. A maioria dos artigos é sobre pacotes R, para que você também possa executar simultaneamente suas análises em R. Os artigos no diário também incluem código R e os pacotes em R incluem dados.
Todos os dados são analisados em profundidade lá, por isso é uma fonte muito digna para mim.
fonte
O pacote circunflexo R possui um conjunto de quatro vinhetas que aplicam várias tarefas de preparação de dados, algoritmos de aprendizado supervisionado, seleção de recursos e visualizações de dados a partir de alguns exemplos de conjuntos de dados brutos.
Embora o foco esteja em como fazer essas coisas usando a funcionalidade fornecida pelo próprio sinal de intercalação, ainda é geralmente aplicável e uma boa leitura para projetos do mundo real.
Aqui estão os links diretos para as quatro vinhetas em PDF:
fonte
Aqui estão alguns que eu achei úteis:
KDD Cup 2008 e o Workshop sobre Mineração de Dados Médicos
fonte