Eu sou novo no aprendizado de máquina e estou procurando alguns conjuntos de dados através dos quais posso comparar e contrastar as diferenças entre os diferentes algoritmos de aprendizado de máquina (Árvores de Decisão, Boosting, SVM e Redes Neurais)
Onde posso encontrar esses conjuntos de dados? O que devo procurar ao considerar um conjunto de dados?
Seria ótimo se você pudesse apontar para alguns bons conjuntos de dados e também me dizer o que os torna um bom conjunto de dados?
machine-learning
dataset
Coelhinho
fonte
fonte
Respostas:
Os conjuntos de dados nos sites a seguir estão disponíveis gratuitamente. Esses conjuntos de dados foram usados para ensinar algoritmos de ML aos alunos, porque para a maioria existem descrições com os conjuntos de dados. Além disso, foi mencionado que tipo de algoritmo é aplicável.
fonte
O Kaggle tem uma série de conjuntos de dados com os quais você pode praticar.
(Estou surpreso que não tenha sido mencionado até agora!)
Tem duas coisas (entre muitas outras) que a tornam um recurso altamente valioso:
fonte
Primeiro, recomendo começar com os dados de amostra fornecidos com o software. A maioria das distribuições de software inclui dados de exemplo que você pode usar para se familiarizar com o algoritmo sem lidar com tipos de dados e digitar os dados no formato correto para o algoritmo. Mesmo se você estiver criando um algoritmo do zero, poderá começar com a amostra de uma implementação semelhante e comparar o desempenho.
Segundo, eu recomendo experimentar conjuntos de dados sintéticos para ter uma ideia de como o algoritmo funciona quando você sabe como os dados foram gerados e a relação sinal / ruído.
No R, você pode listar todos os conjuntos de dados nos pacotes atualmente instalados com este comando:
O pacote R mlbench possui conjuntos de dados reais e pode gerar conjuntos de dados sintéticos úteis para estudar o desempenho do algoritmo.
O scikit-learn do Python possui dados de amostra e gera um conjunto de dados sintético / de brinquedo também.
O SAS possui um conjunto de dados de treinamento disponível para download e os dados de amostra do SPSS são instalados com o software em C: \ Arquivos de Programas \ IBM \ SPSS \ Statistics \ 22 \ Samples
Por fim, eu olhava dados em estado selvagem. Eu compararia o desempenho de diferentes algoritmos e parâmetros de ajuste em conjuntos de dados reais. Isso geralmente requer muito mais trabalho, porque você raramente encontrará conjuntos de dados com tipos e estruturas de dados que podem ser inseridos diretamente em seus algoritmos.
Para dados em estado selvagem, recomendo:
Arquivo de conjuntos de dados do reddit
Lista do KDnugget
fonte
Os dados da íris são definidos com as mãos. Também está na base R.
fonte
Na minha opinião, você pode começar com pequenos conjuntos de dados que não possuem muitos recursos.
Um exemplo seria o conjunto de dados Iris (para classificação). Possui 3 classes, 50 amostras para cada classe, totalizando 150 pontos de dados. Um excelente recurso para ajudá-lo a explorar esse conjunto de dados é a série de vídeos da Data School.
Outro conjunto de dados para fazer o checkout é o conjunto de dados do Wine Quality do repositório UCI -ML. Possui 4898 pontos de dados com 12 atributos.
fonte