Onde posso encontrar conjuntos de dados úteis para testar minhas próprias implementações de Machine Learning? [fechadas]

9

Atualmente, estou tentando implementar alguns algoritmos de aprendizado de máquina por conta própria. Muitos deles têm a propriedade desagradável de serem difíceis de depurar, alguns bugs não causam falha no programa, mas funcionam como não pretendido e parecem que os algoritmos apenas fornecem resultados mais fracos.

Eu gostaria de ter alguma maneira de aumentar minha confiança na implementação, por exemplo, se eu tivesse alguns conjuntos de dados pequenos, com informações adicionais "Algoritmos X funcionaram para iterações Y e tiveram resultados Z nesse conjunto de dados", isso seria realmente útil. Alguém já ouviu falar desses conjuntos de dados?

sjm.majewski
fonte
Que pesquisa você fez ao investigar esta questão? À primeira vista, alguém poderia pensar que a literatura que você está usando para encontrar esses algoritmos estaria repleta de conjuntos de dados de amostra.
whuber
11
Bem, eu conheço ML principalmente do curso universitário, Coursea, vídeos de palestras na internet e alguns artigos que li sobre tópicos específicos. Sei que há muitos conjuntos de dados de amostra em todos os lugares, mas estou procurando alguns com informações sobre como os diferentes algoritmos de ML foram executados neles, para que eu possa validar minhas próprias implementações.
Sjm.majewski
Recentemente, houve um bom artigo na ICML sobre o problema com conjuntos de dados padronizados - que impede que você pense demais sobre os problemas do mundo real e a confusão que os problemas do mundo real envolvem. Pessoalmente, quando comecei a usar dados do mundo real, minha habilidade como praticante floresceu. Portanto, embora eu não o desanime de usar coisas como a UCI como trampolim ou teste, fique de olho no prêmio!
Patrick Caldon
11
Você deve especificar que tipo de aprendizado de máquina você está fazendo. Os conjuntos de dados de classificação binária são diferentes dos conjuntos de dados de aproximação de função (regressão).
Douglas Zare

Respostas:

10

No repositório de aprendizado de máquina UC Irvine :

Atualmente, mantemos 223 conjuntos de dados como um serviço para a comunidade de aprendizado de máquina. Você pode visualizar todos os conjuntos de dados por meio de nossa interface pesquisável. Nosso site antigo ainda está disponível para quem prefere o formato antigo. ... Se você deseja doar um conjunto de dados, consulte nossa política de doações. ... Também criamos um site espelho para o Repositório.

Além disso, o seguinte conjunto de dados MIAS foi amplamente utilizado e estudado:

Ao comparar um algoritmo, é recomendável usar um banco de dados de teste padrão (conjunto de dados) para que os pesquisadores possam comparar diretamente os resultados. A maioria dos bancos de dados mamográficos não está disponível ao público. Os bancos de dados mais facilmente acessados ​​e, portanto, os bancos de dados mais usados ​​são o banco de dados da Sociedade de Análise de Imagem Mamográfica (MIAS) e o Banco de Dados Digital para Mamografia de Triagem (DDSM). Além disso, atualmente existem poucos projetos desenvolvendo novos bancos de dados de imagens mamográficas, além de vários projetos antigos.

deepML
fonte
2
+1 Se você continuar a encontrar mais fontes, sinta-se à vontade para aumentar esta resposta.
whuber
5

O repositório UCI mencionado por Bashar é provavelmente o maior, no entanto, eu queria adicionar algumas coleções menores que me deparei:

sebp
fonte