Atualmente, estou tentando implementar alguns algoritmos de aprendizado de máquina por conta própria. Muitos deles têm a propriedade desagradável de serem difíceis de depurar, alguns bugs não causam falha no programa, mas funcionam como não pretendido e parecem que os algoritmos apenas fornecem resultados mais fracos.
Eu gostaria de ter alguma maneira de aumentar minha confiança na implementação, por exemplo, se eu tivesse alguns conjuntos de dados pequenos, com informações adicionais "Algoritmos X funcionaram para iterações Y e tiveram resultados Z nesse conjunto de dados", isso seria realmente útil. Alguém já ouviu falar desses conjuntos de dados?
Respostas:
No repositório de aprendizado de máquina UC Irvine :
Além disso, o seguinte conjunto de dados MIAS foi amplamente utilizado e estudado:
fonte
O repositório UCI mencionado por Bashar é provavelmente o maior, no entanto, eu queria adicionar algumas coleções menores que me deparei:
fonte