Quais são os conjuntos de dados disponíveis gratuitamente para classificação com mais de 1000 recursos (ou pontos de amostra, se contiverem curvas)?
Já existe um wiki da comunidade sobre conjuntos de dados gratuitos: Localizando amostras de dados disponíveis gratuitamente
Mas aqui, seria bom ter uma lista mais focada que possa ser usada de forma mais conveniente , também proponho as seguintes regras:
- Uma postagem por conjunto de dados
- Nenhum link para o conjunto de dados
cada conjunto de dados deve estar associado a
um nome (para descobrir do que se trata) e um link para o conjunto de dados (os conjuntos de dados R podem ser nomeados com o nome do pacote)
o número de recursos (digamos que seja p ), o tamanho do conjunto de dados (digamos que seja n ) e o número de rótulos / classe (digamos que seja k )
uma taxa de erro típica da sua experiência (indique o algoritmo usado em palavras) ou da literatura (neste último caso, vincule o artigo)
fonte
Respostas:
Dorothea
n = 1,950
p = 100,000 (0,1 M, metade é adicionado artificialmente ruído)
k = 2 (~ 10 vezes desequilibrada)
De NIPS2003 .
fonte
Gisette
n = 13,500
p = 5,000 (metade é adicionado artificialmente ruído)
k = 2 (relação)
De NIPS2003 .
fonte
Dexter
n = 2,600
p = 20,000 (10k + 53 é artificial ruído)
k = 2 (relação)
De NIPS2003 .
fonte
Arcene
n = 900
p = 10000 (3k é adicionado artificialmente ruído)
k = 2 (~ equilibrado)
De NIPS2003 .
fonte
Próstata (matriz de expressão gênica)
Disponível via (entre outros) pacotes R divide o nome do conjunto de dados: próstata
taxa de erro = 3/102 (veja aqui ) também acho que existem documentos que mostram 1/102 de taxa de erro. Eu diria que este é um caso de teste fácil.
fonte