Quais aspectos do conjunto de dados "Iris" o tornam tão bem-sucedido como um exemplo / conjunto de dados de ensino / teste

28

O conjunto de dados "Iris" provavelmente é familiar para a maioria das pessoas aqui - é um dos conjuntos de dados de teste canônicos e um conjunto de dados de exemplo para tudo, desde visualização de dados até aprendizado de máquina. Por exemplo, todos nesta pergunta acabaram usando-o para uma discussão de gráficos de dispersão separados por tratamento.

O que torna o conjunto de dados Iris tão útil? Só que foi lá primeiro? Se alguém tentasse criar um exemplo útil / conjunto de dados de teste, que lições eles poderiam tirar dele?

Fomite
fonte
13
Pequeno, mas não trivial. Simples, mas desafiador. Dados reais. A reputação de Fisher, embora não sejam os dados dele. Tradição. Inércia. Continuidade. Você pode encontrar fotos de flores para soletrar.
Nick Cox
E agora funciona como um relógio.
Michael M
Eu diria que @NickCox está certo.
Marc Claesen
@NickCox Deseja expandir isso um pouco como resposta?
Fomite
6
O conjunto de dados 'iris' pode ser usado para análises discriminantes, bem como para classificação não supervisionada (agrupamento baseado em modelo ou sem modelo) para fins ilustrativos. Esta pergunta merece uma referência cruzada para Quais são os bons conjuntos de dados para ilustrar aspectos particulares da análise estatística?
9133 chl

Respostas:

40

O conjunto de dados Iris é merecidamente utilizado em toda a ciência estatística, especialmente para ilustrar vários problemas em gráficos estatísticos, estatísticas multivariadas e aprendizado de máquina.

  • Contendo 150 observações, é pequeno, mas não trivial.

  • A tarefa que propõe de discriminar três espécies de íris a partir de medidas de suas pétalas e sépalas é simples, mas desafiadora.

  • Os dados são reais, mas aparentemente de boa qualidade. Em princípio e na prática, os conjuntos de dados de teste podem ser sintéticos e isso pode ser necessário ou útil para fazer uma observação. No entanto, poucas pessoas se opõem a dados reais.

  • Os dados foram usados ​​pelo célebre estatístico britânico Ronald Fisher em 1936. (Mais tarde ele foi cavaleiro e tornou-se Sir Ronald.) Pelo menos alguns professores gostam da ideia de um conjunto de dados com um link para alguém tão conhecido no campo. Os dados foram originalmente publicados pelo botânico de espírito estatístico Edgar S. Anderson, mas essa origem anterior não diminui a associação.

  • Usar alguns conjuntos de dados famosos é uma das tradições que transmitimos, como dizer a cada nova geração que Student trabalhou para o Guinness ou que muitos estatísticos famosos se desentenderam. Isso pode parecer inércia, mas na comparação de métodos antigos e novos e na avaliação de qualquer método, geralmente é considerado útil testá-los em conjuntos de dados conhecidos, mantendo assim alguma continuidade na maneira como avaliamos os métodos.

  • Por último, mas não menos importante, o conjunto de dados Iris pode ser agraciado com fotos das flores em questão, como por exemplo, a útil entrada da Wikipedia no conjunto de dados .

Note. Do your bit for biological correctness in citing the plants concerned carefully. Iris setosa, Iris versicolor and Iris virginica are three species (not varieties, as in some statistical accounts); their binominals should be presented in italic, as here; and Iris as genus name and the other names indicating particular species should begin with upper and lower case respectively.

Nick Cox
fonte
3
(+1) Obrigado por expandir o seu comentário para uma resposta.
cardeal
5
Eu daria um +1 extra, se pudesse, por um princípio de segurança biológica.
fomite
6

O conjunto de dados é grande e interessante o suficiente para não ser trivial, mas pequeno o suficiente para "caber no seu bolso" e não desacelerar a experimentação.

Eu acho que um aspecto fundamental é que ele também ensina sobre ajustes excessivos. Não há colunas suficientes para obter uma pontuação perfeita: vemos isso imediatamente quando olhamos para os gráficos de dispersão, e eles se sobrepõem e se cruzam. Portanto, qualquer abordagem de aprendizado de máquina que obtenha uma pontuação perfeita pode ser considerada suspeita.

Darren Cook
fonte