Sei que isso é subjetivo, mas achei que seria bom falar sobre nossos conjuntos de dados favoritos e o que achamos que os torna interessantes. Existe uma grande quantidade de dados por aí, e com todas as APIs (por exemplo, Datamob ) junto com conjuntos de dados clássicos (por exemplo, dados R ), acho que isso pode ter respostas muito interessantes.
Por exemplo, eu sempre gostei de conjuntos de dados como o "Boston Housing" (apesar de implicações infelizes) e os "mtcars" por sua versatilidade. Do ponto de vista pedagógico, pode-se mostrar os méritos de uma ampla variedade de técnicas estatísticas que os utilizam; e o conjunto de dados de íris de Anderson / Fisher sempre terá um lugar no meu coração.
Pensamentos?
Respostas:
O estudo de baixo peso ao nascer
Este é um dos conjuntos de dados no livro de Hosmer e Lemeshow sobre Regressão Logística Aplicada (2000, Wiley, 2ª ed.). O objetivo deste estudo prospectivo foi identificar os fatores de risco associados ao parto de um bebê de baixo peso (pesando menos de 2.500 gramas). Os dados foram coletados em 189 mulheres, 59 das quais tiveram bebês com baixo peso ao nascer e 130 das quais tiveram bebês com peso normal ao nascer. Quatro variáveis consideradas importantes foram: idade, peso do sujeito no último período menstrual, raça e número de consultas médicas durante o primeiro trimestre da gravidez.
Está disponível em R como
data(birthwt, package="MASS")
ou em Stata comwebuse lbw
. Uma versão em texto aparece aqui: lowbwt.dat ( descrição ). É importante notar que existem várias versões desse conjunto de dados, pois ele foi estendido a um estudo de caso-controle (1-1 ou 1-3, com a mesma idade), conforme ilustrado por Hosmer e Lemeshow no capítulo 7 do ALR.Eu costumava ministrar cursos introdutórios com base nesse conjunto de dados pelos seguintes motivos:
Outros pontos que podem ser enfatizados, dependendo do público e do nível de experiência com o software estatístico, ou estatísticas em geral.
Quanto ao conjunto de dados disponível em R, os preditores categóricos são pontuados como números inteiros (por exemplo, para a etnia da mãe, temos '1' = branco, '2' = preto, '3' = outro), apesar do pedido natural para alguns preditores (por exemplo, número de trabalhos prematuros anteriores ou número de consultas médicas) ou o uso de rótulos explícitos (é sempre uma boa ideia usar 'yes' / 'no' em vez de 1/0 para variáveis binárias, mesmo que isso não ocorra ' mudar qualquer coisa na matriz de design!) está simplesmente ausente. Como tal, é fácil discutir quais questões podem ser levantadas ignorando níveis ou unidades de medida na análise de dados.
Variáveis de tipos mistos são interessantes quando se trata de fazer uma análise exploratória e discutir que tipo de exibições gráficas são apropriadas para resumir relacionamentos univariados, bivariados ou trivariados. Da mesma forma, produzir boas tabelas de resumo e gerar relatórios de maneira mais geral é outro aspecto interessante desse conjunto de dados (mas o
Hmisc::summary.formula
comando facilita com o R).Hosmer e Lemeshow relataram que os dados reais foram modificados para proteger a confidencialidade dos sujeitos (p. 25). Pode ser interessante discutir questões de confidencialidade dos dados, como foi feito em um de nosso Journal Club anterior , mas ver sua transcrição . (Devo admitir que nunca entrei em muitos detalhes com isso.)
É fácil introduzir alguns valores ausentes ou errôneos (que são problemas comuns na vida real de um estatístico), que levam a discutir (a) sua detecção por meio do livro de códigos (
Hmisc::describe
ou do Statacodebook
) ou de gráficos exploratórios (sempre plote seus dados primeiro!) e (b) possível reparação (imputação de dados, exclusão em lista ou medida de associação em pares, etc.).fonte
Obviamente, os conjuntos de dados Anscombe 4 são muito bons para o ensino - eles parecem muito diferentes, mas têm propriedades estatísticas simples idênticas.
Também sugiro conjuntos de dados da KDD Cup http://www.kdd.org/kddcup/ porque eles foram bem estudados e existem muitas soluções, para que os alunos possam comparar seus resultados e ver como eles se classificam.
No meu curso de mineração de dados, forneci um concurso de conjunto de dados Microarray que pode ser usado por professores http://www.kdnuggets.com/data_mining_course/
fonte
Muitos dos meus cursos de Análise Estatística na Cal Poly usaram o conjunto de dados "Iris", que já está em R. Ele possui variáveis categóricas e variáveis altamente correlacionadas.
fonte
O conjunto de dados do Titanic usado por Harrell em "Estratégias de Modelagem de Regressão". Eu uso uma versão simplificada de sua análise ao explicar a regressão logística, explicando a sobrevivência usando sexo, classe e idade.
O conjunto de dados de Loyn discutido em "Projeto Experimental e Análise de Dados para Biólogos", de Gerry Quinn e Mick Keough, contém bons problemas que exigem transformação para regressão linear múltipla.
fonte