Quais são os bons conjuntos de dados para ilustrar aspectos específicos da análise estatística?

16

Sei que isso é subjetivo, mas achei que seria bom falar sobre nossos conjuntos de dados favoritos e o que achamos que os torna interessantes. Existe uma grande quantidade de dados por aí, e com todas as APIs (por exemplo, Datamob ) junto com conjuntos de dados clássicos (por exemplo, dados R ), acho que isso pode ter respostas muito interessantes.

Por exemplo, eu sempre gostei de conjuntos de dados como o "Boston Housing" (apesar de implicações infelizes) e os "mtcars" por sua versatilidade. Do ponto de vista pedagógico, pode-se mostrar os méritos de uma ampla variedade de técnicas estatísticas que os utilizam; e o conjunto de dados de íris de Anderson / Fisher sempre terá um lugar no meu coração.

Pensamentos?

DA
fonte
2
O que está sendo usado para minha dissertação, porque me dará um doutorado se eu analisar direito>.>
Fomite
3
Bem-vindo ao Cross Validated! Ele foi desenvolvido como um site de perguntas e respostas para perguntas com respostas reais, não um fórum de discussão. Sendo assim, não acredito que esse seja o tipo de pergunta que queremos neste site. Por favor, consulte o FAQ .
Michael McGowan
4
Sei que ele foi elaborado como uma sessão de perguntas e respostas, mas com perguntas como "Qual é o seu desenho de estatística favorito?" sendo votado, achei que isso não seria terrivelmente inadequado. Especialmente pedagogicamente, se alguém está tentando aprender sobre análise de dados e técnicas exploratórias, pode ser útil obter algum feedback sobre conjuntos de dados públicos que oferecem uma estrutura rica e com uma grande quantidade de histórico e pesquisa por trás deles.
DA
4
Estou inclinado a deixar a comunidade decidir se isso deve ser encerrado (como não construtivo) ou não, embora eu acrescentasse que respostas completas e argumentativas podem servir de suporte para futuras perguntas sobre aspectos específicos da análise de dados. Enquanto isso, estou convertendo para a CW porque, obviamente, não há uma melhor resposta.
chl
2
Esta pergunta e suas respostas são muito úteis para mim. Por favor, não remova.
Dsign

Respostas:

12

O estudo de baixo peso ao nascer

Este é um dos conjuntos de dados no livro de Hosmer e Lemeshow sobre Regressão Logística Aplicada (2000, Wiley, 2ª ed.). O objetivo deste estudo prospectivo foi identificar os fatores de risco associados ao parto de um bebê de baixo peso (pesando menos de 2.500 gramas). Os dados foram coletados em 189 mulheres, 59 das quais tiveram bebês com baixo peso ao nascer e 130 das quais tiveram bebês com peso normal ao nascer. Quatro variáveis ​​consideradas importantes foram: idade, peso do sujeito no último período menstrual, raça e número de consultas médicas durante o primeiro trimestre da gravidez.

Está disponível em R como data(birthwt, package="MASS")ou em Stata com webuse lbw. Uma versão em texto aparece aqui: lowbwt.dat ( descrição ). É importante notar que existem várias versões desse conjunto de dados, pois ele foi estendido a um estudo de caso-controle (1-1 ou 1-3, com a mesma idade), conforme ilustrado por Hosmer e Lemeshow no capítulo 7 do ALR.

Eu costumava ministrar cursos introdutórios com base nesse conjunto de dados pelos seguintes motivos:

  • É interessante do ponto de vista histórico e epidemiológico (os dados foram coletados em 1986); nenhum conhecimento prévio em medicina ou estatística é necessário para entender as idéias principais e quais perguntas podem ser feitas nesse estudo.
  • Várias variáveis ​​de tipos mistos (contínuas, ordinais e nominais) estão disponíveis, o que facilita a apresentação de testes básicos de associação (teste t, ANOVA, χ2teste para tabelas bidirecionais, odds ratio, teste de tendência Cochrane e Armitage, etc.). Além disso, o peso ao nascer está disponível como uma medida contínua e também como um indicador binário (acima ou abaixo de 2,5 kg): Podemos começar a construir modelos lineares simples, seguidos de regressão múltipla (com preditores de interesse selecionados na análise exploratória anterior) e, em seguida, mude para GLM (regressão logística), possivelmente discutindo a escolha de um ponto de corte.
  • Permite discutir diferentes perspectivas de modelagem (abordagens explicativas ou preditivas) e a implicação do esquema de amostragem no desenvolvimento de modelos (estratificação / casos correspondentes).

Outros pontos que podem ser enfatizados, dependendo do público e do nível de experiência com o software estatístico, ou estatísticas em geral.

  1. Quanto ao conjunto de dados disponível em R, os preditores categóricos são pontuados como números inteiros (por exemplo, para a etnia da mãe, temos '1' = branco, '2' = preto, '3' = outro), apesar do pedido natural para alguns preditores (por exemplo, número de trabalhos prematuros anteriores ou número de consultas médicas) ou o uso de rótulos explícitos (é sempre uma boa ideia usar 'yes' / 'no' em vez de 1/0 para variáveis ​​binárias, mesmo que isso não ocorra ' mudar qualquer coisa na matriz de design!) está simplesmente ausente. Como tal, é fácil discutir quais questões podem ser levantadas ignorando níveis ou unidades de medida na análise de dados.

  2. Variáveis ​​de tipos mistos são interessantes quando se trata de fazer uma análise exploratória e discutir que tipo de exibições gráficas são apropriadas para resumir relacionamentos univariados, bivariados ou trivariados. Da mesma forma, produzir boas tabelas de resumo e gerar relatórios de maneira mais geral é outro aspecto interessante desse conjunto de dados (mas o Hmisc::summary.formulacomando facilita com o R).

  3. Hosmer e Lemeshow relataram que os dados reais foram modificados para proteger a confidencialidade dos sujeitos (p. 25). Pode ser interessante discutir questões de confidencialidade dos dados, como foi feito em um de nosso Journal Club anterior , mas ver sua transcrição . (Devo admitir que nunca entrei em muitos detalhes com isso.)

  4. É fácil introduzir alguns valores ausentes ou errôneos (que são problemas comuns na vida real de um estatístico), que levam a discutir (a) sua detecção por meio do livro de códigos ( Hmisc::describeou do Stata codebook) ou de gráficos exploratórios (sempre plote seus dados primeiro!) e (b) possível reparação (imputação de dados, exclusão em lista ou medida de associação em pares, etc.).

Chl
fonte
+1 Obrigado por fornecer uma resposta exemplar que mostre que este tópico pode ser útil e fornece um padrão de exposição que outras respostas podem (e devem) apontar.
whuber
Isso é fantástico e exatamente o que eu estava procurando ao fazer a pergunta. Agradeço-lhe por uma visão valiosa.
DA
5

Obviamente, os conjuntos de dados Anscombe 4 são muito bons para o ensino - eles parecem muito diferentes, mas têm propriedades estatísticas simples idênticas.

Também sugiro conjuntos de dados da KDD Cup http://www.kdd.org/kddcup/ porque eles foram bem estudados e existem muitas soluções, para que os alunos possam comparar seus resultados e ver como eles se classificam.

No meu curso de mineração de dados, forneci um concurso de conjunto de dados Microarray que pode ser usado por professores http://www.kdnuggets.com/data_mining_course/

Gregory Piatetsky
fonte
Para outros conjuntos de dados que foram projetados para fins pedagógicos de maneira semelhante ao Quarteto Anscombe, consulte esta pergunta .
Silverfish
3

Muitos dos meus cursos de Análise Estatística na Cal Poly usaram o conjunto de dados "Iris", que já está em R. Ele possui variáveis ​​categóricas e variáveis ​​altamente correlacionadas.

Kurtis Voris
fonte
Você se importaria em expandir seus últimos pontos: como esse conjunto de dados ajuda no ensino de estatística? (AFAICT, a íris conjunto de dados tem apenas uma variável categórica, nomeadamente íris classe.)
CHL
Aqui está um tópico inteiramente preocupado com o uso do conjunto de dados Iris no ensino .
Silverfish
3

O conjunto de dados do Titanic usado por Harrell em "Estratégias de Modelagem de Regressão". Eu uso uma versão simplificada de sua análise ao explicar a regressão logística, explicando a sobrevivência usando sexo, classe e idade.

O conjunto de dados de Loyn discutido em "Projeto Experimental e Análise de Dados para Biólogos", de Gerry Quinn e Mick Keough, contém bons problemas que exigem transformação para regressão linear múltipla.

Luis Apiolaza
fonte