Curso de desenho experimental para mineradores de dados

11

Sou cientista da computação trabalhando em mineração de dados. Não é nenhum segredo dizer que os cientistas da computação são bastante pobres em fazer um projeto e avaliação experimental sistemática - o uso de valores-p e estimativas de confiança é considerado avançado :).

O que eu gostaria de saber se existem bons cursos / materiais para ensinar aos cientistas da computação sobre um bom projeto experimental. Para tornar isso mais específico, adicionarei as seguintes informações:

  • O curso deve ser direcionado a estudantes de pós-graduação que possam ter uma compreensão razoável da probabilidade, mas um histórico limitado em estatística.
  • O curso deve se concentrar no projeto experimental em "ambientes não-naturais não controlados": em outras palavras, não existe uma verdade física subjacente nem uma maneira de controlar o processo de coleta de dados (como em seres humanos). É claro que um bom curso se concentrará nos fundamentos, mas deve lidar com esse cenário de maneira significativa.
  • Um elemento computacional seria um bônus, mas não é obrigatório. Lidamos com muitos dados, mas podemos resolver problemas computacionais, se necessário.
Suresh Venkatasubramanian
fonte
1
Todas as condições do experimento que você descreve me lembram os testes A / B ... coincidência? :)
Steffen

Respostas:

5

[Noah Smith] [1] e [David Smith] [2] ofereceram um curso há algum tempo na JHU com motivações semelhantes.

Esboço:

  • Aula 1: introdução, revisão de estatísticas, teste de hipóteses, amostragem
  • Aula 2: estatísticas de interesse: meios, quantis, variância
  • Palestras 3-4: experimentos com tempo de execução e "espaço"
  • Aula 5: análise exploratória de dados
  • Aula 6: modelagem paramétrica, regressão e classificação
  • Aula 7: depuração estatística e criação de perfil
  • Aula 8: resumo e revisão

Para obter detalhes, consulte Métodos de pesquisa empírica em ciência da computação (600.408) http://www.cs.jhu.edu/~nasmith/erm/

Delip
fonte
3

Boa pergunta. Estou ansioso para ver as respostas.

Do ponto de vista estatístico, duas questões precisam ser abordadas: a maioria das estatísticas e os projetos estatísticos discutem pequenas estatísticas de amostra e a maioria das metodologias usadas pelos engenheiros não são estatísticas "modernas".

Não tenho nenhuma sugestão imediata para o primeiro problema, além da boa escolaridade em mineração / exploração de dados e o significado de estatisticamente diferente quando confrontado com a análise de estatísticas populacionais (ou amostra grande).

No entanto, dois livros de interesse para apresentar os alunos à estatística seriam de Rand Wilcox (um psicólogo):

Wilcox, RR (2012). Introdução à Estimativa Robusta e Testes de Hipóteses, 3ª Ed. Academic Press.

Wilcox, RR (2010). Fundamentos dos métodos estatísticos modernos: Melhorando substancialmente o poder e a precisão, Springer, 2ª Ed.

Jason Morrison
fonte
2
Parece-me que o primeiro problema é de pesquisa e talvez ainda não tenha "boas práticas". Pode muito bem ser que uma introdução sólida aos testes e perfurações básicas no problema de múltiplas hipóteses possa ser o melhor lugar para começar.
Suresh Venkatasubramanian