Conjunto de dados / questão de pesquisa orientada à ciência de dados para tese de mestrado em estatística

11

Eu gostaria de explorar a 'ciência dos dados'. O termo me parece um pouco vago, mas espero que exija:

aprendizado de máquina (em vez de estatística tradicional);
um conjunto de dados grande o suficiente para executar análises em clusters.

Quais são alguns bons conjuntos de dados e problemas, acessíveis a um estatístico com alguma experiência em programação, que posso usar para explorar o campo da ciência de dados?

Para manter isso o mais restrito possível, eu gostaria idealmente de links para abrir conjuntos de dados bem usados e problemas de exemplo.

statistics education knowledge-base definitions user3279453
fonte

8

Basta ir ao kaggle.com; manterá você ocupado por um longo tempo. Para dados abertos, existe o Repositório de Aprendizado de Máquina UC Irvine . De fato, existe todo um site Stackexchange dedicado a isso; olhe ali.

Emre
fonte

5

A Sunlight Foundation é uma organização focada em abrir e incentivar a análise não partidária de dados do governo.

Há uma tonelada de análises disponíveis na natureza que podem ser usadas para comparação e uma ampla variedade de tópicos.

Eles fornecem ferramentas e APIs para acessar dados e ajudaram a disponibilizar dados em locais como data.gov .

Um projeto interessante é o Influence Explorer . Você pode obter dados de origem aqui , bem como acessar dados em tempo real.

Você também pode dar uma olhada em uma de nossas perguntas mais populares:

Conjuntos de dados publicamente disponíveis .

Steve Kallestad
fonte

5

É seu mestrado em ciência da computação? Estatisticas?

A 'ciência dos dados' estará no centro de sua tese? Ou um tópico secundário?

Assumirei sua em Estatística e você deseja focar sua tese em um problema de 'ciência de dados'. Nesse caso, irei contra o assunto e sugiro que você não comece com um conjunto de dados ou um método ML. Em vez disso, você deve procurar um problema de pesquisa interessante que seja pouco compreendido ou onde os métodos de ML ainda não foram comprovadamente bem-sucedidos, ou onde existem muitos métodos de ML concorrentes, mas nenhum parece melhor que outros.

Considere esta fonte de dados: Stanford Large Network Dataset Collection . Embora você possa escolher um desses conjuntos de dados, criar uma declaração de problema e executar uma lista de métodos de ML, essa abordagem realmente não diz muito sobre o que é a ciência de dados e, na minha opinião, não levar a uma tese de mestrado muito boa.

Em vez disso, você pode fazer o seguinte: procure todos os trabalhos de pesquisa que usam ML em alguma categoria específica - por exemplo, redes de colaboração (também conhecida como coautoria). Ao ler cada papel, tentar descobrir o que eles eram capazes de realizar com cada método ML eo que eles não foram capazes de endereço. Procure especialmente suas sugestões para "pesquisas futuras".

Talvez todos usem o mesmo método, mas nunca tentaram métodos concorrentes de ML. Ou talvez eles não validem adequadamente seus resultados, ou talvez haja conjuntos de dados pequenos, ou talvez suas perguntas e hipóteses de pesquisa sejam simplistas ou limitadas.

Mais importante: tente descobrir para onde esta linha de pesquisa está indo. Por que eles estão se incomodando em fazer isso? O que é significativo nisso? Onde e por que eles estão enfrentando dificuldades?

MrMeritology
fonte

Esta é uma boa ideia. O Mestrado está em Estatística.

user3279453

Conjunto de dados / questão de pesquisa orientada à ciência de dados para tese de mestrado em estatística

Respostas: