É seu mestrado em ciência da computação? Estatisticas?
A 'ciência dos dados' estará no centro de sua tese? Ou um tópico secundário?
Assumirei sua em Estatística e você deseja focar sua tese em um problema de 'ciência de dados'. Nesse caso, irei contra o assunto e sugiro que você não comece com um conjunto de dados ou um método ML. Em vez disso, você deve procurar um problema de pesquisa interessante que seja pouco compreendido ou onde os métodos de ML ainda não foram comprovadamente bem-sucedidos, ou onde existem muitos métodos de ML concorrentes, mas nenhum parece melhor que outros.
Considere esta fonte de dados: Stanford Large Network Dataset Collection . Embora você possa escolher um desses conjuntos de dados, criar uma declaração de problema e executar uma lista de métodos de ML, essa abordagem realmente não diz muito sobre o que é a ciência de dados e, na minha opinião, não levar a uma tese de mestrado muito boa.
Em vez disso, você pode fazer o seguinte: procure todos os trabalhos de pesquisa que usam ML em alguma categoria específica - por exemplo, redes de colaboração (também conhecida como coautoria). Ao ler cada papel, tentar descobrir o que eles eram capazes de realizar com cada método ML eo que eles não foram capazes de endereço. Procure especialmente suas sugestões para "pesquisas futuras".
Talvez todos usem o mesmo método, mas nunca tentaram métodos concorrentes de ML. Ou talvez eles não validem adequadamente seus resultados, ou talvez haja conjuntos de dados pequenos, ou talvez suas perguntas e hipóteses de pesquisa sejam simplistas ou limitadas.
Mais importante: tente descobrir para onde esta linha de pesquisa está indo. Por que eles estão se incomodando em fazer isso? O que é significativo nisso? Onde e por que eles estão enfrentando dificuldades?