Estou prestes a começar um trabalho no qual trabalharei com grandes conjuntos de dados e espera-se que encontre tendências, etc ... Encontrei muitos recursos sobre onde aprender ML e outras habilidades difíceis e sinto que estou ) competente para esse efeito.
Estou interessado em saber se existem habilidades sociais específicas que são úteis como cientista de dados. Quais são as coisas que você gostaria de saber começando?
Embora o Kaggle seja muito útil ao aprender, também apresenta objetivos claros. Como você lida com o fornecimento de um conjunto de dados, mas sem um objetivo claro?
Deixe-me saber se isso é muito amplo, posso pensar em perguntas mais específicas.
Respostas:
Eu acho que há muitas habilidades importantes importantes a serem consideradas no domínio da ciência de dados.
Aqui estão alguns deles:
Em relação à sua segunda pergunta:
O objetivo deve ser obtido explicitamente do proprietário do produto ou derivado de um objetivo menos matemático. Um exemplo pode ser o local em que você precisa prever chegadas de trem com base em alguns recursos. Eles querem que o modelo preveja o máximo de vezes possível dentro de um intervalo de erro de 10 minutos. Isso é relativamente explícito.
Às vezes é menos claro que isso, eles podem dizer que precisamos disso o mais preciso possível. Então você terá que decidir o que otimizar, em alguns casos, isso apenas minimizará o MSE, mas em outros casos, outras coisas podem fazer mais sentido para o seu caso. Normalmente, isso ficará claro a partir do objetivo implícito e de algo que você melhorará com mais experiência. Objetivos implícitos e explícitos derivam de uma comunicação clara com o proprietário do produto.
fonte
"Como você lida com a obtenção de um conjunto de dados, mas sem um objetivo claro?"
Isso será comum.
Além do conselho acima, entenda que é essencial entender os objetivos da empresa em que atua e do seu cliente imediato. Freqüentemente, você precisará entender o problema específico que os levou a usar os dados melhor do que eles. É muito comum receber dados e um objetivo pouco claro do seu cliente interno ou externo - normalmente será sua tarefa fornecer uma meta que possa ser alcançada com os dados e resolver o problema de negócios real do cliente. Será necessário um pensamento lateral para fazer com que o resultado dos dados e a solução de negócios sejam compatíveis.
Eu resumiria o exposto acima como 'definir o objetivo é muito importante (e possivelmente muito difícil!) Para ser deixado ao cliente (sozinho)'.
No contexto de aprendizado de máquina, o CRISP-DM é uma metodologia que tenta resolver esse problema iterando através de um loop, para que o entendimento adicional dos dados possa ser usado em discussão com o cliente para entender melhor o problema original. Assim, por exemplo, eles podem indicar um objetivo mal definido, uma segunda discussão depois que você fizer alguma EDA irá afiá-lo um pouco. Mais tarde, quando você produzir um modelo que funcione bem, mas não esteja no alvo certo, você se aproximará do objetivo real de negócios novamente.
Em outras palavras, não fique muito perturbado com a imprecisão da tarefa. Espere encontrar um vácuo e preencha-o para sua vantagem.
É uma ligeira mudança de lado, mas a metodologia seis sigma tenta resolver esse problema em um contexto diferente com o sistema DMAIC (o 'D' significa 'Definir', em termos da 'voz do cliente'), por isso é provável que algumas dicas possam ser reunidas em recursos para o contexto seis sigma (por exemplo, exercícios que você pode fazer com um cliente que os ajude a expressar o que você deseja com mais clareza)
fonte