Eu quero me tornar um cientista de dados . Estudei estatística aplicada (ciência atuarial), por isso tenho um ótimo histórico estatístico (regressão, processo estocástico, série temporal, apenas para citar algumas). Mas agora, vou fazer um mestrado em Ciência da Computação em Sistemas Inteligentes.
Aqui está o meu plano de estudo:
- Aprendizado de máquina
- Aprendizado de máquina avançado
- Mineração de dados
- Lógica difusa
- Sistemas de recomendação
- Sistemas de dados distribuídos
- Computação em nuvem
- Descoberta do conhecimento
- Business Intelligence
- Recuperação de informação
- Mineração de texto
No final, com todo o meu conhecimento estatístico e de ciência da computação, posso me chamar de cientista de dados? , ou eu estou errado?
Obrigado pelas respostas.
machine-learning
statistics
career
user3643160
fonte
fonte
Respostas:
Eu acho que você está no caminho certo para se tornar um cientista de dados especialista . Recentemente, respondi a perguntas relacionadas aqui no Data Science StackExchange: https://datascience.stackexchange.com/a/742/2452 (preste atenção à definição mencionada aqui, pois ela essencialmente responde sua pergunta por si só, bem como a aspectos da prática de engenharia de software e aplicação de conhecimentos para resolver problemas do mundo real ). Espero que você ache tudo isso útil. Boa sorte na sua carreira!
fonte
Bem, depende de que tipo de "Ciência de Dados" você deseja entrar. Para análises básicas e estatísticas de relatórios certamente ajudará, mas para Machine Learning e Inteligência Artificial, você precisará de mais algumas habilidades
Teoria da probabilidade - você deve ter uma sólida formação em pura probabilidade para poder decompor qualquer problema, visto antes ou não, em princípios probabilísticos. A estatística ajuda muito em problemas já resolvidos, mas problemas novos e não resolvidos exigem uma compreensão profunda da probabilidade, para que você possa projetar técnicas apropriadas.
Teoria da Informação - este (em relação à estatística) é um campo bastante novo (embora ainda tenha décadas), o trabalho mais importante foi de Shannon, mas a nota ainda mais importante e muitas vezes negligenciada na literatura é o trabalho de Hobson que provou que a divergência de Kullback-Leibler é a única definição matemática que realmente captura a noção de uma "medida de informação" . Agora, fundamental para a inteligência artificial é poder quantificar informações. Sugira a leitura "Conceitos de Mecânica Estatística" - Arthur Hobson (livro muito caro, disponível apenas em bibliotecas acadêmicas).
Teoria da complexidade- Um grande problema que muitos cientistas de dados enfrentam e que não têm um sólido histórico de teoria da complexidade é que seus algoritmos não são dimensionados ou levam muito tempo para serem executados em dados grandes. Tomemos o PCA, por exemplo, a resposta favorita de muitas pessoas à pergunta da entrevista "como você reduz o número de recursos em nosso conjunto de dados", mas mesmo se você disser ao candidato "o conjunto de dados é realmente muito grande", eles ainda proporão várias formas de PCA que são O (n ^ 3). Se você quer se destacar, quer ser capaz de resolver cada problema por si próprio, NÃO jogar alguma solução de livro de texto criada há muito tempo antes que o Big Data fosse uma coisa tão descolada. Para isso, é necessário entender quanto tempo as coisas demoram para ser executadas, não apenas teoricamente, mas praticamente - então, como usar um cluster de computadores para distribuir um algoritmo,
Habilidades de comunicação - Uma grande parte da ciência de dados é entender os negócios. Seja inventando um produto impulsionado pela ciência de dados ou fornecendo informações comerciais impulsionadas pela ciência de dados, é muito importante se comunicar bem com os gerentes de projeto e produto, as equipes de tecnologia e seus colegas cientistas de dados. Você pode ter uma idéia incrível, digamos uma solução incrível de IA, mas se você não puder (a) comunicar efetivamente POR QUE isso renderá dinheiro aos negócios, (b) convencer seus colegas de que funcionará e (c) explicar às pessoas de tecnologia como você precisa sua ajuda para construí-lo, então não será feito.
fonte
Cientista de dados (para mim) um grande termo genérico. Eu consideraria um cientista de dados uma pessoa capaz de usar técnicas de maneira eficiente nos campos de mineração de dados, aprendizado de máquina, classificação de padrões e estatística.
No entanto, esses termos estão interligados a: o aprendizado de máquina está vinculado à classificação de padrões e também se sobrepõe à mineração de dados quando se trata de encontrar padrões nos dados. E todas as técnicas têm seus princípios estatísticos subjacentes. Eu sempre imagino isso como um diagrama de Venn com um enorme cruzamento.
As ciências da computação também estão relacionadas a todos esses campos. Eu diria que você precisa de técnicas de "ciência de dados" para realizar pesquisas científicas em computação, mas o conhecimento em ciência da computação não está necessariamente implícito em "ciência de dados". No entanto, habilidades de programação - vejo programação e ciência da computação como diferentes profissões, onde a programação é mais a ferramenta para resolver problemas - também são importantes para trabalhar com os dados e conduzir a análise dos dados.
Você tem um plano de estudo muito bom e tudo faz sentido. Mas não tenho certeza se você "deseja" se chamar apenas "cientista de dados", tenho a impressão de que "cientista de dados" é um termo tão ambíguo que pode significar tudo ou nada. O que quero transmitir é que você acabará sendo algo mais - mais "especializado" - do que "apenas" um cientista de dados.
fonte