Antes de tudo, esse termo parece tão obscuro.
Enfim .. Eu sou um programador de software. Uma das linguagens que posso codificar é Python. Falando em dados, posso usar SQL e fazer raspagem de dados. O que descobri até agora depois de ler tantos artigos nos quais a Data Science é boa:
1- Estatísticas
2- Álgebra
3- Análise de Dados
4- Visualização.
5- Aprendizado de Máquina.
O que eu sei até agora:
1- Programação em Python 2- Sucateamento de dados em Python
Vocês podem me orientar ou sugerir um roteiro para aprimorar a teoria e a prática? Eu dei cerca de 8 meses de tempo para mim.
Respostas:
Concentre-se menos em ganhar habilidades e mais em ganhar experiência. Tente resolver alguns problemas e publique seu trabalho no github. Você aprenderá mais no processo e poderá demonstrar conhecimento e experiência aos empregadores, o que é muito mais valioso do que ter uma compreensão supostamente profunda de um tópico ou teoria.
Atualmente, a Ciência de Dados é um campo bastante carregado, então não tenho certeza de que tipo de trabalho você deseja fazer, mas assumindo que o aprendizado de máquina é um componente, então o kaggle.com é um bom lugar para começar. Em termos de objetivos, se você puder trabalhar com os dados em pandas / numpy / scipy, construa modelos no sci-kit learn e faça alguns gráficos bonitos em seaborn, ggplot ou mesmo matplotlib, então você não terá problemas para obter um trabalho do ponto de vista de habilidades - especialmente se você tiver exemplos de código e exemplos para demonstrar suas habilidades. Se você ficar preso, o stackexchange terá a resposta ou você poderá postar uma pergunta e você terá uma resposta em breve. Depois de fazer a vida, você aprenderá ainda mais, provavelmente com um membro sênior da equipe que o orienta.
Boa sorte.
fonte
Eu gosto do curso de Berkeley em Data Science, que dará uma boa base e um gosto por Data Science, depois de mudar para a udacity e coursera e muitos outros recursos. Portanto, se você tiver habilidades de programação, precisará de matemática, estatística e muita visualização. Também será ótimo se acostumar com o IPython, porque é essencial ver cada passo (visualizar) como ele executa, em vez de escrever um script inteiro e testar depois (o anaconda é fácil de instalar e trabalhar). O curso está listado abaixo: bcourses.berkeley.edu/courses/1267848/wiki e também o stat eu acho um bom curso gratuito do SAS: Estatísticas 1: Introdução à ANOVA, regressão e regressão logística support.sas.com/edu/schedules.html ? ctry = us & id = 1979
Começar com o ML recomendará: www.kaggle.com/c/titanic/details/getting-started-with-python
no lado esquerdo também é para Excel usando tabelas dinâmicas e o R. DataCamp lançou o tutorial sobre como usar o R. Depois de concluir essas etapas, mais competições para ganhar experiência estão no kaggle (lançado recentemente para a Classificação de crimes de São Francisco) e, finalmente, incríveis tutoriais em vídeo em www.dataschool.io
espero que ajude ...
fonte
Discordo de David, um verdadeiro cientista de dados é um estatístico aplicado que codifica e sabe como usar algoritmos de aprendizado de máquina pelas razões certas. A estatística é a base de toda ciência de dados. É o "bolo" em si. Tudo o resto é apenas glacê.
A questão é que tipo de cientista de dados você deseja ser? Você quer ser um mestre do assunto (conhecimento de como, por que, quando e quando não aplicar um algoritmo ou técnica) ou um Kaggle Script Kaggle usando Scipy e pensando que ele é um cientista de dados?
1 - Estatísticas
2- Tudo o resto
fonte
Se você quer ser um homem prático com conhecimento verdadeiro, comece com matemática (cálculo, probabilidade + estatística, álgebra linear). Em cada etapa, tente implementar tudo com a programação, python é bom para isso. Quando você conseguir um bom terreno, brinque com dados reais e resolva problemas
Cursos. Álgebra linear - edx Laff ou codificação da matriz Stat - edx stat 2x Cálculo de Barkley - leia ... é simples
fonte
David tem um bom argumento, eu sugiro que você se concentre no que quer que motive mais seu interesse. É a única maneira de obter sucesso em todo tipo de esforço. Se você deseja construir algo legal, comece com ele. Se você quiser ler um livro, isso também é bom. O ponto de partida não importa. Alguns dias antes, você entenderá melhor o que deseja e deve fazer a seguir.
fonte
A ciência de dados é tão ampla que existem muitos caminhos diferentes para entrar nela. Geralmente é dividido em 4 ou 5 tipos diferentes, por exemplo:
Você pode ver nas outras postagens deste tópico pessoas provenientes de um histórico de Estatística Aplicada (aplicando o algoritmo correto), histórico de Programação (participando do Kaggle) e outras pessoas que o aplicam a um histórico de negócios
As empresas mais experientes podem se referir a uma pessoa assimétrica de programação como um "Engenheiro de Dados". As grandes empresas também usam cada tipo para sua equipe de ciência de dados, portanto, demonstrar boas habilidades em forma de T seria uma coisa boa.
fonte
Se você é um programador, pode começar com um classificador de Árvore de Decisão, concentrando-se em entender a matemática por trás da Entropia e Ganho de Informação. É essencial entender que o ML é apenas uma questão de compactação de dados.
Eu discordo muito de algumas das outras respostas sobre o valor dos cursos práticos. O mais valioso para o ML é a matemática: teoria dos números, álgebra linear e teoria das probabilidades.
Se você não se concentrar em matemática, a única coisa que aprenderá é como usar alguma biblioteca para fazer mágica, isso não é aprendizado de máquina e nem ciência.
fonte