Sou programador, como entro no campo da ciência de dados?

13

Antes de tudo, esse termo parece tão obscuro.

Enfim .. Eu sou um programador de software. Uma das linguagens que posso codificar é Python. Falando em dados, posso usar SQL e fazer raspagem de dados. O que descobri até agora depois de ler tantos artigos nos quais a Data Science é boa:

1- Estatísticas

2- Álgebra

3- Análise de Dados

4- Visualização.

5- Aprendizado de Máquina.

O que eu sei até agora:

1- Programação em Python 2- Sucateamento de dados em Python

Vocês podem me orientar ou sugerir um roteiro para aprimorar a teoria e a prática? Eu dei cerca de 8 meses de tempo para mim.

Volatil3
fonte
Por favor, seja específico sobre o que você deseja "entrar". Não apenas o campo, mas também em que nível. Para example-- "profissional mineiro texto médico" ou "amador examinador universo astrofísica"
Pete
Estou disposto a me tornar algo que possa funcionar como consultor ou funcionário que possa ser o contato de empresas para vasculhar seus dados e obter informações sobre eles.
Volatil3
(1) curso de Andrew sobre aprendizado de máquina; (2) curso Yaser Abu-Mostafa sobre Aprendendo com os Dados; Ambos são acessíveis (o tempo não está incluído) e você obterá um bom nível de entendimento.
Vladislavs Dovgalecs
O termo Ciência de Dados é muito amplo. Talvez você possa pensar em que tipo de trabalho você gostaria e em qual empresa deseja trabalhar, ver os requisitos e responsabilidades deles. Então você saberia se o trabalho atende às suas expectativas e à lacuna de sua capacidade. Aqui estão os requisitos do cientista de dados no GOOGLE. ! [Requisitos para cientistas de dados do Google ] ( i.stack.imgur.com/5KSN6.png )
Octoparse em 30/08/18

Respostas:

18

Concentre-se menos em ganhar habilidades e mais em ganhar experiência. Tente resolver alguns problemas e publique seu trabalho no github. Você aprenderá mais no processo e poderá demonstrar conhecimento e experiência aos empregadores, o que é muito mais valioso do que ter uma compreensão supostamente profunda de um tópico ou teoria.

Atualmente, a Ciência de Dados é um campo bastante carregado, então não tenho certeza de que tipo de trabalho você deseja fazer, mas assumindo que o aprendizado de máquina é um componente, então o kaggle.com é um bom lugar para começar. Em termos de objetivos, se você puder trabalhar com os dados em pandas / numpy / scipy, construa modelos no sci-kit learn e faça alguns gráficos bonitos em seaborn, ggplot ou mesmo matplotlib, então você não terá problemas para obter um trabalho do ponto de vista de habilidades - especialmente se você tiver exemplos de código e exemplos para demonstrar suas habilidades. Se você ficar preso, o stackexchange terá a resposta ou você poderá postar uma pergunta e você terá uma resposta em breve. Depois de fazer a vida, você aprenderá ainda mais, provavelmente com um membro sênior da equipe que o orienta.

Boa sorte.

David
fonte
7

Eu gosto do curso de Berkeley em Data Science, que dará uma boa base e um gosto por Data Science, depois de mudar para a udacity e coursera e muitos outros recursos. Portanto, se você tiver habilidades de programação, precisará de matemática, estatística e muita visualização. Também será ótimo se acostumar com o IPython, porque é essencial ver cada passo (visualizar) como ele executa, em vez de escrever um script inteiro e testar depois (o anaconda é fácil de instalar e trabalhar). O curso está listado abaixo: bcourses.berkeley.edu/courses/1267848/wiki e também o stat eu acho um bom curso gratuito do SAS: Estatísticas 1: Introdução à ANOVA, regressão e regressão logística support.sas.com/edu/schedules.html ? ctry = us & id = 1979

Começar com o ML recomendará: www.kaggle.com/c/titanic/details/getting-started-with-python

no lado esquerdo também é para Excel usando tabelas dinâmicas e o R. DataCamp lançou o tutorial sobre como usar o R. Depois de concluir essas etapas, mais competições para ganhar experiência estão no kaggle (lançado recentemente para a Classificação de crimes de São Francisco) e, finalmente, incríveis tutoriais em vídeo em www.dataschool.io

espero que ajude ...

n1tk
fonte
Obrigado pela sua resposta. Como você aprendeu?
Volatil3
1
Livros, tutoriais on-line e um monte de códigos práticos relacionados ao brincar com dados. Experimente o kaggle.com e experimente competições. É ótimo em começar a aprender ML.
N1tk 25/07
e, finalmente, tente encontrar uma comunidade de cientistas de dados e participar dos projetos, você ganhará tanta experiência compartilhada nos projetos que nenhum livro pode ensinar.
N1tk 25/07/2015
Mas eu não sou bom em teoria como estatísticas, Matemática etc. eu fiz estudá-los em dias Uni
Volatil3
No meu caso particular, considerei voltar à escola e passar para o programa de doutorado em Análise e Ciência de Dados ... exigindo cálculo 1,2, álgebra linear, álgebra linear numérica, SAS, R, matemática para big data, teoria dos grafos e muito mais ...
n1tk
4

Discordo de David, um verdadeiro cientista de dados é um estatístico aplicado que codifica e sabe como usar algoritmos de aprendizado de máquina pelas razões certas. A estatística é a base de toda ciência de dados. É o "bolo" em si. Tudo o resto é apenas glacê.

A questão é que tipo de cientista de dados você deseja ser? Você quer ser um mestre do assunto (conhecimento de como, por que, quando e quando não aplicar um algoritmo ou técnica) ou um Kaggle Script Kaggle usando Scipy e pensando que ele é um cientista de dados?

1 - Estatísticas

2- Tudo o resto

Hidden Markov Model
fonte
2
Não sei se entendi o que você está dizendo. Eu nunca disse que conhecer "estatística aplicada" não é importante - simplesmente fiz a distinção de que ganhar experiência na aplicação de métodos é mais importante do que adquirir conhecimento teórico sobre os métodos em si.
David
1
David, esse foi exatamente o meu ponto de discordância. Sem ter conhecimento teórico dos próprios métodos, somos apenas crianças de roteiro. A experiência é importante, mas é um subproduto do conhecimento teórico, e não o contrário.
Hidden Markov Model
2
Não é não. Há uma vasta diferença entre a experiência aplicada e o conhecimento teórico; freqüentemente é a diferença entre o que é ganho na indústria e na sala de aula. Por exemplo, é mais valioso saber como verificar efetivamente se um modelo não se ajustou excessivamente usando um método aplicado como validação cruzada do que conhecer os fundamentos teóricos da regularização. Além disso, pare de mencionar "script kidies" - ninguém está defendendo o uso da nova e horrível funcionalidade de um clique para enviar do kaggle.
David
1
Se o que você está dizendo é verdade, por que as empresas preferem doutorados e pessoas com mestrado em vez de pessoas com simplesmente bacharelado? É porque eles têm conhecimento teórico das técnicas que conduzem os algoritmos. Eles são os construtores de motores em si. O conhecimento teórico é um conhecimento mais profundo. Kaggle é um tanque de retenção para crianças de roteiro.
Hidden Markov Model
1
Embora eu possa ver pontos que vocês dois estão tentando fazer, acho que talvez esteja fora de contexto. A pergunta original era 'como um programador pode fazer a transição para um emprego em ciência de dados?' Se a resposta for "abandone tudo, passe alguns anos obtendo um doutorado em estatística, faça alguns projetos por conta própria e comece a aplicar", esse é um obstáculo bastante oneroso e você também pode dizer a eles para não se incomodarem de maneira prática. sentido. Por outro lado, dado o número de estatísticas PHD (ou mesmo mestrado) e o número de pessoas que procuram, os empregadores podem considerar pessoas que podem demonstrar experiência sem um diploma.
chrisfs
4

Se você quer ser um homem prático com conhecimento verdadeiro, comece com matemática (cálculo, probabilidade + estatística, álgebra linear). Em cada etapa, tente implementar tudo com a programação, python é bom para isso. Quando você conseguir um bom terreno, brinque com dados reais e resolva problemas

Cursos. Álgebra linear - edx Laff ou codificação da matriz Stat - edx stat 2x Cálculo de Barkley - leia ... é simples

Amanuel Negash
fonte
2

David tem um bom argumento, eu sugiro que você se concentre no que quer que motive mais seu interesse. É a única maneira de obter sucesso em todo tipo de esforço. Se você deseja construir algo legal, comece com ele. Se você quiser ler um livro, isso também é bom. O ponto de partida não importa. Alguns dias antes, você entenderá melhor o que deseja e deve fazer a seguir.

Piriko
fonte
1

A ciência de dados é tão ampla que existem muitos caminhos diferentes para entrar nela. Geralmente é dividido em 4 ou 5 tipos diferentes, por exemplo:

insira a descrição da imagem aqui

Você pode ver nas outras postagens deste tópico pessoas provenientes de um histórico de Estatística Aplicada (aplicando o algoritmo correto), histórico de Programação (participando do Kaggle) e outras pessoas que o aplicam a um histórico de negócios

As empresas mais experientes podem se referir a uma pessoa assimétrica de programação como um "Engenheiro de Dados". As grandes empresas também usam cada tipo para sua equipe de ciência de dados, portanto, demonstrar boas habilidades em forma de T seria uma coisa boa.

user46958
fonte
0

Se você é um programador, pode começar com um classificador de Árvore de Decisão, concentrando-se em entender a matemática por trás da Entropia e Ganho de Informação. É essencial entender que o ML é apenas uma questão de compactação de dados.

Eu discordo muito de algumas das outras respostas sobre o valor dos cursos práticos. O mais valioso para o ML é a matemática: teoria dos números, álgebra linear e teoria das probabilidades.

Se você não se concentrar em matemática, a única coisa que aprenderá é como usar alguma biblioteca para fazer mágica, isso não é aprendizado de máquina e nem ciência.

Eugen
fonte