Como auto-aprender ciência de dados? [fechadas]

16

Sou desenvolvedor web autodidata e estou interessado em me ensinar ciência de dados, mas não tenho certeza de como começar. Em particular, estou me perguntando:

  1. Quais campos existem na ciência de dados? (por exemplo, inteligência artificial, aprendizado de máquina, análise de dados etc.)
  2. Existem aulas online que as pessoas podem recomendar?
  3. Existem projetos disponíveis nos quais eu possa praticar (por exemplo, conjuntos de dados abertos).
  4. Existem certificações que eu posso solicitar ou concluir?
Martin
fonte

Respostas:

15

Bem-vindo ao site, Martin! Essa é uma pergunta bastante ampla, então você provavelmente terá várias respostas. Aqui está a minha opinião.

  1. A ciência de dados é um campo interdisciplinar geralmente pensado para combinar estatística clássica, aprendizado de máquina e ciência da computação (novamente, isso depende de quem você pergunta, mas outros podem incluir inteligência de negócios aqui e possível visualização de informações ou descoberta de conhecimento; por exemplo, o artigo da wikipedia sobre ciência de dados ). Um bom cientista de dados também é hábil em captar as características específicas do domínio em que trabalha. Por exemplo, um cientista de dados que trabalha na análise de registros hospitalares é muito mais eficaz se tiver experiência em Informática Biomédica.
  2. Existem muitas opções aqui, dependendo do tipo de análise em que você está interessado. O curso coursera de Andrew Ng é o primeiro recurso mencionado pela maioria , e com razão. Se você está interessado em aprendizado de máquina, esse é um ótimo ponto de partida. Se você deseja uma exploração aprofundada da matemática envolvida, os elementos de aprendizagem estatística de Tibshirani são excelentes, mas são textos bastante avançados. Além dos Ngs, existem muitos cursos on-line disponíveis no Coursera, mas você deve selecioná-los pensando no tipo de análise em que deseja se concentrar e / ou no domínio em que planeja trabalhar.
  3. Kaggle . Comece com o kaggle, se você quiser se aprofundar em alguns problemas de análise do mundo real. Dependendo do seu nível de experiência, pode ser bom começar de forma mais simples. O Project Euler é um excelente recurso para problemas práticos pontuais que eu ainda uso como trabalho de aquecimento.
  4. Novamente, isso provavelmente depende do domínio no qual você deseja trabalhar. No entanto, eu sei que o Coursera oferece um certificado de ciência de dados, se você concluir uma série de cursos relacionados à ciência de dados. Este é provavelmente um bom lugar para começar.

Boa sorte! Se você tiver outras perguntas específicas, não hesite em me perguntar nos comentários e farei o possível para ajudar!

Kyle.
fonte
1
Voltando a isso, o curso de Andrew Ng é difícil . Eu deveria ter mencionado que não sou forte em matemática. Ouvi dizer que este outro curso de ciência de dados é um pouco mais fácil para aprender as cordas. O que você acha?
Martin
5

Sou um cientista de dados autodidata e tentaria o meu melhor para explicar como fazê-lo.


Quais campos existem na ciência de dados? (por exemplo, inteligência artificial, aprendizado de máquina, análise de dados etc.)

A ciência de dados é um domínio muito amplo. É sobre a ciência dos dados. Portanto, qualquer campo que usa dados para tomar decisões se enquadra nesse domínio. Alguns dos campos incluem:

  • AI
  • Reconhecimento de padrões e análise
  • Bioestatística
  • Aprendizagem Estatística
  • Machine Learning
  • Estética de dados (ou visualização de dados)
  • Jornalismo de Dados

Existem aulas online que as pessoas podem recomendar?

Eu respondi uma pergunta semelhante . Então, eu citaria aqui:

Comece com o curso de aprendizado de máquina do Coursera . Ele faz um bom trabalho ao introduzir o aluno no domínio do Machine Learning e ajuda a estabelecer uma base sólida nos conceitos.

No caso, você acha que a matemática é um pouco embotada nesse curso, você pode fazer esse curso , ministrado pelo mesmo professor e é intensivo em matemática que o anterior.

Agora, você teria uma intuição clara sobre os conceitos básicos do Machine Learning. Agora, faça este curso , que pode ser dito como um acompanhamento ou um complemento para o curso de Andrew Ng.

Este recurso da IAPR possui notas detalhadas sobre muitos conceitos de ML, como validação cruzada, regularização etc.

Você também pode dar uma olhada nesta incrível lista de recursos compilados em um blog no Quora.

Agora, para mergulhar nos conceitos avançados de redes neurais e aprendizado profundo, você pode usar este livro gratuito .

Finalmente, o e-book gratuito: Elements of Statistical Learning é um livro maravilhoso para iniciantes em ML ou Statistical Learning.

Além disso, verifique este repositório de referências de ciência de dados do Quora .


Existem projetos disponíveis nos quais eu possa praticar (por exemplo, conjuntos de dados abertos).

Comecei a fazer projetos com conjuntos de dados abertos da Índia. No entanto, eu recomendo que você verifique esta incrível discussão aqui e, depois de fazer esses projetos, você pode começar com o Kaggle.


Existem certificações que eu posso solicitar ou concluir?

Na minha opinião, não existem certificações de ciência de dados . Sim, existem muitas certificações de Big Data por aí, mas eu não as vi realmente úteis para um cientista de dados em desenvolvimento, por isso recomendo que você não as persiga até que esteja confiante o suficiente com suas habilidades de ML e dados.

Dawny33
fonte
1

Eu recomendo começar pelas especializações do Coursera em ciência de dados. A especialização em ciência de dados da Johns Hopkins é a mais antiga em execução. Eu não recomendo livros e kaggle. Eles só confundem você no começo. Lembre-se de que a codificação é a parte mais fácil da ciência de dados e você precisa aprender muito. Para se ter uma idéia do campo, este diagrama de Venn é um bom começo.

Hamideh
fonte