Tendo me graduado recentemente em meu programa de doutorado em estatística, durante os últimos dois meses comecei a procurar trabalho no campo da estatística. Quase todas as empresas que eu considerei tinham um anúncio de emprego com o título de " Data Scientist ". De fato, parecia que estavam longe os dias de ver os cargos de cientista estatístico ou estatístico . Ter sido um cientista de dados realmente substituiu o que era estatístico ou eram os títulos sinônimos como eu me perguntava?
Bem, a maioria das qualificações para os empregos parecia algo que se qualificaria sob o título de estatístico. A maioria dos trabalhos queria um doutorado em estatística ( ), a maioria exigia o entendimento de projeto experimental ( ), regressão linear e anova ( ), modelos lineares generalizados ( ) e outros métodos multivariados, como PCA ( ) , bem como conhecimentos em um ambiente de computação estatística, como R ou SAS ( ). Parece que um cientista de dados é realmente apenas um codinome para estatístico.✓ ✓ ✓ ✓ ✓
No entanto, todas as entrevistas que comecei com a pergunta: "Você conhece os algoritmos de aprendizado de máquina?" Na maioria das vezes, encontrei-me tendo que tentar responder a perguntas sobre big data, computação de alto desempenho e tópicos sobre redes neurais, CART, máquinas de vetores de suporte, aumento de árvores, modelos não supervisionados etc. Claro, eu me convenci de que eram todos questões estatísticas no coração, mas no final de cada entrevista eu não pude deixar de sentir que sabia cada vez menos sobre o que é um cientista de dados.
Sou estatístico, mas sou cientista de dados? Eu trabalho com problemas científicos, então devo ser um cientista! E também trabalho com dados, por isso devo ser um cientista de dados! E, de acordo com a Wikipedia, a maioria dos acadêmicos concordaria comigo ( https://en.wikipedia.org/wiki/Data_science etc.)
Embora o uso do termo "ciência de dados" tenha explodido nos ambientes de negócios, muitos acadêmicos e jornalistas não vêem distinção entre ciência de dados e estatística.
Mas se eu vou a todas essas entrevistas de emprego para uma posição de cientista de dados, por que parece que eles nunca estão me fazendo perguntas estatísticas?
Bem, depois da minha última entrevista, eu queria um bom cientista e procurei dados para resolver esse problema (ei, afinal, sou cientista de dados). No entanto, depois de inúmeras pesquisas no Google mais tarde, acabei exatamente onde comecei a me sentir como se estivesse mais uma vez lutando com a definição do que era um cientista de dados. Eu não sabia exatamente o que era um cientista de dados, pois havia muitas definições dele ( http://blog.udacity.com/2014/11/data-science-job-skills.html , http: // www -01.ibm.com/software/data/infosphere/data-scientist/ ), mas parecia que todo mundo estava me dizendo que eu queria ser um:
- https://hbr.org/2012/10/data-scientist-the-sexiest-job-of-the-21st-century/
- http://mashable.com/2014/12/25/data-scientist/#jjgsyhcERZqL
- etc .... a lista continua.
Bem, no final do dia, o que eu descobri foi "o que é um cientista de dados" é uma pergunta muito difícil de responder. Caramba, houve dois meses inteiros em Amstat, onde eles dedicaram tempo para tentar responder a essa pergunta:
- http://magazine.amstat.org/blog/2015/10/01/asa-statement-on-the-role-of-statistics-in-data-science/
- http://magazine.amstat.org/blog/2015/11/01/statnews2015/
Bem, por enquanto, eu tenho que ser um estatístico sexy para ser um cientista de dados, mas espero que a comunidade validada cruzada possa lançar alguma luz e me ajudar a entender o que significa ser um cientista de dados. Todos os estatísticos não são cientistas de dados?
(Editar / Atualizar)
Eu pensei que isso poderia apimentar a conversa. Acabei de receber um e-mail da American Statistical Association sobre um trabalho que colocava na Microsoft procurando um Data Scientist. Aqui está o link: Data Scientist Position . Eu acho isso interessante porque o papel da posição afeta muitas características específicas das quais falamos, mas acho que muitas delas exigem um background muito rigoroso em estatística, além de contradizer muitas das respostas postadas abaixo. Caso o link fique inoperante, eis as qualidades que a Microsoft procura em um cientista de dados:
Requisitos e habilidades principais do trabalho:
Experiência no domínio comercial usando o Analytics
- Deve ter experiência em vários domínios de negócios relevantes na utilização de habilidades de pensamento crítico para conceituar problemas de negócios complexos e suas soluções usando análises avançadas em conjuntos de dados de negócios do mundo real em larga escala
- O candidato deve ser capaz de executar projetos analíticos de forma independente e ajudar nossos clientes internos a entender as descobertas e traduzi-las em ação para beneficiar seus negócios.
Modelagem Preditiva
- Experiência em diversos setores na modelagem preditiva
- Definição de problemas de negócios e modelagem conceitual com o cliente para obter relacionamentos importantes e definir o escopo do sistema
Estatística / Econometria
- Análise exploratória de dados para dados contínuos e categóricos
- Especificação e estimativa de equações de modelo estrutural para o comportamento da empresa e do consumidor, custo de produção, demanda de fatores, escolha discreta e outras relações de tecnologia, conforme necessário
- Técnicas estatísticas avançadas para analisar dados contínuos e categóricos
- Análise de séries temporais e implementação de modelos de previsão
- Conhecimento e experiência em trabalhar com problemas de múltiplas variáveis
- Capacidade de avaliar a correção do modelo e realizar testes de diagnóstico
- Capacidade de interpretar estatísticas ou modelos econômicos
- Conhecimento e experiência na construção de simulação de eventos discretos e modelos de simulação dinâmica
Gestão de dados
- Familiaridade com o uso de T-SQL e análises para transformação de dados e a aplicação de técnicas de análise exploratória de dados para conjuntos de dados reais muito grandes
- Atenção à integridade dos dados, incluindo redundância, precisão dos dados, valores anormais ou extremos, interações e valores ausentes.
Habilidades de Comunicação e Colaboração
- Trabalhe de forma independente e capaz de trabalhar com uma equipe de projeto virtual que pesquisará soluções inovadoras para problemas de negócios desafiadores
- Colabore com parceiros, aplique habilidades de pensamento crítico e conduza projetos analíticos de ponta a ponta
- Capacidade de comunicação superior, verbal e escrita
- Visualização de resultados analíticos de uma forma consumível por um conjunto diversificado de partes interessadas
Pacotes de software
- Pacotes avançados de software estatísticos / econométricos: Python, R, JMP, SAS, Eviews, SAS Enterprise Miner
- Exploração, visualização e gerenciamento de dados: T-SQL, Excel, PowerBI e ferramentas equivalentes
Qualificações:
- Necessário mínimo de 5 anos de experiência relacionada
- Pós-graduação no campo quantitativo é desejável.
fonte
Respostas:
Existem algumas definições humorísticas que ainda não foram dadas:
Eu gosto deste, pois ele joga bem no ângulo mais hype do que substância.
Da mesma forma, isso riffs na costa oeste sabor de tudo isso.
Pessoalmente, acho a discussão (em geral e aqui) um tanto chata e repetitiva. Quando eu estava pensando sobre o que eu queria - talvez um quarto de século ou mais atrás -, procurei analista quantitativo. Ainda é o que eu faço (e amo!) E, principalmente, sobrepõe e cobre o que foi dado aqui em várias respostas.
(Nota: existe uma fonte mais antiga para a citação dois, mas não consigo encontrá-la agora.)
fonte
I find the discussion (in general, and here) somewhat boring and repetitive
e conversa fútil sobre insignificantes ou novas palavras intrigantes, acrescentaria. Ainda não consigo diferenciar posteriormente entre cientistas de dados, cientistas cristãos e cientologistas de dados.As pessoas definem a ciência de dados de maneira diferente, mas acho que a parte comum é:
Ao contrário do nome, raramente é "ciência". Ou seja, na ciência de dados, a ênfase está nos resultados práticos (como na engenharia), não nas provas, na pureza matemática ou no rigor característico da ciência acadêmica. As coisas precisam funcionar, e há pouca diferença se for baseado em um artigo acadêmico, no uso de uma biblioteca existente, no seu próprio código ou em um hack improvisado.
O estatístico não é necessário como programador (pode usar papel e caneta e um software dedicado). Além disso, algumas chamadas de emprego em ciência de dados não têm nada a ver com estatísticas. Por exemplo, é a engenharia de dados, como o processamento de big data, mesmo que as matemáticas mais avançadas possam estar calculando a média (pessoalmente, porém, eu não chamaria essa atividade de "ciência de dados"). Além disso, a "ciência de dados" é exagerada; portanto, trabalhos relacionados tangencialmente usam esse título - para atrair os candidatos ou elevar o ego dos trabalhadores atuais.
Gosto da taxonomia da resposta de Michael Hochster no Quora :
Nesse sentido, o cientista de dados do tipo A é um estatístico que pode programar. Mas, mesmo na parte quantitativa, pode haver pessoas com mais experiência em ciência da computação (por exemplo, aprendizado de máquina) do que em estatísticas regulares, ou aquelas focadas, por exemplo, na visualização de dados.
E o diagrama de Venn da ciência de dados (aqui: hacking ~ programação):
veja também diagramas alternativos de Venn ( isto e aquilo ). Ou até mesmo um tweet , embora humorístico, mostrando uma lista equilibrada de habilidades e atividades típicas de um cientista de dados:
Veja também este post: Cientista de dados - estatístico, programador, consultor e visualizador? .
fonte
Há várias pesquisas no campo da ciência de dados. Eu gosto deste , porque tenta analisar os perfis de pessoas que realmente têm empregos em ciência de dados. Em vez de usar evidências anedóticas ou preconceitos dos autores, eles usam técnicas de ciência de dados para analisar o DNA do cientista de dados.
É bastante revelador olhar para as habilidades listadas pelos cientistas de dados. Observe que as 20 principais habilidades contêm muitas habilidades de TI.
ATUALIZAR:
Se você faz doutorado, provavelmente já é um cientista, principalmente se tiver publicado artigos e pesquisas ativas. Você não precisa ser um cientista para ser um cientista de dados. Existem algumas funções em algumas empresas, como o Walmart (veja abaixo), onde o doutorado é necessário, mas geralmente os cientistas de dados têm diplomas de bacharelado e mestrado, como você pode ver nos exemplos abaixo.
Como você pode descobrir no gráfico acima, provavelmente você precisará ter boas habilidades de programação e manipulação de dados. Além disso, muitas vezes a ciência de dados está associada a algum nível, muitas vezes "profundo", de conhecimento em aprendizado de máquina. Você certamente pode se chamar cientista de dados se tiver doutorado em estatística. No entanto, o doutorado em ciência da computação nas melhores escolas pode ser mais competitivo do que os graduados em estatística, porque eles podem ter um conhecimento estatístico aplicado bastante forte que é complementado por fortes habilidades de programação - uma combinação procurada pelos empregadores. Para combatê-los, é necessário adquirir fortes habilidades de programação, para que você seja muito competitivo. O interessante é que, geralmente, todos os PhDs em estatística têm alguma experiência em programação, mas na ciência de dados, muitas vezes o requisito é muito maior do que isso,
Para mim, a vantagem de ter um doutorado em estatística está no problema capturado no restante da frase "um pau para toda obra" que geralmente é descartado: "um mestre de ninguém". É bom ter pessoas que sabem um pouco de tudo, mas eu sempre procuro pessoas que sabem algo profundamente também, seja estatísticas ou ciência da computação, não é tão importante. O que importa é que o cara é capaz de chegar ao fundo, é uma qualidade útil quando você precisa.
A pesquisa também lista os principais empregadores dos cientistas de dados. A Microsoft está no topo, aparentemente, o que foi surpreendente para mim. Se você quiser ter uma idéia melhor do que eles estão procurando, é útil pesquisar no LinkeIn com "ciência de dados" na seção Trabalhos. Abaixo estão dois trechos dos trabalhos da MS e do Walmart no LinkedIn para fazer uma observação.
Cientista de Dados da Microsoft
Observe como o conhecimento de pacotes stat é apenas uma vantagem, mas excelentes habilidades de programação em Java são um requisito.
Walmart, cientista de dados
Aqui, o PhD é o preferido, mas apenas o principal de ciência da computação é nomeado. A computação distribuída com o Hadoop ou Spark é provavelmente uma habilidade incomum para um estatístico, mas alguns físicos teóricos e matemáticos aplicados usam ferramentas semelhantes.
ATUALIZAÇÃO 2:
"Já é hora de matar o título de" cientista de dados "", diz Thomas Davenport, co-autor do artigo na Harvard Business Review em 2012 intitulado "Cientista de dados: o trabalho mais sexy do século XXI", que começou a mania dos cientistas de dados:
fonte
Em algum lugar que li isso (EDIT: Josh Will está explicando seu tweet ):
Essa citação pode ser explicada em breve por esse processo de ciência de dados . A primeira olhada nesse esquema se parece com "bem, onde está a parte da programação?", Mas se você tiver muitos dados, poderá processá-los.
fonte
Eu escrevi várias respostas e cada vez que elas ficavam longas e eu finalmente decidi que estava pegando uma caixa de sabão. Mas acho que essa conversa não explorou completamente dois fatores importantes:
A ciência na ciência de dados. Uma abordagem científica é aquela em que você tenta destruir seus próprios modelos, teorias, características, escolhas de técnicas etc., e somente quando não pode fazê-lo você aceita que seus resultados possam ser úteis. É uma mentalidade e muitos dos melhores cientistas de dados que conheci têm formação em ciências (química, biologia, engenharia).
A ciência de dados é um campo amplo. Um bom resultado em ciência de dados geralmente envolve uma pequena equipe de cientistas de dados, cada um com sua própria especialidade. Por exemplo, um membro da equipe é mais rigoroso e estatístico, outro é um programador melhor com experiência em engenharia e outro é um consultor forte com conhecimento de negócios. Os três são rápidos em aprender o assunto, e os três são curiosos e querem encontrar a verdade - ainda que dolorosa - e fazer o que é do melhor interesse do cliente (interno ou externo), mesmo que o cliente não não entendo.
A moda nos últimos anos - agora desaparecendo, eu acho - é recrutar Cientistas da Computação que dominam as tecnologias de cluster (ecossistema Hadoop, etc) e dizer que esse é o Data Scientist ideal. Eu acho que foi isso que o OP encontrou, e eu o aconselharia a pressionar seus pontos fortes em rigor, correção e pensamento científico.
fonte
Acho que o Bitwise cobre a maior parte da minha resposta, mas vou adicionar o meu 2c.
Não, desculpe, mas um estatístico não é um cientista de dados, pelo menos com base em como a maioria das empresas define o papel hoje. Observe que a definição mudou ao longo do tempo e um desafio dos profissionais é garantir que eles permaneçam relevantes.
Compartilharei alguns motivos comuns sobre por que rejeitamos candidatos a papéis de "Cientista de Dados":
É claro que, para um papel júnior, você não pode ter todas as opções acima. Mas quantas dessas habilidades você pode perder e seguir em frente no trabalho?
Finalmente, para esclarecer, o motivo mais comum para rejeitar os não estatísticos é exatamente a falta de conhecimento básico de estatísticas. E em algum lugar existe a diferença entre um engenheiro de dados e um cientista de dados. No entanto, os engenheiros de dados tendem a se candidatar a essas funções, pois muitas vezes acreditam que "estatística" é apenas a média, a variação e a distribuição normal. Portanto, podemos adicionar algumas palavras-chave estatísticas relevantes, mas assustadoras, nas descrições dos cargos, a fim de esclarecer o que entendemos por "estatística" e evitar a confusão.
fonte
Permita-me ignorar o hype e as palavras-chave. Eu acho que "Data Scientist" (ou o que você quiser chamar) é uma coisa real e diferente de um estatístico. Existem muitos tipos de posições que efetivamente são cientistas de dados, mas não recebem esse nome - um exemplo são as pessoas que trabalham em genômica.
Do meu ponto de vista, um cientista de dados é alguém que possui as habilidades e os conhecimentos necessários para projetar e executar pesquisas sobre grandes quantidades de dados complexos (por exemplo, altamente dimensionais nos quais os mecanismos subjacentes são desconhecidos e complexos).
Isso significa:
fonte
Todas as ótimas respostas, no entanto, em minha experiência de procurar emprego, observei que o termo "cientista de dados" foi confundido com "analista de dados júnior" na mente dos recrutadores com quem eu estava em contato. Assim, muitas pessoas legais, sem experiência em estatística, além do curso introdutório de um período que fizeram alguns anos atrás, agora se chamam cientistas de dados. Como alguém com formação em ciência da computação e anos de experiência como analista de dados, fiz doutorado em estatística mais tarde na minha carreira pensando que isso me ajudaria a me destacar da multidão, me encontro em uma multidão inesperadamente grande de "cientistas de dados" " Eu acho que posso voltar a "estatístico"!
fonte
Sou funcionário júnior, mas meu cargo é "cientista de dados". Acho que a resposta do Bitwise é uma descrição adequada do que fui contratado para fazer, mas gostaria de acrescentar mais um ponto com base na minha experiência cotidiana no trabalho:
A ciência é um processo de investigação. Quando dados são os meios pelos quais essa pesquisa é feita, a ciência de dados está acontecendo. Isso não significa que todos que experimentam ou pesquisam dados são necessariamente um cientista de dados, da mesma forma que nem todo mundo que experimenta ou pesquisa com fiação é necessariamente um engenheiro elétrico. Mas isso significa que é possível adquirir treinamento suficiente para se tornar um "investigador de dados" profissional, da mesma maneira que se pode adquirir treinamento suficiente para se tornar um eletricista profissional. Esse treinamento é mais ou menos composto pelos pontos na resposta do Bitwise, dos quais as estatísticas são um componente, mas não a totalidade.
A resposta de Piotr também é um bom resumo de todas as coisas que
preciso fazer e quegostaria de saber em uma determinada semana. Até agora, meu trabalho tem ajudado a desfazer os danos causados por ex-funcionários que pertenciam ao componente "Zona de perigo" do diagrama de Venn.fonte
Recentemente, também me interessei por ciência de dados como carreira, e quando penso no que aprendi sobre o trabalho em ciência de dados em comparação com os inúmeros cursos de estatística que fiz (e gostei!), Comecei a pensar nos cientistas de dados como cientistas da computação que voltaram sua atenção para os dados. Em particular, observei as seguintes principais diferenças. Observe, porém, que as diferenças parecem humor. O que se segue reflete apenas minhas impressões subjetivas e não reivindico generalidade. Apenas minhas impressões!
Nas estatísticas, você se preocupa muito com distribuições, probabilidades e procedimentos inferenciais (como fazer testes de hipóteses, que são as distribuições subjacentes, etc.). Pelo que entendi, a ciência de dados é mais frequentemente predição e as preocupações com afirmações inferenciais são, em certa medida, absorvidas por procedimentos da ciência da computação, como validação cruzada.
Nos cursos de estatística, geralmente criei meus próprios dados ou usei alguns dados prontos que estão disponíveis em um formato bastante limpo. Isso significa que ele está em um bom formato retangular, em alguma planilha do Excel ou em algo assim que se encaixa perfeitamente na RAM. A limpeza de dados certamente está envolvida, mas nunca tive que lidar com a "extração" de dados da Web, muito menos de bancos de dados que precisavam ser configurados para armazenar uma quantidade de dados que não se encaixa mais na RAM. Minha impressão é que esse aspecto computacional é muito mais dominante na ciência de dados.
Talvez isso reflita minha ignorância sobre o que os estatísticos fazem em trabalhos estatísticos típicos, mas antes da ciência de dados eu nunca pensei em transformar modelos em um produto maior. Havia uma análise a ser feita, um problema estatístico a ser resolvido, algum parâmetro a ser estimado, e é isso. Na ciência de dados, parece que modelos preditivos frequentemente (embora nem sempre) são incorporados a algo maior. Por exemplo, você clica em algum lugar e, em milissegundos, um algoritmo preditivo decide o que está sendo mostrado como resultado. Então, enquanto na estatística, eu sempre me perguntei "que parâmetro podemos estimar e como o fazemos com elegância", parece que na ciência de dados o foco está mais em "o que podemos prever que é potencialmente útil em um produto de dados"? .
Novamente, o acima não tenta dar uma definição geral. Estou apenas apontando as principais diferenças que percebi. Ainda não estou em ciência de dados, mas espero fazer a transição no próximo ano. Nesse sentido, pegue meus dois centavos aqui com um grão de sal.
fonte
Eu digo que um cientista de dados é um papel no qual se cria resultados legíveis para os negócios para as empresas, usando os métodos para tornar o resultado estatisticamente sólido (significativo).
Se alguma parte desta definição não for seguida, falamos sobre um desenvolvedor, um verdadeiro cientista / estatístico ou um engenheiro de dados.
fonte
Eu sempre gosto de abordar a essência do assunto.
fonte
A ciência de dados é uma mistura multidisciplinar de inferência de dados, desenvolvimento de algoritmos e tecnologia para resolver problemas analiticamente complexos. Mas, devido à escassez de cientistas de dados, uma carreira em ciência de dados pode realmente criar inúmeras oportunidades. No entanto, as organizações estão procurando profissionais certificados do SAS, Conselho de Ciência de Dados da América (DASCA), Hortonworks etc. Espero que esta seja uma boa informação!
fonte
Os cientistas de dados têm habilidades muito proficientes no desenvolvimento de Python, MySQL e Java.
Eles têm um entendimento muito claro das funções analíticas, muito bem em matemática, estatística, mineração de dados, habilidades de análise preditiva e também têm um conhecimento muito bom das linguagens de codificação como Python e R.
Muitos cientistas de dados agora têm seu Ph.D. ou o mestrado deles, na verdade, de acordo com pesquisas, apenas 8% tem simplesmente um diploma de bacharel, portanto é muito mais aprofundado.
Construindo modelos estatísticos que tomam decisões com base em dados. Cada decisão pode ser difícil, por exemplo, impedir que uma página seja renderizada, ou flexível, por exemplo, atribuir uma pontuação à maliciosidade de uma página, usada por sistemas descendentes ou humanos.
Realização de experimentos de causalidade que tentam atribuir a causa raiz de um fenômeno observado. Isso pode ser feito projetando experimentos A / B ou se o experimento A / B não for possível aplicar uma abordagem epidemiológica ao problema, por exemplo, modelo causal @ Rubin
Identificação de novos produtos ou recursos provenientes do desbloqueio do valor dos dados; ser um líder de pensamento sobre o valor dos dados. Um bom exemplo disso é o recurso de recomendações de produtos que a Amazon disponibilizou pela primeira vez para um público em massa.
fonte
Para responder à sua pergunta "O que é um cientista de dados?" Talvez valha a pena conhecer a diferença entre um cientista de dados e um mecânico de dados, conforme observado em http://sites.temple.edu/deepstat/data-scientist-and-data-mechanic/
fonte