Qual é a diferença entre Ciência da Computação e Ciência de Dados? [fechadas]

Histórico: Meu doutorado foi em 'Ciência da Computação'. Minha dissertação foi sobre a análise de dados de difração de raios-X e análise de núcleos termicamente perturbados na análise dinâmica geral da densidade molecular de elétrons para a física de estado sólido. O takeaway? Foi muito baseado na ciência.

Na minha opinião, a Ciência Computacional é a busca da ciência, "... uma empresa sistemática que constrói e organiza o conhecimento na forma de explicações e previsões testáveis sobre o universo" ( wiki ), por meios computacionais.

A maioria das posições para 'Data Science', no entanto, parece mais com tipos de trabalho de 'análise de dados'. Ou seja, consultas SQL pesadas, usando modelos R e Python pré-criados (regressão linear, etc.) para tirar conclusões de dados estruturados e não estruturados.

A Ciência da Computação é um superconjunto da Ciência de Dados? Eles são intercambiáveis? A Ciência de Dados é uma "ciência" real? A Ciência Computacional é uma "ciência" real?

data-analysis drjrm3
fonte

Eu acho que a pergunta tem algum valor, mas você precisaria resolvê-la um pouco. Este rascunho de um relatório no CSE pode ser útil. Eles têm alguma menção sobre a relação entre os dois. Você pode pensar em uma relação semelhante à entre a ciência experimental e a teórica, de alguma forma.

nicoguaro

Respostas:

Eles não são intercambiáveis.

A ciência computacional tende a se referir mais ao HPC, a técnicas de simulação (equações diferenciais, dinâmica molecular, etc.), e geralmente é chamada de computação científica.
A ciência de dados tende a se referir à análise de dados intensivamente computacional, como "big data", bioinformática, aprendizado de máquina (otimização), análises bayesianas usando MCMC, etc. Acho que é o mesmo que costumava ser chamado de estatística computacional. Foi a infusão de ciência da computação com estatística, mas muitas das técnicas desenvolvidas abandonaram o rigoroso "teste estatístico" dos Pescadores (clustering, técnicas de validação cruzada, visualização de dados), mas mantiveram a parte dos dados.

A explicação mais clara veio a mim quando eu estava ministrando um workshop sobre Julia para Ciência de Dados e Computação Científica. Os cientistas de dados queriam aprender Julia para fazer análises rápidas de "big data", ou seja, regressões e outros GLMs em grandes dados. Os cientistas computacionais (computadores científicos?) Queriam saber como escrever código facilmente para resolver grandes sistemas lineares em HPCs e GPUs.

Observe que essas são duas maneiras de dizer exatamente os mesmos cálculos, mas com significados muito diferentes. Portanto, em certo sentido, semelhante, mas ainda assim distinto (e existe um cruzamento entre as disciplinas, como usar o aprendizado de máquina para aprender parâmetros dos PDEs a partir dos dados).

Chris Rackauckas
fonte