Os cientistas de dados usam o Excel?

37

Eu me consideraria um cientista de dados de jornada. Como a maioria (acho), fiz meus primeiros gráficos e fiz minhas primeiras agregações no ensino médio e na faculdade, usando o Excel. Enquanto eu cursava a faculdade, a pós-graduação e os 7 anos de experiência profissional, rapidamente peguei o que considero ferramentas mais avançadas, como SQL, R, Python, Hadoop, LaTeX, etc.

Estamos entrevistando uma posição de cientista de dados e um candidato se anuncia como um "cientista de dados sênior" (um termo bastante confuso hoje em dia) com mais de 15 anos de experiência. Quando perguntado qual era seu conjunto de ferramentas preferido, ele respondeu que era o Excel.

Tomei isso como prova de que ele não era tão experiente quanto seu currículo alegaria, mas não tinha certeza. Afinal, só porque não é minha ferramenta preferida, não significa que não seja de outras pessoas. Os cientistas de dados experientes usam o Excel? Você pode assumir uma falta de experiência de alguém que usa principalmente o Excel?

JHowIX
fonte
A maioria dos anúncios de emprego em ciência de dados solicita habilidades específicas, como R, Hadoop, qualquer que seja. Você não mencionou isso no seu anúncio? A menos que seu novo Cientista de dados está indo trabalhar em uma bolha, em seguida, ele ou ela terá que trabalhar com a equipe e, provavelmente, necessidade de trabalhar com o software equipe padrão ...
Spacedman
11
Bem, se eles não usarem, \LaTeX{}então eu não os contrataria.
Estou
11
@ Spacedman: eu forneci a história para um contexto anedótico, mas estou realmente mais interessado nas opiniões das pessoas sobre o Excel do que em contratar dicas. Nossa equipe é livre para usar qualquer ferramenta que desejar.
JHowIX
11
Sim, veja aqui . Para a piada prejudicada, veja aqui também .
precisa saber é o seguinte
11
Independentemente dos anos especificados, eu esperaria uma lista Pro / Con de pelo menos três ferramentas de um cientista de dados. Eles precisam mostrar capacidade de investigar, ponderar opções e comunicar resoluções. Mesmo, ou especialmente, em uma entrevista, eu esperaria ver um envolvimento real e uma capacidade de expandir além de uma pergunta potencialmente grande, mas atualmente ausente.
Dave

Respostas:

28

A maioria das pessoas não técnicas geralmente usa o Excel como uma substituição de banco de dados. Eu acho que é errado, mas tolerável. No entanto, alguém com experiência em análise de dados simplesmente não pode usar o Excel como sua principal ferramenta (excluindo a tarefa óbvia de examinar os dados pela primeira vez). Isso ocorre porque o Excel nunca foi destinado a esse tipo de análise e, como consequência disso, é incrivelmente fácil cometer erros no Excel (isso não significa que não é incrivelmente fácil cometer outro tipo de erro ao usar outras ferramentas, mas O Excel agrava ainda mais a situação.)

Para resumir o que o Excel não possui e é obrigatório para qualquer análise:

  1. Reprodutibilidade. Uma análise de dados precisa ser reproduzível.
  2. Controle de versão. Bom para colaboração e também bom para reprodutibilidade. Em vez de usar xls, use csv (ainda muito complexo e com muitos casos de borda, mas os analisadores de csv são razoavelmente bons hoje em dia).
  3. Teste. Se você não tiver testes, seu código está quebrado. Se seu código estiver quebrado, sua análise será pior que inútil.
  4. Manutenção.
  5. Precisão. Precisão numérica, análise precisa de datas, entre outros, estão realmente ausentes no Excel.

Mais recursos:

Grupo de interesse de riscos em planilhas europeias - Histórias de terror

Você não deve usar uma planilha para trabalhos importantes (quero dizer)

O Excel da Microsoft pode ser o software mais perigoso do planeta

Destrua seus dados usando o Excel com este truque estranho!

É difícil acertar as planilhas do Excel

Robert Smith
fonte
Para analisar os dados e analisá-los rapidamente, existem ferramentas amplamente aceitas pelos profissionais como comparáveis, mas melhores que o Excel? Sou um cientista de dados novato e uso principalmente o SQL (Postgre), mas algo como o Excel pode ser mais rápido de se trabalhar, se você está apenas tentando algo.
Sudo
11
Além disso, tenho que reclamar que o CSV não é um padrão. Você realmente precisa ter certeza de que tudo o que está abrindo concorda com o que o produziu. O OpenOffice faz tudo certo e permite escolher muitas opções de CSV quando você carrega, em vez de assumir qualquer coisa sobre o formato.
sudo
@sudo As ferramentas dependem da sua linguagem de programação preferida, que é principalmente uma preferência pessoal. Apenas para dar alguns exemplos, R tem sido historicamente uma boa escolha, Python cresceu em popularidade para análise de dados nos últimos anos, Julia é uma recém-chegada muito promissora no campo. A maioria das linguagens de programação fornece bibliotecas maduras que fornecem estruturas (por exemplo, quadros de dados) particularmente adequadas para análise de dados e todas elas são melhores que o Excel. O CSV foi padronizado, mas há detalhes que são implementados de maneira diferente, mas isso não deve ser um grande problema no seu trabalho diário.
Robert Smith
Eu uso o Python para processamento leve, mas ele realmente não serve aos propósitos do Excel. Por exemplo, no Excel, você pode usar ferramentas como filtro automático e gráficos interativos. Normalmente, eu envio meus dados para um CSV para que meus superiores olhem no Excel ou algo assim.
sudo
@sudo Então você quer pandas. O Pandas fornece muitos métodos para manipular seus dados. Isso inclui subconjuntos baseados em índice, colunas ou condições, que são muito mais flexíveis e eficientes que o filtro automático. Então você pode plotar o resultado ( df.plot()) e exportar sua saída para csv ( df.to_csv('output.csv')). Lembre-se de que as análises de dados geralmente exigem muito mais do que filtragem e plotagem. Portanto, o foco deve estar na correção, portanto, é necessário dissociar a apresentação da análise. Faça sua análise em Python (ou outra linguagem), compartilhe sua saída em csv, se é isso que você deseja.
Robert Smith
15

Os cientistas de dados experientes usam o Excel?

Vi alguns cientistas de dados experientes que usam o Excel - devido à sua preferência ou devido às especificidades de negócios e do ambiente de TI do local de trabalho (por exemplo, muitas instituições financeiras usam o Excel como sua principal ferramenta, pelo menos, para modelagem). No entanto, acho que os cientistas de dados mais experientes reconhecem a necessidade de usar ferramentas, ideais para tarefas específicas, e aderem a essa abordagem.

Você pode assumir uma falta de experiência de alguém que usa principalmente o Excel?

Não, você não pode. Este é o corolário dos meus pensamentos acima mencionados. A ciência de dados não implica automaticamente big data - há muito trabalho em ciência de dados com o qual o Excel pode lidar muito bem. Dito isto, se um cientista de dados (mesmo um experiente) não tem conhecimento (pelo menos básico) de ferramentas modernas de ciência de dados, incluindo ferramentas focadas em big data, isso é um pouco perturbador. Isso ocorre porque a experimentação está profundamente enraizada na natureza da ciência de dados, devido à análise exploratória de dados ser uma parte essencial e, até mesmo, crucial. Portanto, uma pessoa que não tem vontade de explorar outras ferramentas em seu domínio pode ter uma classificação mais baixa entre os candidatos no ajuste geral para uma posição de ciência de dados (é claro, isso é bastante confuso, pois algumas pessoas são muito rápidas em aprender novo material, mais,

Portanto, em conclusão, acho que a melhor resposta que um cientista de dados experiente pode ter para uma pergunta em relação à sua ferramenta preferida é a seguinte: Minha ferramenta preferida é a ideal, que é a que melhor se ajusta à tarefa em questão.

Aleksandr Blekh
fonte
5
Eu nunca culparia alguém por não conhecer o Hadoop, mas mesmo em pequenas situações de dados, sinto que R é superior. Há simplesmente uma miríade de coisas que você pode fazer com o R que você não pode fazer com o Excel. Preocupa-me este indivíduo não tem "descoberto" que em seus mais de 15 anos
JHowIX
@JHowIX: Você conhece o termo "bom o suficiente"? Eu também sou um grande fã de R e preferiria a muitas ferramentas, incluindo o Excel, qualquer dia. No entanto, o fato de R poder fazer mais não implica que o Excel (ou qualquer outra ferramenta adequada para uma tarefa) seja inferior em um contexto de trabalho específico. Portanto, embora sua preocupação seja válida (refiro-me a isso usando a palavra "perturbador"), pode ser que a pessoa não tenha tido a oportunidade / necessidade de fazer isso. Lembre-se de que você está falando de tempo, quando R existia, mas era popular principalmente na academia e a ciência de dados (denominada análise de dados ou algo semelhante) não estava tão quente quanto hoje.
Aleksandr Blekh 03/04
13

Eu acho que a maioria das pessoas está respondendo sem ter um bom conhecimento do Excel. O Excel (desde 2010) possui um banco de dados colunar [multi-tabela] na memória, chamado power pivot (que permite entrada de csv / bancos de dados etc.), permitindo armazenar milhões de linhas (não precisa ser carregado em uma planilha) . Ele também possui uma ferramenta ETL chamada consulta de poder, que permite ler os dados de várias fontes (incluindo o hadoop). E possui uma ferramenta de visualização (power view & power map). Muita ciência de dados está fazendo agregação e análise top-n na qual o pivô de energia é excelente. Adicione a isso a natureza interativa dessas ferramentas - qualquer usuário pode arrastar e soltar facilmente uma dimensão na qual deseja dividir os resultados e espero que você possa ver os benefícios. Então, sim, você não pode fazer aprendizado de máquina,

seanv507
fonte
Interessante. Estou acostumado com as coisas lentas e com erros que são o Excel 1998-2008. Tenho que experimentar os mais novos.
Sudo
Eu gostaria de poder endossar a resposta de seanv507 um milhão de vezes. A maioria das respostas aqui mostra que muitas pessoas não sabem o quão poderosas são as versões mais recentes do Excel. E nota por favor que quando você usar as novas ferramentas de análise de dados (por exemplo, consulta Energia, pivô poder, DAX) você não está mais limitado a 1, 048, 576 linhas de dados e uma série de outras limitações, sem essas ferramentas
maze55555
Pessoas sem formação comercial não usam o Excel. Período. E, considerando que os graduados em administração não costumam entrar em ciência de dados, você pode entender a ignorância.
NoName 5/11
5

Em seu livro Data Smart, John Foreman resolve problemas comuns de ciência de dados (clustering, bayes ingênuos, métodos de ensemble, ...) usando o Excel. Na verdade, é sempre bom ter algum conhecimento de Python ou R, mas acho que o Excel ainda pode fazer a maior parte do trabalho!

Anil Narassiguin
fonte
2
Na verdade, fiquei bastante surpreso ao ler o livro que você poderia fazer muito com o Excel. E que tinha resolvedores evolutivos e outros não lineares embutidos! Uma boa vantagem do Excel é que seu trabalho, especialmente se você gosta de código reproduzível, é acessível a mais pessoas que o código R ou Python.
Victor Ma
5

Estou surpreso com quantas pessoas estão ligadas à frieza da profissão e não ao trabalho real a ser feito. O Excel é uma excelente ferramenta, com Powerpivot grátis, Powerquery, ele pode fazer muito. (eles não estão disponíveis no OS X). E se você conhece o VBA, pode fazer algumas coisas legais. E então, se você adicionar no topo desse conhecimento de python, poderá combinar as primeiras etapas de extração e manipulação de dados com python e usar o excel, especialmente se você é uma pessoa visual. Com o Excel, você pode realmente inspecionar dados agregados antes de alimentar outros processos ou visualizar. É uma ferramenta indispensável.

Donatas Svilpa
fonte
4

O Excel permite apenas dados muito pequenos e não possui nada que seja suficientemente útil e flexível para aprendizado de máquina ou mesmo apenas plotagem. Tudo o que eu faria no Excel é olhar para um subconjunto dos dados para dar uma primeira olhada nos valores para garantir que não perca nada visível a olho nu.

Portanto, se sua ferramenta favorita é o Excel, isso pode sugerir que ele raramente lida com aprendizado de máquina, estatísticas, tamanhos de dados maiores ou qualquer plotagem avançada. Alguém assim eu não chamaria de cientista de dados. É claro que os títulos não importam e isso depende muito de seus requisitos.

Em qualquer caso, não faça um julgamento por declarações de experiência ou currículo. Eu vi currículos e conheci as pessoas por trás disso.

Não assuma. Teste ele! Você deve ser bom o suficiente para configurar um teste. Foi demonstrado que apenas entrevistas são inúteis para determinar habilidades (elas apenas mostram personalidade). Configure um teste de aprendizado supervisionado muito simples e deixe-o usar qualquer ferramenta que desejar.

E se você deseja rastrear as pessoas em uma entrevista primeiro, pergunte a ele sobre insights muito básicos, mas importantes sobre estatísticas ou aprendizado de máquina. Algo que todos os seus funcionários atuais sabem.

Gerenuk
fonte
2

Deixe-me esclarecer primeiro que estou começando minha jornada na ciência de dados do ponto de vista de programador e desenvolvedor de banco de dados. Não sou especialista em ciência de dados há 10 anos nem um deus estatístico. No entanto, trabalho como cientista de dados e grandes conjuntos de dados para uma empresa que trabalha com clientes bastante grandes em todo o mundo.

Pela minha experiência, o cientista de dados usa as ferramentas necessárias para realizar o trabalho. Excel, R, SAS, Python e muito mais são ferramentas em uma caixa de ferramentas para um bom cientista de dados. O melhor pode usar uma ampla variedade de ferramentas para analisar e processar dados.

Portanto, se você se compara ao R e ao Python, provavelmente está fazendo tudo errado no mundo da ciência de dados. Um bom cientista de dados usa os dois quando faz sentido usar um sobre o outro. Isso também se aplica ao Excel.

Eu acho que é bastante difícil encontrar alguém que tenha experiência em tantas ferramentas e linguagens diferentes e que seja ótimo em tudo. Também acho que vai ser difícil encontrar cientistas de dados especificamente que não apenas possam programar algoritmos complexos, mas também saiba como usá-los do ponto de vista estatístico.

A maioria dos cientistas de dados com quem trabalhei tem cerca de dois sabores. Aqueles que podem programar e aqueles que não podem. Eu raramente trabalho com cientistas de dados que podem extrair dados em Python, manipulá-los com algo como Pandas, ajustar um modelo aos dados em R e depois apresentá-los ao gerenciamento no final da semana.

Quero dizer, eu sei que eles existem. Eu li muitos blogs de ciência de dados de caras desenvolvendo scrappers da Web, inserindo-o no Hadoop, retirando-o em Python, programando coisas complexas e executando-o no R para inicializar. Eles existem. Eles estão lá fora. Só não encontrei muitos que podem fazer tudo isso. Talvez seja apenas a minha área?

Então, isso significa apenas se especializar em uma coisa ruim? Não. Muitos dos meus amigos se especializam em apenas um idioma principal e o matam. Conheço muitos caras de dados que só conhecem R e o matam. Também conheço muitas pessoas que usam o Excel para analisar dados, porque essa é a única coisa que a maioria dos cientistas não-dados pode abrir e usar (especialmente em empresas B2B). A pergunta que você realmente precisa responder é se essa é a ÚNICA coisa que você precisa para esta posição? E o mais importante, eles podem aprender coisas novas?

PS

A ciência de dados não se restringe apenas a "BIG DATA" ou NoSQL.

Glen Swan
fonte
Oi Glen, obrigado por seus comentários. Dê uma olhada no seguinte link. É de Swami Chandrasekaran, que liderou a equipe do Watson na IBM, um cientista de dados bastante experiente na minha opinião. Ele tem a programação como basicamente a terceira coisa que um cientista de dados precisa saber, por trás de "Fundamentos" e Estatística. De acordo com o roteiro, depois de saber programar, você estará 15% do caminho para ser um cientista de dados. Com base nisso, posso discordar um pouco da afirmação de que os verdadeiros cientistas de dados têm um sabor "não programático". nirvacana.com/thoughts/becoming-a-data-scientist
JHowIX
Bem, eu apenas digo isso com base na experiência. A maioria dos cursos de estatística e ciência de dados ainda não cobre programação fora do que você precisa para os programas estatísticos populares. Devido a isso, a maioria dos caras que encontro no mundo das estatísticas não é boa em programação. É como uma reflexão tardia quando eles entram no mundo real e percebem que isso ajuda.
Glen Swan
1

O Excel pode ser uma excelente ferramenta para análise exploratória de dados, ele realmente depende de suas necessidades e, é claro, tem suas limitações como qualquer ferramenta, mas o Excel definitivamente merece um lugar no hall da fama da ciência de dados.

Vale lembrar que, na prática, a maioria dos usuários explorará um conjunto de dados bastante reduzido (criado a partir de uma consulta SQL).

O Excel é poderoso para explorar dados quando você usa o objeto "tabela" em combinação com tabelas dinâmicas, a visualização é de 1 a 2 cliques no máximo e muitos gráficos do excel no powerpoint ficam ótimos, a menos que você esteja procurando criar algo muito personalizado, por exemplo, em um contexto científico da computação. A natureza interativa significa que você pode explorar rapidamente.

Os benefícios do objeto "tabela" é que, à medida que você transforma os dados ainda mais no Excel, para explorar novas distribuições, todas as tabelas dinâmicas lembram a variável.

Onde o excel é fraco é que a lista de fórmulas é sem dúvida limitativa, por exemplo, uma instrução de caso SQL ou uma declaração python é muito mais flexível do que uma cadeia interminável de funções if.

Realmente depende de suas necessidades, mas o Excel definitivamente merece um lugar no hall da fama da ciência de dados.

Anedota interessante: a equipe que trabalha no algoritmo de feed de notícias do Facebook costuma ser vista jogando com o Excel e muitas planilhas.

William Mahmood
fonte
0

Ensino um curso de Business Analytics que inclui SQL e Excel. Eu ensino em uma escola de negócios para que meus alunos não sejam os mais capazes tecnicamente, e é por isso que não usei algo como R, Pandas ou Weka. Dito isto, o Excel é uma ferramenta poderosa o suficiente para ser usada em algumas análises de dados. Ele obtém a maior parte desse poder de sua capacidade de atuar como um front end do SQL Server Analysis Services (um componente do SQL Server para análise de dados) usando o Suplemento de Mineração de Dados.

O SSAS permite construir árvores de decisão, executar regressões lineares e logísticas e até criar redes bayesianas ou neurais. Descobri que usar o Excel como front-end é uma abordagem menos ameaçadora para fazer esses tipos de análise, pois todos eles usaram o Excel antes. A maneira de usar o SSAS sem o Excel é através de uma versão especializada do Visual Studio e essa não é a ferramenta mais amigável do mercado. Ao combiná-lo com outras ferramentas do Excel, como o Power Query e o Power Pivot, você pode fazer uma análise bastante sofisticada dos dados.

Divulgação completa, provavelmente não vou usá-lo novamente quando ensinar a nova versão do curso no próximo ano (vamos dividi-lo em dois cursos para que possamos nos concentrar mais na análise de dados). Mas isso é apenas porque a universidade conseguiu licenças suficientes para o Alteryx, o que é ainda mais fácil de usar e mais poderoso, mas custa US $ 4-85k / usuário / ano, se você não conseguir obtê-lo gratuitamente de alguma forma. Diga o que quiser sobre o Excel, mas supera esse preço.

James Endicott
fonte
0

O Excel pode ser uma excelente ferramenta. Claro, dependendo do que você faz, pode não ser o ideal, mas, se for, seria quase tolice descartá-lo. Embora demore um pouco para configurar seu pipeline, no Excel, você pode atingir o terreno praticamente em execução: interface do usuário incorporada, fácil extensibilidade via VBA, mesmo com Python (por exemplo, https://www.xlwings.org ). Pode não ser o ideal quando se trata de coisas como controle de versão, mas existem maneiras de fazê-lo funcionar com o Git (por exemplo, https://www.xltrail.com/blog/auto-export-vba-commit-hook ).

Bjoern Stiel
fonte
-2

Esse indivíduo trabalha com 'Big Data' e usa principalmente o Excel? A sério?!?! O Excel manipula apenas até 1, 048, 576 linhas de dados em uma única planilha. Para conjuntos de dados além disso, ele precisa de um plug-in. Também as tabelas dinâmicas no Excel têm restrições severas na análise que pode ser executada usando-as.

Quais tipos de tarefas de análise de dados precisariam ser executadas no trabalho para o qual você está recrutando?

Sugiro que você conduza entrevistas que incluam testes do tipo de tarefas que precisarão ser realizadas no trabalho em consideração. Sem violar a confidencialidade, a privacidade ou a proteção de dados, a tarefa de programação ou análise de dados definida como parte da entrevista deve incluir um subconjunto (pseudônimo) de um conjunto de dados relevante para a postagem que está sendo entrevistada. Caso contrário, você pode acabar recrutando alguém que seja articulado em uma entrevista baseada em conversas, mas que não seja realmente competente para realizar o trabalho real.

dac2002
fonte
Ninguém disse 'big data'. Eles disseram 'cientista de dados'. Nem todos os dados são 'big data'. Trabalhei com cientistas de dados experientes que usaram todo o R, Python, SQL e Excel em um projeto. Nem toda análise de dados é programática ou com script. Como já foi dito em outros lugares, vagas vagas = = diferentes tipos de cientistas de dados.
21417 smci