Eu me consideraria um cientista de dados de jornada. Como a maioria (acho), fiz meus primeiros gráficos e fiz minhas primeiras agregações no ensino médio e na faculdade, usando o Excel. Enquanto eu cursava a faculdade, a pós-graduação e os 7 anos de experiência profissional, rapidamente peguei o que considero ferramentas mais avançadas, como SQL, R, Python, Hadoop, LaTeX, etc.
Estamos entrevistando uma posição de cientista de dados e um candidato se anuncia como um "cientista de dados sênior" (um termo bastante confuso hoje em dia) com mais de 15 anos de experiência. Quando perguntado qual era seu conjunto de ferramentas preferido, ele respondeu que era o Excel.
Tomei isso como prova de que ele não era tão experiente quanto seu currículo alegaria, mas não tinha certeza. Afinal, só porque não é minha ferramenta preferida, não significa que não seja de outras pessoas. Os cientistas de dados experientes usam o Excel? Você pode assumir uma falta de experiência de alguém que usa principalmente o Excel?
\LaTeX{}
então eu não os contrataria.Respostas:
A maioria das pessoas não técnicas geralmente usa o Excel como uma substituição de banco de dados. Eu acho que é errado, mas tolerável. No entanto, alguém com experiência em análise de dados simplesmente não pode usar o Excel como sua principal ferramenta (excluindo a tarefa óbvia de examinar os dados pela primeira vez). Isso ocorre porque o Excel nunca foi destinado a esse tipo de análise e, como consequência disso, é incrivelmente fácil cometer erros no Excel (isso não significa que não é incrivelmente fácil cometer outro tipo de erro ao usar outras ferramentas, mas O Excel agrava ainda mais a situação.)
Para resumir o que o Excel não possui e é obrigatório para qualquer análise:
Mais recursos:
Grupo de interesse de riscos em planilhas europeias - Histórias de terror
Você não deve usar uma planilha para trabalhos importantes (quero dizer)
O Excel da Microsoft pode ser o software mais perigoso do planeta
Destrua seus dados usando o Excel com este truque estranho!
É difícil acertar as planilhas do Excel
fonte
df.plot()
) e exportar sua saída para csv (df.to_csv('output.csv')
). Lembre-se de que as análises de dados geralmente exigem muito mais do que filtragem e plotagem. Portanto, o foco deve estar na correção, portanto, é necessário dissociar a apresentação da análise. Faça sua análise em Python (ou outra linguagem), compartilhe sua saída em csv, se é isso que você deseja.Vi alguns cientistas de dados experientes que usam o Excel - devido à sua preferência ou devido às especificidades de negócios e do ambiente de TI do local de trabalho (por exemplo, muitas instituições financeiras usam o Excel como sua principal ferramenta, pelo menos, para modelagem). No entanto, acho que os cientistas de dados mais experientes reconhecem a necessidade de usar ferramentas, ideais para tarefas específicas, e aderem a essa abordagem.
Não, você não pode. Este é o corolário dos meus pensamentos acima mencionados. A ciência de dados não implica automaticamente big data - há muito trabalho em ciência de dados com o qual o Excel pode lidar muito bem. Dito isto, se um cientista de dados (mesmo um experiente) não tem conhecimento (pelo menos básico) de ferramentas modernas de ciência de dados, incluindo ferramentas focadas em big data, isso é um pouco perturbador. Isso ocorre porque a experimentação está profundamente enraizada na natureza da ciência de dados, devido à análise exploratória de dados ser uma parte essencial e, até mesmo, crucial. Portanto, uma pessoa que não tem vontade de explorar outras ferramentas em seu domínio pode ter uma classificação mais baixa entre os candidatos no ajuste geral para uma posição de ciência de dados (é claro, isso é bastante confuso, pois algumas pessoas são muito rápidas em aprender novo material, mais,
Portanto, em conclusão, acho que a melhor resposta que um cientista de dados experiente pode ter para uma pergunta em relação à sua ferramenta preferida é a seguinte: Minha ferramenta preferida é a ideal, que é a que melhor se ajusta à tarefa em questão.
fonte
Eu acho que a maioria das pessoas está respondendo sem ter um bom conhecimento do Excel. O Excel (desde 2010) possui um banco de dados colunar [multi-tabela] na memória, chamado power pivot (que permite entrada de csv / bancos de dados etc.), permitindo armazenar milhões de linhas (não precisa ser carregado em uma planilha) . Ele também possui uma ferramenta ETL chamada consulta de poder, que permite ler os dados de várias fontes (incluindo o hadoop). E possui uma ferramenta de visualização (power view & power map). Muita ciência de dados está fazendo agregação e análise top-n na qual o pivô de energia é excelente. Adicione a isso a natureza interativa dessas ferramentas - qualquer usuário pode arrastar e soltar facilmente uma dimensão na qual deseja dividir os resultados e espero que você possa ver os benefícios. Então, sim, você não pode fazer aprendizado de máquina,
fonte
Em seu livro Data Smart, John Foreman resolve problemas comuns de ciência de dados (clustering, bayes ingênuos, métodos de ensemble, ...) usando o Excel. Na verdade, é sempre bom ter algum conhecimento de Python ou R, mas acho que o Excel ainda pode fazer a maior parte do trabalho!
fonte
Estou surpreso com quantas pessoas estão ligadas à frieza da profissão e não ao trabalho real a ser feito. O Excel é uma excelente ferramenta, com Powerpivot grátis, Powerquery, ele pode fazer muito. (eles não estão disponíveis no OS X). E se você conhece o VBA, pode fazer algumas coisas legais. E então, se você adicionar no topo desse conhecimento de python, poderá combinar as primeiras etapas de extração e manipulação de dados com python e usar o excel, especialmente se você é uma pessoa visual. Com o Excel, você pode realmente inspecionar dados agregados antes de alimentar outros processos ou visualizar. É uma ferramenta indispensável.
fonte
O Excel permite apenas dados muito pequenos e não possui nada que seja suficientemente útil e flexível para aprendizado de máquina ou mesmo apenas plotagem. Tudo o que eu faria no Excel é olhar para um subconjunto dos dados para dar uma primeira olhada nos valores para garantir que não perca nada visível a olho nu.
Portanto, se sua ferramenta favorita é o Excel, isso pode sugerir que ele raramente lida com aprendizado de máquina, estatísticas, tamanhos de dados maiores ou qualquer plotagem avançada. Alguém assim eu não chamaria de cientista de dados. É claro que os títulos não importam e isso depende muito de seus requisitos.
Em qualquer caso, não faça um julgamento por declarações de experiência ou currículo. Eu vi currículos e conheci as pessoas por trás disso.
Não assuma. Teste ele! Você deve ser bom o suficiente para configurar um teste. Foi demonstrado que apenas entrevistas são inúteis para determinar habilidades (elas apenas mostram personalidade). Configure um teste de aprendizado supervisionado muito simples e deixe-o usar qualquer ferramenta que desejar.
E se você deseja rastrear as pessoas em uma entrevista primeiro, pergunte a ele sobre insights muito básicos, mas importantes sobre estatísticas ou aprendizado de máquina. Algo que todos os seus funcionários atuais sabem.
fonte
Deixe-me esclarecer primeiro que estou começando minha jornada na ciência de dados do ponto de vista de programador e desenvolvedor de banco de dados. Não sou especialista em ciência de dados há 10 anos nem um deus estatístico. No entanto, trabalho como cientista de dados e grandes conjuntos de dados para uma empresa que trabalha com clientes bastante grandes em todo o mundo.
Pela minha experiência, o cientista de dados usa as ferramentas necessárias para realizar o trabalho. Excel, R, SAS, Python e muito mais são ferramentas em uma caixa de ferramentas para um bom cientista de dados. O melhor pode usar uma ampla variedade de ferramentas para analisar e processar dados.
Portanto, se você se compara ao R e ao Python, provavelmente está fazendo tudo errado no mundo da ciência de dados. Um bom cientista de dados usa os dois quando faz sentido usar um sobre o outro. Isso também se aplica ao Excel.
Eu acho que é bastante difícil encontrar alguém que tenha experiência em tantas ferramentas e linguagens diferentes e que seja ótimo em tudo. Também acho que vai ser difícil encontrar cientistas de dados especificamente que não apenas possam programar algoritmos complexos, mas também saiba como usá-los do ponto de vista estatístico.
A maioria dos cientistas de dados com quem trabalhei tem cerca de dois sabores. Aqueles que podem programar e aqueles que não podem. Eu raramente trabalho com cientistas de dados que podem extrair dados em Python, manipulá-los com algo como Pandas, ajustar um modelo aos dados em R e depois apresentá-los ao gerenciamento no final da semana.
Quero dizer, eu sei que eles existem. Eu li muitos blogs de ciência de dados de caras desenvolvendo scrappers da Web, inserindo-o no Hadoop, retirando-o em Python, programando coisas complexas e executando-o no R para inicializar. Eles existem. Eles estão lá fora. Só não encontrei muitos que podem fazer tudo isso. Talvez seja apenas a minha área?
Então, isso significa apenas se especializar em uma coisa ruim? Não. Muitos dos meus amigos se especializam em apenas um idioma principal e o matam. Conheço muitos caras de dados que só conhecem R e o matam. Também conheço muitas pessoas que usam o Excel para analisar dados, porque essa é a única coisa que a maioria dos cientistas não-dados pode abrir e usar (especialmente em empresas B2B). A pergunta que você realmente precisa responder é se essa é a ÚNICA coisa que você precisa para esta posição? E o mais importante, eles podem aprender coisas novas?
PS
A ciência de dados não se restringe apenas a "BIG DATA" ou NoSQL.
fonte
O Excel pode ser uma excelente ferramenta para análise exploratória de dados, ele realmente depende de suas necessidades e, é claro, tem suas limitações como qualquer ferramenta, mas o Excel definitivamente merece um lugar no hall da fama da ciência de dados.
Vale lembrar que, na prática, a maioria dos usuários explorará um conjunto de dados bastante reduzido (criado a partir de uma consulta SQL).
O Excel é poderoso para explorar dados quando você usa o objeto "tabela" em combinação com tabelas dinâmicas, a visualização é de 1 a 2 cliques no máximo e muitos gráficos do excel no powerpoint ficam ótimos, a menos que você esteja procurando criar algo muito personalizado, por exemplo, em um contexto científico da computação. A natureza interativa significa que você pode explorar rapidamente.
Os benefícios do objeto "tabela" é que, à medida que você transforma os dados ainda mais no Excel, para explorar novas distribuições, todas as tabelas dinâmicas lembram a variável.
Onde o excel é fraco é que a lista de fórmulas é sem dúvida limitativa, por exemplo, uma instrução de caso SQL ou uma declaração python é muito mais flexível do que uma cadeia interminável de funções if.
Realmente depende de suas necessidades, mas o Excel definitivamente merece um lugar no hall da fama da ciência de dados.
Anedota interessante: a equipe que trabalha no algoritmo de feed de notícias do Facebook costuma ser vista jogando com o Excel e muitas planilhas.
fonte
Ensino um curso de Business Analytics que inclui SQL e Excel. Eu ensino em uma escola de negócios para que meus alunos não sejam os mais capazes tecnicamente, e é por isso que não usei algo como R, Pandas ou Weka. Dito isto, o Excel é uma ferramenta poderosa o suficiente para ser usada em algumas análises de dados. Ele obtém a maior parte desse poder de sua capacidade de atuar como um front end do SQL Server Analysis Services (um componente do SQL Server para análise de dados) usando o Suplemento de Mineração de Dados.
O SSAS permite construir árvores de decisão, executar regressões lineares e logísticas e até criar redes bayesianas ou neurais. Descobri que usar o Excel como front-end é uma abordagem menos ameaçadora para fazer esses tipos de análise, pois todos eles usaram o Excel antes. A maneira de usar o SSAS sem o Excel é através de uma versão especializada do Visual Studio e essa não é a ferramenta mais amigável do mercado. Ao combiná-lo com outras ferramentas do Excel, como o Power Query e o Power Pivot, você pode fazer uma análise bastante sofisticada dos dados.
Divulgação completa, provavelmente não vou usá-lo novamente quando ensinar a nova versão do curso no próximo ano (vamos dividi-lo em dois cursos para que possamos nos concentrar mais na análise de dados). Mas isso é apenas porque a universidade conseguiu licenças suficientes para o Alteryx, o que é ainda mais fácil de usar e mais poderoso, mas custa US $ 4-85k / usuário / ano, se você não conseguir obtê-lo gratuitamente de alguma forma. Diga o que quiser sobre o Excel, mas supera esse preço.
fonte
O Excel pode ser uma excelente ferramenta. Claro, dependendo do que você faz, pode não ser o ideal, mas, se for, seria quase tolice descartá-lo. Embora demore um pouco para configurar seu pipeline, no Excel, você pode atingir o terreno praticamente em execução: interface do usuário incorporada, fácil extensibilidade via VBA, mesmo com Python (por exemplo, https://www.xlwings.org ). Pode não ser o ideal quando se trata de coisas como controle de versão, mas existem maneiras de fazê-lo funcionar com o Git (por exemplo, https://www.xltrail.com/blog/auto-export-vba-commit-hook ).
fonte
Esse indivíduo trabalha com 'Big Data' e usa principalmente o Excel? A sério?!?! O Excel manipula apenas até 1, 048, 576 linhas de dados em uma única planilha. Para conjuntos de dados além disso, ele precisa de um plug-in. Também as tabelas dinâmicas no Excel têm restrições severas na análise que pode ser executada usando-as.
Quais tipos de tarefas de análise de dados precisariam ser executadas no trabalho para o qual você está recrutando?
Sugiro que você conduza entrevistas que incluam testes do tipo de tarefas que precisarão ser realizadas no trabalho em consideração. Sem violar a confidencialidade, a privacidade ou a proteção de dados, a tarefa de programação ou análise de dados definida como parte da entrevista deve incluir um subconjunto (pseudônimo) de um conjunto de dados relevante para a postagem que está sendo entrevistada. Caso contrário, você pode acabar recrutando alguém que seja articulado em uma entrevista baseada em conversas, mas que não seja realmente competente para realizar o trabalho real.
fonte