O Excel é suficiente para a ciência de dados?

10

Estou no processo de preparação para ministrar um curso introdutório sobre ciência de dados usando a linguagem de programação R. Meu público é formado por estudantes de graduação em negócios. Um estudante de graduação em negócios típico não tem experiência em programação de computadores, mas cursou algumas classes que usam o Excel.

Pessoalmente, estou muito confortável com R (ou outras linguagens de programação) porque me formei em ciência da computação. No entanto, tenho a sensação de que muitos de meus alunos se sentirão desconfiados de aprender uma linguagem de programação porque isso pode parecer difícil para eles.

Eu tenho alguma familiaridade com o Excel e acredito que, embora o Excel possa ser útil para ciência de dados simples, é necessário que os alunos aprendam uma linguagem de programação séria para ciência de dados (por exemplo, R ou Python). Como convencer a mim e aos alunos que o Excel é insuficiente para um estudante sério de negócios que estuda ciência de dados e que é necessário que eles aprendam alguma programação?

Editado em resposta ao comentário

Aqui estão alguns dos tópicos que abordarei:

  • Processamento e limpeza de dados
  • Como manipular uma tabela de dados, por exemplo, selecionar um subconjunto de linhas (filtro), adicionar novas variáveis ​​(alterar), classificar linhas por colunas
  • Associações SQL usando o pacote dplyr
  • Como desenhar gráficos (gráficos de dispersão, gráficos de barras, histogramas etc.) usando o pacote ggplot2
  • Como estimar e interpretar modelos estatísticos, como regressão linear, regressão logística, árvores de classificação e vizinhos k-mais próximos

Como não conheço muito bem o Excel, não sei se todas essas tarefas podem ser realizadas facilmente no Excel.

Eu gosto de codificar
fonte
Sem saber o que está no seu currículo, esta pergunta não pode ser respondida. Dito isto, você deve dar uma olhada no Power Pivot / Data Model no Excel. Você pode manipular facilmente conjuntos de dados de vários gigabytes com milhões de linhas no Excel atualmente e é rápido.
Gaius
@Gaius Adicionei alguns detalhes do que quero ensinar no curso
Gosto de codificar
Seus pontos 1-4 são bem suportados pelo modelo de dados support.office.com/en-us/article/... - para o ponto 5 Gostaria de sugerir o nível gratuito de AzureML studio.azureml.net
Gaius
AzureML também trabalha com R btw
Gaius
4
Sobre o último ponto - dê uma olhada no livro "Smart Data" por John Foreman - amazon.com/Data-Smart-Science-Transform-Information/dp/...
Gregory Demin

Respostas:

8

Antes de mais nada, confira este post . Há muitas razões pelas quais o Excel é inferior a outras soluções, em relação às tarefas de ciência de dados. O Excel também não pode lidar com grandes conjuntos de dados (centenas de milhares de registros - para não mencionar nada nas proximidades do Big Data ), dados de imagem e som.

O Excel é bom para tarefas simples relacionadas a planilhas; enfatiza mais a apresentação e a facilidade de uso , além de ter um suporte mínimo para realmente analisar os dados. A menos que tudo que você queira fazer seja calcular medidas estatísticas simples (média, média etc.) ou criar um modelo muito simples (por exemplo, regressão linear), o Excel é ineficiente. Dito isto, 99% do trabalho que uma empresa precisa lidar com dados é simples o suficiente para ser gerenciado através do Excel.

No entanto, a Data Science lida principalmente com regressão, classificação e modelos complexos que se destacam não estão equipados para lidar! Se seus alunos querem dar uma olhada na ciência de dados, você precisa ensinar a eles uma ferramenta que será útil para eles (R, python etc.). Essas linguagens também possuem bibliotecas com vários modelos integrados para "brincar".

Outra razão realmente grande que eu usaria com as últimas opções é que elas são de código aberto . Pessoalmente, acho que o software de código aberto deve ser preferido do ponto de vista educacional em relação às soluções proprietárias (é também por isso que sugiro python e R sobre Matlab)!

Djib2011
fonte
Eu concordo com tudo isso, mas ele disse que são grandes empresas. Por que não ensinar R, mas também demonstrar um plug-in R / Excel?
CalZ
1
"O Excel também não pode lidar com grandes conjuntos de dados (centenas de milhares de registros" <- sim, pode facilmente. E pode atuar como um cliente para back-ends sérios, como AzureML e PowerBI. Eu não sou um fanboy do Excel " "muito, mas me surpreende ver pessoas supostamente" orientadas a dados "que nem sequer conhecem ferramentas básicas.
Gaius
1
E se for um conjunto de dados de um milhão de linhas mais milhares de colunas, na mesma máquina "básica" (ram de 16 gb, i7 ecc), qual solução o abriria mais rapidamente? Não estou tentando denegrir o Excel, apenas uma curiosidade honesta. Também meu conhecimento não posso nem abrir esse conjunto de dados no Excel. O RStudio lê sem problemas no mesmo PC.
#
7

Acabei de concluir o mestrado em Business Analytics e me deparei com o mesmo problema que você está descrevendo. Felizmente, sou uma pessoa técnica e fui capaz de me ensinar R e Python, mas fiquei preso ensinando ao restante da classe como usar R e Python. As aulas que tive que usavam R / Python foram prejudicadas pela falta de compreensão técnica dos alunos e gastou muito tempo cobrindo como abrir o R ​​/ Python. As aulas que seguiram o outro caminho foram nada assombrosas e pouco práticas. Eu queria fazer para um projeto de aula algo que acabou não sendo possível no Excel por causa de suas limitações, mas o professor não aceitou outras ferramentas.

Pode não ser algo que você possa fazer imediatamente, mas eu recomendo que você tente fazer com que o departamento exija um curso de programação antes de fazer seu curso. Ciência de Dados e Análise de Negócios O IMHO deve ser um curso multidisciplinar que exige um pouco de Ciência da Computação, mas até que os programas amadureçam e o sistema universitário melhore, isso pode não acontecer por um tempo.

Matt Camp
fonte
Você mencionou que "queria fazer para um projeto de classe algo que acabou não sendo possível no Excel por causa de suas limitações". O que você estava tentando fazer e que não pôde ser feito no Excel?
Gosto de codificar
3

Acho que você precisa ensinar a eles uma linguagem popular de ciência de dados como Python ou R. Excel não os ajudará em um trabalho real e não é prático para fins de ciência de dados. Eu provavelmente diria que o Python seria mais valioso para eles a longo prazo, e com pacotes como o scikit-learn suas regressões e classificações podem ser demonstradas em muito poucas linhas de código que eles podem ler e entender com mais facilidade. Nem sempre é fácil entender o que R está fazendo apenas lendo-o.

Outro conselho: não perca tempo forçando seus alunos a configurar um IDE e baixar os pacotes necessários, se você usar o python, crie um ambiente virtual para eles com todos os pacotes necessários e configure um IDE como pycharm (eles podem obtenha este e a maioria dos outros IDEs sob uma licença de estudante / acadêmica), onde então pode desenvolver e executar seu código por meio da interface do usuário, em vez do console, o que eles podem achar assustador e confuso. Se você seguir a rota R, verifique se possui um IDE como o RStudio configurado para elas e verifique se todas as instalações de inclusões e pacotes estão incluídas no seu código de exemplo ou estão completamente descritas.

Dan Carter
fonte
"O Excel não vai ajudá-los em um trabalho real", certamente é se é isso que todos os seus colegas estão usando. Quais trabalhos reais em sua experiência não usam o Excel?
Gaius
3
Qualquer função de ciência de dados que trabalhe com grandes quantidades de dados, inclusive a minha. Quais trabalhos do DS você acha que usariam o Excel como sua principal ferramenta, sem interesse?
Dan Carter
Vejo pelo seu perfil que você é um estudante? Oh Esses são estudantes de administração que fazem um curso no DS. Em seus trabalhos comerciais, eles absolutamente usarão o Excel como sua principal ferramenta.
Caio
1
Claro, você está certo de que eles provavelmente usarão o Excel em uma função de tipo comercial, no entanto, como o OP deixou claro: eles já fizeram cursos que cobrem o Excel. Junte isso ao fato de que o Excel não é adequado para a indústria de dados ou acadêmica e é claro que ensiná-los 'Excel para ciência de dados' não os ajudará em um trabalho real, como eu disse. Você não pode ensinar um homem (ou mulher) a pescar, ensinando-os a falar francês.
9788 Dan Carter
E daí se eles já fizeram cursos no Excel? Não trate como idiotas incapazes de aprender R. Não estamos falando de Haskell ou LISP aqui!
Emre
2

Como convencer a mim e aos alunos que o Excel é insuficiente para um estudante sério de negócios que estuda ciência de dados

Crie em R um enorme data.frame (algumas linhas e centenas de colunas), salve-o como .xlsx.

Mostre a eles a diferença horária ao carregá-lo com R e no Excel na mesma máquina. Compare operações estatísticas básicas entre as duas no mesmo conjunto de dados, até mesmo plotagens.

Ponto no. 2-4 na sua lista também pode ser feito no Excel, com MUITO mais dificuldade, mostre a eles alguns exemplos de quão simples (e mais rápido) é a filtragem comdplyr , em comparação com o Excel básico, novamente em um enorme conjunto de dados que destacaria A diferença.

Ponto de bônus se você puder criar um conjunto de dados que trava seu PC com o Excel funcionando.

Além disso, eu enfatizaria a parte "free-to-use" do R (ou Python). Por exemplo, comparado ao SAS, se você simplesmente deseja experimentar uma solução (ou seja, algum tipo de cluster), carrega a biblioteca e experimenta, sem precisar pagar mais, apenas por tentar.

Para mim, a beleza disso é que você pode experimentar gratuitamente o que precisar, e muitas vezes isso é essencial no DS, imagine se você tivesse que pagar por cada biblioteca que instalar.

RLave
fonte
1

Excel e Data Science - parece realmente estranho para mim. Talvez Excel e 'Análise de dados'.

De qualquer forma, acho que um bom compromisso entre Excel e R é: KNIME ( http://www.knime.org/knime-analytics-platform ). É gratuito na área de trabalho e muito mais fácil de começar. Você pode importar / exportar para o Excel, mas também usar R, Python ou Java se os ~ 1.000 nós perderem algumas funcionalidades necessárias. Como os fluxos de trabalho são criados visualmente, também é muito mais fácil mostrá-los a alguém que não conhece nenhuma linguagem de programação - o que é uma vantagem em algumas empresas.

Tobi
fonte
0

Acho que o problema é que você está tentando convencer seus alunos de que, ao participar de sua aula, eles podem fazer ciência de dados semelhante ao nível da ciência de dados moderna, ou seja, coisas sofisticadas, como processamento de imagem, reconhecimento de rosto. Você ouve esse ditado na maioria das vezes: "participando desta aula, você irá ..." O que você precisa ensinar a eles é o amor pelos dados e a coragem de analisar um monte de dados, mexendo com eles para que, esperançosamente, algum sentido fora deles. No momento em que eles podem fazer isso, você pode chamá-los de cientistas de dados e deve se sentir orgulhoso por ter agora uma nova geração de cientistas de dados. Depois disso, se eles levarem muito a sério a ciência de dados, poderão continuar outros cursos intensos que tratam de matemática, estatística e ciência da computação (experiência de programação como você disse). Eu estava em uma situação semelhante aos seus alunos. Eu não tinha formação em CS, mas queria entrar na ciência de dados e na IA participando de algumas aulas on-line com promessas sofisticadas. Acabei desperdiçando toneladas de dinheiro e ainda me senti em imensa frustração (oh, eu preciso fazer essa aula para conhecer esse algoritmo, oh, eles estão falando de redes neurais agora, então eu tenho que me inscrever na outra classe, etc.) TL ; DR. As ferramentas representam apenas 1% do problema que você tem. Com o seu histórico, você não terá problemas em descobrir as tarefas acima no Excel em uma semana. oh, eles estão falando sobre redes neurais agora, então eu tenho que me inscrever para a outra classe, etc.) TL; DR. As ferramentas representam apenas 1% do problema que você tem. Com o seu histórico, você não terá problemas em descobrir as tarefas acima no Excel em uma semana. oh, eles estão falando sobre redes neurais agora, então eu tenho que me inscrever para a outra classe, etc.) TL; DR. As ferramentas representam apenas 1% do problema que você tem. Com o seu histórico, você não terá problemas em descobrir as tarefas acima no Excel em uma semana.

Huy Truong
fonte