Estou no processo de preparação para ministrar um curso introdutório sobre ciência de dados usando a linguagem de programação R. Meu público é formado por estudantes de graduação em negócios. Um estudante de graduação em negócios típico não tem experiência em programação de computadores, mas cursou algumas classes que usam o Excel.
Pessoalmente, estou muito confortável com R (ou outras linguagens de programação) porque me formei em ciência da computação. No entanto, tenho a sensação de que muitos de meus alunos se sentirão desconfiados de aprender uma linguagem de programação porque isso pode parecer difícil para eles.
Eu tenho alguma familiaridade com o Excel e acredito que, embora o Excel possa ser útil para ciência de dados simples, é necessário que os alunos aprendam uma linguagem de programação séria para ciência de dados (por exemplo, R ou Python). Como convencer a mim e aos alunos que o Excel é insuficiente para um estudante sério de negócios que estuda ciência de dados e que é necessário que eles aprendam alguma programação?
Editado em resposta ao comentário
Aqui estão alguns dos tópicos que abordarei:
- Processamento e limpeza de dados
- Como manipular uma tabela de dados, por exemplo, selecionar um subconjunto de linhas (filtro), adicionar novas variáveis (alterar), classificar linhas por colunas
- Associações SQL usando o pacote dplyr
- Como desenhar gráficos (gráficos de dispersão, gráficos de barras, histogramas etc.) usando o pacote ggplot2
- Como estimar e interpretar modelos estatísticos, como regressão linear, regressão logística, árvores de classificação e vizinhos k-mais próximos
Como não conheço muito bem o Excel, não sei se todas essas tarefas podem ser realizadas facilmente no Excel.
fonte
Respostas:
Antes de mais nada, confira este post . Há muitas razões pelas quais o Excel é inferior a outras soluções, em relação às tarefas de ciência de dados. O Excel também não pode lidar com grandes conjuntos de dados (centenas de milhares de registros - para não mencionar nada nas proximidades do Big Data ), dados de imagem e som.
O Excel é bom para tarefas simples relacionadas a planilhas; enfatiza mais a apresentação e a facilidade de uso , além de ter um suporte mínimo para realmente analisar os dados. A menos que tudo que você queira fazer seja calcular medidas estatísticas simples (média, média etc.) ou criar um modelo muito simples (por exemplo, regressão linear), o Excel é ineficiente. Dito isto, 99% do trabalho que uma empresa precisa lidar com dados é simples o suficiente para ser gerenciado através do Excel.
No entanto, a Data Science lida principalmente com regressão, classificação e modelos complexos que se destacam não estão equipados para lidar! Se seus alunos querem dar uma olhada na ciência de dados, você precisa ensinar a eles uma ferramenta que será útil para eles (R, python etc.). Essas linguagens também possuem bibliotecas com vários modelos integrados para "brincar".
Outra razão realmente grande que eu usaria com as últimas opções é que elas são de código aberto . Pessoalmente, acho que o software de código aberto deve ser preferido do ponto de vista educacional em relação às soluções proprietárias (é também por isso que sugiro python e R sobre Matlab)!
fonte
Acabei de concluir o mestrado em Business Analytics e me deparei com o mesmo problema que você está descrevendo. Felizmente, sou uma pessoa técnica e fui capaz de me ensinar R e Python, mas fiquei preso ensinando ao restante da classe como usar R e Python. As aulas que tive que usavam R / Python foram prejudicadas pela falta de compreensão técnica dos alunos e gastou muito tempo cobrindo como abrir o R / Python. As aulas que seguiram o outro caminho foram nada assombrosas e pouco práticas. Eu queria fazer para um projeto de aula algo que acabou não sendo possível no Excel por causa de suas limitações, mas o professor não aceitou outras ferramentas.
Pode não ser algo que você possa fazer imediatamente, mas eu recomendo que você tente fazer com que o departamento exija um curso de programação antes de fazer seu curso. Ciência de Dados e Análise de Negócios O IMHO deve ser um curso multidisciplinar que exige um pouco de Ciência da Computação, mas até que os programas amadureçam e o sistema universitário melhore, isso pode não acontecer por um tempo.
fonte
Acho que você precisa ensinar a eles uma linguagem popular de ciência de dados como Python ou R. Excel não os ajudará em um trabalho real e não é prático para fins de ciência de dados. Eu provavelmente diria que o Python seria mais valioso para eles a longo prazo, e com pacotes como o scikit-learn suas regressões e classificações podem ser demonstradas em muito poucas linhas de código que eles podem ler e entender com mais facilidade. Nem sempre é fácil entender o que R está fazendo apenas lendo-o.
Outro conselho: não perca tempo forçando seus alunos a configurar um IDE e baixar os pacotes necessários, se você usar o python, crie um ambiente virtual para eles com todos os pacotes necessários e configure um IDE como pycharm (eles podem obtenha este e a maioria dos outros IDEs sob uma licença de estudante / acadêmica), onde então pode desenvolver e executar seu código por meio da interface do usuário, em vez do console, o que eles podem achar assustador e confuso. Se você seguir a rota R, verifique se possui um IDE como o RStudio configurado para elas e verifique se todas as instalações de inclusões e pacotes estão incluídas no seu código de exemplo ou estão completamente descritas.
fonte
Crie em R um enorme data.frame (algumas linhas e centenas de colunas), salve-o como .xlsx.
Mostre a eles a diferença horária ao carregá-lo com R e no Excel na mesma máquina. Compare operações estatísticas básicas entre as duas no mesmo conjunto de dados, até mesmo plotagens.
Ponto no. 2-4 na sua lista também pode ser feito no Excel, com MUITO mais dificuldade, mostre a eles alguns exemplos de quão simples (e mais rápido) é a filtragem com
dplyr
, em comparação com o Excel básico, novamente em um enorme conjunto de dados que destacaria A diferença.Ponto de bônus se você puder criar um conjunto de dados que trava seu PC com o Excel funcionando.
Além disso, eu enfatizaria a parte "free-to-use" do R (ou Python). Por exemplo, comparado ao SAS, se você simplesmente deseja experimentar uma solução (ou seja, algum tipo de cluster), carrega a biblioteca e experimenta, sem precisar pagar mais, apenas por tentar.
Para mim, a beleza disso é que você pode experimentar gratuitamente o que precisar, e muitas vezes isso é essencial no DS, imagine se você tivesse que pagar por cada biblioteca que instalar.
fonte
Excel e Data Science - parece realmente estranho para mim. Talvez Excel e 'Análise de dados'.
De qualquer forma, acho que um bom compromisso entre Excel e R é: KNIME ( http://www.knime.org/knime-analytics-platform ). É gratuito na área de trabalho e muito mais fácil de começar. Você pode importar / exportar para o Excel, mas também usar R, Python ou Java se os ~ 1.000 nós perderem algumas funcionalidades necessárias. Como os fluxos de trabalho são criados visualmente, também é muito mais fácil mostrá-los a alguém que não conhece nenhuma linguagem de programação - o que é uma vantagem em algumas empresas.
fonte
Acho que o problema é que você está tentando convencer seus alunos de que, ao participar de sua aula, eles podem fazer ciência de dados semelhante ao nível da ciência de dados moderna, ou seja, coisas sofisticadas, como processamento de imagem, reconhecimento de rosto. Você ouve esse ditado na maioria das vezes: "participando desta aula, você irá ..." O que você precisa ensinar a eles é o amor pelos dados e a coragem de analisar um monte de dados, mexendo com eles para que, esperançosamente, algum sentido fora deles. No momento em que eles podem fazer isso, você pode chamá-los de cientistas de dados e deve se sentir orgulhoso por ter agora uma nova geração de cientistas de dados. Depois disso, se eles levarem muito a sério a ciência de dados, poderão continuar outros cursos intensos que tratam de matemática, estatística e ciência da computação (experiência de programação como você disse). Eu estava em uma situação semelhante aos seus alunos. Eu não tinha formação em CS, mas queria entrar na ciência de dados e na IA participando de algumas aulas on-line com promessas sofisticadas. Acabei desperdiçando toneladas de dinheiro e ainda me senti em imensa frustração (oh, eu preciso fazer essa aula para conhecer esse algoritmo, oh, eles estão falando de redes neurais agora, então eu tenho que me inscrever na outra classe, etc.) TL ; DR. As ferramentas representam apenas 1% do problema que você tem. Com o seu histórico, você não terá problemas em descobrir as tarefas acima no Excel em uma semana. oh, eles estão falando sobre redes neurais agora, então eu tenho que me inscrever para a outra classe, etc.) TL; DR. As ferramentas representam apenas 1% do problema que você tem. Com o seu histórico, você não terá problemas em descobrir as tarefas acima no Excel em uma semana. oh, eles estão falando sobre redes neurais agora, então eu tenho que me inscrever para a outra classe, etc.) TL; DR. As ferramentas representam apenas 1% do problema que você tem. Com o seu histórico, você não terá problemas em descobrir as tarefas acima no Excel em uma semana.
fonte