Como existem inúmeras ferramentas disponíveis para tarefas de ciência de dados, é complicado instalar tudo e criar um sistema perfeito.
Existe uma imagem do Linux / Mac OS com Python, R e outras ferramentas de ciência de dados de código aberto instaladas e disponíveis para uso imediato das pessoas? Um Ubuntu ou um SO leve com a versão mais recente do Python, R (incluindo IDEs) e outras ferramentas de visualização de dados de código aberto instaladas será o ideal. Não encontrei um em minha pesquisa rápida no Google.
Informe-me se houver algum ou se alguém criou um para você? Presumo que algumas universidades possam ter suas próprias imagens de VM. Por favor, compartilhe esses links.
Respostas:
Há outra opção popular recentemente: docker ( https://www.docker.com ). O Docker é um contêiner e permite criar / manter um ambiente de trabalho com muita facilidade e rapidez.
Espero que isso ajude você.
fonte
Se você estiver procurando por uma VM com várias ferramentas pré-instaladas, experimente a Data Science Toolbox .
fonte
docker-machine regenerate-certs
Espero que ajude :)Embora as imagens do Docker agora estejam mais na moda, eu pessoalmente acho que a tecnologia do Docker não é amigável, mesmo para usuários avançados. Se você concorda com o uso de imagens de VM não locais e pode usar o Amazon Web Services (AWS) EC2 , considere imagens focadas em R para projetos de ciência de dados, pré-criados por Louis Aslett. As imagens contêm versões muito recentes, se não as mais recentes, do Ubuntu LTS , R e RStudio Server . Você pode acessá-los aqui .
Além dos componentes principais listados acima, as imagens contêm muitas ferramentas úteis de ciência de dados também. Por exemplo, as imagens suportam LaTeX, ODBC, OpenGL, Git, bibliotecas numéricas otimizadas e muito mais.
fonte
Você tentou o QuickStart VM da Cloudera ?:
Achei muito fácil executá-lo e inclui software de código aberto, como Mahout e Spark .
fonte
Hoje eu usei esse repositório em https://github.com/sequenceiq/docker-spark e construí-lo com o docker. é uma faísca de construção de imagem do docker baseada na imagem hadoop do mesmo proprietário. se você usar o spark, ele possui uma API Python chamada pyspark http://spark.apache.org/docs/latest/api/python/
fonte