Um aspirante a cientista de dados aqui. Não sei nada sobre o Hadoop, mas como tenho lido sobre Data Science e Big Data, vejo muita conversa sobre o Hadoop. É absolutamente necessário aprender o Hadoop para ser um cientista de
Hadoop é um projeto de código aberto Apache que fornece software para computação distribuída confiável e escalonável. O próprio projeto inclui uma variedade de outras adições complementares.
Um aspirante a cientista de dados aqui. Não sei nada sobre o Hadoop, mas como tenho lido sobre Data Science e Big Data, vejo muita conversa sobre o Hadoop. É absolutamente necessário aprender o Hadoop para ser um cientista de
Com o Hadoop 2.0 e o YARN, o Hadoop não está mais vinculado apenas às soluções de redução de mapa. Com esse avanço, quais são os casos de uso do Apache Spark vs Hadoop, considerando que ambos estão no topo do HDFS? Eu li a documentação de introdução do Spark, mas estou curioso para saber se alguém...
Crio um corr()df a partir de um df original. O corr()df saiu 70 X 70 e é impossível de visualizar o mapa de calor ... sns.heatmap(df). Se eu tentar exibir corr = df.corr(), a tabela não se encaixa na tela e posso ver todas as correlações. É uma maneira de imprimir o todo, dfindependentemente do seu...
Ouvi falar de muitas ferramentas / estruturas para ajudar as pessoas a processar seus dados (ambiente de big data). Um é chamado Hadoop e o outro é o conceito noSQL. Qual é a diferença no ponto de processamento? Eles são
Alguém pode me informar sobre as compensações envolvidas na escolha entre o Storm e o MapReduce no Hadoop Cluster para processamento de dados? Obviamente, além do óbvio, o Hadoop (processamento via MapReduce em um Hadoop Cluster) é um sistema de processamento em lote e o Storm é um sistema de...
Há muito hype ao redor do Hadoop e seu ecossistema. No entanto, na prática, onde muitos conjuntos de dados estão no intervalo de terabytes, não é mais razoável usar o Amazon RedShift para consultar grandes conjuntos de dados, em vez de gastar tempo e esforço construindo um cluster Hadoop? Além...
Em nossa empresa, temos um banco de dados MongoDB contendo muitos dados não estruturados, nos quais precisamos executar algoritmos de redução de mapa para gerar relatórios e outras análises. Temos duas abordagens para selecionar para implementar as análises necessárias: Uma abordagem é extrair os...
Estou prototipando um aplicativo e preciso de um modelo de linguagem para calcular a perplexidade em algumas frases geradas. Existe algum modelo de linguagem treinado em python que eu possa usar facilmente? Algo simples como model = LanguageModel('en') p1 = model.perplexity('This is a well...
Ao revisar a " Modelagem Preditiva Aplicada ", um revisor declara : Uma crítica que tenho da pedagogia do aprendizado estatístico (SL) é a ausência de considerações de desempenho computacional na avaliação de diferentes técnicas de modelagem. Com ênfase no bootstrapping e na validação cruzada...
Fechado . Esta questão precisa ser mais focada . No momento, não está aceitando respostas. Deseja melhorar esta pergunta? Atualize a pergunta para que ela se concentre apenas em um problema editando esta postagem . Fechado há 5 anos . Parece que a maioria...
Eu tenho dois tensores a:[batch_size, dim] b:[batch_size, dim]. Quero fazer um produto interno para cada par do lote, gerando c:[batch_size, 1], onde c[i,0]=a[i,:].T*b[i,:].
Analisando a apresentação e o material do Summingbird pelo Twitter, um dos motivos mencionados para o uso de clusters Storm e Hadoop juntos no Summingbird é que o processamento através do Storm resulta em cascata de erros. Para evitar essa cascata de erro e acumulação, o cluster Hadoop é usado para...
Quais são as diferentes classes de problemas de ciência de dados que podem ser resolvidos usando o modelo de programação
Fechado . Esta questão é baseada em opiniões . No momento, não está aceitando respostas. Deseja melhorar esta pergunta? Atualize a pergunta para que ela possa ser respondida com fatos e citações editando esta postagem . Fechado há 5 anos . Alguém pode...
Eu sou novo no RHadoop e também no RMR ... Eu tinha um requisito para escrever um trabalho de Mapreduce no R Mapreduce. Eu tentei escrever, mas ao executar isso, dá um erro. Tring para ler o arquivo de hdfs Erro: Error in mr(map = map, reduce = reduce, combine = combine, vectorized.reduce, :...
Estou lendo sobre a arquitetura lambda. Faz sentido. temos ingestão de dados baseada em fila. temos um armazenamento na memória para dados que é muito novo e temos HDFS para dados antigos. Portanto, temos todo o nosso conjunto de dados. no nosso sistema. muito bom. mas o diagrama da arquitetura...