Perguntas com a marcação «apache-spark»

O Apache Spark é um mecanismo de processamento de dados distribuído de código aberto escrito em Scala que fornece uma API unificada e conjuntos de dados distribuídos para os usuários. Os Casos de Uso do Apache Spark geralmente estão relacionados a machine / deep learning, processamento de gráficos.

179
Como ler vários arquivos de texto em um único RDD?

Eu quero ler um monte de arquivos de texto em um local hdfs e executar o mapeamento nele em uma iteração usando o spark. JavaRDD<String> records = ctx.textFile(args[1], 1); é capaz de ler apenas um arquivo por vez. Quero ler mais de um arquivo e processá-los como um único RDD....

178
Desempenho do Spark para Scala vs Python

Eu prefiro Python a Scala. Mas, como o Spark é originalmente escrito em Scala, eu esperava que meu código fosse executado mais rapidamente no Scala que na versão Python por razões óbvias. Com essa suposição, pensei em aprender e escrever a versão Scala de algum código de pré-processamento muito...

171
(Por que) precisamos chamar cache ou persistir em um RDD

Quando um conjunto de dados distribuído resiliente (RDD) é criado a partir de um arquivo ou coleção de texto (ou de outro RDD), precisamos chamar "cache" ou "persistir" explicitamente para armazenar os dados do RDD na memória? Ou os dados RDD são armazenados de forma distribuída na memória por...

144
Como desativar o registro INFO no Spark?

Instalei o Spark usando o guia da AWS EC2 e posso iniciar o programa com bin/pysparkprecisão usando o script para acessar o prompt do spark e também posso executar o Quick Start com êxito. No entanto, durante toda a minha vida, não consigo descobrir como interromper todo o INFOlog detalhado após...

143
Como os estágios são divididos em tarefas no Spark?

Vamos assumir o seguinte: apenas um trabalho do Spark está sendo executado a cada momento. O que eu recebo até agora Aqui está o que eu entendo o que acontece no Spark: Quando a SparkContexté criado, cada nó do trabalhador inicia um executor. Executores são processos separados (JVM), que se...