Perguntas com a marcação «apache-spark»

133
Apache Spark: map vs mapPartitions?

Qual a diferença entre um RDD map e um mapPartitionsmétodo? E se flatMapcomporta como mapou como mapPartitions? Obrigado. (editar) ie qual é a diferença (semanticamente ou em termos de execução) entre def map[A, B](rdd: RDD[A], fn: (A => B)) (implicit a: Manifest[A], b: Manifest[B]): RDD[B]...

127
Como definir a memória do Apache Spark Executor

Como posso aumentar a memória disponível para os nós do executor do Apache spark? Eu tenho um arquivo de 2 GB adequado para carregar no Apache Spark. Atualmente, estou executando o apache spark em uma máquina, para que o driver e o executor estejam na mesma máquina. A máquina possui 8 GB de...

124
Como imprimir o conteúdo de RDD?

Estou tentando imprimir o conteúdo de uma coleção no console do Spark. Eu tenho um tipo: linesWithSessionId: org.apache.spark.rdd.RDD[String] = FilteredRDD[3] E eu uso o comando: scala> linesWithSessionId.map(line => println(line)) Mas isto é impresso: res1: org.apache.spark.rdd.RDD...

111
importando pyspark em python shell

Esta é uma cópia da pergunta de outra pessoa em outro fórum que nunca foi respondida, então pensei em perguntar novamente aqui, pois tenho o mesmo problema. (Consulte http://geekple.com/blogs/feeds/Xgzu7/posts/351703064084736 ) Instalei o Spark corretamente em minha máquina e consigo executar...

110
Carregar arquivo CSV com Spark

Sou novo no Spark e estou tentando ler dados CSV de um arquivo com o Spark. Aqui está o que estou fazendo: sc.textFile('file.csv') .map(lambda line: (line.split(',')[0], line.split(',')[1])) .collect() Eu esperaria que esta chamada me desse uma lista das duas primeiras colunas do meu arquivo,...

107
Como sobrescrever o diretório de saída no spark

Eu tenho um aplicativo de streaming de Spark que produz um conjunto de dados para cada minuto. Preciso salvar / sobrescrever os resultados dos dados processados. Quando tentei sobrescrever o dataset org.apache.hadoop.mapred.FileAlreadyExistsException para a execução. Eu defino a propriedade Spark...

101
Aplicativo Spark Kill Running

Eu tenho um aplicativo Spark em execução, onde ocupa todos os núcleos, onde meus outros aplicativos não receberão nenhum recurso. Fiz uma pesquisa rápida e as pessoas sugeriram usar YARN kill ou / bin / spark-class para matar o comando. No entanto, estou usando a versão CDH e / bin / spark-class...