Perguntas com a marcação «rdd»

178
Desempenho do Spark para Scala vs Python

Eu prefiro Python a Scala. Mas, como o Spark é originalmente escrito em Scala, eu esperava que meu código fosse executado mais rapidamente no Scala que na versão Python por razões óbvias. Com essa suposição, pensei em aprender e escrever a versão Scala de algum código de pré-processamento muito...

171
(Por que) precisamos chamar cache ou persistir em um RDD

Quando um conjunto de dados distribuído resiliente (RDD) é criado a partir de um arquivo ou coleção de texto (ou de outro RDD), precisamos chamar "cache" ou "persistir" explicitamente para armazenar os dados do RDD na memória? Ou os dados RDD são armazenados de forma distribuída na memória por...

133
Apache Spark: map vs mapPartitions?

Qual a diferença entre um RDD map e um mapPartitionsmétodo? E se flatMapcomporta como mapou como mapPartitions? Obrigado. (editar) ie qual é a diferença (semanticamente ou em termos de execução) entre def map[A, B](rdd: RDD[A], fn: (A => B)) (implicit a: Manifest[A], b: Manifest[B]): RDD[B]...