Eu só estou querendo saber qual é a diferença entre um RDDe DataFrame (Spark 2.0.0 DataFrame é um mero tipo de alias para Dataset[Row]) no Apache Spark? Você pode converter um para o
Eu só estou querendo saber qual é a diferença entre um RDDe DataFrame (Spark 2.0.0 DataFrame é um mero tipo de alias para Dataset[Row]) no Apache Spark? Você pode converter um para o
De acordo com o Learning Spark Lembre-se de que o reparticionamento dos dados é uma operação bastante cara. O Spark também possui uma versão otimizada do repartition()chamado coalesce()que permite evitar a movimentação de dados, mas apenas se você estiver diminuindo o número de partições...
Em termos de RDDpersistência, quais são as diferenças entre cache()e persist()na
Eu prefiro Python a Scala. Mas, como o Spark é originalmente escrito em Scala, eu esperava que meu código fosse executado mais rapidamente no Scala que na versão Python por razões óbvias. Com essa suposição, pensei em aprender e escrever a versão Scala de algum código de pré-processamento muito...
Quando um conjunto de dados distribuído resiliente (RDD) é criado a partir de um arquivo ou coleção de texto (ou de outro RDD), precisamos chamar "cache" ou "persistir" explicitamente para armazenar os dados do RDD na memória? Ou os dados RDD são armazenados de forma distribuída na memória por...
Como posso converter um RDD ( org.apache.spark.rdd.RDD[org.apache.spark.sql.Row]) em um Dataframe org.apache.spark.sql.DataFrame. Eu converti um dataframe para rdd usando .rdd. Depois de processá-lo, quero-o novamente no dataframe. Como posso fazer isso
Qual a diferença entre um RDD map e um mapPartitionsmétodo? E se flatMapcomporta como mapou como mapPartitions? Obrigado. (editar) ie qual é a diferença (semanticamente ou em termos de execução) entre def map[A, B](rdd: RDD[A], fn: (A => B)) (implicit a: Manifest[A], b: Manifest[B]): RDD[B]...
Da minha IU do Spark. O que significa pulado?