apache-spark
rdd
Aravind Yarram
fonte
fonte
Normalmente, isso significa que os dados foram obtidos do cache e não houve necessidade de reexecutar determinado estágio. É consistente com seu DAG, o que mostra que o próximo estágio requer embaralhamento ( reduceByKey
). Sempre que houver embaralhamento envolvido, o Spark armazena automaticamente os dados gerados em cache :
O Shuffle também gera um grande número de arquivos intermediários no disco. A partir do Spark 1.3, esses arquivos são preservados até que os RDDs correspondentes não sejam mais usados e sejam coletados como lixo. Isso é feito para que os arquivos shuffle não precisem ser recriados se a linhagem for recalculada.