Apache Spark: impacto do reparticionamento, classificação e armazenamento em cache em uma junção

Estou explorando o comportamento do Spark ao ingressar em uma tabela. Eu estou usando Databricks. Meu cenário fictício é: Leia uma tabela externa como dataframe A (os arquivos subjacentes estão no formato delta) Defina o quadro de dados B como o quadro de dados A com apenas determinadas colunas...