Perguntas com a marcação «apache-spark»

10

Apache Spark: impacto do reparticionamento, classificação e armazenamento em cache em uma junção

Estou explorando o comportamento do Spark ao ingressar em uma tabela. Eu estou usando Databricks. Meu cenário fictício é: Leia uma tabela externa como dataframe A (os arquivos subjacentes estão no formato delta) Defina o quadro de dados B como o quadro de dados A com apenas determinadas colunas...

9

Spark: UDF executado várias vezes

Eu tenho um quadro de dados com o seguinte código: def test(lat: Double, lon: Double) = { println(s"testing ${lat / lon}") Map("one" -> "one", "two" -> "two") } val testUDF = udf(test _) df.withColumn("test", testUDF(col("lat"), col("lon"))) .withColumn("test1", col("test.one"))...

scala apache-spark apache-spark-sql

9

Aplicando a função Python ao DataFrame agrupado pelo Pandas - qual é a abordagem mais eficiente para acelerar os cálculos?

Estou lidando com um DataFrame do Pandas bastante grande - meu conjunto de dados se parece com a seguinte dfconfiguração: import pandas as pd import numpy as np #--------------------------------------------- SIZING PARAMETERS : R1 = 20 # .repeat( repeats = R1 ) R2 = 10 # .repeat( repeats = R2...

python pandas apache-spark parallel-processing dask