Perguntas com a marcação «apache-spark-sql»

Apache Spark SQL é uma ferramenta para "SQL e processamento de dados estruturados" no Spark, um sistema de computação em cluster rápido e de uso geral. Ele pode ser usado para recuperar dados do Hive, Parquet etc. e executar consultas SQL em RDDs e conjuntos de dados existentes.

9
Spark: UDF executado várias vezes

Eu tenho um quadro de dados com o seguinte código: def test(lat: Double, lon: Double) = { println(s"testing ${lat / lon}") Map("one" -> "one", "two" -> "two") } val testUDF = udf(test _) df.withColumn("test", testUDF(col("lat"), col("lon"))) .withColumn("test1", col("test.one"))...