Perguntas com a marcação «apache-spark-sql»

257

Diferença entre DataFrame, Conjunto de Dados e RDD no Spark

Eu só estou querendo saber qual é a diferença entre um RDDe DataFrame (Spark 2.0.0 DataFrame é um mero tipo de alias para Dataset[Row]) no Apache Spark? Você pode converter um para o

152

Como posso alterar os tipos de coluna no DataFrame do Spark SQL?

Suponha que eu esteja fazendo algo como: val df = sqlContext.load("com.databricks.spark.csv", Map("path" -> "cars.csv", "header" -> "true")) df.printSchema() root |-- year: string (nullable = true) |-- make: string (nullable = true) |-- model: string (nullable = true) |-- comment:...

scala apache-spark apache-spark-sql

143

Como selecionar a primeira linha de cada grupo?

Eu tenho um DataFrame gerado da seguinte maneira: df.groupBy($"Hour", $"Category") .agg(sum($"value") as "TotalValue") .sort($"Hour".asc, $"TotalValue".desc)) Os resultados são parecidos com: +----+--------+----------+ |Hour|Category|TotalValue| +----+--------+----------+ | 0| cat26| 30.9| |...

sql scala apache-spark dataframe apache-spark-sql

141

Spark - carregar arquivo CSV como DataFrame?

Gostaria de ler um CSV no spark e convertê-lo como DataFrame e armazená-lo no HDFS com df.registerTempTable("table_name") Eu tentei: scala> val df = sqlContext.load("hdfs:///csv/file/dir/file.csv") Erro que recebi: java.lang.RuntimeException: hdfs:///csv/file/dir/file.csv is not a Parquet...

scala apache-spark hadoop apache-spark-sql hdfs

139

Como converter objeto rdd em dataframe no spark

Como posso converter um RDD ( org.apache.spark.rdd.RDD[org.apache.spark.sql.Row]) em um Dataframe org.apache.spark.sql.DataFrame. Eu converti um dataframe para rdd usando .rdd. Depois de processá-lo, quero-o novamente no dataframe. Como posso fazer isso

scala apache-spark apache-spark-sql rdd

137

Como classificar por coluna em ordem decrescente no Spark SQL?

Eu tentei, df.orderBy("col1").show(10)mas classificou em ordem crescente. df.sort("col1").show(10)também classifica em ordem decrescente. Eu olhei no stackoverflow e as respostas que encontrei estavam desatualizadas ou se referiam a RDDs . Eu gostaria de usar o dataframe nativo no...

scala apache-spark apache-spark-sql

137

Como adicionar uma coluna constante em um Spark DataFrame?

Eu quero adicionar uma coluna em um DataFramecom algum valor arbitrário (que é o mesmo para cada linha). Eu recebo um erro quando uso da withColumnseguinte maneira: dt.withColumn('new_column', 10).head(5) --------------------------------------------------------------------------- AttributeError...

python apache-spark dataframe pyspark apache-spark-sql

128

Como definir o particionamento do DataFrame?

Comecei a usar o Spark SQL e os DataFrames no Spark 1.4.0. Estou querendo definir um particionador personalizado no DataFrames, no Scala, mas não vendo como fazer isso. Uma das tabelas de dados com as quais estou trabalhando contém uma lista de transações, por conta, silimar no exemplo a...

scala apache-spark dataframe apache-spark-sql partitioning

128

Como adiciono uma nova coluna a um Spark DataFrame (usando PySpark)?

Eu tenho um Spark DataFrame (usando o PySpark 1.5.1) e gostaria de adicionar uma nova coluna. Eu tentei o seguinte sem sucesso: type(randomed_hours) # => list # Create in Python and transform to RDD new_col = pd.DataFrame(randomed_hours, columns=['new_col']) spark_new_col =...

python apache-spark dataframe pyspark apache-spark-sql

117

Colunas concatenadas no Apache Spark DataFrame

Como concatenamos duas colunas em um Apache Spark DataFrame? Existe alguma função no Spark SQL que possamos

sql apache-spark dataframe apache-spark-sql

101

Como verificar se o dataframe do Spark está vazio?

Agora, tenho que usar df.count > 0para verificar se o DataFrameestá vazio ou não. Mas é meio ineficiente. Existe alguma maneira melhor de fazer isso? Obrigado. PS: Quero verificar se está vazio para só salvar o DataFramese não estiver

apache-spark apache-spark-sql

99

como alterar uma coluna do Dataframe do tipo String para o tipo Double no pyspark

Eu tenho um dataframe com coluna como String. Eu queria alterar o tipo de coluna para tipo duplo no PySpark. A seguir está o caminho, eu fiz: toDoublefunc = UserDefinedFunction(lambda x: x,DoubleType()) changedTypedf = joindf.withColumn("label",toDoublefunc(joindf['show'])) Só queria saber se...

python apache-spark dataframe pyspark apache-spark-sql

98

Filtrar coluna de dataframe do Pyspark com valor Nenhum

Estou tentando filtrar um dataframe PySpark que tem Nonecomo valor de linha: df.select('dt_mvmt').distinct().collect() [Row(dt_mvmt=u'2016-03-27'), Row(dt_mvmt=u'2016-03-28'), Row(dt_mvmt=u'2016-03-29'), Row(dt_mvmt=None), Row(dt_mvmt=u'2016-03-30'), Row(dt_mvmt=u'2016-03-31')] e posso...

python apache-spark dataframe pyspark apache-spark-sql

94

Como criar um DataFrame vazio com um esquema especificado?

Eu quero criar DataFramecom um esquema especificado no Scala. Tentei usar a leitura JSON (quero dizer, ler um arquivo vazio), mas não acho que seja a melhor

scala apache-spark dataframe apache-spark-sql

93

Renomeando os nomes das colunas de um DataFrame no Spark Scala

Estou tentando converter todos os nomes de cabeçalhos / colunas de um DataFrameno Spark-Scala. a partir de agora eu vim com o seguinte código que substitui apenas um único nome de coluna. for( i <- 0 to origCols.length - 1) { df.withColumnRenamed( df.columns(i),

scala apache-spark dataframe apache-spark-sql

88

Spark DataFrame groupBy e classificação em ordem decrescente (pyspark)

Estou usando o pyspark (Python 2.7.9 / Spark 1.3.1) e tenho um GroupObject de dataframe que preciso filtrar e classificar em ordem decrescente. Tentar consegui-lo por meio deste pedaço de código. group_by_dataframe.count().filter("`count` >= 10").sort('count', ascending=False) Mas isso...

python apache-spark dataframe pyspark apache-spark-sql

86

Extraia os valores da coluna do Dataframe como lista no Apache Spark

Quero converter uma coluna de string de um quadro de dados em uma lista. O que posso encontrar na DataframeAPI é RDD, então tentei primeiro convertê-lo de volta para RDD e depois aplicar a toArrayfunção ao RDD. Nesse caso, o comprimento e o SQL funcionam perfeitamente. No entanto, o resultado...

scala apache-spark apache-spark-sql

85

Como salvar o DataFrame diretamente no Hive?

É possível salvar DataFrameno Spark diretamente no Hive? Eu tentei com a conversão DataFramepara Rdde, em seguida, salvar como um arquivo de texto e, em seguida, carregando no colmeia. Mas estou me perguntando se posso salvar diretamente dataframepara a colmeia

scala apache-spark hive apache-spark-sql

16

Escrevendo mais de 50 milhões do Pyspark df para o PostgresSQL, a melhor abordagem eficiente

Qual seria a maneira mais eficiente de inserir milhões de registros, digamos 50 milhões, de um dataframe Spark para o Postgres Tables. Eu fiz isso do spark ao MSSQL no passado, usando a opção de cópia em massa e tamanho do lote, que também teve êxito. Existe algo semelhante que pode estar aqui...

postgresql apache-spark pyspark apache-spark-sql bigdata

9

Spark: UDF executado várias vezes

Eu tenho um quadro de dados com o seguinte código: def test(lat: Double, lon: Double) = { println(s"testing ${lat / lon}") Map("one" -> "one", "two" -> "two") } val testUDF = udf(test _) df.withColumn("test", testUDF(col("lat"), col("lon"))) .withColumn("test1", col("test.one"))...

scala apache-spark apache-spark-sql