Eu só estou querendo saber qual é a diferença entre um RDDe DataFrame (Spark 2.0.0 DataFrame é um mero tipo de alias para Dataset[Row]) no Apache Spark? Você pode converter um para o
Apache Spark SQL é uma ferramenta para "SQL e processamento de dados estruturados" no Spark, um sistema de computação em cluster rápido e de uso geral. Ele pode ser usado para recuperar dados do Hive, Parquet etc. e executar consultas SQL em RDDs e conjuntos de dados existentes.
Eu só estou querendo saber qual é a diferença entre um RDDe DataFrame (Spark 2.0.0 DataFrame é um mero tipo de alias para Dataset[Row]) no Apache Spark? Você pode converter um para o
Suponha que eu esteja fazendo algo como: val df = sqlContext.load("com.databricks.spark.csv", Map("path" -> "cars.csv", "header" -> "true")) df.printSchema() root |-- year: string (nullable = true) |-- make: string (nullable = true) |-- model: string (nullable = true) |-- comment:...
Eu tenho um DataFrame gerado da seguinte maneira: df.groupBy($"Hour", $"Category") .agg(sum($"value") as "TotalValue") .sort($"Hour".asc, $"TotalValue".desc)) Os resultados são parecidos com: +----+--------+----------+ |Hour|Category|TotalValue| +----+--------+----------+ | 0| cat26| 30.9| |...
Gostaria de ler um CSV no spark e convertê-lo como DataFrame e armazená-lo no HDFS com df.registerTempTable("table_name") Eu tentei: scala> val df = sqlContext.load("hdfs:///csv/file/dir/file.csv") Erro que recebi: java.lang.RuntimeException: hdfs:///csv/file/dir/file.csv is not a Parquet...
Como posso converter um RDD ( org.apache.spark.rdd.RDD[org.apache.spark.sql.Row]) em um Dataframe org.apache.spark.sql.DataFrame. Eu converti um dataframe para rdd usando .rdd. Depois de processá-lo, quero-o novamente no dataframe. Como posso fazer isso
Eu tentei, df.orderBy("col1").show(10)mas classificou em ordem crescente. df.sort("col1").show(10)também classifica em ordem decrescente. Eu olhei no stackoverflow e as respostas que encontrei estavam desatualizadas ou se referiam a RDDs . Eu gostaria de usar o dataframe nativo no...
Eu quero adicionar uma coluna em um DataFramecom algum valor arbitrário (que é o mesmo para cada linha). Eu recebo um erro quando uso da withColumnseguinte maneira: dt.withColumn('new_column', 10).head(5) --------------------------------------------------------------------------- AttributeError...
Comecei a usar o Spark SQL e os DataFrames no Spark 1.4.0. Estou querendo definir um particionador personalizado no DataFrames, no Scala, mas não vendo como fazer isso. Uma das tabelas de dados com as quais estou trabalhando contém uma lista de transações, por conta, silimar no exemplo a...
Eu tenho um Spark DataFrame (usando o PySpark 1.5.1) e gostaria de adicionar uma nova coluna. Eu tentei o seguinte sem sucesso: type(randomed_hours) # => list # Create in Python and transform to RDD new_col = pd.DataFrame(randomed_hours, columns=['new_col']) spark_new_col =...
Como concatenamos duas colunas em um Apache Spark DataFrame? Existe alguma função no Spark SQL que possamos
Agora, tenho que usar df.count > 0para verificar se o DataFrameestá vazio ou não. Mas é meio ineficiente. Existe alguma maneira melhor de fazer isso? Obrigado. PS: Quero verificar se está vazio para só salvar o DataFramese não estiver
Eu tenho um dataframe com coluna como String. Eu queria alterar o tipo de coluna para tipo duplo no PySpark. A seguir está o caminho, eu fiz: toDoublefunc = UserDefinedFunction(lambda x: x,DoubleType()) changedTypedf = joindf.withColumn("label",toDoublefunc(joindf['show'])) Só queria saber se...
Estou tentando filtrar um dataframe PySpark que tem Nonecomo valor de linha: df.select('dt_mvmt').distinct().collect() [Row(dt_mvmt=u'2016-03-27'), Row(dt_mvmt=u'2016-03-28'), Row(dt_mvmt=u'2016-03-29'), Row(dt_mvmt=None), Row(dt_mvmt=u'2016-03-30'), Row(dt_mvmt=u'2016-03-31')] e posso...
Eu quero criar DataFramecom um esquema especificado no Scala. Tentei usar a leitura JSON (quero dizer, ler um arquivo vazio), mas não acho que seja a melhor
Estou tentando converter todos os nomes de cabeçalhos / colunas de um DataFrameno Spark-Scala. a partir de agora eu vim com o seguinte código que substitui apenas um único nome de coluna. for( i <- 0 to origCols.length - 1) { df.withColumnRenamed( df.columns(i),
Estou usando o pyspark (Python 2.7.9 / Spark 1.3.1) e tenho um GroupObject de dataframe que preciso filtrar e classificar em ordem decrescente. Tentar consegui-lo por meio deste pedaço de código. group_by_dataframe.count().filter("`count` >= 10").sort('count', ascending=False) Mas isso...
Quero converter uma coluna de string de um quadro de dados em uma lista. O que posso encontrar na DataframeAPI é RDD, então tentei primeiro convertê-lo de volta para RDD e depois aplicar a toArrayfunção ao RDD. Nesse caso, o comprimento e o SQL funcionam perfeitamente. No entanto, o resultado...
É possível salvar DataFrameno Spark diretamente no Hive? Eu tentei com a conversão DataFramepara Rdde, em seguida, salvar como um arquivo de texto e, em seguida, carregando no colmeia. Mas estou me perguntando se posso salvar diretamente dataframepara a colmeia
Qual seria a maneira mais eficiente de inserir milhões de registros, digamos 50 milhões, de um dataframe Spark para o Postgres Tables. Eu fiz isso do spark ao MSSQL no passado, usando a opção de cópia em massa e tamanho do lote, que também teve êxito. Existe algo semelhante que pode estar aqui...
Eu tenho um quadro de dados com o seguinte código: def test(lat: Double, lon: Double) = { println(s"testing ${lat / lon}") Map("one" -> "one", "two" -> "two") } val testUDF = udf(test _) df.withColumn("test", testUDF(col("lat"), col("lon"))) .withColumn("test1", col("test.one"))...