Estou usando o spark-csv para carregar dados em um DataFrame. Quero fazer uma consulta simples e exibir o conteúdo:
val df = sqlContext.read.format("com.databricks.spark.csv").option("header", "true").load("my.csv")
df.registerTempTable("tasks")
results = sqlContext.sql("select col from tasks");
results.show()
A coluna parece truncada:
scala> results.show();
+--------------------+
| col|
+--------------------+
|2015-11-16 07:15:...|
|2015-11-16 07:15:...|
|2015-11-16 07:15:...|
|2015-11-16 07:15:...|
|2015-11-16 07:15:...|
|2015-11-16 07:15:...|
|2015-11-16 07:15:...|
|2015-11-16 07:15:...|
|2015-11-16 07:15:...|
|2015-11-16 07:15:...|
|2015-11-16 07:15:...|
|2015-11-16 07:15:...|
|2015-11-16 07:15:...|
|2015-11-16 07:15:...|
|2015-11-16 07:15:...|
|2015-11-06 07:15:...|
|2015-11-16 07:15:...|
|2015-11-16 07:21:...|
|2015-11-16 07:21:...|
|2015-11-16 07:21:...|
+--------------------+
Como mostro o conteúdo completo da coluna?
apache-spark
dataframe
spark-csv
output-formatting
marcador
fonte
fonte
dataFrame.writeStream.outputMode("append").format("console").option("truncate", "false").start()
Se você colocar
results.show(false)
, os resultados não serão truncadosfonte
false
se aplica aqui também.results.show(20, False)
. O que você mencionou dará erro.scala
ambas as opções são válidas.results.show(false)
eresults.show(20, false)
As outras soluções são boas. Se estes são seus objetivos:
Essas duas linhas são úteis ...
Ao persistir, as duas ações do executor, count and show, são mais rápidas e mais eficientes ao usar
persist
oucache
manter a estrutura intermediária subjacente do quadro de dados dentro dos executores. Veja mais sobre persistir e armazenar em cache .fonte
O código abaixo ajudaria a exibir todas as linhas sem truncamento em cada coluna
fonte
df
que seja coletado duas vezes?results.show(20, False)
ouresults.show(20, false)
dependendo se você está executando em Java / Scala / Pythonfonte
results.show(false)
mostrará o conteúdo completo da coluna.Mostrar método por limite padrão para 20 e adicionar um número antes
false
mostrará mais linhas.fonte
tente este comando:
fonte
df
que seja coletado duas vezes?results.show(20,false)
fez o truque para mim em Scala.fonte
Nos Databricks, você pode visualizar o quadro de dados em um formato tabular. Com o comando:
Vai parecer
fonte
Eu uso a extensão Chrome do plug-in funciona muito bem:
[ https://userstyles.org/styles/157357/jupyter-notebook-wide✨[1]
fonte
Tente isso em scala:
O método show aceita um número inteiro e um valor booleano, mas df.count retorna Long ... então a conversão de tipo é necessária
fonte
Em c #
Option("truncate", false)
não truncar dados na saída.fonte
A resposta a seguir se aplica a um aplicativo Spark Streaming.
Ao definir a opção "truncar" como false, você pode dizer ao coletor de saída para exibir a coluna completa.
fonte