Perguntas com a marcação «apache-spark»

257

Diferença entre DataFrame, Conjunto de Dados e RDD no Spark

Eu só estou querendo saber qual é a diferença entre um RDDe DataFrame (Spark 2.0.0 DataFrame é um mero tipo de alias para Dataset[Row]) no Apache Spark? Você pode converter um para o

254

Spark - repartição () vs coalescência ()

De acordo com o Learning Spark Lembre-se de que o reparticionamento dos dados é uma operação bastante cara. O Spark também possui uma versão otimizada do repartition()chamado coalesce()que permite evitar a movimentação de dados, mas apenas se você estiver diminuindo o número de partições...

apache-spark distributed-computing rdd

249

Qual é a diferença entre map e flatMap e um bom caso de uso para cada um?

Alguém pode me explicar a diferença entre map e flatMap e qual é um bom caso de uso para cada um? O que significa "achatar os resultados"? Para que

apache-spark

228

Spark java.lang.OutOfMemoryError: espaço de heap Java

Meu cluster: 1 mestre, 11 escravos, cada nó tem 6 GB de memória. Minhas configurações: spark.executor.memory=4g, Dspark.akka.frameSize=512 Aqui está o problema: Primeiro , li alguns dados (2,19 GB) do HDFS para o RDD: val imageBundleRDD = sc.newAPIHadoopFile(...) Segundo , faça algo neste...

out-of-memory apache-spark

224

Tarefa não serializável: java.io.NotSerializableException ao chamar a função fora do fechamento apenas em classes e não em objetos

Obtendo um comportamento estranho ao chamar a função fora de um fechamento: quando a função está em um objeto, tudo está funcionando quando a função está em uma classe get: Tarefa não serializável: java.io.NotSerializableException: testing O problema é que eu preciso do meu código em uma...

scala serialization apache-spark typesafe

219

O que são trabalhadores, executores, núcleos no cluster Spark Standalone?

Li a Visão geral do modo de cluster e ainda não consigo entender os diferentes processos no cluster do Spark Standalone e o paralelismo. O trabalhador é um processo da JVM ou não? Eu executei o bin\start-slave.she descobri que ele gerou o trabalhador, que na verdade é uma JVM. Conforme o link...

apache-spark distributed-computing

202

Qual é a diferença entre cache e persistir?

Em termos de RDDpersistência, quais são as diferenças entre cache()e persist()na

apache-spark distributed-computing rdd

201

Como alterar os nomes das colunas do quadro de dados no pyspark?

Eu venho do fundo do pandas e estou acostumado a ler dados de arquivos CSV em um dataframe e depois simplesmente alterar os nomes das colunas para algo útil usando o comando simples: df.columns = new_column_name_list No entanto, o mesmo não funciona em quadros de dados pyspark criados usando o...

python apache-spark pyspark pyspark-sql

201

Como mostrar o conteúdo completo da coluna em um Spark Dataframe?

Estou usando o spark-csv para carregar dados em um DataFrame. Quero fazer uma consulta simples e exibir o conteúdo: val df = sqlContext.read.format("com.databricks.spark.csv").option("header", "true").load("my.csv") df.registerTempTable("tasks") results = sqlContext.sql("select col from...

apache-spark dataframe spark-csv output-formatting

192

Apache Spark: O número de núcleos versus o número de executores

Estou tentando entender a relação do número de núcleos e o número de executores ao executar uma tarefa do Spark no YARN. O ambiente de teste é o seguinte: Número de nós de dados: 3 Especificação da máquina do nó de dados: CPU: Core i7-4790 (nº de núcleos: 4, nº de threads: 8) RAM: 32 GB (8 GB...

hadoop apache-spark yarn

181

Como parar as mensagens INFO exibidas no console do spark?

Gostaria de interromper várias mensagens que estão chegando no shell de faísca. Tentei editar o log4j.propertiesarquivo para interromper essas mensagens. Aqui estão os conteúdos de log4j.properties # Define the root logger with appender file log4j.rootCategory=WARN,

apache-spark log4j spark-submit

179

Como ler vários arquivos de texto em um único RDD?

Eu quero ler um monte de arquivos de texto em um local hdfs e executar o mapeamento nele em uma iteração usando o spark. JavaRDD<String> records = ctx.textFile(args[1], 1); é capaz de ler apenas um arquivo por vez. Quero ler mais de um arquivo e processá-los como um único RDD....

apache-spark

178

Desempenho do Spark para Scala vs Python

Eu prefiro Python a Scala. Mas, como o Spark é originalmente escrito em Scala, eu esperava que meu código fosse executado mais rapidamente no Scala que na versão Python por razões óbvias. Com essa suposição, pensei em aprender e escrever a versão Scala de algum código de pré-processamento muito...

scala performance apache-spark pyspark rdd

171

(Por que) precisamos chamar cache ou persistir em um RDD

Quando um conjunto de dados distribuído resiliente (RDD) é criado a partir de um arquivo ou coleção de texto (ou de outro RDD), precisamos chamar "cache" ou "persistir" explicitamente para armazenar os dados do RDD na memória? Ou os dados RDD são armazenados de forma distribuída na memória por...

scala apache-spark rdd

158

Adicionar jars a uma tarefa do Spark - spark-submit

É verdade ... já foi discutido bastante. No entanto, há muita ambiguidade e algumas das respostas fornecidas ... incluindo a duplicação de referências de jar nas opções ou na configuração de jars / executor / driver. Os detalhes ambíguos e / ou omitidos Após a ambiguidade, detalhes obscuros e /...

java scala apache-spark jar spark-submit

152

Como posso alterar os tipos de coluna no DataFrame do Spark SQL?

Suponha que eu esteja fazendo algo como: val df = sqlContext.load("com.databricks.spark.csv", Map("path" -> "cars.csv", "header" -> "true")) df.printSchema() root |-- year: string (nullable = true) |-- make: string (nullable = true) |-- model: string (nullable = true) |-- comment:...

scala apache-spark apache-spark-sql

149

Como armazenar objetos personalizados no conjunto de dados?

De acordo com a introdução de conjuntos de dados Spark : Como esperamos ansiosamente pelo Spark 2.0, planejamos algumas melhorias interessantes para conjuntos de dados, especificamente: ... Codificadores personalizados - enquanto atualmente geramos automaticamente codificadores para uma ampla...

scala apache-spark apache-spark-dataset apache-spark-encoders

144

Como desativar o registro INFO no Spark?

Instalei o Spark usando o guia da AWS EC2 e posso iniciar o programa com bin/pysparkprecisão usando o script para acessar o prompt do spark e também posso executar o Quick Start com êxito. No entanto, durante toda a minha vida, não consigo descobrir como interromper todo o INFOlog detalhado após...

python scala apache-spark hadoop pyspark

143

Como selecionar a primeira linha de cada grupo?

Eu tenho um DataFrame gerado da seguinte maneira: df.groupBy($"Hour", $"Category") .agg(sum($"value") as "TotalValue") .sort($"Hour".asc, $"TotalValue".desc)) Os resultados são parecidos com: +----+--------+----------+ |Hour|Category|TotalValue| +----+--------+----------+ | 0| cat26| 30.9| |...

sql scala apache-spark dataframe apache-spark-sql

143

Como os estágios são divididos em tarefas no Spark?

Vamos assumir o seguinte: apenas um trabalho do Spark está sendo executado a cada momento. O que eu recebo até agora Aqui está o que eu entendo o que acontece no Spark: Quando a SparkContexté criado, cada nó do trabalhador inicia um executor. Executores são processos separados (JVM), que se...

apache-spark