Eu só estou querendo saber qual é a diferença entre um RDDe DataFrame (Spark 2.0.0 DataFrame é um mero tipo de alias para Dataset[Row]) no Apache Spark? Você pode converter um para o
O Apache Spark é um mecanismo de processamento de dados distribuído de código aberto escrito em Scala que fornece uma API unificada e conjuntos de dados distribuídos para os usuários. Os Casos de Uso do Apache Spark geralmente estão relacionados a machine / deep learning, processamento de gráficos.
Eu só estou querendo saber qual é a diferença entre um RDDe DataFrame (Spark 2.0.0 DataFrame é um mero tipo de alias para Dataset[Row]) no Apache Spark? Você pode converter um para o
De acordo com o Learning Spark Lembre-se de que o reparticionamento dos dados é uma operação bastante cara. O Spark também possui uma versão otimizada do repartition()chamado coalesce()que permite evitar a movimentação de dados, mas apenas se você estiver diminuindo o número de partições...
Alguém pode me explicar a diferença entre map e flatMap e qual é um bom caso de uso para cada um? O que significa "achatar os resultados"? Para que
Meu cluster: 1 mestre, 11 escravos, cada nó tem 6 GB de memória. Minhas configurações: spark.executor.memory=4g, Dspark.akka.frameSize=512 Aqui está o problema: Primeiro , li alguns dados (2,19 GB) do HDFS para o RDD: val imageBundleRDD = sc.newAPIHadoopFile(...) Segundo , faça algo neste...
Obtendo um comportamento estranho ao chamar a função fora de um fechamento: quando a função está em um objeto, tudo está funcionando quando a função está em uma classe get: Tarefa não serializável: java.io.NotSerializableException: testing O problema é que eu preciso do meu código em uma...
Li a Visão geral do modo de cluster e ainda não consigo entender os diferentes processos no cluster do Spark Standalone e o paralelismo. O trabalhador é um processo da JVM ou não? Eu executei o bin\start-slave.she descobri que ele gerou o trabalhador, que na verdade é uma JVM. Conforme o link...
Em termos de RDDpersistência, quais são as diferenças entre cache()e persist()na
Eu venho do fundo do pandas e estou acostumado a ler dados de arquivos CSV em um dataframe e depois simplesmente alterar os nomes das colunas para algo útil usando o comando simples: df.columns = new_column_name_list No entanto, o mesmo não funciona em quadros de dados pyspark criados usando o...
Estou usando o spark-csv para carregar dados em um DataFrame. Quero fazer uma consulta simples e exibir o conteúdo: val df = sqlContext.read.format("com.databricks.spark.csv").option("header", "true").load("my.csv") df.registerTempTable("tasks") results = sqlContext.sql("select col from...
Estou tentando entender a relação do número de núcleos e o número de executores ao executar uma tarefa do Spark no YARN. O ambiente de teste é o seguinte: Número de nós de dados: 3 Especificação da máquina do nó de dados: CPU: Core i7-4790 (nº de núcleos: 4, nº de threads: 8) RAM: 32 GB (8 GB...
Gostaria de interromper várias mensagens que estão chegando no shell de faísca. Tentei editar o log4j.propertiesarquivo para interromper essas mensagens. Aqui estão os conteúdos de log4j.properties # Define the root logger with appender file log4j.rootCategory=WARN,
Eu quero ler um monte de arquivos de texto em um local hdfs e executar o mapeamento nele em uma iteração usando o spark. JavaRDD<String> records = ctx.textFile(args[1], 1); é capaz de ler apenas um arquivo por vez. Quero ler mais de um arquivo e processá-los como um único RDD....
Eu prefiro Python a Scala. Mas, como o Spark é originalmente escrito em Scala, eu esperava que meu código fosse executado mais rapidamente no Scala que na versão Python por razões óbvias. Com essa suposição, pensei em aprender e escrever a versão Scala de algum código de pré-processamento muito...
Quando um conjunto de dados distribuído resiliente (RDD) é criado a partir de um arquivo ou coleção de texto (ou de outro RDD), precisamos chamar "cache" ou "persistir" explicitamente para armazenar os dados do RDD na memória? Ou os dados RDD são armazenados de forma distribuída na memória por...
É verdade ... já foi discutido bastante. No entanto, há muita ambiguidade e algumas das respostas fornecidas ... incluindo a duplicação de referências de jar nas opções ou na configuração de jars / executor / driver. Os detalhes ambíguos e / ou omitidos Após a ambiguidade, detalhes obscuros e /...
Suponha que eu esteja fazendo algo como: val df = sqlContext.load("com.databricks.spark.csv", Map("path" -> "cars.csv", "header" -> "true")) df.printSchema() root |-- year: string (nullable = true) |-- make: string (nullable = true) |-- model: string (nullable = true) |-- comment:...
De acordo com a introdução de conjuntos de dados Spark : Como esperamos ansiosamente pelo Spark 2.0, planejamos algumas melhorias interessantes para conjuntos de dados, especificamente: ... Codificadores personalizados - enquanto atualmente geramos automaticamente codificadores para uma ampla...
Instalei o Spark usando o guia da AWS EC2 e posso iniciar o programa com bin/pysparkprecisão usando o script para acessar o prompt do spark e também posso executar o Quick Start com êxito. No entanto, durante toda a minha vida, não consigo descobrir como interromper todo o INFOlog detalhado após...
Eu tenho um DataFrame gerado da seguinte maneira: df.groupBy($"Hour", $"Category") .agg(sum($"value") as "TotalValue") .sort($"Hour".asc, $"TotalValue".desc)) Os resultados são parecidos com: +----+--------+----------+ |Hour|Category|TotalValue| +----+--------+----------+ | 0| cat26| 30.9| |...
Vamos assumir o seguinte: apenas um trabalho do Spark está sendo executado a cada momento. O que eu recebo até agora Aqui está o que eu entendo o que acontece no Spark: Quando a SparkContexté criado, cada nó do trabalhador inicia um executor. Executores são processos separados (JVM), que se...