Perguntas com a marcação «apache-spark»

94

Como criar um DataFrame vazio com um esquema especificado?

Eu quero criar DataFramecom um esquema especificado no Scala. Tentei usar a leitura JSON (quero dizer, ler um arquivo vazio), mas não acho que seja a melhor

93

O Apache Spark pode funcionar sem o hadoop?

Existe alguma dependência entre Spark e Hadoop ? Se não, há algum recurso que sentirei falta ao executar o Spark sem Hadoop ?

hadoop amazon-s3 apache-spark mapreduce mesos

93

Renomeando os nomes das colunas de um DataFrame no Spark Scala

Estou tentando converter todos os nomes de cabeçalhos / colunas de um DataFrameno Spark-Scala. a partir de agora eu vim com o seguinte código que substitui apenas um único nome de coluna. for( i <- 0 to origCols.length - 1) { df.withColumnRenamed( df.columns(i),

scala apache-spark dataframe apache-spark-sql

93

Como configurar o Spark no Windows?

Estou tentando configurar o Apache Spark no Windows. Depois de pesquisar um pouco, entendi que o modo autônomo é o que eu quero. Quais binários devo baixar para executar o Apache Spark no Windows? Vejo distribuições com hadoop e cdh na página de download do Spark. Não tenho referências na web...

windows apache-spark

92

O que significam os números na barra de progresso no shell do spark?

Em meu shell de faísca, o que entradas como as abaixo significam quando eu executo uma função? [Stage7:===========> (14174 + 5) / 62500]

apache-spark

92

Spark - Erro “Um URL mestre deve ser definido em sua configuração” ao enviar um aplicativo

Eu tenho um aplicativo Spark que é executado sem problemas no modo local, mas tenho alguns problemas ao enviar para o cluster Spark. As mensagens de erro são as seguintes: 16/06/24 15:42:06 WARN scheduler.TaskSetManager: Lost task 2.0 in stage 0.0 (TID 2, cluster-node-02):

scala apache-spark

91

Apache Spark: como usar o pyspark com Python 3

Eu criei o Spark 1.4 a partir do mestre de desenvolvimento GH e a compilação foi bem. Mas quando faço um bin/pyspark, recebo a versão Python 2.7.9. Como posso mudar

python python-3.x apache-spark

91

java.io.IOException: Não foi possível localizar o executável null \ bin \ winutils.exe nos binários do Hadoop. faísca Eclipse no Windows 7

Não consigo executar um sparktrabalho simples em Scala IDE(projeto Maven Spark) instalado emWindows 7 A dependência do núcleo do Spark foi adicionada. val conf = new SparkConf().setAppName("DemoDF").setMaster("local") val sc = new SparkContext(conf) val logData =

eclipse scala apache-spark

88

Spark DataFrame groupBy e classificação em ordem decrescente (pyspark)

Estou usando o pyspark (Python 2.7.9 / Spark 1.3.1) e tenho um GroupObject de dataframe que preciso filtrar e classificar em ordem decrescente. Tentar consegui-lo por meio deste pedaço de código. group_by_dataframe.count().filter("`count` >= 10").sort('count', ascending=False) Mas isso...

python apache-spark dataframe pyspark apache-spark-sql

87

Erro de shell do Mac ao inicializar SparkContext

Tentei iniciar o Spark 1.6.0 (spark-1.6.0-bin-hadoop2.4) no Mac OS Yosemite 10.10.5 usando "./bin/spark-shell". Tem o erro abaixo. Também tentei instalar diferentes versões do Spark, mas todas apresentaram o mesmo erro. Esta é a segunda vez que estou executando o Spark. Minha corrida...

apache-spark

87

O que significa “Etapa ignorada” na IU da Web do Apache Spark?

Da minha IU do Spark. O que significa pulado?

apache-spark rdd

87

Como faço para definir a versão do driver python no spark?

Estou usando o spark 1.4.0-rc2, então posso usar o python 3 com o spark. Se eu adicionar export PYSPARK_PYTHON=python3ao meu arquivo .bashrc, poderei executar o spark interativamente com o python 3. No entanto, se eu quiser executar um programa autônomo no modo local, recebo um erro: Exception:...

apache-spark pyspark

86

Extraia os valores da coluna do Dataframe como lista no Apache Spark

Quero converter uma coluna de string de um quadro de dados em uma lista. O que posso encontrar na DataframeAPI é RDD, então tentei primeiro convertê-lo de volta para RDD e depois aplicar a toArrayfunção ao RDD. Nesse caso, o comprimento e o SQL funcionam perfeitamente. No entanto, o resultado...

scala apache-spark apache-spark-sql

85

Como salvar o DataFrame diretamente no Hive?

É possível salvar DataFrameno Spark diretamente no Hive? Eu tentei com a conversão DataFramepara Rdde, em seguida, salvar como um arquivo de texto e, em seguida, carregando no colmeia. Mas estou me perguntando se posso salvar diretamente dataframepara a colmeia

scala apache-spark hive apache-spark-sql

20

Calcular a velocidade média das estradas [fechada]

Fechado . Esta questão precisa ser mais focada . No momento, não está aceitando respostas. Deseja melhorar esta pergunta? Atualize a pergunta para que ela se concentre apenas em um problema editando esta postagem . Fechado há 4 dias . Eu fui a uma...

apache-spark apache-kafka stream-processing

17

Impasse quando muitos trabalhos de centelha são agendados simultaneamente

Utilizando o spark 2.4.4 em execução no modo de cluster YARN com o planejador FIFO do spark. Estou enviando várias operações de quadro de dados spark (ou seja, gravando dados no S3) usando um executor de pool de threads com um número variável de threads. Isso funciona bem se eu tiver ~ 10 threads,...

apache-spark

16

Spark: Por que o Python supera significativamente o Scala no meu caso de uso?

Para comparar o desempenho do Spark ao usar Python e Scala, criei o mesmo trabalho nos dois idiomas e comparei o tempo de execução. Eu esperava que os dois trabalhos levassem aproximadamente a mesma quantidade de tempo, mas o trabalho em Python levou apenas 27min, enquanto o trabalho em Scala...

python scala apache-spark pyspark

16

Como corrigir o erro 'TypeError: é necessário um número inteiro (obteve o tipo bytes)' ao tentar executar o pyspark após a instalação do spark 2.4.4

Instalei o OpenJDK 13.0.1 e python 3.8 e spark 2.4.4. As instruções para testar a instalação são executar. \ Bin \ pyspark a partir da raiz da instalação do spark. Não tenho certeza se perdi uma etapa na instalação do spark, como definir alguma variável de ambiente, mas não consigo encontrar mais...

apache-spark pyspark

16

Escrevendo mais de 50 milhões do Pyspark df para o PostgresSQL, a melhor abordagem eficiente

Qual seria a maneira mais eficiente de inserir milhões de registros, digamos 50 milhões, de um dataframe Spark para o Postgres Tables. Eu fiz isso do spark ao MSSQL no passado, usando a opção de cópia em massa e tamanho do lote, que também teve êxito. Existe algo semelhante que pode estar aqui...

postgresql apache-spark pyspark apache-spark-sql bigdata

12

pandasUDF e pyarrow 0.15.0

Recentemente, comecei a receber vários erros em vários pysparktrabalhos em execução em clusters de EMR. Os erros são java.lang.IllegalArgumentException at java.nio.ByteBuffer.allocate(ByteBuffer.java:334) at

pandas apache-spark pyspark pyarrow