Eu quero criar DataFramecom um esquema especificado no Scala. Tentei usar a leitura JSON (quero dizer, ler um arquivo vazio), mas não acho que seja a melhor
Eu quero criar DataFramecom um esquema especificado no Scala. Tentei usar a leitura JSON (quero dizer, ler um arquivo vazio), mas não acho que seja a melhor
Existe alguma dependência entre Spark e Hadoop ? Se não, há algum recurso que sentirei falta ao executar o Spark sem Hadoop ?
Estou tentando converter todos os nomes de cabeçalhos / colunas de um DataFrameno Spark-Scala. a partir de agora eu vim com o seguinte código que substitui apenas um único nome de coluna. for( i <- 0 to origCols.length - 1) { df.withColumnRenamed( df.columns(i),
Estou tentando configurar o Apache Spark no Windows. Depois de pesquisar um pouco, entendi que o modo autônomo é o que eu quero. Quais binários devo baixar para executar o Apache Spark no Windows? Vejo distribuições com hadoop e cdh na página de download do Spark. Não tenho referências na web...
Em meu shell de faísca, o que entradas como as abaixo significam quando eu executo uma função? [Stage7:===========> (14174 + 5) / 62500]
Eu tenho um aplicativo Spark que é executado sem problemas no modo local, mas tenho alguns problemas ao enviar para o cluster Spark. As mensagens de erro são as seguintes: 16/06/24 15:42:06 WARN scheduler.TaskSetManager: Lost task 2.0 in stage 0.0 (TID 2, cluster-node-02):
Eu criei o Spark 1.4 a partir do mestre de desenvolvimento GH e a compilação foi bem. Mas quando faço um bin/pyspark, recebo a versão Python 2.7.9. Como posso mudar
Não consigo executar um sparktrabalho simples em Scala IDE(projeto Maven Spark) instalado emWindows 7 A dependência do núcleo do Spark foi adicionada. val conf = new SparkConf().setAppName("DemoDF").setMaster("local") val sc = new SparkContext(conf) val logData =
Estou usando o pyspark (Python 2.7.9 / Spark 1.3.1) e tenho um GroupObject de dataframe que preciso filtrar e classificar em ordem decrescente. Tentar consegui-lo por meio deste pedaço de código. group_by_dataframe.count().filter("`count` >= 10").sort('count', ascending=False) Mas isso...
Tentei iniciar o Spark 1.6.0 (spark-1.6.0-bin-hadoop2.4) no Mac OS Yosemite 10.10.5 usando "./bin/spark-shell". Tem o erro abaixo. Também tentei instalar diferentes versões do Spark, mas todas apresentaram o mesmo erro. Esta é a segunda vez que estou executando o Spark. Minha corrida...
Da minha IU do Spark. O que significa pulado?
Estou usando o spark 1.4.0-rc2, então posso usar o python 3 com o spark. Se eu adicionar export PYSPARK_PYTHON=python3ao meu arquivo .bashrc, poderei executar o spark interativamente com o python 3. No entanto, se eu quiser executar um programa autônomo no modo local, recebo um erro: Exception:...
Quero converter uma coluna de string de um quadro de dados em uma lista. O que posso encontrar na DataframeAPI é RDD, então tentei primeiro convertê-lo de volta para RDD e depois aplicar a toArrayfunção ao RDD. Nesse caso, o comprimento e o SQL funcionam perfeitamente. No entanto, o resultado...
É possível salvar DataFrameno Spark diretamente no Hive? Eu tentei com a conversão DataFramepara Rdde, em seguida, salvar como um arquivo de texto e, em seguida, carregando no colmeia. Mas estou me perguntando se posso salvar diretamente dataframepara a colmeia
Fechado . Esta questão precisa ser mais focada . No momento, não está aceitando respostas. Deseja melhorar esta pergunta? Atualize a pergunta para que ela se concentre apenas em um problema editando esta postagem . Fechado há 4 dias . Eu fui a uma...
Utilizando o spark 2.4.4 em execução no modo de cluster YARN com o planejador FIFO do spark. Estou enviando várias operações de quadro de dados spark (ou seja, gravando dados no S3) usando um executor de pool de threads com um número variável de threads. Isso funciona bem se eu tiver ~ 10 threads,...
Para comparar o desempenho do Spark ao usar Python e Scala, criei o mesmo trabalho nos dois idiomas e comparei o tempo de execução. Eu esperava que os dois trabalhos levassem aproximadamente a mesma quantidade de tempo, mas o trabalho em Python levou apenas 27min, enquanto o trabalho em Scala...
Instalei o OpenJDK 13.0.1 e python 3.8 e spark 2.4.4. As instruções para testar a instalação são executar. \ Bin \ pyspark a partir da raiz da instalação do spark. Não tenho certeza se perdi uma etapa na instalação do spark, como definir alguma variável de ambiente, mas não consigo encontrar mais...
Qual seria a maneira mais eficiente de inserir milhões de registros, digamos 50 milhões, de um dataframe Spark para o Postgres Tables. Eu fiz isso do spark ao MSSQL no passado, usando a opção de cópia em massa e tamanho do lote, que também teve êxito. Existe algo semelhante que pode estar aqui...
Recentemente, comecei a receber vários erros em vários pysparktrabalhos em execução em clusters de EMR. Os erros são java.lang.IllegalArgumentException at java.nio.ByteBuffer.allocate(ByteBuffer.java:334) at