Perguntas com a marcação «pyspark»

A API Spark Python (PySpark) expõe o modelo de programação apache-spark para Python.

178
Desempenho do Spark para Scala vs Python

Eu prefiro Python a Scala. Mas, como o Spark é originalmente escrito em Scala, eu esperava que meu código fosse executado mais rapidamente no Scala que na versão Python por razões óbvias. Com essa suposição, pensei em aprender e escrever a versão Scala de algum código de pré-processamento muito...

144
Como desativar o registro INFO no Spark?

Instalei o Spark usando o guia da AWS EC2 e posso iniciar o programa com bin/pysparkprecisão usando o script para acessar o prompt do spark e também posso executar o Quick Start com êxito. No entanto, durante toda a minha vida, não consigo descobrir como interromper todo o INFOlog detalhado após...

111
importando pyspark em python shell

Esta é uma cópia da pergunta de outra pessoa em outro fórum que nunca foi respondida, então pensei em perguntar novamente aqui, pois tenho o mesmo problema. (Consulte http://geekple.com/blogs/feeds/Xgzu7/posts/351703064084736 ) Instalei o Spark corretamente em minha máquina e consigo executar...

110
Carregar arquivo CSV com Spark

Sou novo no Spark e estou tentando ler dados CSV de um arquivo com o Spark. Aqui está o que estou fazendo: sc.textFile('file.csv') .map(lambda line: (line.split(',')[0], line.split(',')[1])) .collect() Eu esperaria que esta chamada me desse uma lista das duas primeiras colunas do meu arquivo,...

101
Aplicativo Spark Kill Running

Eu tenho um aplicativo Spark em execução, onde ocupa todos os núcleos, onde meus outros aplicativos não receberão nenhum recurso. Fiz uma pesquisa rápida e as pessoas sugeriram usar YARN kill ou / bin / spark-class para matar o comando. No entanto, estou usando a versão CDH e / bin / spark-class...