Eu tenho um script python escrito com o Contexto Spark e quero executá-lo. Tentei integrar o IPython ao Spark, mas não consegui. Então, tentei definir o caminho do spark [pasta / bin de instalação] como uma variável de ambiente e chamei o comando spark-submit no prompt do cmd. Acredito que está encontrando o contexto de faísca, mas produz um erro muito grande. Alguém pode me ajudar com esse problema?
Caminho da variável de ambiente: C: /Users/Name/Spark-1.4; C: /Users/Name/Spark-1.4/bin
Depois disso, no prompt do cmd: spark-submit script.py
Respostas:
Sou bastante novo no Spark e descobri como me integrar ao IPython no Windows 10 e 7. Primeiro, verifique as variáveis de ambiente do Python e Spark. Aqui estão os meus: SPARK_HOME: C: \ spark-1.6.0-bin-hadoop2.6 \ Eu uso o Enthought Canopy, portanto, o Python já está integrado no caminho do sistema. Em seguida, inicie o Python ou IPython e use o código a seguir. Se você receber um erro, verifique o que recebe para 'spark_home'. Caso contrário, ele deve funcionar muito bem.
fonte
Verifique se este link pode ajudá-lo.
fonte
A resposta de Johnnyboycurtis funciona para mim. Se você estiver usando python 3, use o código abaixo. Seu código não funciona no python 3. Estou editando apenas a última linha do seu código.
fonte
Finalmente, resolvi o problema. Eu tive que definir o local do pyspark na variável PATH e o local py4j-0.8.2.1-src.zip na variável PYTHONPATH.
fonte