Como executar um aplicativo pyspark no prompt de comando do Windows 8

8

Eu tenho um script python escrito com o Contexto Spark e quero executá-lo. Tentei integrar o IPython ao Spark, mas não consegui. Então, tentei definir o caminho do spark [pasta / bin de instalação] como uma variável de ambiente e chamei o comando spark-submit no prompt do cmd. Acredito que está encontrando o contexto de faísca, mas produz um erro muito grande. Alguém pode me ajudar com esse problema?

Caminho da variável de ambiente: C: /Users/Name/Spark-1.4; C: /Users/Name/Spark-1.4/bin

Depois disso, no prompt do cmd: spark-submit script.py

insira a descrição da imagem aqui

SRS
fonte
Mensagem útil
Dawny33

Respostas:

3

Sou bastante novo no Spark e descobri como me integrar ao IPython no Windows 10 e 7. Primeiro, verifique as variáveis ​​de ambiente do Python e Spark. Aqui estão os meus: SPARK_HOME: C: \ spark-1.6.0-bin-hadoop2.6 \ Eu uso o Enthought Canopy, portanto, o Python já está integrado no caminho do sistema. Em seguida, inicie o Python ou IPython e use o código a seguir. Se você receber um erro, verifique o que recebe para 'spark_home'. Caso contrário, ele deve funcionar muito bem.

import os

import sys

spark_home = os.environ.get('SPARK_HOME', None)

if not spark_home:

raise ValueError('SPARK_HOME environment variable is not set')

sys.path.insert(0, os.path.join(spark_home, 'python'))

sys.path.insert(0, os.path.join(spark_home, 'C:/spark-1.6.0-bin-hadoop2.6/python/lib/py4j-0.9-src.zip')) ## may need to adjust on your system depending on which Spark version you're using and where you installed it.

execfile(os.path.join(spark_home, 'python/pyspark/shell.py'))

pySpark no IPython

Jon
fonte
1

Verifique se este link pode ajudá-lo.

untitledprogrammer
fonte
Eu já segui isso antes. Não está funcionando
SRS
1

A resposta de Johnnyboycurtis funciona para mim. Se você estiver usando python 3, use o código abaixo. Seu código não funciona no python 3. Estou editando apenas a última linha do seu código.

import os
import sys


spark_home = os.environ.get('SPARK_HOME', None)
print(spark_home)
if not spark_home:
    raise ValueError('SPARK_HOME environment variable is not set')
sys.path.insert(0, os.path.join(spark_home, 'python'))
sys.path.insert(0, os.path.join(spark_home, 'C:/spark-1.6.1-bin-hadoop2.6/spark-1.6.1-bin-hadoop2.6/python/lib/py4j-0.9-src.zip')) ## may need to adjust on your system depending on which Spark version you're using and where you installed it.


filename=os.path.join(spark_home, 'python/pyspark/shell.py')
exec(compile(open(filename, "rb").read(), filename, 'exec'))
user2543622
fonte
Eu tenho usado os códigos fornecidos por "user2543622" com êxito e encontrei um problema recentemente com a seguinte mensagem de erro. Você sabe o que deu errado? Obrigado. Exceção: o processo do gateway Java foi encerrado antes de enviar ao driver seu número de porta
user27155
0

Finalmente, resolvi o problema. Eu tive que definir o local do pyspark na variável PATH e o local py4j-0.8.2.1-src.zip na variável PYTHONPATH.

SRS
fonte