Perguntas com a marcação «apache-spark»

21

Mesclando vários quadros de dados em linhas no PySpark

Eu tenho quadros 10 dados pyspark.sql.dataframe.DataFrame, obtidos a partir randomSplitde (td1, td2, td3, td4, td5, td6, td7, td8, td9, td10) = td.randomSplit([.1, .1, .1, .1, .1, .1, .1, .1, .1, .1], seed = 100)agora eu quero participar 9 tdé em um único quadro de dados, como devo fazer isso? Eu...

16

aumentar o mapa de calor marítimo

Crio um corr()df a partir de um df original. O corr()df saiu 70 X 70 e é impossível de visualizar o mapa de calor ... sns.heatmap(df). Se eu tentar exibir corr = df.corr(), a tabela não se encaixa na tela e posso ver todas as correlações. É uma maneira de imprimir o todo, dfindependentemente do seu...

visualization pandas plotting machine-learning neural-network svm decision-trees svm efficiency python linear-regression machine-learning nlp topic-model lda named-entity-recognition naive-bayes-classifier association-rules fuzzy-logic kaggle deep-learning tensorflow inception classification feature-selection feature-engineering machine-learning scikit-learn tensorflow keras encoding nlp text-mining nlp rnn python neural-network feature-extraction machine-learning predictive-modeling python r linear-regression clustering r ggplot2 neural-network neural-network training python neural-network deep-learning rnn predictive-modeling databases sql programming distribution dataset cross-validation neural-network deep-learning rnn machine-learning machine-learning python deep-learning data-mining tensorflow visualization tools sql embeddings orange feature-extraction unsupervised-learning gan machine-learning python data-mining pandas machine-learning data-mining bigdata apache-spark apache-hadoop deep-learning python convnet keras aggregation clustering k-means r random-forest decision-trees reference-request visualization data pandas plotting neural-network keras rnn theano deep-learning tensorflow inception predictive-modeling deep-learning regression sentiment-analysis nlp encoding deep-learning python scikit-learn lda convnet keras predictive-modeling regression overfitting regression svm prediction machine-learning similarity word2vec information-retrieval word-embeddings neural-network deep-learning rnn

13

Como calcular a média de uma coluna de quadro de dados e encontrar os 10% principais

Sou muito novo no Scala e no Spark e estou trabalhando em alguns exercícios criados usando estatísticas de beisebol. Estou usando uma classe de caso, crie um RDD e atribua um esquema aos dados, e depois o transformei em um DataFrame para que eu possa usar o SparkSQL para selecionar grupos de...

apache-spark scala

12

Substitua todos os valores numéricos em um dataframe pyspark por um valor constante

Considere um quadro de dados pyspark composto por elementos 'nulos' e elementos numéricos. Em geral, os elementos numéricos têm valores diferentes. Como é possível substituir todos os valores numéricos do quadro de dados por um valor numérico constante (por exemplo, pelo valor 1)? Desde já,...

python apache-spark

11

Como converter dados categóricos em dados numéricos no Pyspark

Estou usando o notebook Ipython para trabalhar com aplicativos pyspark. Eu tenho um arquivo CSV com muitas colunas categóricas para determinar se a renda cai abaixo ou acima do intervalo de 50k. Eu gostaria de executar um algoritmo de classificação, utilizando todas as entradas para determinar a...

python apache-spark categorical-data pyspark

11

Problema com o IPython / Jupyter no Spark (alias não reconhecido)

Estou trabalhando na configuração de um conjunto de VMs para experimentar o Spark antes de gastar e gastar dinheiro na construção de um cluster com algum hardware. Nota rápida: Sou um acadêmico com experiência em aprendizado de máquina aplicado e trabalho bastante em ciência de dados. Eu uso as...

python apache-spark pyspark ipython

10

Spark, idealmente dividindo um único RDD em dois

Eu tenho um grande conjunto de dados que preciso dividir em grupos de acordo com parâmetros específicos. Quero que o trabalho seja processado da maneira mais eficiente possível. Eu posso imaginar duas maneiras de fazer isso Opção 1 - Criar mapa a partir do RDD original e filtrar def...

apache-spark pyspark

10

Relação entre convolução em matemática e CNN

Li a explicação da convolução e a compreendi até certo ponto. Alguém pode me ajudar a entender como essa operação se relaciona à convolução nas redes neurais convolucionais? O filtro é uma função gque aplica

machine-learning neural-network deep-learning cnn convolution machine-learning ensemble-modeling machine-learning classification data-mining clustering machine-learning feature-selection convnet pandas graphs ipython machine-learning apache-spark multiclass-classification naive-bayes-classifier multilabel-classification machine-learning data-mining dataset data-cleaning data machine-learning data-mining statistics correlation machine-learning data-mining dataset data-cleaning data beginner career python r visualization machine-learning data-mining nlp stanford-nlp dataset linear-regression time-series correlation anomaly-detection ensemble-modeling data-mining machine-learning python data-mining recommender-system machine-learning cross-validation model-selection scoring prediction sequential-pattern-mining categorical-data python tensorflow image-recognition statistics machine-learning data-mining predictive-modeling data-cleaning preprocessing classification deep-learning tensorflow machine-learning algorithms data keras categorical-data reference-request loss-function classification logistic-regression apache-spark prediction naive-bayes-classifier beginner nlp word2vec vector-space-models scikit-learn decision-trees data programming

10

Spark ALS: recomendando para novos usuários

A questão Como posso prever a classificação de um novo usuário em um modelo de ALS treinado no Spark? (Novo = não visto durante o tempo de treinamento) O problema Estou seguindo o tutorial oficial do Spark ALS

apache-spark recommender-system pyspark

10

Quando o cache expirou para um RDD no pyspark?

Usamos .cache()no RDD para cache persistente de um conjunto de dados. Minha preocupação é quando esse cache será expirado? dt = sc.parallelize([2, 3, 4, 5,

apache-spark pyspark

10

Quando escolher a regressão linear ou a Árvore de Decisão ou a Floresta Aleatória? [fechadas]

Fechado . Esta questão precisa ser mais focada . No momento, não está aceitando respostas. Deseja melhorar esta pergunta? Atualize a pergunta para que ela se concentre apenas em um problema editando esta postagem . Fechado há 4 anos . Estou

machine-learning algorithms random-forest linear-regression decision-trees machine-learning predictive-modeling forecast r clustering similarity data-mining dataset statistics text-mining text-mining data-cleaning data-wrangling machine-learning classification algorithms xgboost data-mining dataset dataset regression graphs svm unbalanced-classes cross-validation optimization hyperparameter genetic-algorithms visualization predictive-modeling correlation machine-learning predictive-modeling apache-spark statistics normalization apache-spark map-reduce r correlation confusion-matrix r data-cleaning classification terminology dataset image-classification machine-learning regression apache-spark machine-learning data-mining nlp parsing machine-learning dimensionality-reduction visualization clustering multiclass-classification evaluation unsupervised-learning machine-learning machine-learning data-mining supervised-learning unsupervised-learning machine-learning data-mining classification statistics predictive-modeling data-mining clustering python pandas machine-learning dataset data-cleaning data bigdata software-recommendation

10

Análise de log de servidor usando aprendizado de máquina

Foi-me atribuída esta tarefa para analisar os logs do servidor de nosso aplicativo, que contém logs de exceção, logs de banco de dados, etc. Sou novo no aprendizado de máquina, usamos o Spark com pesquisa elástica e o Sparks MLlib (ou PredictionIO). O resultado seria poder prever com base nos logs...

machine-learning predictive-modeling apache-spark

9

Calcular semelhança de cosseno no Apache Spark

Eu tenho um DataFrame com IDF de determinadas palavras computadas. Por exemplo (10,[0,1,2,3,4,5],[0.413734499590671,0.4244680552337798,0.4761400657781007, 1.4004620708967006,0.37876590175292424,0.48374466516332]) .... and so on Agora, faça uma consulta Q, posso calcular o TF-IDF dessa...

machine-learning nlp apache-spark cosine-distance

8

Como executar um aplicativo pyspark no prompt de comando do Windows 8

Eu tenho um script python escrito com o Contexto Spark e quero executá-lo. Tentei integrar o IPython ao Spark, mas não consegui. Então, tentei definir o caminho do spark [pasta / bin de instalação] como uma variável de ambiente e chamei o comando spark-submit no prompt do cmd. Acredito que está...

python apache-spark pyspark ipython

8

Classe desequilibrada: class_weight para algoritmos ML no Spark MLLib

No python sklearn, existem vários algoritmos (por exemplo, regressão, floresta aleatória ... etc.) que possuem o parâmetro class_weight para manipular dados desequilibrados. No entanto, não encontro esse parâmetro para os algoritmos MLLib. Existe um plano de implementar class_weight para algum...

machine-learning apache-spark unbalanced-classes weighted-data

7

SPARK Mllib: Regressão logística multiclasse, como obter as probabilidades de todas as classes e não da primeira?

Estou usando LogisticRegressionWithLBFGSpara treinar um classificador de várias classes. Existe uma maneira de obter a probabilidade de todas as classes (não apenas a principal classe candidata) quando eu testar o modelo em novas amostras não vistas? PS: Não sou necessariamente obrigado a usar o...

classification apache-spark multiclass-classification

7

Como definir / obter o tamanho da pilha do Spark (via bloco de notas Python)

Estou usando o Spark (1.5.1) de um notebook IPython em um macbook pro. Após a instalação de ignição e Anaconda, eu começo IPython de um terminal executando: IPYTHON_OPTS="notebook" pyspark. Isso abre uma página da Web listando todos os meus notebooks IPython. Eu posso selecionar um deles, abrindo-o...

apache-spark pyspark ipython anaconda

7

Por que a regressão logística no Spark e R retorna modelos diferentes para os mesmos dados?

Comparei os modelos de regressão logística em R ( glm) e Spark (LogisticRegressionWithLBFGS ) em um conjunto de dados de 390 obs. de 14 variáveis. Os resultados são completamente diferentes na interceptação e nos pesos. Como explicar isso? Aqui estão os resultados do Spark...

machine-learning r logistic-regression apache-spark

7

Compreendendo como o PCA distribuído funciona

Como parte do projeto de análise de big data, estou trabalhando, Preciso executar o PCA em alguns dados, usando o sistema de computação em nuvem. No meu caso, estou usando o Amazon EMR para o trabalho e o Spark em particular. Deixando de lado a questão "Como executar o PCA na faísca", quero...

data-mining bigdata apache-spark pca distributed

7

Extraindo emails individuais de um thread de email

A maioria dos conjuntos de dados de código aberto está bem formatada, ou seja, cada mensagem de email é separada bem como o conjunto de dados da Enron. Mas, no mundo real, é altamente difícil separar uma mensagem de email principal de um segmento de emails. Por exemplo, considere a mensagem...

classification scikit-learn apache-spark preprocessing sentiment-analysis