Perguntas com a marcação «pyspark»

12
Importar o conteúdo do arquivo csv para os quadros de dados pyspark

Como posso importar um arquivo .csv para os quadros de dados pyspark? Eu até tentei ler o arquivo csv no Pandas e convertê-lo em um dataframe spark usando createDataFrame, mas ele ainda mostra algum erro. Alguém pode me guiar por isso? Além disso, diga-me como posso importar um arquivo xlsx? Estou...

12
Quantas células LSTM devo usar?

Existem regras práticas (ou regras reais) referentes à quantidade mínima, máxima e "razoável" de células LSTM que devo usar? Especificamente, estou relacionado ao BasicLSTMCell da TensorFlow e à num_unitspropriedade. Suponha que eu tenha um problema de classificação definido por: t - number of...

10
Spark, idealmente dividindo um único RDD em dois

Eu tenho um grande conjunto de dados que preciso dividir em grupos de acordo com parâmetros específicos. Quero que o trabalho seja processado da maneira mais eficiente possível. Eu posso imaginar duas maneiras de fazer isso Opção 1 - Criar mapa a partir do RDD original e filtrar def...

8
Gere previsões ortogonais (não correlacionadas) para uma determinada variável

Eu tenho uma Xmatriz, uma yvariável e outra variável ORTHO_VAR. Preciso prever a yvariável usando X, no entanto, as previsões desse modelo precisam ser ortogonais e, ao ORTHO_VARmesmo tempo, estar o mais correlacionadas ypossível. Eu preferiria que as previsões fossem geradas com um método não...