Perguntas com a marcação «bigdata»

16

Escrevendo mais de 50 milhões do Pyspark df para o PostgresSQL, a melhor abordagem eficiente

Qual seria a maneira mais eficiente de inserir milhões de registros, digamos 50 milhões, de um dataframe Spark para o Postgres Tables. Eu fiz isso do spark ao MSSQL no passado, usando a opção de cópia em massa e tamanho do lote, que também teve êxito. Existe algo semelhante que pode estar aqui...

15

Usando R para resolver o jogo Lucky 26

Estou tentando mostrar ao meu filho como a codificação pode ser usada para resolver um problema apresentado por um jogo, além de ver como o R lida com o big data. O jogo em questão é chamado "Lucky 26". Neste jogo, os números (1 a 12 sem duplicatas) são posicionados em 12 pontos em uma estrela de...

r bigdata permutation

10

Apache Spark: impacto do reparticionamento, classificação e armazenamento em cache em uma junção

Estou explorando o comportamento do Spark ao ingressar em uma tabela. Eu estou usando Databricks. Meu cenário fictício é: Leia uma tabela externa como dataframe A (os arquivos subjacentes estão no formato delta) Defina o quadro de dados B como o quadro de dados A com apenas determinadas colunas...

apache-spark pyspark bigdata azure-databricks delta-lake