“Quadro de dados do pivô Spark usando Python” Respostas de código

Quadro de dados do pivô Spark usando Python

from pyspark.sql.functions import avg

flights = (sqlContext
    .read
    .format("csv")
    .options(inferSchema="true", header="true")
    .load("flights.csv")
    .na.drop())

flights.registerTempTable("flights")
sqlContext.cacheTable("flights")

gexprs = ("origin", "dest", "carrier")
aggexpr = avg("arr_delay")

flights.count()
## 336776

%timeit -n10 flights.groupBy(*gexprs ).pivot("hour").agg(aggexpr).count()
## 10 loops, best of 3: 1.03 s per loop

Anuj Sharma

Respostas semelhantes a “Quadro de dados do pivô Spark usando Python”

As ligações Python 2 para RPM são necessárias para este módulo. Se você precisar de suporte Python 3, use o módulo `dnf` Ansible. O módulo Python 2 Yum é necessário para este módulo. Se você precisar de suporte do Python 3, use o módulo `dnf` Ansible.

Perguntas semelhantes a “Quadro de dados do pivô Spark usando Python”

Mais respostas relacionadas para “Quadro de dados do pivô Spark usando Python” em Python

Procure respostas de código populares por idioma

Procurar outros idiomas de código

Shell/Bash

C++

CSS

HTML

Java

JavaScript

Objective-C

PHP

Python

Sql

Swift

Ruby

TypeScript

Kotlin

Assembly

VBA

Scala

Rust

Dart

Elixir

Clojure

Haskell

Matlab

Erlang

Cobol

Fortran

Scheme

Perl

Groovy

Lua

Julia

Delphi

Abap

Lisp

Prolog

Pascal

ActionScript

Basic

Solidity

PowerShell

GDScript

Excel