Databricks: Spark DataFrameでピボットグラフを作る | エクスチュア株式会社ブログ

ホーム

ホーム
Databricks, プログラミング
Databricks: Spark DataFrameでピボットグラフを作る

2019.07.17

Databricks: Spark DataFrameでピボットグラフを作る

こんにちは、エクスチュアの權泳東(権泳東/コン・ヨンドン)です。

今回はDatabricksにおける、Spark DataFrameのピボット機能を使った集計方法についてです。

DataFrameを作成する

まずはサンプルデータでDataFrameを作成します。
公開データのPopular Baby NamesのCSVを使います。
このデータは、「ニューヨーク市で生まれた新生児の名前」を出生年別・人種別・性別でまとめたパブリックデータです。

Databricksにデータをアップロードしてから、下記のコードでDataFrameを作成します。

import org.apache.spark.sql.functions._
import org.apache.spark.sql.types._

val myschema = StructType(
  Array(
    StructField("Year of Birth", IntegerType, true),
    StructField("Gender", StringType, true),
    StructField("Ethnicity", StringType, true),
    StructField("Child's First Name", StringType, true),
    StructField("Count", IntegerType, true),
    StructField("Rank", IntegerType, true)
  )
)

val babyname = spark.read.option("header", true)
.schema(myschema)
.csv("/FileStore/tables/Popular_Baby_Names.csv")

dispaly(babyname)

DataFrameの中身が表示されました。

Popular Baby NamesのCSVをロード

このデータを使って、
2013年〜2016年に生まれた「男の子」の名前でピボットを作ります。

pivotメソッドでピボットテーブル化

ピボットテーブルを作るにはその名もズバリpivotメソッドを使います。
groupByのあとに、さらに軸にしたいカラムをpivotで指定します。

val result = babyname.filter('Gender === "MALE")
.filter($"Year of Birth" > 2012)
.groupBy("Child's First Name")
.pivot("Year of Birth")
.sum("Count")

display(result.orderBy($"2016".desc).limit(10))

2016年の出生数を降順でソートしてトップ10だけを表示してます。

pivotメソッドを使う

ピボットグラフを作成する

最後にテーブルをグラフ化します。
グラフボタンを押して「Bar」を選んだ後、「Plot Option」を開いて下記のように設定します。

Keys: Child’s First Name
Value: 2013, 2014, 2015, 2016
Display type: Stacked Bar chart

積み上げ棒グラフの設定

Applyをクリックすると、グラフが描画されて完成です。

ピボットグラフの完成

Databricksを使えば、ETLから可視化までをScala/Pythonで一貫して作業出来るのでメソッドさえ覚えてしまえばとてもスムーズな分析が可能です。

弊社はデジタルマーケティングからビッグデータ分析まで幅広くこなすデータ分析のプロ集団です。
Databricksのコンサルティング/導入支援についてのお問合わせはこちらからどうぞ。

ブログへの記事リクエストはこちらまでどうぞ。

投稿者: YDK
Databricks, プログラミング

【Tips】ヒートマップ機能について②～ムーブメント、アテンション編～

Segmentでデータ管理を一元化する

ピックアップ記事

最速で理解したい人のためのIT用語集

関連記事

Adobe Analytics

AdobeAnalyticsでReactNativeアプリを計測する

この記事は2018年12月7日現在の情報を元にしているのと、レガシーA…
Firebase Analytics

Firebase AnalyticsのデータをフラットなCSVに変換するETL処理

こんにちは、エクスチュアの權泳東(権泳東/コン・ヨンドン)です。…
Adobe Analytics

AdobeAnalytics: s.Util.getQueryParam で複数パラメータ同時取得

こんにちは、エクスチュアの權泳東(権泳東/コン・ヨンドン)です。…
Google BigQuery

Google Apps Scriptを使ってスプレッドシートからBigQueryのテーブルを更新する…

こんにちは、エクスチュアの權泳東(権泳東/コン・ヨンドン)です。…
Google BigQuery

Big QueryでWindow関数を用いて、累積和を計算する

こんにちは。エクスチュアでインターンをさせて頂いている中野です。…
Google Cloud Platform

Google Compute Engine: 一定時間経過したらタスクを強制終了する

こんにちは、エクスチュアの權泳東(権泳東/コン・ヨンドン)です。…

検索

カテゴリ

最近の記事

Copyright © Exture Inc. All rights reserved.