Databricks

Databricks: Delta Lakeを使ってみる

こんにちは、エクスチュアの権泳東(コン・ヨンドン)です。

今回はDatabricksで使えるストレージレイヤーである「Delta Lake」について説明します。
Data Lakeじゃなくて、De*l*ta Lakeです。デルタレイク。

DatabricksにCSVをロードしてDataFrameを作っていたら、実行結果の下にNoticeが出てきました。

何やらNoticeが出てきた

こう書いてあります。

Accelerate queries with Delta: This query contains a highly selective filter. To improve the performance of queries, convert the table to Delta and run the OPTIMIZE ZORDER BY command on the table.

「Deltaを使ってクエリを加速しよう」と言ってますね。
早速試してみます。

Delta Lakeとは?

Introduction to Delta Lake

Delta Lakeとは、Apache Sparkで使えるスケーラブルなストレージレイヤーです。
ACIDトランザクションとバージョニングもサポートしてます。

DataFrameをDeltaフォーマットで書き出す

まずはDataFrameをDeltaデータとしてファイルシステムに書き出す必要があります。
DataFrameをformatで「delta」を指定して、saveするだけです。

df.write.format("delta").save("/delta/mydata")

Deltaフォーマットで書き出す

DeltaデータからDataFrameを作る

今度は、先程ファイルシステムに書き出したDeltaデータを使ってDataFrameを作成します。

val df_delta = spark.read.format("delta").load("/delta/mydata")

DeltaデータからDataFrameを作成

Delta DataFrameにクエリを実行する

では、Deltaデータから作成したDataFrameを操作します。
なお、元データはKaggleの2015 Flight Delays and Cancellationsを使ってます。
目的地を出発地のある州別にグルーピングします。

通常のDataFrameと同じメソッドを使えます。

val df_delta2 = df_delta.filter('count > 5000)
.groupBy('origin_state).agg(collect_list('dest_city).as("dest_cities"))
.withColumn("dest_city_count", size('dest_cities))

Delta DataFrameを操作する

データ量が少ないデモデータで実施すると速さの違いを体感出来ませんが、PB規模のビッグデータに対して高速なクエリを実行できる事が期待される機能です。

弊社はデジタルマーケティングからビッグデータ分析まで幅広くこなすデータ分析のプロ集団です。
Databricksのコンサルティング/導入支援についてのお問合わせはこちらからどうぞ。

ブログへの記事リクエストはこちらまでどうぞ。

関連記事

  1. Adobe Analytics

    Adobe Analytics: SegmentsAPIを使って大量のセグメント設定を作成・更新する…

    こんにちは、エクスチュアCTOの権です。今回はAdobe Ma…

  2. Databricks

    Databricksを始める前に覚えておきたいScalaプログラミングの基本

    こんにちは、エクスチュアの権泳東(コン・ヨンドン)です。最近ツイッ…

  3. Google BigQuery

    GCP: 今月のGCP課金額をslackに自動的に書き込む

    こんにちは、エクスチュアCTOの権です。今回はGCPの課金額を…

  4. Databricks

    Databricks: Spark DataFrameでユーザー定義関数を使う

    こんにちは、エクスチュアの権泳東(コン・ヨンドン)です。今回は…

  5. Amazon Web Services

    Databricks Community Editionを使ってApache Sparkを無料で学ぶ…

    こんにちは、エクスチュアの権泳東(コン・ヨンドン)です。今回は、無…

  6. Adobe Analytics

    Adobe AnaltyicsとGoogle Analytics の「生Webビーコン」をBigQu…

    こんにちは、エクスチュアの権泳東(コン・ヨンドン)です。今回は…

最近の記事

  1. 【TC19ブログ】新しいデータモデリングを解説する
  2. 【TC19ブログ】セッション紹介:DataRobot×Tab…
  3. AdobeAnalytics Datafeed: BigQu…
  4. 【TC19ブログ】Tableau Conference 20…
  5. 【TC19ブログ】Tableau Conference 20…
  1. Adobe Analytics

    Adobe Analytics: レガシーs_code.jsのリミッターを解除し…
  2. Adobe Analytics

    Adobe Analytics:IF関数を使用した計算指標
  3. Adobe Cloud Platform Auditor

    Adobe Cloud Platform Auditor (Powered by…
  4. Google Cloud Platform

    Looker: サンバーストグラフを使って階層データを可視化する
  5. Mouseflow

    Mouseflow:レコーディングを確認する前に
PAGE TOP