Databricks

Databricks: Delta Lakeを使ってみる

こんにちは、エクスチュアの權泳東(権泳東/コン・ヨンドン)です。

今回はDatabricksで使えるストレージレイヤーである「Delta Lake」について説明します。
Data Lakeじゃなくて、De*l*ta Lakeです。デルタレイク。

DatabricksにCSVをロードしてDataFrameを作っていたら、実行結果の下にNoticeが出てきました。

何やらNoticeが出てきた

こう書いてあります。

Accelerate queries with Delta: This query contains a highly selective filter. To improve the performance of queries, convert the table to Delta and run the OPTIMIZE ZORDER BY command on the table.

「Deltaを使ってクエリを加速しよう」と言ってますね。
早速試してみます。

Delta Lakeとは?

Introduction to Delta Lake

Delta Lakeとは、Apache Sparkで使えるスケーラブルなストレージレイヤーです。
ACIDトランザクションとバージョニングもサポートしてます。

DataFrameをDeltaフォーマットで書き出す

まずはDataFrameをDeltaデータとしてファイルシステムに書き出す必要があります。
DataFrameをformatで「delta」を指定して、saveするだけです。

df.write.format("delta").save("/delta/mydata")

Deltaフォーマットで書き出す

DeltaデータからDataFrameを作る

今度は、先程ファイルシステムに書き出したDeltaデータを使ってDataFrameを作成します。

val df_delta = spark.read.format("delta").load("/delta/mydata")

DeltaデータからDataFrameを作成

Delta DataFrameにクエリを実行する

では、Deltaデータから作成したDataFrameを操作します。
なお、元データはKaggleの2015 Flight Delays and Cancellationsを使ってます。
目的地を出発地のある州別にグルーピングします。

通常のDataFrameと同じメソッドを使えます。

val df_delta2 = df_delta.filter('count > 5000)
.groupBy('origin_state).agg(collect_list('dest_city).as("dest_cities"))
.withColumn("dest_city_count", size('dest_cities))

Delta DataFrameを操作する

データ量が少ないデモデータで実施すると速さの違いを体感出来ませんが、PB規模のビッグデータに対して高速なクエリを実行できる事が期待される機能です。

弊社はデジタルマーケティングからビッグデータ分析まで幅広くこなすデータ分析のプロ集団です。
Databricksのコンサルティング/導入支援についてのお問合わせはこちらからどうぞ。

ブログへの記事リクエストはこちらまでどうぞ。

Adobe Analytics:計算指標でevents変数を後付けでパーティシペーションにする前のページ

カプセル化(Encapsulation)って何?次のページ

ピックアップ記事

  1. 最速で理解したい人のためのIT用語集

関連記事

  1. Firebase Analytics

    Firebase AnalyticsのデータをフラットなCSVに変換するETL処理

    こんにちは、エクスチュアの權泳東(権泳東/コン・ヨンドン)です。…

  2. プログラミング

    Node.jsでCSVファイル内のダブルクオートで囲まれたカラム内のカンマを除去する

    こんにちは、エクスチュアの權泳東(権泳東/コン・ヨンドン)です。…

  3. Adobe Analytics

    Adobe AEP SDKをTypeScriptで開発したReactNativeアプリに実装する

    こんにちは、エクスチュアの権泳東(權泳東/コン・ヨンドン)です。…

  4. Adobe Analytics

    AdobeAnalytics: GTMのdataLayerをAdobeAnalyticsの処理ルール…

    こんにちは、エクスチュアの權泳東(権泳東/コン・ヨンドン)です。…

  5. Adobe Analytics

    Adobe AEP SDKでReactNativeアプリを計測する (Android編)

    こんにちは、エクスチュアの権泳東(コン・ヨンドン)です。今回は…

  6. Google Analytics

    Cloud FunctionsとOpenWeather APIを使ってGoogle Analytic…

    こんにちは、エクスチュアの権泳東(權泳東/コン・ヨンドン)です。…

カテゴリ
最近の記事
  1. Adobe Target Recommendations:g…
  2. Conversational Analytics APIでお…
  3. Looker Studioで日付フィルターの開始日・終了日の…
  4. Streamlitでdbt-elementary風ダッシュボ…
  5. Adobe WebSDK FPIDでECIDの復元を検証
  1. Google Analytics

    Google Analytics フィルタ②
  2. データサイエンス

    回帰分析はかく語りき Part2 重回帰分析
  3. Mouseflow

    Mouseflowの新機能:サイト単位でレコーディング数の制限が可能に!
  4. Snowflake

    SnowflakeのHybrid Tableのマニュアルを読み解く
  5. Adobe Analytics

    デバイスとは-Adobe Analyticsの指標説明
PAGE TOP