Databricks

Databricks: Spark DataFrameでユーザー定義関数を使う

こんにちは、エクスチュアの權泳東(権泳東/コン・ヨンドン)です。

今回はDatabricksにおける、Spark DataFrameのユーザー定義関数(UDF)の作り方についてです。

Spark DataFrameのUDFを作るためには、以下の3点がポイントです。

・Scalaで関数を作成する
・DataFrameで使うSQL用のUDFを登録する
・DataFrameで使うScala用のUDFを登録する

試しに、URLエンコードされた文字列をデコードしてくれるdecodeUrl関数を作ります。

1. Scalaで元の関数を作成する

まずはScalaで関数そのものを書きます。

import java.net.URLDecoder

def decodeUrl(x:String): String = {
  URLDecoder.decode(x, "UTF-8")
}

ScalaはJavaのライブラリを使えるので便利ですね。
関数を宣言したら、動作確認をします。

decodeUrl("%e3%81%82%e3%81%84%e3%81%86%e3%81%88%e3%81%8a")

実行すると、「あいうえお」というStringが返ってきます。

作成した関数を実行

 

2. 関数をUDFとして登録して利用する

このdecodeUrl関数をUDFとして登録します。

val decodeUrlScalaUDF = spark.udf.register("decodeUrlSqlUDF", (x:String) => decodeUrl(x))

分かりやすくするためにUDFの名前を分けてます。
SQLで使うUDFとしてdecodeUrlSqlUDFを登録して、さらにScalaで使うUDFとして同時にdecodeUrlScalaUDFも登録します。

このUDFを使って、URエンコードされたカラムをデコードします。

display(adbDF.filter('page_url.contains("%"))
        .select('page_url, decodeUrlScalaUDF('page_url) as "decodedUrl")
        .limit(10))

Adobe AnalyticsのデータフィードでDataFrameを作成している前提です。
page_urlカラムには、エンコードされたURLが計測されているので、それをデコードしてます。

Scala用UDFを実行

URLエンコードされているデータが、decodeUrlScalaUDFによってデコードされて表示されました。

 

3. UDFをSQLで実行する

SQLでもUDFを実行してみます。
createOrReplaceTempViewで先にテーブルを作っておいてから実行します。

%sql
select page_url, 
decodeUrlSqlUDF(page_url) as decoded_url
from adbDF
where page_url like '%\%%'
limit 10

実行するUDFはSQL用のdecodeUrlSqlUDFです。

SQL用のUDFを実行

SQLでもURLがデコードされました。

 

自作のUDFを使えば、ビルトインのメソッドだけでは実現出来ない複雑な処理を使ったクエリの作成が可能になります。

弊社はデジタルマーケティングからビッグデータ分析まで幅広くこなすデータ分析のプロ集団です。
Databricksのコンサルティング/導入支援についてのお問合わせはこちらからどうぞ。

ブログへの記事リクエストはこちらまでどうぞ。

ピックアップ記事

  1. 最速で理解したい人のためのIT用語集

関連記事

  1. Google Cloud Platform

    Node.js+GAE: 日本語自然文を形態素解析してネガポジ判定をする

    こんにちは、エクスチュアの權泳東(権泳東/コン・ヨンドン)です。…

  2. Databricks

    Databricks: Spark RDDで使う主なメソッド

    こんにちは、エクスチュアの權泳東(権泳東/コン・ヨンドン)です。…

  3. Databricks

    databricksのnotebookを使ってみよう その1

    こんにちは。エクスチュアの松村です。…

  4. Adobe Analytics

    AdobeAnalytics: s.Util.getQueryParam で複数パラメータ同時取得

    こんにちは、エクスチュアの權泳東(権泳東/コン・ヨンドン)です。…

  5. Google Analytics

    Cloud FunctionsとOpenWeather APIを使ってGoogle Analytic…

    こんにちは、エクスチュアの権泳東(權泳東/コン・ヨンドン)です。…

  6. Google BigQuery

    Big QueryでWindow関数を用いて、累積和を計算する

    こんにちは。エクスチュアでインターンをさせて頂いている中野です。…

最近の記事

  1. SnowflakeのHybrid Tableのマニュアルを読…
  2. IQをキッカケに理解する統計学の基礎
  3. mouseflow の フリクションイベント って何?
  4. ObservePointの「Journey」とは?
  5. LangChainって何?: 次世代AIアプリケーション構築…
  1. IT用語集

    テーブル(Table)・カラム(Column)・ロー(Row)・フィールド(Fi…
  2. Tableau

    【TC19ブログ】セッション紹介:DataRobot×TableauでAIを民主…
  3. IT用語集

    ナレッジマネジメント(Knowledge Management)って何?
  4. Snowflake

    SnowflakeのHybrid Tableのマニュアルを読み解く
  5. Google Apps Script(GAS)

    Google App ScriptでWebアプリを作る
PAGE TOP