Databricks

databricksのnotebookを使ってみよう その1

 

こんにちは。エクスチュアの松村です。

databricksのノートブックは、データ分析をする人にはおなじみの「Jupyter Notebook」と同じ対話型の実行環境です。
JupyterNotebookと同じように使えるのはもちろんのこと、それ以上に魅力的な機能が満載です。

本ブログでは複数回にわけて、databricksのノートブックの魅力を紹介していきます。

1.同じノートブック内で複数言語が使える

データの加工や分析をしていると、ケースによっては違う言語を使いたい時があります。
特にSQL言語は単純なSELECTや集計処理を実施したい時にはかかせません。

databricksノートブックでは、同じノートブック内でセルごとに「Python」「Scala」「R」「SQL」を切り替えて使うことができます。

実際につかってみましょう

⓪分析用ファイルを読み込み

下準備として、サンプルデータをSpark dataframeに読み込みます。
dataframeよりTemporaryViewを作成することで、言語を切り替えてもテーブルとして扱うことができるようになります。

①Pythonでデータを読み込み

セルの1行目にマジックコマンドとして「%python」と指定すると、そのセル内の言語をpythonに指定できます。
pythonで読み込んでみます

②Scalaでデータを読み込み

セルの言語をScalaにしてみます。同じ結果が取れますね

③SQLでデータを読み込み

これが一番使うかもしれない、SQL言語。
SQLの場合は、SELECT文の結果がそのまま出力結果になります。
SQLで単純に書ける時は、一番簡単ですね。

当然、INSERTやUPDATE文も記述してテーブルの内容を更新することも可能です。

とても便利ですね

2.グラフがUIから簡単に作れる

JupyterNotebookでグラフを出す為にMatplotlibを使っているかたは多いと思います。
databricksノートブックでは、dataframeからUI操作のみでグラフを表示できます。

やってみましょう

サンプルデータから、性別ごとに人数を取得してみます

セルの下部にあるグラフのボタンより、「Pie (パイチャート)」を選びます

パイチャートのできあがり

これだけではありません。
UI上でpivotテーブルを作ることもできます。プログラムで集計しないでも、抽出したレコードに対してpivotを設定します

設定したpivotに対して同じくpieチャートを指定すると、先ほどと同じチャートができあがります

他にも様々なチャートをUI操作だけで作成することができます。
databricksノートブックで出力しているチャートの数々をいくつかをスナップショットで紹介します

 

いかがでしたでしょうか。

今回のブログでは2つの特長を紹介しましたが、まだまだ他にも魅力的な機能があります。
次回以降もdatabricksの魅力を伝えていきたいと思います。

 

弊社では、各種マーテックツールの導入実装コンサルティングサービスや、GCP/AWS/Azureなどのパブリッククラウド、databricksを使ったデータ分析基盤構築コンサルティングサービスを提供しております。

お問い合わせはこちらからどうぞ。

ピックアップ記事

  1. 最速で理解したい人のためのIT用語集

関連記事

  1. Adobe Analytics

    Azure DatabricksでAdobe AnalyticsのDatafeedを分析する

    こんにちは、エクスチュアの權泳東(権泳東/コン・ヨンドン)です。…

  2. Amazon Web Services

    Databricks Community Editionを使ってApache Sparkを無料で学ぶ…

    こんにちは、エクスチュアの權泳東(権泳東/コン・ヨンドン)です。…

  3. Databricks

    databricks:GCPで利用を開始する

    databricksがGCPに対応し、Mark…

  4. Databricks

    ScalaでDatabricksのDataFrameを扱う

    こんにちは、エクスチュアの權泳東(権泳東/コン・ヨンドン)です。…

  5. Databricks

    Databricks: Spark RDDで使う主なメソッド

    こんにちは、エクスチュアの權泳東(権泳東/コン・ヨンドン)です。…

  6. Databricks

    Databricks: Spark DataFrameでユーザー定義関数を使う

    こんにちは、エクスチュアの權泳東(権泳東/コン・ヨンドン)です。…

最近の記事

  1. GCSへのSnowflake Open Catalogによる…
  2. VPC Service Controlsで「NO_MATCH…
  3. モダンデータスタックなワークフローオーケストレーションツール…
  4. Streamlit in Snowflakeによるダッシュボ…
  5. Streamlit in SnowflakeによるStrea…
  1. Adobe Analytics

    Adobe Analytics: AppMeasurement.jsの実装開発作…
  2. ブログ

    競合調査
  3. Google Tag Manager

    GTMでiframe内のクリックイベントを取得したい
  4. Adobe Analytics

    Adobe AEP SDKでReactNativeアプリを計測する (iOS編)…
  5. Google Analytics

    Google Tag Manager上でGoogle Analyticsのcli…
PAGE TOP