Databricks

databricksのnotebookを使ってみよう その1

 

こんにちは。エクスチュアの松村です。

databricksのノートブックは、データ分析をする人にはおなじみの「Jupyter Notebook」と同じ対話型の実行環境です。
JupyterNotebookと同じように使えるのはもちろんのこと、それ以上に魅力的な機能が満載です。

本ブログでは複数回にわけて、databricksのノートブックの魅力を紹介していきます。

1.同じノートブック内で複数言語が使える

データの加工や分析をしていると、ケースによっては違う言語を使いたい時があります。
特にSQL言語は単純なSELECTや集計処理を実施したい時にはかかせません。

databricksノートブックでは、同じノートブック内でセルごとに「Python」「Scala」「R」「SQL」を切り替えて使うことができます。

実際につかってみましょう

⓪分析用ファイルを読み込み

下準備として、サンプルデータをSpark dataframeに読み込みます。
dataframeよりTemporaryViewを作成することで、言語を切り替えてもテーブルとして扱うことができるようになります。

①Pythonでデータを読み込み

セルの1行目にマジックコマンドとして「%python」と指定すると、そのセル内の言語をpythonに指定できます。
pythonで読み込んでみます

②Scalaでデータを読み込み

セルの言語をScalaにしてみます。同じ結果が取れますね

③SQLでデータを読み込み

これが一番使うかもしれない、SQL言語。
SQLの場合は、SELECT文の結果がそのまま出力結果になります。
SQLで単純に書ける時は、一番簡単ですね。

当然、INSERTやUPDATE文も記述してテーブルの内容を更新することも可能です。

とても便利ですね

2.グラフがUIから簡単に作れる

JupyterNotebookでグラフを出す為にMatplotlibを使っているかたは多いと思います。
databricksノートブックでは、dataframeからUI操作のみでグラフを表示できます。

やってみましょう

サンプルデータから、性別ごとに人数を取得してみます

セルの下部にあるグラフのボタンより、「Pie (パイチャート)」を選びます

パイチャートのできあがり

これだけではありません。
UI上でpivotテーブルを作ることもできます。プログラムで集計しないでも、抽出したレコードに対してpivotを設定します

設定したpivotに対して同じくpieチャートを指定すると、先ほどと同じチャートができあがります

他にも様々なチャートをUI操作だけで作成することができます。
databricksノートブックで出力しているチャートの数々をいくつかをスナップショットで紹介します

 

いかがでしたでしょうか。

今回のブログでは2つの特長を紹介しましたが、まだまだ他にも魅力的な機能があります。
次回以降もdatabricksの魅力を伝えていきたいと思います。

 

弊社では、各種マーテックツールの導入実装コンサルティングサービスや、GCP/AWS/Azureなどのパブリッククラウド、databricksを使ったデータ分析基盤構築コンサルティングサービスを提供しております。

お問い合わせはこちらからどうぞ。

ピックアップ記事

  1. 最速で理解したい人のためのIT用語集

関連記事

  1. Databricks

    Databricks: Spark DataFrameでピボットグラフを作る

    こんにちは、エクスチュアの權泳東(権泳東/コン・ヨンドン)です。…

  2. Amazon Web Services

    Databricks Community Editionを使ってApache Sparkを無料で学ぶ…

    こんにちは、エクスチュアの權泳東(権泳東/コン・ヨンドン)です。…

  3. Databricks

    Databricks: Spark DataFrameでユーザー定義関数を使う

    こんにちは、エクスチュアの權泳東(権泳東/コン・ヨンドン)です。…

  4. Databricks

    ScalaでDatabricksのDataFrameを扱う

    こんにちは、エクスチュアの權泳東(権泳東/コン・ヨンドン)です。…

  5. Databricks

    databricks:GCPで利用を開始する

    databricksがGCPに対応し、Mark…

  6. Databricks

    Databricks: Spark DataFramesをJDBCから作成する

    こんにちは、エクスチュアの權泳東(権泳東/コン・ヨンドン)です。…

最近の記事

  1. 【GA4/GTM】dataLayerを使ってカスタムイベント…
  2. KARTE を使ってサイト外でも接客を
  3. 【GA4/GTM】dataLayerを活用しよう
  4. ジャーニーマップをデジタルマーケティングの視点で
  5. ChatGPT ProからClaude3 Proへ移行した話…
  1. Tableau

    Tableauのヘックスタイルマップでヒートマップを地図上に粗く表現する
  2. IT用語集

    【完全版】Tableau(タブロー)って何?
  3. Google Analytics

    Google Analytics フィルタ②
  4. GA 360 Suite

    BigQuery: Google Analytics 360のネストされたデータ…
  5. Tableau

    Tableau:分かりやすいLOD-FIXED編
PAGE TOP