Databricks

databricksのnotebookを使ってみよう その1

 

こんにちは。エクスチュアの松村です。

databricksのノートブックは、データ分析をする人にはおなじみの「Jupyter Notebook」と同じ対話型の実行環境です。
JupyterNotebookと同じように使えるのはもちろんのこと、それ以上に魅力的な機能が満載です。

本ブログでは複数回にわけて、databricksのノートブックの魅力を紹介していきます。

1.同じノートブック内で複数言語が使える

データの加工や分析をしていると、ケースによっては違う言語を使いたい時があります。
特にSQL言語は単純なSELECTや集計処理を実施したい時にはかかせません。

databricksノートブックでは、同じノートブック内でセルごとに「Python」「Scala」「R」「SQL」を切り替えて使うことができます。

実際につかってみましょう

⓪分析用ファイルを読み込み

下準備として、サンプルデータをSpark dataframeに読み込みます。
dataframeよりTemporaryViewを作成することで、言語を切り替えてもテーブルとして扱うことができるようになります。

①Pythonでデータを読み込み

セルの1行目にマジックコマンドとして「%python」と指定すると、そのセル内の言語をpythonに指定できます。
pythonで読み込んでみます

②Scalaでデータを読み込み

セルの言語をScalaにしてみます。同じ結果が取れますね

③SQLでデータを読み込み

これが一番使うかもしれない、SQL言語。
SQLの場合は、SELECT文の結果がそのまま出力結果になります。
SQLで単純に書ける時は、一番簡単ですね。

当然、INSERTやUPDATE文も記述してテーブルの内容を更新することも可能です。

とても便利ですね

2.グラフがUIから簡単に作れる

JupyterNotebookでグラフを出す為にMatplotlibを使っているかたは多いと思います。
databricksノートブックでは、dataframeからUI操作のみでグラフを表示できます。

やってみましょう

サンプルデータから、性別ごとに人数を取得してみます

セルの下部にあるグラフのボタンより、「Pie (パイチャート)」を選びます

パイチャートのできあがり

これだけではありません。
UI上でpivotテーブルを作ることもできます。プログラムで集計しないでも、抽出したレコードに対してpivotを設定します

設定したpivotに対して同じくpieチャートを指定すると、先ほどと同じチャートができあがります

他にも様々なチャートをUI操作だけで作成することができます。
databricksノートブックで出力しているチャートの数々をいくつかをスナップショットで紹介します

 

いかがでしたでしょうか。

今回のブログでは2つの特長を紹介しましたが、まだまだ他にも魅力的な機能があります。
次回以降もdatabricksの魅力を伝えていきたいと思います。

 

弊社では、各種マーテックツールの導入実装コンサルティングサービスや、GCP/AWS/Azureなどのパブリッククラウド、databricksを使ったデータ分析基盤構築コンサルティングサービスを提供しております。

お問い合わせはこちらからどうぞ。

databricks:GCPで利用を開始する前のページ

databricksのnotebookを使ってみよう その2次のページ

ピックアップ記事

  1. 最速で理解したい人のためのIT用語集

関連記事

  1. Databricks

    Databricks: Delta Lakeを使ってみる

    こんにちは、エクスチュアの權泳東(権泳東/コン・ヨンドン)です。…

  2. Databricks

    Databricks: Spark RDDで使う主なメソッド

    こんにちは、エクスチュアの權泳東(権泳東/コン・ヨンドン)です。…

  3. Databricks

    Databricksを始める前に覚えておきたいScalaプログラミングの基本

    こんにちは、エクスチュアの權泳東(権泳東/コン・ヨンドン)です。…

  4. Databricks

    Databricks: Spark DataFramesをJDBCから作成する

    こんにちは、エクスチュアの權泳東(権泳東/コン・ヨンドン)です。…

  5. Amazon Web Services

    Databricks Community Editionを使ってApache Sparkを無料で学ぶ…

    こんにちは、エクスチュアの權泳東(権泳東/コン・ヨンドン)です。…

  6. Databricks

    ScalaでDatabricksのDataFrameを扱う

    こんにちは、エクスチュアの權泳東(権泳東/コン・ヨンドン)です。…

カテゴリ
最近の記事
  1. 【dbts25】Snowflake×PostgreSQLのニ…
  2. TROCCO dbt連携編
  3. KARTEの「フレックスエディタ(β)」登場!ノーコードでこ…
  4. dbt Projects on Snowflake使ってみた…
  5. Cortex Analystを使ってみた
  1. dbt

    Snowflake Summit 2025 参加レポート【Day3】
  2. 未分類

    databricksのnotebookを使ってみよう その2
  3. boxMCP

    Claude

    boxMCPサーバーを使ってみた
  4. IT用語集

    クラス(Class)って何?
  5. Google BigQuery

    【BigQuery】TABLESAMPLE SYSTEMを日本一詳しく解説する
PAGE TOP