Databricks

databricksのnotebookを使ってみよう その1

 

こんにちは。エクスチュアの松村です。

databricksのノートブックは、データ分析をする人にはおなじみの「Jupyter Notebook」と同じ対話型の実行環境です。
JupyterNotebookと同じように使えるのはもちろんのこと、それ以上に魅力的な機能が満載です。

本ブログでは複数回にわけて、databricksのノートブックの魅力を紹介していきます。

1.同じノートブック内で複数言語が使える

データの加工や分析をしていると、ケースによっては違う言語を使いたい時があります。
特にSQL言語は単純なSELECTや集計処理を実施したい時にはかかせません。

databricksノートブックでは、同じノートブック内でセルごとに「Python」「Scala」「R」「SQL」を切り替えて使うことができます。

実際につかってみましょう

⓪分析用ファイルを読み込み

下準備として、サンプルデータをSpark dataframeに読み込みます。
dataframeよりTemporaryViewを作成することで、言語を切り替えてもテーブルとして扱うことができるようになります。

①Pythonでデータを読み込み

セルの1行目にマジックコマンドとして「%python」と指定すると、そのセル内の言語をpythonに指定できます。
pythonで読み込んでみます

②Scalaでデータを読み込み

セルの言語をScalaにしてみます。同じ結果が取れますね

③SQLでデータを読み込み

これが一番使うかもしれない、SQL言語。
SQLの場合は、SELECT文の結果がそのまま出力結果になります。
SQLで単純に書ける時は、一番簡単ですね。

当然、INSERTやUPDATE文も記述してテーブルの内容を更新することも可能です。

とても便利ですね

2.グラフがUIから簡単に作れる

JupyterNotebookでグラフを出す為にMatplotlibを使っているかたは多いと思います。
databricksノートブックでは、dataframeからUI操作のみでグラフを表示できます。

やってみましょう

サンプルデータから、性別ごとに人数を取得してみます

セルの下部にあるグラフのボタンより、「Pie (パイチャート)」を選びます

パイチャートのできあがり

これだけではありません。
UI上でpivotテーブルを作ることもできます。プログラムで集計しないでも、抽出したレコードに対してpivotを設定します

設定したpivotに対して同じくpieチャートを指定すると、先ほどと同じチャートができあがります

他にも様々なチャートをUI操作だけで作成することができます。
databricksノートブックで出力しているチャートの数々をいくつかをスナップショットで紹介します

 

いかがでしたでしょうか。

今回のブログでは2つの特長を紹介しましたが、まだまだ他にも魅力的な機能があります。
次回以降もdatabricksの魅力を伝えていきたいと思います。

 

弊社では、各種マーテックツールの導入実装コンサルティングサービスや、GCP/AWS/Azureなどのパブリッククラウド、databricksを使ったデータ分析基盤構築コンサルティングサービスを提供しております。

お問い合わせはこちらからどうぞ。

関連記事

  1. Databricks

    Databricks: Spark DataFrameでユーザー定義関数を使う

    こんにちは、エクスチュアの權泳東(権泳東/コン・ヨンドン)です。…

  2. Databricks

    Databricksを始める前に覚えておきたいScalaプログラミングの基本

    こんにちは、エクスチュアの權泳東(権泳東/コン・ヨンドン)です。…

  3. Databricks

    ScalaでDatabricksのDataFrameを扱う

    こんにちは、エクスチュアの權泳東(権泳東/コン・ヨンドン)です。…

  4. Databricks

    Databricks: Delta Lakeを使ってみる

    こんにちは、エクスチュアの權泳東(権泳東/コン・ヨンドン)です。…

  5. Databricks

    Databricks: Spark DataFrameでピボットグラフを作る

    こんにちは、エクスチュアの權泳東(権泳東/コン・ヨンドン)です。…

  6. Adobe Analytics

    Azure DatabricksでAdobe AnalyticsのDatafeedを分析する

    こんにちは、エクスチュアの權泳東(権泳東/コン・ヨンドン)です。…

最近の記事

  1. Adobe Analyticsのモバイルアプリが意外と便利
  2. Sansan:メール署名取り込み機能を設定してみた
  3. System Managerを利用したVPC内Redshif…
  4. Amazon Redshift ビルド168まとめ
  5. Tableauのテスト自動化を実現する Wiiisdom O…
  1. Adobe Analytics

    Adobe Analytics: カスタムリンク計測を1行で書く
  2. Tableau

    Tableau:KPI達成状況を把握出来るグラフを作る
  3. ヒートマップ

    【Tips】ヒートマップ機能について①~クリック・スクロール編~
  4. Google Cloud Platform

    Looker: LookerbotをGoogle Cloud Platformで…
  5. Adobe Analytics

    Adobe Summit 2020レポート: Advanced Techniqu…
PAGE TOP