Databricks

databricksのnotebookを使ってみよう その1

 

こんにちは。エクスチュアの松村です。

databricksのノートブックは、データ分析をする人にはおなじみの「Jupyter Notebook」と同じ対話型の実行環境です。
JupyterNotebookと同じように使えるのはもちろんのこと、それ以上に魅力的な機能が満載です。

本ブログでは複数回にわけて、databricksのノートブックの魅力を紹介していきます。

1.同じノートブック内で複数言語が使える

データの加工や分析をしていると、ケースによっては違う言語を使いたい時があります。
特にSQL言語は単純なSELECTや集計処理を実施したい時にはかかせません。

databricksノートブックでは、同じノートブック内でセルごとに「Python」「Scala」「R」「SQL」を切り替えて使うことができます。

実際につかってみましょう

⓪分析用ファイルを読み込み

下準備として、サンプルデータをSpark dataframeに読み込みます。
dataframeよりTemporaryViewを作成することで、言語を切り替えてもテーブルとして扱うことができるようになります。

①Pythonでデータを読み込み

セルの1行目にマジックコマンドとして「%python」と指定すると、そのセル内の言語をpythonに指定できます。
pythonで読み込んでみます

②Scalaでデータを読み込み

セルの言語をScalaにしてみます。同じ結果が取れますね

③SQLでデータを読み込み

これが一番使うかもしれない、SQL言語。
SQLの場合は、SELECT文の結果がそのまま出力結果になります。
SQLで単純に書ける時は、一番簡単ですね。

当然、INSERTやUPDATE文も記述してテーブルの内容を更新することも可能です。

とても便利ですね

2.グラフがUIから簡単に作れる

JupyterNotebookでグラフを出す為にMatplotlibを使っているかたは多いと思います。
databricksノートブックでは、dataframeからUI操作のみでグラフを表示できます。

やってみましょう

サンプルデータから、性別ごとに人数を取得してみます

セルの下部にあるグラフのボタンより、「Pie (パイチャート)」を選びます

パイチャートのできあがり

これだけではありません。
UI上でpivotテーブルを作ることもできます。プログラムで集計しないでも、抽出したレコードに対してpivotを設定します

設定したpivotに対して同じくpieチャートを指定すると、先ほどと同じチャートができあがります

他にも様々なチャートをUI操作だけで作成することができます。
databricksノートブックで出力しているチャートの数々をいくつかをスナップショットで紹介します

 

いかがでしたでしょうか。

今回のブログでは2つの特長を紹介しましたが、まだまだ他にも魅力的な機能があります。
次回以降もdatabricksの魅力を伝えていきたいと思います。

 

弊社では、各種マーテックツールの導入実装コンサルティングサービスや、GCP/AWS/Azureなどのパブリッククラウド、databricksを使ったデータ分析基盤構築コンサルティングサービスを提供しております。

お問い合わせはこちらからどうぞ。

関連記事

  1. Databricks

    Databricks: Spark DataFrameでピボットグラフを作る

    こんにちは、エクスチュアの權泳東(権泳東/コン・ヨンドン)です。…

  2. Databricks

    Databricks: Spark DataFrameでユーザー定義関数を使う

    こんにちは、エクスチュアの權泳東(権泳東/コン・ヨンドン)です。…

  3. Databricks

    databricks:GCPで利用を開始する

    databricksがGCPに対応し、Mark…

  4. Databricks

    Databricks: Spark DataFramesをJDBCから作成する

    こんにちは、エクスチュアの權泳東(権泳東/コン・ヨンドン)です。…

  5. Amazon Web Services

    Databricks Community Editionを使ってApache Sparkを無料で学ぶ…

    こんにちは、エクスチュアの權泳東(権泳東/コン・ヨンドン)です。…

  6. Databricks

    Databricks: Delta Lakeを使ってみる

    こんにちは、エクスチュアの權泳東(権泳東/コン・ヨンドン)です。…

最近の記事

  1. Databricksが買収した8080Labのbambool…
  2. databricksのnotebookを使ってみよう その2…
  3. databricksのnotebookを使ってみよう その1…
  4. databricks:GCPで利用を開始する
  5. KARTE「オフラインデータをオンライン接客に活用する」
  1. Firebase Analytics

    GoogleAnalytics Apps+Web プロパティをBigQueryと…
  2. ヒートマップ

    スクロール・ヒートマップ
  3. ObservePoint

    ObservePoint:強力でアツい機能を持つサイト監査ツールの紹介
  4. Databricks

    Databricksを始める前に覚えておきたいScalaプログラミングの基本
  5. Google Cloud Platform

    Looker: LookerbotでSlackにグラフ画像をスケジュール投稿する…
PAGE TOP