こんにちは。エクスチュアの松村です。
databricksのノートブックは、データ分析をする人にはおなじみの「Jupyter Notebook」と同じ対話型の実行環境です。
JupyterNotebookと同じように使えるのはもちろんのこと、それ以上に魅力的な機能が満載です。
本ブログでは複数回にわけて、databricksのノートブックの魅力を紹介していきます。
1.同じノートブック内で複数言語が使える
データの加工や分析をしていると、ケースによっては違う言語を使いたい時があります。
特にSQL言語は単純なSELECTや集計処理を実施したい時にはかかせません。
databricksノートブックでは、同じノートブック内でセルごとに「Python」「Scala」「R」「SQL」を切り替えて使うことができます。
実際につかってみましょう
⓪分析用ファイルを読み込み
下準備として、サンプルデータをSpark dataframeに読み込みます。
dataframeよりTemporaryViewを作成することで、言語を切り替えてもテーブルとして扱うことができるようになります。
①Pythonでデータを読み込み
セルの1行目にマジックコマンドとして「%python」と指定すると、そのセル内の言語をpythonに指定できます。
pythonで読み込んでみます
②Scalaでデータを読み込み
セルの言語をScalaにしてみます。同じ結果が取れますね
③SQLでデータを読み込み
これが一番使うかもしれない、SQL言語。
SQLの場合は、SELECT文の結果がそのまま出力結果になります。
SQLで単純に書ける時は、一番簡単ですね。
当然、INSERTやUPDATE文も記述してテーブルの内容を更新することも可能です。
とても便利ですね
2.グラフがUIから簡単に作れる
JupyterNotebookでグラフを出す為にMatplotlibを使っているかたは多いと思います。
databricksノートブックでは、dataframeからUI操作のみでグラフを表示できます。
やってみましょう
サンプルデータから、性別ごとに人数を取得してみます
セルの下部にあるグラフのボタンより、「Pie (パイチャート)」を選びます
パイチャートのできあがり
これだけではありません。
UI上でpivotテーブルを作ることもできます。プログラムで集計しないでも、抽出したレコードに対してpivotを設定します
設定したpivotに対して同じくpieチャートを指定すると、先ほどと同じチャートができあがります
他にも様々なチャートをUI操作だけで作成することができます。
databricksノートブックで出力しているチャートの数々をいくつかをスナップショットで紹介します
いかがでしたでしょうか。
今回のブログでは2つの特長を紹介しましたが、まだまだ他にも魅力的な機能があります。
次回以降もdatabricksの魅力を伝えていきたいと思います。
弊社では、各種マーテックツールの導入実装コンサルティングサービスや、GCP/AWS/Azureなどのパブリッククラウド、databricksを使ったデータ分析基盤構築コンサルティングサービスを提供しております。
お問い合わせはこちらからどうぞ。