Cloud Dataflow

データアナリスト/データエンジニア向けNext19まとめ

こんにちは、エクスチュア渡部です。
2019/4/9-4/11に行われたGoogleNext@サンフランシスコに参加して来ました。

GoogleNext全体のレポートは、以下のブログも是非読んでください。
GoogleNext 2019レポート:1日目
GoogleNext 2019レポート:2日目
GoogleNext 2019レポート:3日目

今回は重大発表が盛り沢山だったNext19のなかで、
データアナリスト/データエンジニア向け発表を一部まとめました!



Cloud Data Fusion(Beta)
最初は、今回の発表の目玉の一つCloud Data Fusionです。
従来はTalendなどのETLツールや、Dataflow、または自作スクリプトに頼っていたデータ統合がGUIで完結出来ます。
ローカルファイルはもちろん、SFTPサーバー/GCS/AWS/Azureなど
様々な場所に点在するデータを前処理を行った上でBigQueryに統合する・・・
といったようなパイプラインを非エンジニアでも組めるようになります。

こちらのブログでも紹介しています。
GoogleNext 2019レポート:2日目

https://www.youtube.com/watch?v=kehG0CJw2wo(35:29より抜粋)

Cloud Nextにおける関連セッションはこちらです。

Data Catalog(Beta,ComingSoon)
続いては、メタデータ探索とメタデータ管理が出来るDataCatalogです。
BigQueryやCloudStorageにデータが散在したカオスな状況を、
Googleの検索技術を用いてお目当のデータを簡単に見つける環境を実現します。

https://www.youtube.com/watch?v=Qq76r-z_50c 21:57より抜粋

関連セッション「Data Discovery in Google Cloud」では、
インドネシアのライドシェアサービス大手GO-JEKによる、
DataCatalogを活用した社内データの検索ポータルが紹介されていました。(35:27-)
(こんなのあったら仕事が捗ること間違いなしです)

Cloud AutoML Table(Beta)
続いては機械学習系新ソリューション Cloud AutoML Tableです。
Googleが提供する「誰でも出来る機械学習シリーズ」であるAutoMLの最新作。
なんと、BigQueryなどに格納された「テーブル」をGUIでML出来るという夢のようなサービスです。

https://www.youtube.com/watch?v=MqO_L9nIOWMの18:30より抜粋

上記のようにテーブルの中の予測を行いたいカラムを指定するだけで、
自動的にフィーチャーエンジニアリングから最適なモデルの選定、
ハイパーパラメータの最適化までをGoogleが勝手に行いモデルを構築してくれます。

MLの基礎知識さえ身につければ、誰でも数クリックで予測が出来る環境を、
お手軽価格で始められるという恐ろしいサービスです。
Googleは約1年前にBigQueryMLの提供でSQLアナリストでもML出来る環境を作り喝采を浴びましたが、
今度はSQLすら書けなくても機械学習が出来る時代を作ってくれました。。

関連セッションである「Tackling High-Value Business Problems Using AutoML on Structured Data」では、
AutoML Tablesの世界に浸れるセッションのため興味ある方は必見です。


以上、新サービスの紹介でした。
ここまででもお腹いっぱいになるかと思いますが、
こちらからはBigQueryに関する機能拡張です。こちらも盛り沢山です!

BigQuery – BI Engine(Beta)
BigQueryの超高速なインメモリの分析サービスで
BIツールにおけるBigQueryのパフォーマンスを向上させるサービスです。
※現状ではDataStudioのみ対応

こちらに関しては以下のブログで解説致しましたので是非ご確認下さい。
http://ex-ture.com/blog/2019/04/14/bigquery-bi-engine/

BigQuery – Data warehouse migrations
TeradataやRedshiftに構築されたDWHの丸ごと引越し※や、
S3上に格納されたデータのBQへの転送(Alpha)が可能なサービスです。
もはや別クラウドにデータがあるとか一切関係なくなってきてますね。。
※TeradataはBeta、RedshiftはAlpha

BigQuery – 3rd Partyのデータ転送サービスが100以上サポート
いわゆる「コネクタ」がBigQueryにもやって来ました!
既にGoogleAnalytics360やFirebase等の「Google系」データソースは自動連携可能でしたが、
今回新たにコネクタ造りで著名なSupermetrics社などが開発したコネクタ100以上が追加されました。

https://marketingland.com/supermetrics-for-bigquery-launches-on-google-cloud-platform-marketplace-259487 より引用

Facebook広告やTwitter広告、Salesforceなどのお馴染みデータを、
APIからの取り込む処理を構築することなしにBQに統合出来ます。(有料です)

BigQuery – BQMLのモデル追加
リリース当初は線形回帰かロジスティック回帰の2種類だったBQMLのモデルが続々と追加されています。
・K-means(Beta)
・matrix factorization (alpha)
・TensorFlow Deep Neural Network models (alpha)

クラスタリングの定番K-meansや、待ち望む声も多かったTensorflowの追加、
BQMLの勢いを更に加速させること間違いなしです。
BQMLの新機能を紹介した下記セッションも是非ご確認ください。

BigQuery – Connected sheets(Alpha)
Excelマスターにはこの上ない朗報。
なんと、スプレッドシート上でBigQueryを用いてデータ分析が出来ます。
BigQueryの数億行のデータのスプレッドシート上へのインポートはもちろん、
ピボットテーブルやお馴染みの関数でデータをグラフ化したり分析することが可能になるそうです。

驚きのその機能はNext19のセッション
Everyone Flies Faster When BigQuery Fuels the BI Engines at AirAsia
でも紹介されました。是非ご覧ください。(31:08~)


BigQuery – Cloud Dataflow SQL(Alpha)

Java/Pythonが書けないと構築出来なかったCloud Dataflowの処理を、
BigQueryのUIからSQLで組むことが出来るようになります。

つまり、SQLアナリストにもリアルタイムデータをあれこれ処理して
分析したり可視化出来る基盤が整います。

DataflowSQLDemoOptimized.gif

https://cloud.google.com/blog/products/data-analytics/google-cloud-smart-analytics-accelerates-your-business-transformation より引用

 

BigQuery – Scripting (Alpha)
なんと、BigQueryでプロシージャのような使い方が可能になります。

https://www.youtube.com/watch?time_continue=1393&v=KL_i5XZIaJg 23:10より引用

クエリをループしたり、条件分岐でクエリを変えたりなど、
従来なら何度も繰り返しクエリを実行する必要があった処理も、ひとつのクエリの中で実行出来る訳です。


BigQuery – Persistent UDF (Alpha)
これまで都度宣言が必要であったUDFを永続化/共有できます。

https://www.youtube.com/watch?time_continue=1424&v=KL_i5XZIaJg 23:40より引用


BigQuery – Integer Column Partitioning(Alpha)
なかなかマニアックなアップデートですが、
Integerのカラムでパーティショニングが出来るようになったそうです。
※これまでは日付かタイムスタンプのみ。


このように新サービスの発表から、既存サービスの拡張まで、データ領域でもNext19は盛り沢山でした。
これらを物凄いスピードで企画、実現するGoogleの開発力には毎年ひたすら圧倒されるばかりで、
来年のNextの発表が今から楽しみです!

エクスチュアはGoogleCloudの公式パートナー企業です。
また、Tableau、Adobe Experience Cloudなどのマーケティングテクノロジーに精通した
経験豊富なスタッフが、御社のビッグデータ分析をサポートします。

お問い合わせはこちらから

ブログへの記事リクエストはこちらまで

ピックアップ記事

  1. 最速で理解したい人のためのIT用語集

関連記事

  1. GitHub Actions

    GitHub ActionsでGCEへのデプロイを楽にしてみた

    はじめに今回はgithub actionsを導入する…

  2. GA 360 Suite

    BigQuery: Google Analytics 360のネストされたデータをフラット変換するS…

    こんにちは、エクスチュアの權泳東(権泳東/コン・ヨンドン)です。…

  3. Google BigQuery

    Google Apps Scriptを使ってスプレッドシートからBigQueryのテーブルを更新する…

    こんにちは、エクスチュアの權泳東(権泳東/コン・ヨンドン)です。…

  4. Google Cloud Platform

    【GCP】Cloud Workflowsでデータパイプラインの構築を試してみた①概要編

    こんにちは、エクスチュアの黒岩と申します。エクスチュアブログ…

  5. Google Cloud Platform

    Google Compute EngineのUbuntu VMにスワップ領域を作成する

    こんにちは、エクスチュアの權泳東(権泳東/コン・ヨンドン)です。…

  6. Google BigQuery

    Tableau×BigQueryをコスパ良く使う方法

    こんにちは、エクスチュア渡部です。TableauでBigQue…

最近の記事

  1. Streamlitを使った簡単なデータアプリケーション作成ガ…
  2. 生成AI機能を活かしたデータカタログ製品「Secoda」を試…
  3. 回帰分析はかく語りき Part2 重回帰分析
  4. 第14回関西DB勉強会-Snowflake Summit参加…
  5. Open Interpreter+VScode+Docker…
  1. ブログ

    サーバーがアクセス情報を取得する仕組み
  2. Google Cloud Platform

    LookerStudioを知る。
  3. IT用語集

    アイデンティティ管理(Identity Management)って何?
  4. KARTE

    KARTE Blocks データプランナーの強い味方!!
  5. ObservePoint

    ObservePoint TagDebuggerでページに埋まっているタグを無…
PAGE TOP