Cloud Dataflow

データアナリスト/データエンジニア向けNext19まとめ

こんにちは、エクスチュア渡部です。
2019/4/9-4/11に行われたGoogleNext@サンフランシスコに参加して来ました。

GoogleNext全体のレポートは、以下のブログも是非読んでください。
GoogleNext 2019レポート:1日目
GoogleNext 2019レポート:2日目
GoogleNext 2019レポート:3日目

今回は重大発表が盛り沢山だったNext19のなかで、
データアナリスト/データエンジニア向け発表を一部まとめました!



Cloud Data Fusion(Beta)
最初は、今回の発表の目玉の一つCloud Data Fusionです。
従来はTalendなどのETLツールや、Dataflow、または自作スクリプトに頼っていたデータ統合がGUIで完結出来ます。
ローカルファイルはもちろん、SFTPサーバー/GCS/AWS/Azureなど
様々な場所に点在するデータを前処理を行った上でBigQueryに統合する・・・
といったようなパイプラインを非エンジニアでも組めるようになります。

こちらのブログでも紹介しています。
GoogleNext 2019レポート:2日目

https://www.youtube.com/watch?v=kehG0CJw2wo(35:29より抜粋)

Cloud Nextにおける関連セッションはこちらです。

Data Catalog(Beta,ComingSoon)
続いては、メタデータ探索とメタデータ管理が出来るDataCatalogです。
BigQueryやCloudStorageにデータが散在したカオスな状況を、
Googleの検索技術を用いてお目当のデータを簡単に見つける環境を実現します。

https://www.youtube.com/watch?v=Qq76r-z_50c 21:57より抜粋

関連セッション「Data Discovery in Google Cloud」では、
インドネシアのライドシェアサービス大手GO-JEKによる、
DataCatalogを活用した社内データの検索ポータルが紹介されていました。(35:27-)
(こんなのあったら仕事が捗ること間違いなしです)

Cloud AutoML Table(Beta)
続いては機械学習系新ソリューション Cloud AutoML Tableです。
Googleが提供する「誰でも出来る機械学習シリーズ」であるAutoMLの最新作。
なんと、BigQueryなどに格納された「テーブル」をGUIでML出来るという夢のようなサービスです。

https://www.youtube.com/watch?v=MqO_L9nIOWMの18:30より抜粋

上記のようにテーブルの中の予測を行いたいカラムを指定するだけで、
自動的にフィーチャーエンジニアリングから最適なモデルの選定、
ハイパーパラメータの最適化までをGoogleが勝手に行いモデルを構築してくれます。

MLの基礎知識さえ身につければ、誰でも数クリックで予測が出来る環境を、
お手軽価格で始められるという恐ろしいサービスです。
Googleは約1年前にBigQueryMLの提供でSQLアナリストでもML出来る環境を作り喝采を浴びましたが、
今度はSQLすら書けなくても機械学習が出来る時代を作ってくれました。。

関連セッションである「Tackling High-Value Business Problems Using AutoML on Structured Data」では、
AutoML Tablesの世界に浸れるセッションのため興味ある方は必見です。


以上、新サービスの紹介でした。
ここまででもお腹いっぱいになるかと思いますが、
こちらからはBigQueryに関する機能拡張です。こちらも盛り沢山です!

BigQuery – BI Engine(Beta)
BigQueryの超高速なインメモリの分析サービスで
BIツールにおけるBigQueryのパフォーマンスを向上させるサービスです。
※現状ではDataStudioのみ対応

こちらに関しては以下のブログで解説致しましたので是非ご確認下さい。
http://ex-ture.com/blog/2019/04/14/bigquery-bi-engine/

BigQuery – Data warehouse migrations
TeradataやRedshiftに構築されたDWHの丸ごと引越し※や、
S3上に格納されたデータのBQへの転送(Alpha)が可能なサービスです。
もはや別クラウドにデータがあるとか一切関係なくなってきてますね。。
※TeradataはBeta、RedshiftはAlpha

BigQuery – 3rd Partyのデータ転送サービスが100以上サポート
いわゆる「コネクタ」がBigQueryにもやって来ました!
既にGoogleAnalytics360やFirebase等の「Google系」データソースは自動連携可能でしたが、
今回新たにコネクタ造りで著名なSupermetrics社などが開発したコネクタ100以上が追加されました。

https://marketingland.com/supermetrics-for-bigquery-launches-on-google-cloud-platform-marketplace-259487 より引用

Facebook広告やTwitter広告、Salesforceなどのお馴染みデータを、
APIからの取り込む処理を構築することなしにBQに統合出来ます。(有料です)

BigQuery – BQMLのモデル追加
リリース当初は線形回帰かロジスティック回帰の2種類だったBQMLのモデルが続々と追加されています。
・K-means(Beta)
・matrix factorization (alpha)
・TensorFlow Deep Neural Network models (alpha)

クラスタリングの定番K-meansや、待ち望む声も多かったTensorflowの追加、
BQMLの勢いを更に加速させること間違いなしです。
BQMLの新機能を紹介した下記セッションも是非ご確認ください。

BigQuery – Connected sheets(Alpha)
Excelマスターにはこの上ない朗報。
なんと、スプレッドシート上でBigQueryを用いてデータ分析が出来ます。
BigQueryの数億行のデータのスプレッドシート上へのインポートはもちろん、
ピボットテーブルやお馴染みの関数でデータをグラフ化したり分析することが可能になるそうです。

驚きのその機能はNext19のセッション
Everyone Flies Faster When BigQuery Fuels the BI Engines at AirAsia
でも紹介されました。是非ご覧ください。(31:08~)


BigQuery – Cloud Dataflow SQL(Alpha)

Java/Pythonが書けないと構築出来なかったCloud Dataflowの処理を、
BigQueryのUIからSQLで組むことが出来るようになります。

つまり、SQLアナリストにもリアルタイムデータをあれこれ処理して
分析したり可視化出来る基盤が整います。

DataflowSQLDemoOptimized.gif

https://cloud.google.com/blog/products/data-analytics/google-cloud-smart-analytics-accelerates-your-business-transformation より引用

 

BigQuery – Scripting (Alpha)
なんと、BigQueryでプロシージャのような使い方が可能になります。

https://www.youtube.com/watch?time_continue=1393&v=KL_i5XZIaJg 23:10より引用

クエリをループしたり、条件分岐でクエリを変えたりなど、
従来なら何度も繰り返しクエリを実行する必要があった処理も、ひとつのクエリの中で実行出来る訳です。


BigQuery – Persistent UDF (Alpha)
これまで都度宣言が必要であったUDFを永続化/共有できます。

https://www.youtube.com/watch?time_continue=1424&v=KL_i5XZIaJg 23:40より引用


BigQuery – Integer Column Partitioning(Alpha)
なかなかマニアックなアップデートですが、
Integerのカラムでパーティショニングが出来るようになったそうです。
※これまでは日付かタイムスタンプのみ。


このように新サービスの発表から、既存サービスの拡張まで、データ領域でもNext19は盛り沢山でした。
これらを物凄いスピードで企画、実現するGoogleの開発力には毎年ひたすら圧倒されるばかりで、
来年のNextの発表が今から楽しみです!

エクスチュアはGoogleCloudの公式パートナー企業です。
また、Tableau、Adobe Experience Cloudなどのマーケティングテクノロジーに精通した
経験豊富なスタッフが、御社のビッグデータ分析をサポートします。

お問い合わせはこちらから

関連記事

  1. Adobe Analytics

    Looker: エンジニアがBIで分析ダッシュボードを作る

    こんにちは、エクスチュアの権泳東(コン・ヨンドン)です。今回はBI…

  2. Google Cloud Platform

    Google Compute Engine: 一定時間経過したらタスクを強制終了する

    こんにちは、エクスチュアの権泳東(コン・ヨンドン)です。今回はGC…

  3. Google BigQuery

    GoogleNext 2019レポート:3日目

    こんにちは、エクスチュアの権泳東(コン・ヨンドン)です。Googl…

  4. Google Cloud Platform

    Google Compute Engine のLinuxVMにVNC接続する

    こんにちは、エクスチュアCTOの権です。今回は、GCEのLin…

  5. Adobe Analytics

    Adobe Analytics: DatafeedのログからパスフローレポートをBigQueryで作…

    こんにちは、エクスチュアの権泳東(コン・ヨンドン)です。以前このブ…

  6. Adobe Analytics

    Adobe AnaltyicsとGoogle Analytics の「生Webビーコン」をBigQu…

    こんにちは、エクスチュアの権泳東(コン・ヨンドン)です。今回は…

最近の記事

  1. データアナリスト/データエンジニア向けNext19まとめ
  2. BigQuery BI Engine解説
  3. GoogleNext 2019レポート:3日目
  4. Adobe Summit 2019 レポート
  5. GoogleNext 2019レポート:2日目
  1. Google Cloud Platform

    Google Compute EngineのUbuntu VMにスワップ領域を作…
  2. Adobe Analytics

    Adobe Analytics: データフィードをGoogle Compute …
  3. Adobe Analytics

    Adobe Analytics:セグメントの落とし穴:滞在時間がおかしくなる
  4. Adobe Analytics

    Adobe Analytics: AppMeasurement.jsの実装開発作…
  5. Adobe Analytics

    AdobeAnalytics:WordPressやHTML5内の動画を計測する
PAGE TOP