Google BigQuery

【BigQuery】TABLESAMPLE SYSTEMを日本一詳しく解説する

1. はじめに

こんにちは、エクスチュアの大崎です。

皆さんはBigQueryのTABLESAMPLE SYSTEM句をご存知でしょうか?

今回はBigQueryを使う上で便利だけど、あまり知られていない(個人の感想です)、TABLESAMPLE SYSTEMについて詳しく解説していきたいと思います。

それでは、いってみましょう!

2. TABLESAMPLE SYSTEMとは?

TABLESAMPLE SYSTEMは、BigQueryで使用できるSQLクエリの一部で、テーブルの一部分をランダムに抽出するために使用します。

使い方は以下のようにFROM句の末尾にTABLESAMPLE SYSTEM(x PERCENT)を追加するだけです。

※サンプルサイズを調整したい場合はxを調整してください

SELECT *
FROM `google_analytics_sample.ga_sessions_*`
TABLESAMPLE SYSTEM(10 PERCENT)

簡単ですね。

次からはこのTABLESAMPLE SYSTEMを使うメリットについてみていきましょう。

3. 何が嬉しい?

TABLESAMPLE SYSTEMを使うメリットを一言で表すとスキャンサイズを減らす=課金を減らすことができます!

BigQueryでクエリを書いている時にスキャンサイズが数テラバイトになることがあります。

特に実行結果が合っているかもわからない時にクエリを実行して結果を確かめるのは無駄に課金を発生させる原因になってしまいます。

こんな時、力を発揮するのがTABLESAMPLE SYSTEMです。

TABLESAMPLE SYSTEMは主に以下のような時に力を発揮します。

  1. 【前提】クエリ対象のテーブルがGoogleAnalyticsの行動ログデータなど大きい(スキャンサイズが大きい)とき
  2. 正規表現や複雑なクエリなどを書きながら実行し、調整したいとき
  3. カラムに入っている値の一覧を取得したいとき
  4. ランダムな行(レコード)を取得したいとき
  5. その他、全行を見る必要がないとき

前置きが長くなりましたが、次からはTABLESAMPLE SYSTEM書くと実際にどうなるかをみていきます。

4. TABLESAMPLE SYSTEMを使ってみた

以下はTABLESAMPLE SYSTEMを使わない場合のスキャンサイズです。

続いて、TABLESAMPLE SYSTEMを追加してみます。

他の部分には手を加えていないのに、スキャンサイズが1/10になりました!!

ちなみに同じように行数を減らす方法として`LIMIT句`を使うことがありますが、LIMITにはスキャンサイズを減らす効果はありません。(ここテストに出ます!)

実際にクエリを実行してみましょう。

GoogleAnalyticsのログからブラウザごとの行数を取得しています。

SELECT device.browser, count(*) as count
FROM `google_analytics_sample.ga_sessions_*`
TABLESAMPLE SYSTEM(10 PERCENT)
GROUP BY device.browser

browsercount
Chrome60,261
Safari18,522
Firefox3,655
Internet Explorer1,794

実行結果はこのようになりました。

全てを対象にして正確な数値を取得することもできますが、全体の傾向値をざっくり知りたい場合はこれだけでも十分ですよね。

5. 注意点

TABLESAMPLE SYSTEMは非常に便利ですが、ランダムサンプルを取得するという性質上、必ずしも全ての行が均等に選ばれるわけではありません。

また、上でも示したようにサンプルがデータセット全体を代表するわけではないため、日々のレポーティングや正確な数値が求められる場面では向かないことには注意が必要です。

また、シード値を固定できないため、実行するたびに結果が変わってしまうことにも注意が必要です。

6. 最後に

今回はBigQueryのTABLESAMPLE SYSTEMについて解説しました。

非常に便利な機能ですが、中々使っている人もいないのではないでしょうか?

つけておいて損はないので、大規模テーブルに対するクエリを開発する際は是非使ってみてください!(クエリ完成後の取り忘れにはくれぐれもご注意くださいね…)


エクスチュアはGoogle Cloud Platformのサービスパートナーです。

Cloud WorkflowsやGA4を含むGoogle Cloud Platform、Adobe Experience Cloud、Tableau、Lookerなどに精通したスタッフによるデータ活用サポート、各マーケティングツールの導入実装・活用支援のコンサルティングサービスや、GCP/AWSなどのパブリッククラウドを使ったデータ分析基盤構築コンサルティングサービスを提供しております。

デジタルマーケティングに関するお悩みや活用支援、他分析ツールなどについてお困りの方は
お気軽にご質問・ご相談ください。

ピックアップ記事

  1. 最速で理解したい人のためのIT用語集

関連記事

  1. Adobe Analytics

    【実験してみた】CNAMEを使わずにAdobeAnalyticsを1stパーティクッキーで計測する

    こんにちは、エクスチュアの権泳東(權泳東/コン・ヨンドン)です。…

  2. GA 360 Suite

    GoogleDataStudio:複数のデータソースにフィルターを適用する

    こんにちは。エクスチュアの渡部です。今回はDataStudio(デ…

  3. Google Cloud Platform

    Looker: LookerbotでSlackにグラフ画像をスケジュール投稿する

    こんにちは、エクスチュアの權泳東(権泳東/コン・ヨンドン)です。…

  4. 未分類

    databricksのnotebookを使ってみよう その2

    こんにちは。エクスチュアの松村です。…

  5. Mouseflow

    mouseflow の フリクションイベント って何?

    Webサイトの訪問者は、様々な理由でコンバージョン[閲覧者による収益…

  6. GA 360 Suite

    Google Analytics 360 + BigQueryでよく使うSQL例 6選

    こんにちは、エクスチュアの權泳東(権泳東/コン・ヨンドン)です。…

最近の記事

  1. SnowflakeのHybrid Tableのマニュアルを読…
  2. IQをキッカケに理解する統計学の基礎
  3. mouseflow の フリクションイベント って何?
  4. ObservePointの「Journey」とは?
  5. LangChainって何?: 次世代AIアプリケーション構築…
  1. Databricks

    databricksのnotebookを使ってみよう その1
  2. Adobe Cloud Platform Auditor

    Adobe Cloud Platform Auditor (Powered by…
  3. Adobe Analytics

    Looker: Sankey Diagramを使ってサイト内フローを可視化する
  4. Adobe Analytics

    Adobe AnalyticsとGoogle Analyticsの違い② サンプ…
  5. ブログ

    データ視覚化ツール「Power BI」
PAGE TOP