Snowflake

Snowflakeとは?Data Cloud World Tour から見る2023年の現在地

こんにちは、エクスチュアの喜田です。2023年の初めからSnowflakeをやりはじめ、初期構築案件を自身も経験させてもらいながらなんとか完遂。6月末にはSnowflake Summit 2023に参加し、帰国直後にはSnowVillageの参加報告配信にも参加させてもらったり、何回振り返るんだ?というぐらい帰国後振り返りイベントも参加し、一巡したところでData Cloud World Tour Tokyo(9/8)受講&自社ブースでの技術説明要員として1日参加しました。

エクスチュアのブースでは読売新聞様のデータクリーンルーム事例のビジネス面、技術面をご紹介。「豊富なユーザー数×トレンドを捉える属性」でパートナー企業にとって顧客の「今」を知るためのデータ分析を推進される取り組みです。

DCWT参加報告のような何か

DCWTでの製品的な学びというと、新機能系はSummitで聞いてきていたし、当日はブース対応がほとんどで事例セッションはチラ見ぐらいだったので、この場でご紹介するようなことがなかなか・・・。
しかし、それでも何かこのイベントに乗じて残しておきたいと思ったのがSnowflakeが生み出すムーブメントというか、これからのデータ中心の世界を牽引し、広げていくだろうという勢いを強く感じ、製品としてとても魅力を感じるし、その中で自分の立場でどんなことができるだろうといろいろ考えるキッカケになっているためです。


改めて理解する Snowflakeとは?

直接のDCWTの話からは逸れるのですが、これからSnowflakeを知る人向けに、今発表された新機能かどうかはあまり関係ないですよね。Snowflakeがどんなプロダクトか(*)をこれからの人に向けてズバッと語れれば、それこそが製品の魅力を言語化できているのではと思い、自分なりに整理してみます。

(*)2023年に発表されたプレビュー以前を含めた「~2024年ぐらいまでの近い将来」を想定

SnowflakeはDWHのSaaSである

2023年現在でもそう理解しておくと、Snowflakeを利用するシーンの大半は理解しやすいし、他のDWHプロダクトと見比べることはこの先も当然あるでしょう。

10年前からしたら考えられない短期でデータベース環境を整え、データサイズや性能といった限界は無いに等しく、フルマネージドで運用コストは極小化されています。DWH製品としては後発ゆえに考えつくされたアーキテクチャで弱点がない(つまり、簡単・安い・早いを実現しやすい)ところが魅力だと捉えています。

十分すぎる魅力だし、自社でテクノロジー選定する際のポイントにはなるのですが、ここまでの熱狂を生み出すものか?疑問が残ります。次項の通り真の魅力はもっと別の部分だと思っています。

Snowflakeはデータの価値を引き出すためのSaaSである

DWHが、ITインフラの中の大量データを格納しSQLをしゃべる単なるミドルウェアであるのに対して、Snowflakeが提供するのはサービスであり、利用者がSnowflakeというサービスで得ようとしていることは「データから生み出される価値」に他ならないと、ここ半年の学習やSummit、DCWTの発表を聞いていて腹落ちしてきました。

Snowflakeを勉強し始めると「Data Cloud」という言葉をよく目にします。Snowflakeの英語サイトトップやイベントでも再三登場する言葉ですが、Data Cloudとは何でしょうか。(みんなわかってるのかな・・・?俺はぜんぜん腹落ちしなかったぜっ。)

Google検索すると「データ分析基盤」のことを指してSalesforce、Google、Hewlett Packerd Enterprise、Oracle、Amazon Web Services・・・各社そう言っています。じゃあSnowflakeが提供しているのは「データ分析基盤のSaaS」でしょうか。その通りであるような、ないような・・・。

もう一歩ユーザーに近いレイヤまでカバーするSaaSと考えると、「データ分析の結果としてデータの価値を享受できるSaaS」うん、長いけど、ここまでくると、みんな大好きSnowflakeにしっくり来る気がする。

単にデータ分析基盤という言葉だけのData Cloudではなく、Snowflake Data Cloud = データの価値を引き出すための全部ひっくるめたサービス(そのうちのサブセットとしてMDSなデータ分析基盤とみることはできるし、データストアのDWH製品という側面はある。)

あ、これって、One Platformだ!!!

データの価値をひきだすSnowflakeのキーメッセージ

アプリケーションレイヤを統合しNative Apps時代へ

データから生まれる価値をユーザに届けるSnowflakeは、業務アプリレイヤまでSaaSの中に取り込み、全部ひっくるめたサービス= One Platformとして提供していくというメッセージをkeynoteの中で述べています。

アプリ開発プラットフォームとして期待の新機能が目白押しで、どうしてもそこが取り上げられますが、開発サイドが盛り上がるのはもちろんのこと、その盛り上がりを経て将来完成する膨大なNative AppsライブラリこそがOne Platformを利用するユーザー接点であり、データの価値を受け取るためのインターフェースとして機能し得るものと理解しています。

余談ですが、Native Appsで思い出した体験を一つ。
Native Appsの文脈で「iOSにおけるiPhoneアプリのようなもの」という説明を聞きましたがが、単に完成されたスマホとして受け取ってきてしまった世代としては当たり前すぎてピンと来づらかったです。
しかし、同じ話なのですが自分的にはこっちのほうがピンと来たという例で、VRヘッドセットのOcurasも端末内で専用のアプリストアでアプリを購入します。(アプリがなければただ首が疲れるだけの近未来風の何か)しかし、ひとたびアプリを購入すればYoutubeですら見上げるほどに広がる8kスクリーンに震え、手元でやるパズルゲームですら新体験の動きに熱中してしまいました。

ましてSnowflakeはこれまでで既にしっかりしたデータ基盤です。その上で動作するアプリが充実することでこれまで以上に利用者の体験を大きく変えてしまう力がある!ということを妄想しています。

データアプリケーションのためのプラットフォームとしてSnowflakeが備える能力

NativeAppでこれから販売されていく「データアプリケーション」、じつはこの言葉をGoogle検索しても決まった定義が出てこず、各社が考えるデータアプリケーションが数件ヒットするぐらいですが・・・Snowflake界隈では、しゃべり言葉としてさらっと出てきているような気がします。

従来の基幹システムに代表される演算指向のアプリケーションに対して、現代のデータを扱う多くのシステムが直面する課題と実装について解説した「データ指向アプリケーションデザイン」という書籍があり、製品によらない根本の考え方を詳しく扱っています。

私は演算指向のRDBMS育ちですが、昨年、Snowflakeをやり始める前に本書に触れる機会があり、初動の学習に役立ちました。

  • 信頼性やスケーラビリティを備える分散構成
  • データ指向のためのカラムストアやパーティショニング
  • トランザクションやノード間の一貫性・合意形成
  • バッチ、ストリーム

など本書全体を通してみると、データ指向アプリが求めるインフラ機能をSnowflakeなりに全部実装していることがわかります。(内部実装など不明な部分もありますが。)

そんなデータ指向ウェルカムなSnowflakeプラットフォーム上で動作するNativeAppsをポチッと購入すればすぐに使えて、データの価値を引き出すことができるわけですね。

また、DCWTでも繰り返し出てきたキーメッセージ「NO LIMITS」について、利用者がデータの価値を直接受け取れるデータアプリケーション、その実行基盤としてSnowflakeをみたときに、

  • データの制約事項をとっぱらう(IcebergとかDocumentAIとか)
  • アーキテクチャ的に不得意なワークロードをちゃんとつぶす(unistoreとか)
  • あらゆる利用者に親和性の高い機能やコンテンツ(開発者にとっての開発フレームワークやコンテナ、利用者にとってのNativeAppsによる利便性そのもの)

やるべきことは全部できるようになっていく!ということで、これらを包括するキーワードとしてNO LIMITSと理解することができます。NativeAppsで実現していくデータ価値の享受に対して、インフラ側が制限事項になってはならないというかなり強いメッセージと受け取りました。

データの新たな価値創造、データシェアリング&マーケットプレイス

アプリと合わせて注目したいのがSnowflake独自の特徴であるデータシェアリング周りです。データを相手に見せるための機能(データシェアリング)と市場(マーケットプレイス)によってデータが流通し、これまで知りえなかった知見を得て企業活動が活性化すると期待されています。新機能系では注目が薄いところではありますが。

DCWTのKeynoteではKDDIさんとSnowflakeさんの対談で、データクリーンルーム(これもデータシェアリングの応用)を用いた企業間データの有効活用でより良い世の中を目指していくという発表がありました。大げさかもですが、これこそ、未来を創っていく最先端の現場が今この会場なんだと思った胸アツなポイントでした。

いままでデータ販売といったビジネスを行うのは大手テック企業か調査会社か、といったその道の専門業社でしたが、Snowflakeなら非テック企業同士でも互いのデータを使ってWin-Winの関係を築くことができるようになります。自社のビジネス、自社のデータを一番知っているからこそ、誰にとってどんな価値があるのかよく考え、またはどんなデータを買えばもっと強くなれるかを考え、企業を超えてデータを活用した価値創出にチャレンジできるようになると思います。
そのためには、真に必要とする人が実装部分なんかで悩むことなくできることを知っていて、自社データの価値そのものにフォーカスできるように、我々のようなエンジニアが調査し発信し、ユーザーサイドに働きかけていく。今回のDCWTに参加した私が少しずつでも務めていこうと思ったのはこういうことでした。

企業の垣根もNO LIMITS!ということでデータクリーンルームコミュニティを立ち上げました。

DCWTでの体験について

せっかく記事にするので、素晴らしいイベントを作り上げていただいて、出展社としても有益な機会を提供いただいたSnowflakeさんへの感謝と、コミュニティ企画を作り上げていただいたコミュニティリーダーの皆様にも感謝をお伝えしたいと思います。

セッションの充実度ももちろんのこと、ブース展示されてる各社も勢いがあり、またブース訪問を促すポイントラリー&ゲームもありで会場中が非常ににぎわってました。

そしてコミュニティイベントの脱出ゲームが秀逸すぎました!記憶に残っている問題では

  • 会社の成り立ちやボードメンバーについて嫌でも理解が深まっちゃう問題とか
  • One Platformを体現するSnowflake機能(よく見るアイコン群)をこの場で覚えさせちゃう問題とか
  • SnowPro Core受験するひとが直面するような普通に身につく問題とか

出来上がるキーワードがUN-SILO THE DATAだったり、NO LIMITSだったり。いろいろ盛り込みすぎですごすぎました!!!

ちなみにちなみに、本当に自己満足がすぎる話かもしれなくて恐縮なのですが、6月のSnowflake Summitの振り返り配信にKTさんやコミュニティリーダーの皆さんに交じって私も出させてもらった際、「正直、Benoit来た時どれだけの人かわかってなかったんですよ~」という会話があったんですね。あと「初めまして同士で名刺交換とかディスカッションするのハードル高いよね、まあそれがいいんだけど」という会話もあったし「寸劇日本でもやりたいよね~」とかもその場で言われていました。
この辺がぜーんぶ盛り込まれたのがあの脱出ゲームで、自分以外から同じようなコメントがあったのか知る由もないですが、もしかしてもしかして、新参者がたった一回言ったことをすぐ取り込んでいただいて、あのクオリティに仕上げたのか!という驚きともに感謝でいっぱいなのでした。ポーション使うしかなかった自分は反省してあの動画100回見ます!!!!!

ピックアップ記事

  1. 最速で理解したい人のためのIT用語集

関連記事

  1. Data Clean Room

    SnowflakeのData Clean Roomを基礎から一番詳しく解説(1回目)

    こんにちは、喜田です。この記事では、複雑なSnowflake…

  2. Data Clean Room

    PostgreSQLによるデータクリーンルームの可能性について

    こんにちは、喜田です。本投稿は PostgreSQL Adv…

  3. DBエンジニアが学ぶSnowflake

    【DBエンジニアが語るSnowflake】②このロールがすごい!!!

    こんにちは。喜田と申します。「DBエンジニアが学ぶSnowflake…

  4. Snowflake

    SnowflakeのHybrid Tableのマニュアルを読み解く

    こんにちは、喜田です。実はこれまでSnowflake…

  5. Data Clean Room

    SnowflakeのData Clean Roomを基礎から一番詳しく解説(4回目)

    こんにちは、喜田です。この記事では、複雑なSnowflake…

  6. Snowflake

    Snowflake Summit2023 振り返り

    1. はじめに6月26日~29日にラスベガスにて開催されたS…

コメント

  1. この記事へのコメントはありません。

  1. この記事へのトラックバックはありません。

CAPTCHA


最近の記事

  1. 【GA4/GTM】dataLayerを使ってカスタムイベント…
  2. 【GA4/GTM】dataLayerを活用しよう
  3. ジャーニーマップをデジタルマーケティングの視点で
  4. ChatGPT ProからClaude3 Proへ移行した話…
  5. その分析、やり方あってる?記述統計と推測統計の違い
  1. Google Apps Script(GAS)

    GoogleスプレッドシートのデータをGASで整理する【setValue・set…
  2. Google Analytics 4

    過去取れていたリファラ情報が上手く取れなくなっている問題
  3. Enterprise Data Warehouse

    爆速データウェアハウスなApache Druidを試す
  4. Python

    わかりやすいPyTorch入門④(CNN:畳み込みニューラルネットワーク)
  5. Adobe Analytics

    Adobe Analytics: Datafeedのログからパスフローレポートを…
PAGE TOP