Data Catalog

生成AI機能を活かしたデータカタログ製品「Secoda」を試してみた

こんにちは、エクスチュアの黒岩です。

突然ですが、皆様はどんなデータカタログツールを使用したことがありますか?
Google CloudのData CatalogやAWSのAmazon Datazoneといったクラウドサービスプロバイダーが提供するサービスもあれば、Open MetadataやDatahubといったOSSとして提供されているもの、もしくはAlationやSelect StarといったSaaS製品として提供されているもの(Alationはオンプレミス版もあり)等、様々な製品が存在しますよね👀

そもそもデータカタログとは、企業や組織が保有する膨大なデータ資産を効率的に管理・活用することを目的としたツールです。具体的には以下のような機能を持っています。

  • データのインデキシング:データセットやテーブル、フィールドなどのメタデータを収集し、インデックス化することでデータの全体像を把握しやすくなる
  • データの検索:膨大なデータの中から必要な情報を迅速に検索できる機能を提供することで、データの探索と取得が効率化される
  • データのガバナンス:データの所有者やアクセス権、使用履歴などを管理し、データの品質とコンプライアンスを維持することが可能
  • コラボレーション:データの使用や発見に関する知識をチーム内で共有し、データの活用を促進する

よってデータカタログは、データアナリストやエンジニア、ビジネスユーザーがデータを効果的に利用するためのインフラとして重要な役割を果たします。データが散在していたり、どこに何があるのか分からなかったりする状況を改善し、データの見える化と統合を実現します。

今回の記事では、そんなデータカタログツールの1つであるSecodaのトライアルを試してみて良いと感じた機能や感想を紹介していきたいと思います!この記事を読んだ後、皆様がSecodaのトライアルを試してみていることを目標に執筆していきます💪

Secodaとは?

Secodaは、カナダのトロントに拠点を置くスタートアップ企業によって2020年に開発されました。
データの価値を最大限に引き出すことをミッションとし、データマネジメントとアナリティクスの分野で革新的なソリューションを提供しています。データエンジニア、アナリスト、ビジネスインテリジェンスの専門家を対象に、使いやすく直感的なインターフェースを持つデータカタログツールを開発・提供しています。

近年では、2023年9月にシリーズAラウンドで1400万ドルの資金調達実績もあるため、今後のさらなる成長に期待できるスタートアップ企業であることが分かります。
https://www.secoda.co/blog/secoda-series-a-monitoring

Secodaのプランと料金、使用可能な機能について

プラン

Secodaには3つのプランが存在します。

  • Basic
  • Core
  • Enterprise

Basicで使用可能な機能に加えて追加の機能が使用できるプランがCore、BasicとCoreで使用可能な機能に加えて追加の機能が使用できるプランがEnterprise、といった他製品でもよく見られるプランの選択肢となっています。

料金

上記画像の各プランの下に記載されている通り一律の定額料金ではなく、Secodaから提案される料金モデルであったり使用状況によって変動するようです。その他多くの海外ツールでも、まずは担当者とオンラインミーティングを実施し、どんなユースケースを考えていてどれだけのユーザーやデータソースが存在する見込みなのかといったヒアリングが行われることが多いので、そのように調整をしていく形だと思われます。

使用可能な機能

そして各プランで、データソース接続数や管理可能なテーブル数、使用できる機能が異なるといった違いがあります。機能に関しては、AI Assistant(機能詳細は後述します)がBasicでは使用不可である点が大きいなあと個人的には感じます。

※各プラン毎の詳細は以下のリンクを参照ください
https://www.secoda.co/pricing

実際に使用してみて良いと感じた機能や感想

実際にSecodaを使用してみて良いと感じた機能や感想を述べていこうと思います。

1. AIによるテーブル・カラム説明の自動生成

生成AIが世に出る前の従来のデータカタログでは、テーブル概要やカラムの説明等は人力で手動入力することが一般的でした。よって導入初期はビジネスユーザーを含む使用者全員が共通意識を持って入力することができていたが、時間が経つにつれて入力しない人が出てくる。。といった問題が発生し、多くのデータエンジニアは頭を抱えることがあったかと思います。

そこでSecodaでは、GPT-4oを搭載した生成AI機能を提供し、テーブル概要やカラムの説明を生成AIによって自動生成することが可能になっています。

①Add descriptionをクリックし、説明文を生成
AIによって生成された説明の精度を判断
③AIによって全てのカラムの説明文が完成

2. 自然言語でのテーブル検索

1に続いて、こちらも生成AI機能による強みです。
主にビジネスユーザーにとっては、どこにどんなデータがあるか、この指標を求めるにはどのデータを使用して集計すれば良いのかといった悩みが多いと思います。
そんな悩みを解決することができるのがAI Assistant機能であり、Chat GPTと似たUIで自然言語での検索が可能です。

Secoda AIのUI
例1:テーブルの特定
例2:集計SQLの生成

3. データリネージの可視化

テーブルの依存関係をリネージで可視化してくれる機能も提供されています。
このデータマートテーブルはどの元テーブルから作成されているのか?を特定したい場面は多いかと思います。そんな時にひと目で見て理解することができるのがデータリネージ機能の強みです。

大きく3つの便利な機能を紹介しましたが、その他にもデータソースへ数ステップで接続が可能である点や、タグでのデータ整理が可能​である点等、使い勝手の良さを随所で感じる製品です。
(以下はSnowflakeへの接続設定画面で、右側に設定方法や推奨が記載されているためとても簡単)

他データカタログ製品との比較

一方、他データカタログ製品と比較して物足りないなあという点を1つだけあげるとすると、よりきめ細かい権限設定ができないという点です。
Secodaはロールベースのアクセスコントロール(RBAC)で権限を管理していますが、既存ロールを使用するしか選択肢がなく細かいポリシー変更ができないため、「このロールのメンバーにはこのテーブルは見せたくない」といった指定ができません。

一方競合製品であるSelect Starに関しては、新規のロールを自身で作成→ポリシーをロールに適用することが可能であるため、テーブル単位で権限の管理が可能です。

こういった競合製品との比較は、Secoda社自らが公式サイトにて比較をしているページを用意しています。Select Starだけでなく他SaaS製品やOSS製品との比較も行っているので、是非検討する際は見てみることをオススメします!

Secodaを利用するまでの手順

ではここからは、実際にSecodaを利用していくための手順を示していきます。

1. 公式のdemo閲覧サイトへ遷移
以下のURLから、Secodaのdemoが閲覧できるサイトへ遷移
https://www.secoda.co/demo-interactive
※公式サイトのトップに存在する「Start Trial」をクリックしてもSecoda社とのMTG設定画面になるため、上記サイトから進む

2. demoの閲覧とトライアルの申し込み
一通りdemoを閲覧すると、以下のポップアップが表示されるため「Start Trial」をクリック


適切なアカウント登録を選択

3. データソースの接続
管理コンソールにログインができたら、左メニューのIntegrations → Connect Integrationをクリック

接続したいデータソースを選択

接続が完了すると、左メニューのCatalog配下に接続したデータベースが表示される

終わりに

本記事では、データカタログツールSecodaの概要説明や使用してみて感じた強み、実際に登録して使ってみるまでの手順について書きました。
今後も生成AIの開発が進んでいくことでデータカタログ製品の機能もどんどん拡充し、様々な情報を自動で生成→完成するようなデータカタログが展開できる未来がくるのではないかと考えています。

ここまで読んでくださった方、実際にSecodaを触ってみた方、どうもありがとうございました&お疲れ様でした!


エクスチュアはGoogle Cloud, Snowflakeのサービスパートナーです。

Cloud WorkflowsやGA4を含むGoogle Cloud、Snowflake、Adobe Experience Cloud、Tableau、Lookerなどに精通したスタッフによるデータ活用サポート、各マーケティングツールの導入実装・活用支援のコンサルティングサービスや、GCP/AWS/Snowflakeなどのパブリッククラウドを使ったデータ分析基盤構築コンサルティングサービスを提供しております。

デジタルマーケティングに関するお悩みや活用支援、他分析ツールなどについてお困りの方は
お気軽にご質問・ご相談ください。

ピックアップ記事

  1. 最速で理解したい人のためのIT用語集

最近の記事

  1. Snowflakeや最新データ基盤が広義のマーケティングにも…
  2. 回帰分析はかく語りき Part3 ロジスティック回帰
  3. GCSへのSnowflake Open Catalogによる…
  4. VPC Service Controlsで「NO_MATCH…
  5. モダンデータスタックなワークフローオーケストレーションツール…
  1. Application Integration

    Google Cloud iPaaS 「Application Integrat…
  2. IT用語集

    デバッグ(Debug)、デバッガ(Debugger)って何?
  3. Databricks

    Databricks: Spark DataFrameでピボットグラフを作る
  4. Google BigQuery

    オープンソースBI「Metabase」の使い勝手が丁度良かった
  5. Google Analytics 4

    GA4のスキーマ変更にご用心
PAGE TOP