モデリング関数とは
モデリング関数とはDesktop 2020.3でリリースされた「MODEL_QUANTILE」「MODEL_PERCENTITLE」のことです。
標準偏差のような統計量で、これまでは主にRやPythonで実装されていました。
QUANTILE(クォンタイル)は「値のばらつき」を示し、PERCENTILE(パーセンタイル)は「ある値が起こる確率」を示します。
※ここらへんは僕の感覚なので、ご意見ある方はコメントにどうぞ。
個人的にTableauのパーセンタイルはRやPythonと算出方法が異なるのでは??と思っていますが、詳しい方いたら教えてください。
とりあえず他のツールはおいといて、今回はTableauでの挙動をもとにそれらの役割について考えていきたいと思います。
MODEL_QUANTILE(モデル・クォンタイル)の挙動
以下でモデリング関数のビューをお見せしますが、まず前提となる色の命名規則をご紹介します。
- 赤 = 最大値に関する色
- 緑 = 最小値に関する色
- 濃い色 =「0.5」、薄い色 =「0.1」
では早速実際の挙動を見ていきましょう。
まず、MODEL_QUANTILEを用いた指標を作成します。
次に、ビュー内にディメンション(ここでは[利益])を配置します。
今回はわかりやすいように、[利益]ディメンションの最大・最小を結ぶ線を追加しました。
そして完成したビューがこちらです↓↓
では次に、このビューに期間フィルターをかけたいと思います。
今回は「2016年のみ」「2016年・2017年」の2つの場合を作成しました。
完成したビューがこちらです↓↓
<グラフから読み取れたこと>
- MODEL_QUANTILEの集計値が、[利益]ディメンションの幅(最大・最小の範囲)に収まっていない。
- quantile値(引数)が大きければ、[利益]ディメンションの幅(最大・最小の範囲)が広がるというわけではない。
- quantile値(引数)によって、グラフの概形が変化する。
- [オーダー月]の範囲を変更すると、MODEL_QUANTILEの集計値が変わる。(計算式で[オーダー月]を用いていることに起因)
MODEL_PERCENTILE(モデル・パーセンタイル)の挙動
まず、MODEL_PERCENTILEを用いた指標を作成します。
次に、[利益]ディメンションをビューに配置し、箱ヒゲ図とMODEL_PERCENTILE関数を合わせたグラフを作成します。
そして完成したビューがこちらです↓↓
<グラフから読み取れたこと>
- [利益]ディメンションが最小値寄りに密集していれば、MIN_PERCENTILEの値が大きくなる。すなわち、MIN([利益])となる確率が大きくなる。
- [利益]ディメンションが最小値寄りに密集していれば、MAX_PERCENTILEの値が小さくなる。すなわち、MIN([利益])となる確率が小さくなる。
- [オーダー月]の範囲を変更すると、MODEL_PERCENTILEの集計値が変わる。つまり全体のデータとのバランスにより値が決まる。
結論
<MODEL_QUANTILE>
正直まだよく分からないです(内部で走査するクエリが気になる…
一般的なQUANTILE(クォンタイル)では、0.5クォンタイルが中央値を表します。
標準偏差のようなイメージで、外れ値を検出する際に用いられることが多いです。
仕組みとしては「相対順位」と「引数である分割値」(quantile値)によって、「相対値」(クォンタイル値)が決定するというものです。
<MODEL_PERCENTILE>
QUANTILEが「値」を返すのに対し、PERCENTILEは「確率」を返します。
(この辺り不明瞭なので詳しい方いたら教えてください・・)
両者とも外れ値の検出が得意で、システムの異常をモニタリングする際に用いられます。
そもそもQUANTILEやPERCENTILEのような統計量が用いられる背景として「平均値の不完全さ」が挙げられます。
平均は全てのデータを対象とするので、外れ値があればそれが全体に大きな影響を及ぼしてしまうのです。
Newton公式のツイートが非常に分かりやすいので、参考にどうぞ。
《平均貯蓄額が約1300万円…そんなにみんな貯金しているの?》「勤労者世帯(2人以上の世帯)の平均貯蓄は,1299万円」。こう聞いて,「そんなにみんな貯金しているの?」とおどろいたとしたら,それは「平均値近辺の人が最も多い」と無意識に判断してしまったためでしょう。 pic.twitter.com/yGbne88RuY
— 科学雑誌Newton(ニュートン)公式 (@Newton_Science) July 19, 2017
参考元
https://www.tableau.com/about/blog/2020/7/generate-predictions-tableau-predictive-modeling-functions
https://help.tableau.com/v2020.3/pro/desktop/en-us/predictions_overview.htm
https://qiita.com/BlueRayi/items/ce0495f111cb5a77e3e5
http://kj01.kgu.mydns.jp/fujimoto/tips/qptile.html
https://detail.chiebukuro.yahoo.co.jp/qa/question_detail/q1042118425
この記事へのコメントはありません。