概要
こちらのプロセスには、シグナルの解析ジョブの設定が含まれます。これらの構成は、ビジネスの性質や利用可能なデータ、ユーザーの好みに応じて異なります。ここでの最終的な目標は、最も関連性の高い正確な数のインサイトが、最も適切なユーザーに、可能な限り素早く、確実に提供されるようにすることです。
シグナルの解析構成は、設定を最適化するため、または基礎となるデータの変更に合わせて、時間経過とともに調整が必要になる場合もあります。
シグナルの設定方法
シグナルの構成は、ビューレベルで行います。Yellowfinは、こちらで提供した設定詳細に基づき、解析を実行します。これには、以下の手順が含まれます。
- 解析の方法:これには、「外れ値の検出」、「期間の比較」、「傾向の変化」が含まれます。各解析タイプは、Yellowfinがデータ内の関連するパターンを引き出すためのアルゴリズムとリンクしています。
- 主要な日付フィールド:検出される変化に関する時系列データの基礎になります。
- 関連フィールド:注目するメトリック(数値)とディメンション(次元)の値を指定しなくてはいけません。
- 期間:システムに解析を実行させる特定の期間を指定します。
- スケジュール:定期的に実行される柔軟なスケジュールを設定することで、シグナルの自動化の側面を最大限に活用できます。
- パラメーターとしきい値:選択した解析タイプに基づき、高度な設定が提供されます。これにより、ユーザーは、例えば、しきい値の提供など、アルゴリズムの仕様をより深く把握することができます。
- シグナルの受信者:シグナルを受信するユーザーを選択することができます。これにより、インサイトを必要とするユーザーのみがこれを受信します。マルチテナント構造の場合、特定のクライアント組織にのみシグナルへのアクセスを制限することができます。
手順
自動シグナル解析ジョブを設定するには、以下の手順に従います。
以下の手順を実施するには、「シグナル設定権」ロール機能が必要です。シグナルのロール機能について、より詳細な情報は、こちらの項目を参照してください。
- シグナルの解析を設定するには、関連するビューを編集モードで開くか、複製を作成しこれを更新します。
「準備」ページに移動し、「インサイトの設定」アイコンをクリックします。
事前に選択した特定の自動インサイトパラメーターや、シグナルに関連する一般設定を事前に選択、または変更することができます。より詳細な情報は、こちらを参照してください。
- 新しいインサイト設定ポップアップで、「シグナル」タブをクリックします。作成したすべてのシグナルの解析が、こちらに表示されます。(シグナルタブが表示されない場合は、適切なロール機能が有効化されていることを確認してください。)
- 「+ 新規作成」ボタンをクリックし、新規シグナルの解析を作成します。これは、関連する自動解析の設定をサポートする、複数ステップの構成プロセスを開始します。
- まず、システムに実行させる解析方法を選択します。以下の3つの解析方法から選択します。(これらの解析方法のいずれかを使用して検出する異常値のタイプを特定するには、シグナルのタイプ項目を参照してください。)
- 外れ値 - ある期間内での急増や急減、Breakouts(ブレイクアウト)など、データのあらゆる異常値を検出します。これには、データの大部分と著しく異なる稀なイベントやアイテム、観測値が含まれます。
- 期間の比較 - 2つの期間における合計や平均の変化や、主要なディメンション(次元)値の重要な新規、または喪失を特定します。
- 傾向の変化 - 2つの期間における傾向の方向の変化や、データの潜在的な変動の変化を特定します。
- 選択した解析方法で「次へ」ボタンをクリックし、続行します。
- 次のステップで、このシグナルの解析を説明する基礎的な詳細を提供します。
- 名前:(必須項目)ユニークな名前を提供することで、後ほど内容を識別するサポートになります。
- 説明:この解析の目的を示す説明を追加します。
- 「続行」ボタンをクリックします。
「タイムスケジュール」ステップでは、システムに解析を実行させる期間と、その実行頻度を設定します。以下は、各設定についての説明です。(注意:解析方法に応じて、項目とその目的は異なります。)
項目 解析方法 説明 例 日付フィールド すべて シグナルの解析は、システムに解析される日付フィールドを必ず含まなくてはいけません。これは、時系列形式である必要があります。
日付フィールドは任意の粒度(単位)を選択できます。
Date Granularity(日付粒度) すべて 解析に使用する時系列データの粒度(例:日単位)を指定します。
この値は、選択した日付フィールドの粒度よりも細かくしてはいけません。
例えば、日付フィールドに日を設定した場合、粒度には日、またはそれ以上の値(月、四半期など)を選択しなくてはいけません。 期間の設定 すべて ここでの選択に応じて、次に選択する期間のフィールドが変更されます。選択肢は以下の通りです。
基本的な比較:期間選択に基礎的なオプションを提供します。
高度な比較:期間設定に高度なオプションである、データサイズとオフセットを提供します。
静的な日付範囲:特定の範囲を選択します。これは、1回だけシグナルの解析を実行する場合に便利です。
注意:外れ値の解析では、ひとつの期間のみを指定します。スケジュール すべて 解析ジョブを実行する時期や頻度を設定します。
注意:頻度を週次以上にする場合、高度な設定を使用して、より詳細な設定をします。例えば、毎週月曜正午に、自動的に解析が実行されるようにスケジュールを設定できます。 基本的な比較フィールド 解析対象の周期(直近の期間の解析) すべて データを解析する主要な期間を指定します。 前「月」を解析する場合は、単純に前の月が解析されます。 比較対象の周期(直近と同じ期間の比較) 期間の比較 傾向の変化 データを解析する二番目の期間を指定します。これは、上記で指定した主要な対象期間と比較されます。 上記の例に基づくと、このフィールドに「四半期」を選択した場合、前月は前四半期の同じ月と比較し、解析されます。(そのため、前四半期の第3月は、その前の四半期の第3月と比較されます。) 高度な比較フィールド データサイズ すべて この高度な設定は、解析される期間の長さを指定します。選択した単位の値は常に1になります。
2つの期間が解析される、期間の比較と傾向の変化では、両方の期間が同じ長さに設定されます。
1ヶ月を設定した場合、前月から外れ値の検出が解析されます。または、前月をその前の月と比較することで、期間の比較と傾向の変化を解析します。 オフセット 期間の比較 この高度な項目を使用して、2つの期間の間の間隔を指定します。
指定する間隔は、前の期間の最後から、現在の期間の最初までです。オフセットを1に設定すると、2つの期間は連続した期間になります。
値に0を設定することはできません。
データサイズに3ヶ月(2018年1月1日~2018年3月31日)を設定した場合、オフセットを11か月に設定することで、前年の2017年の同じ3ヶ月(1月1日~3月31日)を比較します。
または、オフセットを1にすることで、直近の3ヶ月とその前の3ヶ月を比較します。
傾向の変化 この高度な項目を使用して、2つの期間の間の間隔を指定します。
指定する間隔は、前の期間の最後から、現在の期間の最後までです。オフセットを1に設定することで、2つの連続した期間を作成します。
値に0を設定することはできません。
データサイズに3ヶ月を設定し、オフセットを1年に設定した場合、直近の3ヶ月は、1年前の3ヶ月と比較されます。 外れ値 解析する期間の長さを選択します。 値に0を設定することはできません。 データサイズに3週間を設定し、オフセットを5か月に設定した場合、5ヶ月前からの3週間を解析します。 静的な日付範囲 対象期間 すべて 日付選択を使用し、解析する静的な日付範囲を指定します。 比較対象の期間 期間の比較 傾向の変化 2つの期間を比較する解析を選択した場合、こちらで比較対象の期間を指定します。対象期間は、比較対象の期間よりも未来の日付にしなくてはいけない点に注意してください。また、両方の期間を長さは同じにする必要があります。 - 「続行」ボタンをクリックして、次のステップに進みます。
「メトリック(数値)とディメンション(次元)」ステップでは、重要なデータフィールドの選択、選択解除をすることができます。Yellowfinは、シグナルを検出するために、これらのフィールドを解析します。
インサイトの設定で選択されているフィールドも、デフォルトで選択されます。これらの設定は、以下で紹介する追加設定プロセスで変更することができます。
- メトリック(数値):年齢や売上、利益など、解析する数値フィールドを選択します。解析するために、各メトリック(数値)フィールドのデフォルトの集約タイプを指定しなくてはいけません。以下の集約タイプのいずれかを選択します。
注意:メトリック(数値)に最適な集約タイプの選択が重要です。例えば、時間経過によるインターネットの速度の合計値を観測する代わりに、このメトリック(数値)の平均値を確認する方が理想的です。中には、合計と平均の両者が適切なメトリック(数値)もあります。こちらでの選択が、生成されるシグナルに影響を与えます。
合計:選択したメトリック(数値)フィールドの合計に基づきインサイトを生成します。
平均:選択したメトリック(数値)フィールドの平均に基づきインサイトを生成します。 - ディメンション(次元):解析に関連するディメンション(次元)フィールドを選択します。システムは、これらのフィールドに関連するシグナルを確認します。(注意:複数のフィールドを選択し過ぎると、解析が遅くなることがあります。)
- メトリック(数値):年齢や売上、利益など、解析する数値フィールドを選択します。解析するために、各メトリック(数値)フィールドのデフォルトの集約タイプを指定しなくてはいけません。以下の集約タイプのいずれかを選択します。
- 「続行」ボタンをクリックして、次のステップに進みます。
- 「アルゴリズムのパラメーター」ステップでは、高度なシグナルの設定を構成できます。これらの構成は、選択した解析方法に応じて異なり、アルゴリズムを含みます。詳細は、以下を参照してください。
- 高度な設定に切り替え:こちらのトグルを使用することで、さらに高度な設定が表示されます。選択した解析方法に応じたこちらの設定の詳細は、以下を参照してください。
- 感度の設定:シグナルは、検出されたデータイベントが事前に設定したしきい値を超過した場合に生成されます。スライダーを使用して、これらのしきい値を自動的に増減させます。感度を高めることで、より多くのシグナルが生成されます。
Alternate Threshold Field(代替しきい値フィールド):このパラメーターは、ユーザー基盤に重要なシグナルを特定するために使用されます。重要度でシグナルをランク付けする場合、代替フィールドの値を使用することができます。これは、ジョブに計算された比率や平均フィールドが含まれている場合に必須であり、事前に計算された比率を使用している場合に推奨されるベストプライティスです。代替メトリック(数値)が選択された場合、ジョブ内のすべての解析メトリック(数値)をランク付けするために使用されます。解析メトリック(数値)を使用してしきい値を決定したい場合は、何も選択しないままにします。
一般的な高度なパラメーター:
以下は、各解析グループで設定可能な一般的な高度なパラメーターです。設定した感度に応じて、それぞれのデフォルト値は異なる点に注意してください。パラメーター 説明 Max Timeline Signals(タイムラインに表示するシグナルの最大値) ユーザーは関連するシグナルの通知をタイムラインに受信します。このパラメーターは、タイムラインに提供される通知の最大値を定義するために使用します。こちらで設定した値よりも多くのシグナルが生成された場合、それらはシグナル一覧から参照することができます。 Max Correlated Signals Displayed(表示する相関するシグナルの最大値) シグナルエンジンは(異なるビューやデータベースを含み)すべてのユーザーデータを検索して、現在のタイムシリーズと類似するデータパターンがないかを確認します。これにより、データの一致パターンが同一のデータセットや、メトリック(数値)、ディメンション(次元)からでなくても、ビジネス内で起こりうる関係を把握することができます。これを相関と呼びます。 シグナル詳細ページには相関線が表示され、データ内のこれらの関係を比較し、探索することができます。相関線は複数表示されることもあるので、こちらを使用して最大値を定義することで、最も関連する相関線のみが表示され、タイムシリーズと比較することができます。 Min Correlated Threshold(相関しきい値の最小値) 2つの線の間の相関は、-1〜1の範囲で計算されます。-1はそれぞれの線が反対方向に動いていることを示し、+1は双方が同じ方向に動いていることを示します。しかし、値が0、またはそれに非常に近い場合は、相関がないことを意味します。こちらでしきい値の範囲を0〜1に変更できるため、しきい値が0.4の場合は、-1〜-0.4、および0.4〜1の範囲の相関が検出されます。 Analysis Threshold %(解析しきい値%) こちらのしきい値は、ユーザーにとって値の低いシグナルを除外します。合計ベースライン値の定義された割合以上の値のみが、解析するに十分であると見なされます。例えば、しきい値を2%に設定し、ベースラインのメトリック(数値)がヨーロッパの売上合計($100,000)の場合、ドイツの売上($10,000またはベースラインの10%)、または$2,000以上のすべての国が解析されますが、ポーランドの売上($1,000またはベースラインの1%)、またはこれより下の国々は解析されません。一般的に設定する値は1%未満が最適ですが、最大値は25%です。 Alternate Threshold Field(代替しきい値フィールド) ユーザー基盤に重要なシグナルを定義するために使用します。重要度でシグナルをランク付けする場合、代替フィールドの値を使用することができます。これは、ジョブに計算された比率や平均フィールドが含まれている場合に必須であり、事前に計算された比率を使用している場合に推奨されるベストプライティスです。代替メトリック(数値)が選択された場合、ジョブ内のすべての解析メトリック(数値)をランク付けするために使用されます。解析メトリック(数値)を使用してしきい値を決定したい場合は、何も選択しないままにします。
外れ値の解析の高度なパラメーター
パラメーター 説明 例 Spikes, drops and breakouts(急増、急減、ブレイクアウト) こちらのアルゴリズムは、メトリック(数値)値の急激な増加(急増)や減少(急減)を確認します。連続してまとまった急増や急減が検出された場合、それぞれ長期的な増加、または長期的な減少して報告され、突発的な動きがあることを示します。
こちらのトグルを使用してアルゴリズムを有効化することで、関連するさらなる構成オプションを表示します。
急増の例は、特定の日にウェブサイトのアクセス数が突然増加することです。 Baseline Period(ベースライン期間) Baseline Period(ベースライン期間)は、解析期間に使用される移動平均の作成に使用される日付期間の数です。ベースラインが長いほど、移動平均はなだらかになります。
Baseline Period(ベースライン期間)は、少なくとも1季節周期が推奨されますが、これを非常に長く設定した場合、より多くのデータが解析されるときに、シグナルジョブを実行するべき期間に影響を与えます。
Baseline Outlier Influence on Moving Average(ベースラインからの外れ値が移動平均に与える影響) Baseline Period(ベースライン期間)からの外れ値は、移動平均や標準偏差に影響を与えることで、解析期間の外れ値の検出に影響します。こちらの設定を使用して、その影響を軽減します。 外れ値の30%減少は妥当です。 Confidence Range Width(信頼区間の幅) Confident Range(信頼区間)は、移動平均が正常であると見なされる値の範囲です。外れ値とは、confident range(信頼区間)の外側にある値です。こちらの設定を使用して、標準偏差から移動平均の区間幅を指定します。値を高くすると区間は広くなり、外れ値として認識するためには大きな急増や急減が必要になります。
この値は、2〜5の間で設定してください。3が妥当な設定です。
期間の比較の高度な設定パラメーター 説明 例 集約値の変化 このアルゴリズムは、ある期間から別の期間のメトリック(数値)の合計や平均の値の変化を検出します。
こちらのトグルを使用してアルゴリズムを有効化することで、関連する高度な構成オプションを表示します。
例:今月の総売上は前月と比較して急激に減少しました。 集約(合計) このアルゴリズムは、メトリック(数値)フィールドの合計値の変化を検出します。
こちらのトグルを使用して、アルゴリズムを有効化します。
しきい値(%) 合計値の変化の絶対値が、このしきい値(%)より大きい場合に、シグナルで検出します。 例:しきい値(%)を10に設定した場合、合計値の変化が10%よりも大きい場合に、シグナルとして検出されます。 しきい値 合計値の変化の絶対値が、このしきい値よりも大きい場合に、シグナルで検出します。 例:しきい値(絶対値)を20に設定した場合、合計値の変化が20よりも大きい場合に、シグナルとして検出されます。 集約(平均値) このアルゴリズムは、メトリック(数値)フィールドの平均値の変化を検出します。
こちらのトグルを使用して、アルゴリズムを有効化します。
しきい値(%) 平均値の変化の絶対値が、このしきい値(%)よりも大きい場合に、シグナルで検出します。 例:しきい値(%)を10に設定した場合、平均値の変化が10%よりも大きい場合に、シグナルとして検出されます。 しきい値 平均値の変化の絶対値が、このしきい値よりも大きい場合に、シグナルで検出します。 例:しきい値(絶対値)を20に設定した場合、平均値の変化が20よりも大きい場合に、シグナルとして検出されます。 新規喪失属性 こちらのアルゴリズムは、主要なディメンション(次元)の値が対象期間、または比較対象期間のどちらかに存在した場合に検出します。
こちらのトグルを使用してアルゴリズムを有効化することで、関連する高度な構成オプションを表示します。
例:前月大量に購入した顧客が、今月は購入を止めた。 最小優位性(%) 新規喪失属性の数値の総割合が、このしきい値よりも大きい場合に、シグナルで検出します。 最小優位性(%)を20に設定した場合、全データの20%以上を属性が占める場合に、シグナルとして検出されます。
傾向の変化の高度なパラメーターパラメーター 説明 例 線形傾向の変化 このアルゴリズムは、傾向の上下や、急速で大幅な成長など、ある期間から別の期間の傾向線の変化を検出します。
こちらのトグルを使用してアルゴリズムを有効化することで、関連する高度な構成オプションを表示します。
例:PCの売上は成長していましたが、前月から減少し始めました。 しきい値(%) 傾向の変化の絶対値が、このしきい値(%)よりも大きい場合に、シグナルで検出します。 例:しきい値(%)を10に設定した場合、傾向の変化が10%よりも大きい場合に、シグナルとして検出されます。 しきい値 傾向の変化の絶対値が、このしきい値よりも大きい場合に、シグナルで検出します。 例:しきい値(絶対値)を20に設定した場合、傾向の変化が20よりも大きい場合に、シグナルとして検出されます。 Flat Trend Gradient Tolerance(横ばいの許容範囲) この数値は、ゼロ付近の範囲(±0の範囲)を形成し、この範囲内での傾斜をもつ傾向は、横ばいであるとみなされます。
この範囲外に傾斜を持つ傾向は、(値が正の場合)正の傾向があるか、(負の値により傾向が減少している場合)負の傾向があるとみなされます。
例:横ばいの許容範囲を0.01に設定した場合、-0.01から0.01の範囲に傾斜を持つ場合、その傾向は横ばいであるとみなされます。 変動の変化 対象期間と比較対象の期間の変動の変化を検出します。これは、メトリック(数値)の一貫性の変化を測定します。
こちらのトグルを使用してアルゴリズムを有効化することで、関連する構成オプションを表示します。
例:前月の青い靴の日次売上は散発的でしたが、より定期的になりました。 しきい値(%) 変動の変化の絶対値が、このしきい値(%)よりも大きい場合に、シグナルで検出します。 例:しきい値(%)を10に設定した場合、変動の変化が10%よりも大きい場合に、シグナルとして検出されます。 しきい値 変動の変化の絶対値が、このしきい値よりも大きい場合に、シグナルで検出します。 例:しきい値(絶対値)を20に設定した場合、変動の変化が20よりも大きい場合に、シグナルとして検出されます。
- 高度な設定に切り替え:こちらのトグルを使用することで、さらに高度な設定が表示されます。選択した解析方法に応じたこちらの設定の詳細は、以下を参照してください。
- 「続行」ボタンをクリックして、次のステップに進みます。
- インスタンスにクライアント組織を設定している場合は、「クライアント組織」ステップが表示されます。こちらから、解析に含める組織を指定することができます(特に指定をしない場合、システムはデフォルトですべての組織を含めます)。
こちらを設定することで、エンジンはこの解析が作成されたビューにアクセスできるクライアント組織のみを確認します。(ただし、クライアント組織が既に存在していた場合、無効にされた組織に所属するユーザーも、以前に生成されたシグナルに引き続きアクセスすることができます。しかし、新しく作成された組織の場合、所属するユーザーはシグナルにアクセスすることができません)- メインのトグルを有効にして、クライアント組織設定を表示します。インスタンス内のすべての組織が表示されます。
- 解析に含めるクライアント組織のトグルを有効にします(無効に設定した組織は含まれません)。
- すべての組織を除外する場合は、トグルを無効のままにします。
- 「続行」をクリックして、次のステップに進みます。
- 「ユーザー」ステップでは、この解析に含まれる、データに関連するユーザーを選択することができます(デフォルトでは、すべてのユーザーのデータがこの解析に含まれますが、こちらで特定のユーザーのみを含めるように選択することができます)。
- すべての設定が完了したら、上右隅にある「保存して完了」ボタンをクリックして、解析ジョブを保存します。
- 保存したシグナルの解析ジョブが、一覧に表示されます。こちらから作成したジョブを「削除」したり、新しい解析を作成するために「コピー」することができます。
- 解析を「編集」するには、その名前をクリックします。
- 「有効化」トグルを切り替えることで、解析ジョブを有効/無効化します。解析を無効にすると、シグナルの生成や検出が停止されます。
- 設定が完了したら、「送信・実行」ボタンをクリックします。
- ビューを公開して、ビュービルダーを閉じます。
- 作成したシグナルは、スケジュールに基づき実行されますが、手動で解析を実行する場合は、以下の項目を参照してください。
シグナル設定の事前選択
シグナルジョブを作成する前に、設定できる一般設定がいくつかあります。これには、主要な日付フィールドの事前選択や、粒度のレベル、タイムスライダーの更新、シグナルの解析で考慮されるため、自動インサイトで選択したメトリック(数値)、ディメンション(次元)フィールドの更新が含まれます。こちらの項目では、これらの追加設定について紹介します。
データ特性の良し悪しを定義
シグナル解析が注目するデータフィールドは、自動インサイトで選択したものと同様です。(自動インサイトの設定について、より詳細な情報は、こちらを参照してください)。これには、フィールドの数値が高い場合に、その良し悪しを定義する設定が含まれます。これらの設定を変更するには、以下の手順に従います。
- 「インサイトの設定」を開き、「基本変数」タブをクリックします。
- 「含む」項目のチェックが選択されているフィールドが、シグナル解析で解析されるフィールドです。他のフィールドに注目したい場合は、こちらの設定を変更することができます。
- シグナルに関連するグラフにフィールドを含む場合(比較のために最終的なシグナルのUIに表示される、主要な時系列データに関連するデータに基づくグラフ)は、「関連」チェックボックスにチェックを入れます。
- 「値が高い場合」項目で、データ特性の良し悪しを定義します。例えば、売上は高い方が良いですが、職場で発生するインシデント数が多いのは良いとは言えません。(これは、シグナルのナラティブにも反映されます。良い結果は青で強調表示され、悪い結果はオレンジになります)
日付パラメーターの事前選択
シグナルのタイムシリーズのデフォルト値を事前に設定することができます。これらは新規シグナルの解析を設定する際にデフォルト値として選択されるだけですが、必要に応じて、ユーザーにより簡単に変更することができます。こちらで設定できる値は、デフォルト日付フィールド、デフォルト粒度、タイムスライダーの範囲です。
インサイトの設定で「一般設定」をクリックし、以下に定義されている3つの項目のオプションを選択します。
- プライマリー日付フィールド:このフィールドは、シグナルのタイムシリーズグラフのデフォルトとして設定されます。(他の2つの項目は、こちらで日付フィールドを選択することで表示されます)
- 分析範囲の期間:シグナルのタイムシリーズグラフのデフォルト粒度を設定します。
- データの最大範囲:この項目は、シグナルのタイムシリーズで参照される時間枠を最大化します。こちらで定義された範囲は、タイムスライダーの先頭に追加されます。例えば、こちらの項目を3ヶ月と定義した場合、タイムスライダーは、デフォルトサイズに3ヶ月分を追加します。
注意:これらの項目に設定された値をシグナルの解析のデフォルト値として表示させるためには、設定を保存する必要があります。
スケジュールが設定されたシグナルの解析の手動実行
必要に応じて、シグナルの解析タスクを実行するには、以下の手順に従います。
- レフトサイドメニューで管理項目を展開し、「スケジュール管理」をクリックします。
- 一覧からシグナルの解析を選択し、「今すぐ実行」をクリックします。
- こちらから、他のオプションを実行することもできます。
- 編集:新しいスケジュールの設定など、シグナルタスクのスケジュール詳細を変更する場合は、こちらのオプションを使用します。
- 再開:中断したタスクを再開します。
- 削除:シグナルの解析を削除します。
- タスクを実行することで、システムが検出したシグナルを受信します。ユーザーに関連するシグナルは、タイムラインに表示されますが、生成されたすべてのシグナルを閲覧するには、「シグナルの解析」ページを確認します。
タスクを実行しても、シグナルの解析が何も検出しない場合もあります。これはエラーではなく、正常な動作です。