技術的な分散トレースの詳細

ここでは、New Relic の分散トレースがどのように機能するかについて、技術的な詳細を説明します。

トレースサンプリングのしくみ
トレースデータの構造
トレースデータの保存方法
アプリケーション間でトレースコンテキストを渡す方法
トレース関連の制限

トレースのサンプリング

トレースをどのようにサンプリングするかは、お客様の設定や使用している New Relic トレーシングツールによって異なります。たとえば、サードパーティのテレメトリサービス（OpenTelemetryなど）を利用して、データが弊社に届く前にトレースのサンプリングを実施している場合があります。また、 Infinite Tracing を使用している場合は、すべてのトレースデータを弊社に送り、弊社のサンプリングに頼ることになるでしょう。

いくつかのサンプリング戦略が利用可能です。

ヘッドベースのサンプリング（標準のディストリビューティッド（分散）トレーシング）
テールベースのサンプリング（Infinite Tracing）
サンプリングなし

ヘッドベースのサンプリング（標準のディストリビューティッド（分散）トレーシング）

Infinite Tracing 機能を除いて、当社のほとんどのトレースツールはヘッドベースのサンプリングアプローチを採用しています。これは、トレース内のすべてのスパンが到着する前に、個々のスパンにフィルタを適用するものです。つまり、スパンを受け入れるかどうかの判断は、フィルタリングプロセスの最初（"head" ）で行われます。このようなサンプリング手法を用いることで、ストレージやパフォーマンスの問題を回避しつつ、アクティビティの代表的なサンプルを取得することができます。

標準のディストリビューティッド（分散）トレーシングツールでのヘッドベースのサンプリングの実行方法の詳細を、以下に示します。

当社のAPM言語エージェントは適応サンプリングを使用して、システムアクティビティの代表的なサンプルを取得します。適応サンプリングのしくみは次のとおりです。

ディストリビューティッド（分散）トレーシングでの最初のサービスについては、サンプリングする10件のリクエストが選択されます。そのサービスのスループットを使用して、リクエストのサンプリング頻度が調整されます。この点については、以下で詳細に説明します。

ディストリビューティッド（分散）トレーシングで最初にモニターするサービスは、トレース元と呼ばれます。トレース元は、トレースが無作為になるようリクエストを選択します。この決定は、そのリクエストがタッチしたダウンストリームのサービスに伝搬されます。リクエストが完了すると、検出されたそのリクエストがタッチしたすべてのスパンが完全なトレースとしてUIで利用可能になります（ただし、エージェント制限によってトレースが断片化する可能性があります）。

APMエージェントは、1分間に収集されるトランザクション数の制限（これはエージェントによって異なる場合があります）と、エージェントインスタンスあたり1分間に収集されるスパン数の制限（）を持っています。これらの制限を守るため、トレース元でのトレース数のデフォルトは1分あたり10トレースとなっています。

その期間の代表的なサンプルを取得するため、APMエージェントは、1分間に10トレースのコレクションに広がります。正確なサンプリングレートは、前の1分間のトランザクション数によって異なります。レートは、トランザクションのスループットの増減に対応します。

たとえば、前の1分間のトランザクション数が100だった場合、エージェントはトランザクション数を同様に100と推定し、トランザクション10件当たり1件を選択してトレースします。

ヘッドベースのサンプリングを使用するAPMエージェントインスタンスには、エージェントインスタンスごとの1分あたりのスパン数に上限があります。エージェントは、サンプリングするようにマークされたすべてのスパンを、分散トレースの一部として保持しようとします。

多くの分散型システムでは、平均的なマイクロサービスはリクエスト1件当たり10～20のスパンを生成します。この場合、エージェントスパンの限度は選択したすべてのスパンに対応し、そのサービスにはトレースの詳細が付けられます。

ただし、サービスへの一部のリクエストでは多くのスパンが生成され、エージェントスパンの限度に達する場合があります。よって、一部のサービスについてはトレースのフル詳細がない場合があります。この点についての1つの解決策が、エージェントをカスタムインストゥルメントし、レポートするアクティビティを減らしてレポートするスパンを減らすというものです。

トレースデータのブラウザモニタリングと、当社の言語エージェントとの違いについては、「Browserトレース」を参照してください。

上記のサンプリング方法でもまだトレースデータの量が多すぎる場合は、受信後にトレースをサンプリングすることで流入データを制限できます。この決定をトレースレベルで行うことによって、トレースのフラグメント化（トレースの一部のみを受け取る）を避けることができます。

このプロセスは適応サンプリングと同様に機能します。1分間に受け取った合計スパンが集計されます。受け取ったスパンが多すぎる場合は、次の1分間に受け取るスパンを少なくして、フローティング平均スループットレートを達成することができます。

制限の詳細については、New Relicのデータ使用制限とポリシーを参照してください。

テールベースのサンプリング（Infinite Tracing）

当社のInfinite Tracing機能は、テールベースのサンプリングアプローチを使用します。「テールベースのサンプリング」では、トレース保持の決定は、トレースのすべてのスパン到着後の処理の最終時点で行われます。

Infinite Tracingでは、お使いのアプリケーションまたはサードパーティのテレメトリサービスからトレースデータを100%当社に送信でき、Infinite Tracingが最も重要なトレースデータを解明します。また、重要なトレースが保持されるようにサンプリングを設定することができます。

Infinite Tracingの場合は、エージェントまたはインテグレーションは、すべてのインストゥルメントされたスパンの100%をトレースオブザーバーに送信します。トレースオブザーバーは、New Relic Edgeと呼ばれるAWS上のサービスのクラスタに存在するディストリビューティッド（分散）トレーシングサービスです。

ヒント

お客様のスパンのみがトレースオブザーバーに移動します - メトリックスやカスタムイベント、トランザクショントレースなどのその他すべてのデータは通常のルートでNew Relicに送信され、ローカルサンプリングの対象となります。

データを送信するAWSリージョンに一意のトレースオブザーバーエンドポイントを設定します。トレースはクロスアカウント機能であるため、デフォルトの実装では、アカウントファミリーごとに、リージョンごとに1人のトレースオブザーバーのみを許可します（さらにリクエストするには、アカウント担当者にご相談ください）。エンドポイントは、特定のワークロードのトレースオブザーバーを表します。たとえば、単一のトレース（要求）からのすべてのスパンは、そのエンドポイントに到達する必要があります。

以下は2つのアーキテクチャ図です。1つは、APMエージェントを使用する場合の、もう1つはOpenTelemetryエクスポータのようなNew Relicインテグレーションを使用する場合のデータの流れを示しています。

Here are two diagrams showing the flow of data: one for agents and another for integrations with Infinite Tracing.

トレースオブザーバーは、そのトレースのスパンが到着している間、トレースをオープンのままにします。トレースの最初のスパンが到着すると、セッションは10秒間オープン状態となります。そのトレースの新しいスパンが到着するたびに、有効期間は10秒にリセットされます。直近10秒以内にスパンが到着していないトレースは、自動的に期限切れとなります。

デフォルトでは、各トレースオブザーバーは3つのサンプラーにトレースを提供します。1つは期間の外れ値を探し、もう1つはエラーのあるトレースを探し、最後の1つはすべてのトレースタイプでランダムにサンプリングを試みます。各サンプラーは、基準に一致するトレースのターゲットパーセンテージを保持します。

各サンプラーの詳細は、次のとおりです。

サンプラー	一致する基準	ターゲットのパーセント
期間	2つのアルゴリズムを使用して、期間の外れ値でトレースします。ガウス（正規分布と99パーセンタイルの閾値を想定）離心率（分布がなく、クラスターに基づく閾値があると仮定）	100%
エラー	エラーのあるスパンを少なくとも1つ含むトレース	100%
無作為	すべてのトレース	1％（これは設定可能です。Infinite Tracing：ランダムトレースフィルター）を参照してください。

サンプラー

一致する基準

ターゲットのパーセント

期間

2つのアルゴリズムを使用して、期間の外れ値でトレースします。

ガウス（正規分布と99パーセンタイルの閾値を想定）
離心率（分布がなく、クラスターに基づく閾値があると仮定）

100%

エラー

エラーのあるスパンを少なくとも1つ含むトレース

100%

無作為

すべてのトレース

1％（これは設定可能です。Infinite Tracing：ランダムトレースフィルター）を参照してください。

一致基準がトレースと一致する場合、各サンプラーはトレースの形状を調べます。トレース形状は、ルートスパンのエンティティ名とスパン名の一意の組み合わせです。これは、リクエストのエントリポイントを使用してトレースを分離する簡単な方法です。

形状が決定されると、サンプラーはターゲットのサンプリングパーセントに基づいてトレースを保持するか拒否するかを決定します。100％の場合、トレースは自動的に保持されます。それより少ない場合、サンプラーが特定のトレースを保持する確率は、ターゲットのパーセントによって決まります。たとえば、ランダムトレースのデフォルトのターゲットパーセントは1であるため、これらのトレースの1％が保持されます。必要に応じて、ランダムフィルターのパーセンテージを変更できます。

トレースオブザーバーはスループットのパーセンテージを使用するため、選択されるトレースの数はそのスループットによって異なります。

サンプリングなし

当社の一部のツールはサンプリングを使用しません。これらのツールのサンプリング詳細を、以下に示します。

ブラウザ監視分散トレースおよびモバイル監視は、すべてのスパンを報告します。

当社のAPM言語エージェントは、ブラウザモニタリングおよびモバイルモニタリングと併用されることがあります。言語エージェントはサンプリングを使用します。つまり、バックエンドスパンよりブラウザスパンおよびモバイルスパンの方が多い可能性が高く、バックエンドスパンからブラウザスパンおよびモバイルアプリスパンの接続が切断される場合があります。フロントエンドスパンとバックエンドスパンを含むトレースのクエリに関するヒントについては、ブラウザスパンデータの検索を参照してください。

トレースデータの構成方法

ディストリビューティッド（分散）トレースの構造を理解すると以下のようなことに役立ちます。

トレースがUIでどのように表示されるかを理解する
トレースデータのクエリに役立つ

ディストリビューティッド（分散）トレーシングには木のような構造があり、一つの「親」スパンを参照する「子」スパンがあります。この図ではトレースの重要なスパン関係を示しています。

New Relic distributed tracing trace structure diagram

この図では、ディストリビューティッド（分散）トレーシングのスパンが相互にどのように関連しているかを示しています。

この図では、以下のような重要な概念を示しています。

トレースのルート。トレースにおける最初のサービスまたはプロセスは、ルートサービスまたはプロセスと呼ばれます。
プロセスの境界。プロセスはコードの論理部分の実行を表します。プロセスの例には、バックエンドサービスまたはLambda関数が含まれます。プロセス内のスパンは、以下のどれかに分類されます。
- 開始スパン：プロセスの最初のスパン。
- 終了スパン：a)開始スパンの親である場合、または b) http.またはdb.属性を有し、そのため外部呼び出しを表す場合は、終了スパンと見なされます。
- インプロセススパン：インターナルメソッド呼び出しまたは関数を表し、終了または開始スパンではないスパン。
クライアントスパン。クライアントスパンは、別のエンティティまたは外部依存関係への呼び出しを表します。現在、以下の2つのクライアントスパンタイプがあります。
- データストア。クライアントスパンにdb. （例：db.statement）の属性プレフィックスがある場合ば、データストアスパンに分類されます。
- 外部。クライアントスパンにhttp. (例：http.url) の属性プレフィックスがある、または別のプロセスに子スパンがある場合は、外部スパンに分類されます。これはデータストアクエリではない外部呼び出しに対する一般的な分類です。
トレース持続時間。トレースの合計持続時間は、最初のスパンの開始から最後のスパンの終了までの時間の長さで決まります。

api.newrelic.com/graphiqlでNerdGraph GraphiQLエクスプローラーを使用して、スパン関係データのクエリを行えます。

トレースデータの保存法

トレースデータの保存方法を理解するとご自分のトレースデータをクエリするのに役立ちます。

トレースデータは、次のように保存します。

スパン：スパンはディストリビューティッド（分散）トレーシングの一部であるオペレーションを表します。スパンが表すオペレーションには、ブラウザ側のインタラクション、データストアクエリ、他のサービスの呼び出し、メソッドレベルのタイミング、Lambda関数が含まれます。一例として、HTTPサービスでは、スパンはHTTPリクエストの初めに作成され、HTTPサーバーがレスポンスを返した時に完了します。スパンの属性には、トレースの関係の詳細（traceId、GUIDなど）を含め、オペレーションに関する重要な情報（持続時間、ホストデータなど）が含まれています。スパン関連のデータについては、スパン属性を参照してください。
トランザクション：トレースのエンティティがエージェントによってモニターされる場合、そのエンティティへのリクエストが、単一トランザクションイベントを生成します。トランザクションでは他のNew Relic機能と結びついたトレースデータを利用できます。トランザクション関連データについてはトランザクション属性を参照してください。
コンテキスト連動メタデータ。トレースとそのスパン間の関係についての計算を表示するメタデータを保存します。このデータのクエリを行うには、NerdGraph GraphiQLエクスプローラーを使用します。

アプリケーション間でトレースコンテキストを渡す方法

当社はW3Cトレースコンテキスト標準をサポートしているため、ネットワークやサービス間のトランザクションのトレースを簡単にします。ディストリビューティッド（分散）トレーシングが有効な場合、New Relicエージェントは、サービスの外部送信リクエストにHTTPヘッダーを追加します。HTTPヘッダーは、海外旅行でのパスポートのように機能します。さまざまなネットワーク、プロセス、セキュリティシステムを移動する際にソフトウェアのトレースを識別し、重要な情報を伝達します。

また、ヘッダーには、トレースID、スパンID、New RelicアカウントID、サンプリング情報などのメタデータのような、後でスパンをまとめてリンクする上で役立つ情報も含まれています。ヘッダーの詳細については、下の表を参照してください。

項目	説明
`accountId`	これは、お客様のNew RelicアカウントIDです。ただし、このIDをアカウント情報に関連付けることができるのは、アカウント管理者とNew Relic管理者だけです。
`appId`	これは、トレースヘッダーを生成するアプリケーションのアプリケーションIDです。`accountId`と同様に、この識別子はあなたがアカウントのユーザーでない限り、情報を提供しません。
`guid`	ディストリビューティッド（分散）トレーシングでは、トレース内の各作業セグメントは`スパン`で表され、各スパンには`guid`属性があります。プロセス内の最後のスパンの`guid`は、受信サービス内の作業の最初のセグメントがトレース内のデータを接続する`parentId属性としてこの`guidを追加できるように、送信リクエストとともに送信されます。
親の種類	モバイル、ブラウザ、Rubyアプリなどのトレースヘッダーのソース。これは、このヘッダーがアタッチされるリクエストによってトリガーされるトランザクションの`parent.type`属性になります。
優先度	サンプリング制限に達したときに、どのデータをサンプリングするかを決定するのに役立つ、ランダムに生成された優先順位の値。これは、リクエストの一部である最初のNew Relicエージェントによって設定されたフロート値であるため、トレース内のすべてのデータは同じ優先度の値を持ちます。
Sampled	リクエストに対してトレースデータを収集するかどうかをエージェントに指示するブール値。これはまた、収集されたすべてのスパンおよびトランザクションデータの属性としても追加されます。このサンプリングプロセスについてさらに詳しくお読みになりたい場合は、このガイドを参照してください。
タイムスタンプ	ペイロードが作成されたときのUnixタイムスタンプ（ミリ秒単位）。
`traceId`	ユニークID（ランダムに生成された文字列）で、プロセス間およびプロセス内の境界をまたがる単一のリクエストを識別するのに使用されます。このIDでは、ディストリビューティッド（分散）トレース内のスパンをリンクできます。これは、スパンおよびトランザクションデータにも属性として追加されます。
`transactionId`	トランザクションイベントの一意の識別子。
信頼できるアカウントキー	これは、ご利用のアカウントに関連付けられている他のアカウントを識別するのに役立つキーです。したがって、トレースが交差する複数のサブアカウントがある場合、トレースに含まれるデータが信頼できるソースから送信されたものであることを確認して、どのユーザーがデータにアクセスできるかを把握できます。
バージョンとデータキー	これにより、メジャー/マイナーバージョンが識別されるため、エージェントが現在のバージョンから重大な変更が加えられたバージョンのトレースヘッダーを受信した場合、そのヘッダーを拒否し、拒否と理由を報告できます。

このヘッダー情報は、ヘッダーの書式を認識しないミドルウェアまたはエージェントなどにより進捗が停止している場合を除き、トレースの各スパンとともに渡されます（図1を参照）。

Diagram of a failed trace with proprietary headers.

図1

ヘッダー伝搬の問題に対処するため、当社は、2つの標準化されたヘッダーを必要とするW3Cトレースコンテキスト仕様をサポートしています。当社の最新のW3C New Relicエージェントは、この2つの必要なヘッダーを送受信し、デフォルトで以前のNew Relicエージェントのヘッダーも送受信します。

W3C（traceparent）：トレース全体（トレースID）と呼び出しサービス（スパンID）を識別するプライマリヘッダー。
W3C（tracestate）：ベンダー固有の情報を伝達し、トレースされた場所を追跡する必須ヘッダー。
New Relic（newrelic）：以前のNew Relicエージェントとの下位互換性を維持するために引き続き送信される、元のプロプライエタリヘッダー。

3つのヘッダーを組み合わせることで、これらのタイプのエージェントでインストゥルメントされたサービス全体にトレースを伝搬できるようになります。

W3C New Relicエージェント
W3C以外のNew Relicエージェント
W3Cトレースコンテキスト対応エージェント

重要

リクエストがW3Cトレースコンテキスト対応エージェントにのみタッチする場合、New Relicヘッダーをオフにすることを選択できます。newrelicヘッダーをオフにする詳細については、エージェント設定ドキュメントを参照してください。

以下のシナリオには、さまざまな種類の適切なヘッダ伝搬が示されています。

トレースリミット

ここでは、トレースに関する制限について説明します。

リミテッドアスペクト	リミット
スパンのタイムスタンプ値の最大年齢	20 分であること。タイムスタンプは、インジェスト時の現在時刻から20分以内、または同じ `trace.id` を持つ最後のスパンを New Relic が受信した時刻から20分以内でなければなりません。
トレースあたりの最大スパン	50K
1スパンあたりの最大アトリビュート数	200
APMエージェントインスタンスごとの1分あたりの最大スパン数	GoおよびPHP：1000。他のすべてのエージェント：2000。

Trace API の使用に関連するルールは、 Trace API の要件と制限を参照してください。

その他の New Relic の制限については、 Limits をご覧ください。

トレース限界値超過

スパンレートの上限を超えると、 NrIntegrationError event が発生します。このNRQLクエリでレートリミットメッセージを取得することができます。

SELECT * FROM NrIntegrationError WHERE newRelicFeature = 'Distributed Tracing' AND category = 'RateLimit' AND rateLimitType = 'SpansPerMinute'

制限を超えたときに通知を受けるには、 NRQL のアラートを設定します。

本書は、お客様のご参考のために原文の英語版を機械翻訳したものです。

技術的な分散トレースの詳細

トレースのサンプリング

ヘッドベースのサンプリング（標準のディストリビューティッド（分散）トレーシング）

言語エージェント：適応サンプリング

言語エージェント：制限とサンプリング

トレースレートの制限

Lambdaトレースサンプリング

テールベースのサンプリング（Infinite Tracing）

アーキテクチャー

ヒント

テールベースのサンプリングのアルゴリズム

サンプリングなし

ブラウザおよびモバイルトレースレポート

トレースのAPI