マニフェスト ベースのインジェストの概念
マニフェストベースのファイル インジェストは、エンド ユーザーとシステムに、Azure Data Manager for Energy インスタンスのデータセットに関するメタデータを読み込むための堅牢なメカニズムを提供します。 このメタデータはシステムによってインデックスが作成され、エンド ユーザーがデータセットを検索できるようになります。
マニフェスト ベースのファイル インジェストは、ファイルの内容を解析または理解しない不透明なインジェストです。 マニフェストに基づいてメタデータ レコードを作成し、レコードを検索できるようにします。
マニフェストとは
マニフェストは、"種類" として定義されたエンティティをキャプチャするための事前に決定された構造を持つ JSON ドキュメントです。つまり、スキーマ サービス - Well-known Schema (WKS) 定義にスキーマとして登録されます。
マニフェスト json ドキュメントの例については、こちらを参照してください。
マニフェスト スキーマには、次の OSDU® グループ型のコンテナーがあります。
- ReferenceData ("0 個以上") - 他の (マスターまたはトランザクション) データ フィールドで使用できる値のセット。 例として、"測定単位 (フィート)"、"通貨" などがあります
- MasterData ("0 個以上") - 複数のシステム、アプリケーション、プロセスで使用される基本的なビジネス データの単一のソース。 例として、"ウェル"、"ウェルボア" などがあります
- WorkProduct (WP) ("1 個 - WorkProductComponents を読み込む場合は存在しなければならない") - セッションの境界またはコレクション (プロジェクト、スタディ) には、一緒に処理する必要があるエンティティのセットが含まれます。 例として、1 つ以上のログ コレクションを取り込むことができます。
- WorkProductComponents (WPC) ("0 個以上 - データセットを読み込む場合は存在しなければならない") - 作業生産物 (一緒に取り込まれるものコレクション) の一部として転送される、型指定された、最小の、独立して使用可能なビジネス データ コンテンツの単位。 各作業生産物コンポーネント (WPC) は、通常、参照データを使用し、いくつかのマスター データに属し、データセットへの参照を保持します。 例: ウェル ログ、障害、ドキュメント
- Datasets ("0 個以上 - WorkProduct レコードと WorkProductComponent レコードを読み込む場合は存在しなければならない") - 各作業生産物コンポーネント (WPC) は、データセットと呼ばれる 1 つ以上のデータ コンテナーで構成されます。
マニフェスト データは、特定のシーケンスで読み込まれます。
- 'ReferenceData' 配列 (設定されている場合)。
- 'MasterData' 配列 (設定されている場合)。
- 'Data' 構造体は最後に処理されます (設定されている場合)。 'Data' プロパティ内では、処理は次の順序で行われます。
- 'Datasets' 配列
- 'WorkProductComponents' 配列
- 'WorkProduct'
配列はすべて順序付けされます。 相互依存関係がある場合は、依存する項目をリレーションシップ ターゲットの背後に配置する必要があります。たとえば、マスター データウェル レコードをウェルボアの前の 'MasterData' 配列に配置する必要があります。
マニフェスト ベースのファイル インジェスト ワークフロー
Azure Data Manager for Energy インスタンスでは、マニフェストベースのファイル インジェスト ワークフローがすぐにサポートされます。 Osdu_ingest
Airflow DAG は、インスタンスで事前に構成されています。
マニフェスト ベースのファイル インジェスト ワークフローのコンポーネント
マニフェスト ベースのファイル インジェスト ワークフローは、次のコンポーネントで構成されます。
- ワークフロー サービス - Airflow ワークフロー エンジンの上で実行されているラッパー サービス。
- Airflow エンジン - DAG として登録されたワークフロー (有向非巡回グラフ) を実行するワークフロー オーケストレーション エンジン。 Airflow は、インジェスト ワークフローを調整および実行するために OSDU® コミュニティによって選ばれたたワークフロー エンジンです。 Airflow は直接公開されません。その機能にはワークフロー・サービスを通じてアクセスします。
- ストレージ サービスは、マニフェスト メタデータ レコードをデータ プラットフォームに保存するために使用されるサービス。
- スキーマ サービス - データ プラットフォームで OSDU® で定義されたスキーマを管理するサービス。 スキーマは、マニフェスト ベースのファイル インジェスト中に参照されます。
- エンタイトルメント サービス - アクセス グループを管理するサービス。 このサービスは、インジェストのアクセス許可を検証するためにインジェスト中に使用されます。 また、このサービスは "読み取り" 書き込みを検証するためにメタデータ レコードの取得中にも使用されます。
- 法的サービス - 法的タグを使用してコンプライアンスを検証するサービス。
- 検索サービスは、マニフェスト インジェスト プロセス中に参照整合性チェックを実行するために使用されます。
前提条件
マニフェスト ベースのファイル インジェスト ワークフローを実行する前に、ワークフローを実行しているユーザー アカウントがコア サービス (検索、ストレージ、スキーマ、エンタイトルメント、法的) とワークフロー サービスにアクセスできることを確認する必要があります (詳細については、エンタイトルメント ロールを参照 してください)。 Azure Data Manager for Energy インスタンス のプロビジョニングの一環として、OSDU® 標準スキーマと関連する参照データが事前に読み込まれます。 お客様は、マニフェストの取り込みに使用されるユーザー アカウントが、適切な所有者とビューアーの ACL に含まれていることを確認する必要があります。 お客様は、マニフェストが正しい法的タグ、所有者と閲覧者の ACL、参照データなどを使用して構成されていることを確認する必要があります。
ワークフロー シーケンス
次の図は、マニフェスト ベースのファイル インジェスト ワークフローを示しています。
ユーザーは、マニフェスト インジェスト ワークフロー名 ("Osdu_ingest") を使用してマニフェストを Workflow Service
に送信します。 要求が適切で、ユーザーがワークフローの実行を許可されている場合、ワークフロー サービスでマニフェストが読み込まれ、マニフェスト インジェスト ワークフローが開始されます。
ワークフロー サービスでは、定義されたスキーマに従ってマニフェスト構造や属性の検証などの一連のマニフェスト syntax validation
が実行され、必須のスキーマ属性が確認されます。 その後、システムでは作業製品コンポーネントとデータセットの間で referential integrity validation
が実行されます。 たとえば、参照先の親データが存在するかどうかなどです。
検証が成功すると、システムでは Storage Service API を使用して各有効なエンティティをデータ プラットフォームに書き込むことで、コンテンツがストレージへ処理されます。
OSDU® は The Open Group の商標です。