ここでは、データマネジメント知識体系(DMBOK)を参考にして、メタデータ管理(MDM)について以下の観点で解説します。
なお、データマネジメントとは、
データ資産の価値を提供、維持向上させるためにデータライフサイクルを通して計画、実施、監督すること
です。
メタデータとは何か
メタデータとは、データに関するデータのことです。
メタデータによって、
組織には、
- どのようなデータが存在し
- それが何を表し、どう分類され(データアーキテクチャ)
- どこから来て、組織内をどう移動し活用されるか、またそれに伴いどう成長するか(データリネージュ)
- 誰が使えて、誰が使えないか(データセキュリティ)
どの程度の品質か(データ品質)
を把握することができます。
DMBOKには、メタデータの重要性を示すために以下のような記述があります。
データマネジメントにおけるメタデータの重要な役割を理解するために大きな図書館を想像してみよう。
そこには、数十万の書籍と雑誌があるのに、図書目録がない。
図書目録がなければ、利用者は特定の本や特定のトピックの検索を開始する方法さえわからないかもしれない。
図書目録は、必要な情報(図書館が所有する本と資料、保管場所)を提供するだけでなく、利用者が様々な着眼点(対象分野、著者、タイトル)から資料を見つけ出すことを可能にする。
メタデータを持たない組織は、図書目録のない図書館にようなものである。
メタデータの種類
DMBOKでは、メタデータを次のように分類しています。
ビジネスメタデータ
ビジネスメタデータは、主にデータの内容と状態に重点を置いており、データガバナンスに必要な詳細を含みます。
ビジネスメタデータには、概念、対象領域、エンティティ、属性に関する名称と定義が含まれます。
DMBOKでは、ビジネスメタデータとして次のような例を示しています。
- データセット、テーブルおよびカラムの定義と説明
- 業務ルール、変換ルール、計算方法、および導出方法
- データモデル
- データ品質の規則と測定結果
- データが更新されるスケジュール
- データの出所とデータリネージュ
- データ標準
- データエレメントが依存するマスターレコードシステムの指定
- 有効値制約
- ステークホルダーの連絡先情報(例えば、データオーナー、データスチュワード)
- データのセキュリティ・プライバシーレベル
- データに関する既知の問題
- データ利用上の注意
テクニカルメタデータ
テクニカルメタデータは、データの技術的な詳細、データを格納するシステム、および、システム内やシステム間でデータを移動するプロセスに関する情報を提供します。
DMBOKでは、テクニカルメタデータとして次のような例を示しています。
- 物理データベーステーブルとカラムの名称
- カラムのプロパティ
- データベースオブジェクトのプロパティ
- アクセス権
- データCRUDルール
- データテーブル名、キー、インデックスなどを含む物理データモデル
- データモデルと物理的資産の関係を示すドキュメント
- ETLジョブの詳細
- ファイルフォーマットのスキーマ定義
- ソースからターゲットへのマッピングを示すドキュメント
- 上流および下流への変換影響情報を含むデータリネージュを記述するドキュメント
- プログラムとアプリケーションの名称と説明
- コンテンツ更新サイクルのジョブスケジュールと依存関係
- リカバリーとバックアップのルール
- グループ別、役割別データのアクセス権
オペレーショナルメタデータ
オペレーショナルメタデータは、バッチジョブのログやデータ抽出の履歴などデータ処理とアクセスの詳細を表します。
DMBOKでは、オペレーショナルメタデータとして次のような例を示しています。
- バッチプログラムのジョブ実行ログ
- データの抽出とその結果などの履歴
- 運用スケジュールの異常
- オーディット、バランス、コントロールなどの結果
- エラーログ
- レポートとクエリのアクセスパターン、頻度、および実行時間
- バッチとバージョン管理の計画と実行、現在のバッチ適用レベル
- バックアップ、保存、実行日付、災害復旧などの規定
- SLAの要件と規定
- 容量の増減と利用パターン
- データのアーカイブと保持ルール、関連するアーカイブ
- 廃棄基準
- データ共有ルールや合意事項
- IT側の役割と責任、連絡先
メタデータのアーキテクチャ
メタデータは様々なソースから収集することができます。
オペレーショナルメタデータの大部分はデータが処理されるときに生成されます。
テクニカルメタデータの大部分はデータベースオブジェクトから収集することができます。
ビジネスメタデータの場合、既存のデータ辞書、データモデルなどから収集することは可能です。しかし、DMBOKには、定義が曖昧な場合、データ利用者は利用するデータを理解するために必要な情報を得ることができないため、既存のものを受け入れるより、意図的に新たな定義をした方が良いと書かれています。
次の図は、様々なメタデータソースから収集されたメタデータを企業全体で一元管理するメタデータのアーキテクチャを示しています。
このような集中型のメタデータアーキテクチャの場合、様々なツールからスケジュール化されたインポートによってメタデータがリポジトリに投入されます。
エンドユーザーがポータルからクエリ要求を発行すると、ポータルは、その要求を、メタデータリポジトリに渡します。
メタデータリポジトリは、収集したメタデータから、渡された要求に応えます。
次に、メタデータリポジトリのメタデータモデルの例は次のようになります。
メタデータ管理の目的
データ品質を維持向上するためには、組織的にメタデータを管理する必要があります。
DMBOKには、メタデータを管理する目的について次のように説明しています。
- 人々が一貫性を持ってデータコンテンツを理解しデータを利用できるようにすること
- 様々なソースからメタデータを収集、統合し、異なる部門で生成されるデータ間の類似点や相違点を理解できるようにすること
- メタデータの品質、一貫性、最新性、セキュリティを確保すること
- メタデータの利用者(人、システム、プロセス)に対して、メタデータを利用するための標準的な方法を提供すること
- データ交換を可能にするメタデータ技術標準の利用法を確立すること
メタデータ管理の活動
メタデータ管理方針
メタデータ品質の維持向上するために、次のようなメタデータ管理方針を定めます。
- システム開発時、すでにあるデータを活用するようにしメタデータの一意性を確保する
- メタデータ登録時にシステムでバリデーションするようにする
- 作成日時、更新日時、参照先などメタデータ管理項目を設ける
- メタデータの標準化
- 命名規則は設けるものの、できるだけ定義されたデータドメインを選択するようにする
- 命名規則は設けるものの、できるだけ定義された業務用語から選択するようにする
メタデータ管理のプロセス
メタデータ管理には、次のようなビジネスアクターが参画します。
- データアーキテクト
- データスチュワード
- 業務担当者(データアナリスト)
- システム開発者
メタデータ管理には、データライフサイクルに応じて、次のようなビジネスユースケースが考えられます。
ここでは、業務担当者やシステム開発者を育成し、業務担当者がメタデータを使ってデータ分析できるようになることを前提にしています。
- 計画
戦略的に重要なデータが定義される場合。 - 設計・実装
システム開発でデータモデルを設計する場合。
概念データモデル設計時。
論理データモデル設計時
物理データモデル設計・実装時。 - 生成・収集
定期的にデータレイクにデータを取り込む場合。
データレイクからDWHにデータを取り込む場合。 - 保存・維持
業務要件・システム要件などによってメタデータを変更する場合。 - 利活用
システム開発者や業務担当者にメタデータに関する教育をする場合。
業務担当者がメタデータを使ってデータ分析する場合。 - 強化
データの強化によってメタデータを変更する場合。 - 破棄
不必要なデータが破棄される場合。
各ビジネスユースケースごとに業務フローを定義します。