ここでは、以下の観点で、データアーキテクチャ(DA)について解説します。
- データアーキテクチャとは
- DXとデータアーキテクチャ
- データアーキテクチャ設計の進め方
データアーキテクチャ(DA)とは
エンタープライズアーキテクチャ(EA)を構成する一要素で、データの設計思想、および、基本構造を表します。
データマネジメント知識体系(DMBOK)によると、データアーキテクチャとは、
企業のデータに対する要求(設計思想になります)を明確にし、要求に合う、要となるデータの基本構造を設計し、データの基本構造を使って全社のデータ統合を手引きし、データ資産を統制し、経営戦略に合わせてデータへの投資を行うこと
になります。
企業全体の業務とシステムを、縦軸に企業階層、横軸に5W1Hのマトリクスで整理するザックマンフレームワークで考えると、DAの領域は「資産(What)」の領域になります。
この図を見ると以下の3種類のデータモデルがあることがわかります。
- 概念データモデル
- 論理データモデル
- 物理データモデル
この3つのモデルの違いを説明するまえにMDA(Model-Driven Architecture:モデル駆動アーキテクチャ)について説明します。
MDAは、標準化団体であるOMG(Object Management Group)が「20年持続するソフトウェアアーキテクチャ」を目標として2001年に提唱した概念で、以下の3つのモデルから構成されています。
- CIM(Computation Independent Model)
計算機処理に依存しないモデル。 - PIM(Platform Independent Model)
IT基盤に依存しないモデル。 - PSM(Platform Specific Model)
IT基盤に特化したモデル。
この3つもモデルを分けて考えることで、より堅牢なシステムをつくることができるということです。
PSMはIT基盤に特化しているので、IT基盤が変更されると作り直す必要がありますが、PIMは、IT基盤に依存しないので、再利用することができます。
また、CIMは、開発対象となる業務の範囲を示します。
このMDAのモデルも踏まえて3つのデータモデルの違いについて説明します。
- 概念データモデル
ビジネスの仕組を実現するために必要なデータ(業務活動で発生する事実)の構造を明確にする。
CIMに該当する。 - 論理データモデル
システムの機能要件やデータの品質要件(一意性・一貫性・参照整合性など)を満たす(論理的な)データの構造を明確にする。
PIMに該当する。 - 物理データモデル
システムの非機能要件(特に効率性)を満たし、IT基盤(データベース製品など)に適応したデータの構造を明確にする。
PSMに該当する。
なので、データベース製品が変わったら物理データモデルは作り直す必要がありますが、論理データモデルは再利用することができます。
次に、DAの構成を、型(タイプ)と実例(インスタンス)×設計思想と基本構造という観点で整理すると以下のようになります。
DAの型の設計
- まず、データアーキテクチャの設計思想である「データ要求」を定義し、
- それを実現するためのデータ資産(稼ぐ力を持つデータ)には何があるか明確にし、
- そのデータ資産を管理する活動を定義します。
- 次に、データ資産の構造を設計し、
- データ資産を管理するプロセスを設計します。
DAの実例の設計
- 続いて、データ要求を具体的な「データ要件」として落とし込みます。
- そして、データ要件を実現するためのデータ戦略を策定し、
- データ戦略を実行するためのアクションプランを定めます。
DXとデータアーキテクチャ
次に、DX(デジタルトランスフォーメーション)とデータアーキテクチャの関係について説明します。
DX(デジタルトランスフォーメーション)とはという記事で、DXによって会社が目指すべき姿を、次の3階層から成る構造で説明しました。
- ビジネス
- ビジネスプラットフォーム
- ITプラットフォーム
DAは、下図のように、データ基盤の設計図になります。
データアーキテクチャ設計の進め方
最後に、DA設計の進め方についてですが、次の8つのステップで実施します。
- データ要求の設定
- データ資産の明確化
- データ管理活動の定義
- データ資産の構造化
- データ管理プロセスの設計
- データ要件の定義
- データ戦略の策定
- アクションプランの策定
一つ一つ見ていきましょう。
データ要求の設定
まず、データ要求とは何か?考えてみましょう。
データアーキテクチャは、エンタープライズアーキテクチャを構成する一要素です。
エンタープライズアーキテクチャの論理的な基盤はビジネスアーキテクチャなので、データアーキテクチャもビジネスアーキテクチャによって規定されます。
※なお、エンタープライズアーキテクチャの物理的な基盤はテクノロジーアーキテクチャなので、データアーキテクチャもテクノロジーアーキテクチャによって規定されます。
なので、データ資産を有効活用することで経営理念を実現することが、企業がデータに求める最終的な要求です。
しかし、データ資産のの品質が悪いと問題です。
間違ったデータに基づいて意思決定すると、間違った意思決定をする可能性があります。
なので、まず、データ資産の品質を確保する必要性があります。
DMBOKでは、データ品質を測る代表的な評価軸として以下をあげています。
- 正確性
データが現実の実体を正しく表している程度を表す。 - 完全性
必要なデータが全て存在しているかどうか、その程度を表す。 - 一貫性
データが、特定のデータベースなどデータセット内で一貫して(正しいルールに貫かれて)表現されているか、あるいは、データセット間で一貫して関連付けられ、一貫して表現されているか、その程度を表す。
一貫性は、1レコード内にある属性値と別の属性値との間(レコードレベルの一貫性)、あるレコードの属性値と別のレコードの属性値の間(クロスレコードの一貫性)、あるレコードの属性値と異なる時点における同じレコードの属性値との間(経時的一貫性)において定義される。 - 一意性
同じ実体を表すデータが同じデータセット内に複数存在していないか、その程度を表す。 - 適時性
データが適切な時点のものであるか、その程度を表す。 - 信頼性
データガバナンス、データ保護、データセキュリティのプロセスが整い、その信頼性が確保できている程度を表す。
データ資産の明確化
次に、企業のデータ資産(稼ぐ力を持つデータ)には何があるか以下の手順で整理します。
- データ資産の分類
- データ資産の整理
データの分類
まず、企業全体のデータ資産を体系的に整理するためにデータを以下の観点で分類します。
- 構造化データ・非構造化データ
- データの加工段階
- データの活用主体
構造化データ・非構造化データ
DMBOKによると、データは、構造化データか非構造化データによって分類することができます。
- 構造化データ
あらかじめデータを管理する構造を決めて、その構造に合わせて管理されるデータ。 - 非構造化データ
データの形式や内容に決まりを設けず管理されるデータ。
インターネットなどを利用して集められるあらゆるデータで、画像、動画、音声などを含む。
データの加工段階
データは、発生した現象を記録した事実ですが、永遠とそのままであるわけではなく、様々な形に加工されていきます。
データは、その加工段階別に分類することができます。
(株)資産工学研究所では、データの加工段階を以下のように定義しています。
- データ(Data)
現象の中から、幾つかの目的を持って客観的に収集された事実のこと。
加工前の原材料になる。
例
売上データ。 - 情報(Information)
データを基に、特定の目的を持って検索・加工されたメッセージ性を持ったもの。
例
月別の売上データ→売上が落ち込んでいることがわかった。
こんな現象が起きている。 - 知識(Knowledge)
作成された情報を人間が理解し分析し結果を踏まえて洞察を加えたもの。
価値を生み出すための材料になる。
例
売上が落ち込んだ理由→店員の接客能力に問題がある(問題)→店員の育成による売上向上(課題)。
こんな問題が起きたらこう解決すればいい(問題と課題仮説)。 - 知恵(Wisdom)
知識を基に個人個人が持つ応用力を実践的に用いることによって、価値を創造する思考や行動として体得されたもの。
例
店員の育成による売上向上(仮説)→店員の育成(実践)→売上の向上(検証)。
こんな問題が起きたらこう解決すればいい(検証済)。
それぞれ、どのようなデータがあるのか見ていきましょう。
データ
まず、加工前の生データには、実体データと参照データがあります。
- 実体データ
業務活動の結果や資産の状態を表す事実としてのデータ。
※実体のことをエンティティといいます。 - 参照データ
他のデータを特徴づけたり、データと外部組織のデータを関連づけたりするために使用されるデータ。
最も基本的な参照データは、コードと摘要で構成されているが、マッピングや階層を持つより複雑なものもある。
実体データは、さらに、トランザクションデータとマスターデータに分けることができます。
- トランザクションデータ
業務活動によって発生した出来事の詳細を記録したデータ。 - マスターデータ
業務活動に関連する共通概念を抽象的に表現することにより、その活動に意味(誰がどこで何のためになど)を与えるデータ。
業務活動に関連する共通概念の抽象的表現をビジネスエンティティといい、従業員、顧客、製品、財務構造、資産、場所などがある。
情報
次に、特定の目的を持って検索・加工された「情報」ですが、ここでは、それを「分析データ」と呼ぶことにします。
- 分析データ
意思決定するために実体データや参照データを統合して表されたデータ。
定型的なQueryとして表される。
知識・知恵
最後に、知識や知恵であるデータですが、ここでは、それを「組織ナレッジ」と呼ぶことにします。
組織ナレッジには、各種マニュアルやガイドラインだけでなく、分析データをまとめて外部組織に報告する報告書なども含みます。
データの活用主体
続いて、データを活用する主体を人間か機械に分けて、機械が学習するために必要なデータを「学習データ」と呼ぶことにします。
なお、学習データによって作られた機械学習モデルは知識の一種と考えることができます。
組織ナレッジの種類
学習データや機械学習モデルについては、データサイエンスを参照してください。
以上より、データは以下のように分類するこができます。
なお、組織ナレッジですが、テキストだけでなく動画や音声で記録されている場合もあります。
データの整理
次にデータを以下の順で整理します。
- データの洗い出し
- メタデータの定義
データーの洗い出し
まず、資産領域、および、活動領域ごとに、どのようなデータがあるか洗い出します。
資産領域とは、資産を分けるための領域で、以下のように分類することができます。
※ここでは、資産を稼ぐ力(利益獲得能力)を持つものと定義します。
- 人的資産
- 知的資産
- 財務資産
- 情報資産
次に、活動領域ですが、これは、企業の活動を領域別に分けたものです。
活動領域についての詳細は、ビジネスアーキテクチャを参照してください。
各領域ごとに洗い出されたデータは以下のようになります。
例えば、各資産領域のマスターデータは以下のようになります。
- 人的資産
顧客、社員、パートナー。 - 知的資産
商品、知的財産。 - 財務資産
流動資産、固定資産。 - 情報資産
稼ぐ力を持つ情報(データ資産)と、その情報を収集したり処理したり保管したりするための装置(情報システム)。
機械学習でつくる学習モデルも組織ナレッジの一種と考えます。
上の例だと、人的資産の、マスターデータには、顧客データ、社員データ、パートナーデータがあることがわかります。
各データは、それをさらに分類して整理することができます。
UMLのクラス図を使って顧客データを分類した例
次に、活動領域の例を見てみましょう。
例えば、「販売」領域で発生する実体データには以下のようなデータがあると考えることができます。
この場合、顧客と担当者は人的資産に所属し、商品は知的資産に所属するので、販売領域に所属するのは注文データとなります。
また、「出荷」領域で発生する実体データには以下のようなデータがあると考えることができます。
ただし、この場合、注文は販売に所属し、顧客と担当者は人的資産、商品は知的資産に所属し、倉庫は固定資産、在庫は流動資産に所属するので、出荷領域に所属するのは引当データ、出庫データ、出荷データとなります。
なので、活動領域に所属する実体データは、トランザクションデータになります。
実体データ以外も同様に、「販売」領域で必要な分析データや学習データ、組織ナレッジには何があるか、「出荷」領域で必要な分析データや学習データ、組織ナレッジには何があるか洗い出します。
メタデータの定義
次に、洗い出された各データについて、以下の観点で定義していきます。
- データの意味
- データの有無
- データの場所
- データの領域(ドメイン)
- データの制約
- データの構造
データの構成要素や、データ間の関係などデータの構造については、後述する「企業全体のデータの構造化」で明確にします。
データの場所や構造など、データに関するデータのことを「メタデータ」といいます。
DMBOKには、メタデータの重要性を示すために以下のような記述があります。
データマネジメントにおけるメタデータの重要な役割を理解するために大きな図書館を想像してみよう。
そこには、数十万の書籍と雑誌があるのに、図書目録がない。
図書目録がなければ、利用者は特定の本や特定のトピックの検索を開始する方法さえわからないかもしれない。
図書目録は、必要な情報(図書館が所有する本と資料、保管場所)を提供するだけでなく、利用者が様々な着眼点(対象分野、著者、タイトル)から資料を見つけ出すことを可能にする。
メタデータを持たない組織は、図書目録のない図書館にようなものである。
このメタデータですが、DMBOKでは次の3つの種類をあげています。
- ビジネスメタデータ
ビジネスメタデータは、主にデータの内容と状態に重点を置いており、データガバナンスに必要な詳細を含む。
ビジネスメタデータには、概念、対象領域、エンティティ、属性に関する名称と定義が含まれる。 - テクニカルメタデータ
テクニカルメタデータは、データの技術的な詳細、データを格納するシステム、および、システム内やシステム間でデータを移動するプロセスに関する情報を提供する。 - オペレーショナルメタデータ
オペレーショナルメタデータは、バッチジョブのログやデータ抽出の履歴などデータ処理とアクセスの詳細を表す。
データの品質を確保し、データを有効に活用するためには、企業全体でメタデータを管理していく必要があリます。
データ管理活動の定義
続いて、データ資産を管理する活動を定義します。
データ資産を管理する活動には、
データ資産のライフサイクルを管理する活動と
それをマネジメントする活動
があります。
まず、データ資産のライフサイクル管理するですが、活動領域でいうと情報管理活動の中の一つになります。
具体的には次のようになります。
まず、データを管理する計画をたて、データを設計・実装後、データを生成・収集し、保存・維持します。
その上で、データを利活用し、その結果を受けて、計画を改善・強化します。
その際、不用なデータは破棄します。
この中で、データが価値を生む活動は「データの利活用」だけで、それ以外の活動は、すべてコストになります。
なので、データの経済価値を測る時は、データによってもたらされる収益から、必要な活動のコストを除いて考える必要があります。
次に、データ資産のライフサイクル管理をマネジメントする活動ですが、これは、データのライフサイクルを管理する活動が、
正しくデータの品質を確保し、
データを有効活用できているか
管理する活動です。
データは、資産領域、活動領域ごとに分類することができるので、それぞれの領域ごとにデータのライフサイクルを管理する活動が発生します。
DMBOKでは、データ資産のライフサイクル管理をマネジメントする職務と、正しくマネジメントされているか監督する職務を分離することによってデータガバナンス(データ統治)が働くように考えています。
前者の職務をデータ管理者、後者の職務をデータスチュワードと呼びます。
DMBOKでは、データスチュワードの代表的な活動として以下をあげています。
- 核となるメタデータの作成と管理
上述したようにデータの品質を確保するためにはメタデータがとても重要です。
データスチュワードは、各データのメタデータを管理する役割を担います。 - ルールと標準の文書化
データスチュワードは、データポリシー(データガバナンスとして何をやるべきはを定める)、データ標準(データガバナンスをどう進めるかを定める)、データ品質ルールなどを定義し、文書化します。 - データ品質の問題管理
データスチュワードは、データ関連の問題の特定と解決に携わります。 - データガバナンス運営活動の実施
データスチュワードは、データポリシーやデータ標準が守れデータガバナンスが働くようにする責任を負います。
EA全体の活動の中で見ると、データスチュワードは、データを利用するアプリケーション基盤のマイクロサービス(MS)を管理するアプリケーション(APP)ステュワードや、データを支えるIT基盤を管理するIT基盤管理者とコミュニケーションを取り、EA全体が適切に設計、構築、運用できるようにする役割も担います。
なお、データ管理活動ですが、テクノロジーアーキテクチャ(TA)のマネジメントインフラとして管理することもできます。
テクノロジーアーキテクチャ(TA)の構成
データ資産の構造化
次に、先に領域別に洗い出した実体データ、および、参照データの構造を以下の3段階で設計します。
そして、データ構造の内容をメタデータに反映します。
- 概念データモデル
- 論理データモデル
- 物理データモデル
先ほど示した販売領域の実体データの概念データモデルは以下のようになります。
また、先ほど示した出荷領域の実体データの概念データモデルは以下のようになります。
また、人的資産領域の個人顧客を、参照データである市場セグメンテーション基準で分類した概念データモデルは以下のようになります。
なお、企業全体で整理、構造化された実体データや参照データは、適切な範囲で物理的なデータベースとして構築されデータ基盤として管理されます。
データ管理プロセスの設計
続いて、先ほど定義したデータ管理活動の詳細を業務フローとして設計します。
業務フローについての詳細は、ビジネスアーキテクチャを参照してください。
ここまでが、DAの骨格になります。
ここから、その骨格を具体化していきます。
データ要件の定義
まず、データ要件を定義します。
データ要件とは、データ要求を具体的な要件として落とし込んだものです。
例えば、以下のような例が考えられます。
- 企業全体のデータ資産が統合されている
- 企業全体のデータ資産が統制されている
- 企業のデータ資産が経済価値を生み企業のビジョン実現に貢献している
データ戦略の策定
続いて、データ要件を実現するためのデータ戦略を策定します。
データマネジメント知識体系(DMBOK)には、データ戦略について次のような記述があります。
データ戦略には、情報を利用することで競争上の優位性を確保し、企業の目標を達成するための事業計画が含まれる。
組織にどんなデータが必要で、それをどのように取得し、時間の経過とともにどのように管理し信頼性を担保するか、どう活用するかなど、事業戦略に不可欠なデータの必要性を理解した上で、データ戦略を考えなければならない。
ここでは、データ戦略を次の2つに分けて考えます。
- 全社データ戦略
- 事業データ戦略
全社データ戦略
全社データ戦略では、データ管理活動を集中させるべく戦略的に重要なデータ資産は何か?全社レベルで明確にします。
戦略的に重要なデータ資産を、データ資産のポートフォリオで考える方法があります。
例えば、データ資産を以下の2軸の組み合わせで分類して投資の優先順位を考えます。
- 付加価値
データの付加価値の度合で、データの加工の度合に応じて、生データ、情報、知識、知恵の順で高くなります。 - 市場価値
データが市場で売れる可能性の度合です。
この例の場合、
- 付加価値も市場価値も高い例として「組織ナレッジ」
検証済みのノウハウは競争優位性の源泉となり市場価値も高いデータです。 - 付加価値は低いが市場価値は高い例として「顧客の購買履歴」
購買履歴は生データですが顧客の特徴を掴むことができるため他社も欲しくなるデータだと考えられます。 - 付加価値は高いが市場価値は低い例として「分析データ」
例えば、企業の売上業績などのデータは、加工されたデータで手間はかかっていますが比較的容易に手に入れることができるため市場価値は低いと考えられます。 - 付加価値も市場価値も低い例として「出荷データ」
企業の出荷データなど他社にとって効用がありません。
をあげています。
実際は、データ資産ポートフォリオの各領域には具体的なデータ資産がプロットされます。
事業データ戦略
事業データ戦略では、事業ごとの事業戦略に従って、
- 経済合理性
- 競争優位性
- 持続可能性
を上げるデータ資産には何があるか明確にします。
事業戦略の因果ループで考えると、データ資産は、事業のコアコンピタンスを持つ事業資産の一つという位置付けになります。
なお、事業戦略についての詳細は、ビジネスアーキテクチャを参照してください。
アクションプランの策定
最後に、データ戦略を実現すべくアクションプランを、以下の観点で策定します。
企業にとって戦略的に重要なデータ資産を、どのように取得し、どのように統合し、どのように管理することで、データ資産の品質を確保し、有効活用できるようにするか。
アクションプランについての詳細は、ビジネスアーキテクチャを参照してください。
以上、今回は、データアーキテクチャについて解説しました。
動画視聴もできます!