TDSE株式会社
TDSEマガジン

DX成功のカギ(第3回)

DX推進

前回は、DXに関わる「組織/推進体制および人材のカギ」としてDX部門が果たすべき役割をお話ししました。今回は、「データのカギ」についてお話します。

第一回DX成功のカギ~ビジネス編~はこちら
第二回DX成功のカギ~組織/推進体制・人材編~はこちら 

当社がAIモデル構築などデータ活用のご支援をさせて頂く場合の多くで、データ準備フェーズに相当な工数が発生し、モデル構築になかなか着手できないケースがございます。蓄積されたデータには異常値や欠損値が含まれており、その扱いを検討し必要な変換処理を行うなどデータクレンジングに多くの工数が割かれたり、あるいは、データの定義が不明確なためビジネス部門やIT部門へのヒアリングが何度も必要になったりする場合がございます。単にデータを蓄積するだけでなく利用し易い高い品質でデータを整備することは、データ活用を効率よく推進するためのカギと考えられます。

では、データ利活用を見据えてデータの品質を考える上で必要な項目や観点には、どのようなものがあるのでしょうか。これらはメタデータと呼ばれており、※DMBOK2ではメタデータをビジネス・メタデータ、テクニカル・メタデータ、オペレーショナル・メタデータの3種類に分類しています。それぞれどのようなものなのかをお話しします。

ビジネス・メタデータとは、データ全体や各列(変数)の意味をビジネス観点で記載したものです。テーブル定義書の論理名や列ラベルもメタデータの一つですが、それだけで列の値の正確な意味を理解することは困難です。ビジネス上の意味や算出方法、閾値といった情報が必要となります。数値のビジネス的な定義が関係者で異なっていたために、後になって大きな手戻りとなることをしばしば経験しています。

テクニカル・メタデータとは、物理テーブル名、ファイルのフォーマット、文字コード、データ型、有効桁数、キー項目、アクセス権、CRUD情報、などIT的な観点で必要となる情報です。データ自体をデータベースで管理している場合などでは、テーブル定義書やER図などから読み取ることが可能な情報です。変数の値を正しくプログラム処理したり、複数のテーブルやファイルからデータを正しく紐づけたりするためには不可欠な情報です。

オペレーショナル・メタデータは、データを生成・更新した日時、処理プログラム名、更新間隔、容量の増減、処理のログ、といったデータの処理に関係する情報です。多くの場合、PoCによる効果検証既は、既に蓄積済みのデータを用いた検証が行われるため、データが生成されるタイミングに関する考慮が不足しがちです。例えば、AIモデルを使うのであれば、推論処理の実行時点までにはモデルの入力データは生成処理が完了している必要があります。データが月次バッチで更新されるのであれば、推論実行時点によっては1カ月前のデータしか利用できません。データの生成や更新タイミングを正しく把握することが、データ活用には不可欠です。

品質の高いデータ整備の第一歩は、活用の対象となる全てのデータに対し上で紹介したメタデータを付与しデータの意味や定義を明確にするとともに、各種のメタデータにより現状を把握することです。その上で、データ活用の目的に応じた適切な理想状態を定める必要があります。例えば、オペレーショナル・メタデータの一つである更新間隔は、利用目的が月次レポートなのか日次レポートなのかで異なります。データの品質が低いとビジネスの目的が達成されませんが、過剰な理想状態を定めることは、データ維持にかかる費用を増大させ結果的にデータ活用による効果を低めてしまいます。その上で、現状が理想状態と乖離している場合には、乖離の程度を定量的に評価が必要となります。※DMBOK2ではデータ品質の評価軸として、正確性、完全性、一貫性、参照整合性、妥当性、適時性、一意性、有効性などが紹介されています。

上で紹介したように、メタデータを一元的に収集し、タイムリーに更新、また関係者で共有できるよう整備すること、さらにデータ品質に関して基準を設け定期的にモニタリングし問題がある場合には品質改善のアクションを取ることは、データ活用を効率化させDXを推進するカギになると考えています。しばしば、書籍などでは「データ分析のほとんどの工数はデータクレンジングだ」いった表現を見かけますが、このような状況はDX推進のあるべき姿ではないことを指摘したいと思います。一方で、社内にあるデータは膨大で、そのデータ全てに対してメタデータを付与することは現実的ではありませんが、PoC等でデータの活用が検討されたタイミングに合わせて、メタデータの付与と適切な品質基準を進め、品質の管理されたデータを徐々に拡大させることが得策だと思います。

当社では、データ分析を中心としたDX推進に必要となる様々な活動をご支援しております。分析課題の抽出や分析設計、データ整備、AIモデルの構築などデータ活用のプロフェッショナルの視点でDX推進をご支援いたします。ご興味のある方は、問い合わせフォームからお問い合わせください。

DX組織組成支援サービスはこちら

資料ダウンロードはこちら

DMBOKとは、データマネジメントに関する知識を体系立ててまとめた書籍です。DMBOK はData Management Body of Knowledgeの略称です。現在までに、第2版が出版されており、日本語版も出版されています。(以後、DMBOKの第2版のことを”DMBOK2”と表します。)

 

DXやデータ分析に関するトレンドや活用法、
セミナー情報などをお届けします。

メールマガジンに無料で登録する
上へ戻る