第28卷第8期 2011年8月 计算机应用与软件 Computer Applications and Software Vo1.28 N0.8 Aug.2011 一个医保数据仓库的元数据管理解决方案 王 月 王伟俊 童庆 熊 赘 朱扬勇 (复旦大学计算机科学技术学院(上海市医疗保险信息中心(万达信息股份有限公司上海200433) 上海200040) 上海201112) 摘要 利用数据仓库的集成管理能力来辅助医保业务分析是当前我国医疗保障基金管理的研究热点。由于数据仓库构建过程 中的每一个环节都可能发生变化,因此一个灵活的元数据管理系统是这个过程不可缺少的。基于一个医保基金风险防控平台数据 仓库的构建过程,提出一套适应该平台变化需求的元数据管理解决方案,深化对医保数据仓库中数据的理解,从而完善医保基金的 管理和改善数据质量。 关键词 中图分类号数据仓库 元数据 医保基金 TP311 文献标识码A A META.DATA MANAGEMENT SoLUTIoN To THE MEDICAL lNSURANCE DATA WAREHoUSE Wang Yue Wang Weijun Tong Qing Xiong Yun Zhu Yangyong (School ofComputer Science,Fudan Unwe ̄ity,Shanghai 200433,China) (Shanghai Medical Insurance Information Center,Shanghai 200040,China) (Won&rs Information Co.,LTD.,Shanghai 201112,China) Abstract Taking advantage of the integrative management capability of the data warehouse to assist in medical insurmtee bl ̄siness analysis is one of the focuses in domestic medical insurance fund management in recent years.Any unexpected change is possible at any step dumlg the establishment of a data warehouse,SO it is essential for a flexible meta—data management system.Considering the process of the establishment of the data warehouse based on medical insurance fund risk prevention and control platornl,tfhe thesis proposes a meta—data management solution fit for the needs of platform changes to deepen the understanding of data in the medical insurance data warehouse,and ifnally perfect the medical insurance fund management and the quality of data. Keywords Data warehouse Meta—data Medical insurance fund 台)数据仓库构建过程的元数据管理实践,提供以下几种医保 0 引 言 医疗保险是我国社会保障体系中的重要内容,合理开展医 保基金管理、加强风险规避更是医疗保障工作的重中之重。因 元数据的存储分析:1)数据源层的描述性元数据;2)数据采集、 整合、装载过程中的元数据;3)医保平台数据仓库内部的构建 元数据;4)基于数据仓库的决策分析、数据挖掘应用所需的元 数据。同时,本文还探讨了一系列适合平台实际的元数据管理 功能,从而更为有效地帮助和维护实时动态的医保数据仓库。 此,通过建立基金风险防控的数据分析平台,利用数据仓库所能 提供的强大的数据集成管理和决策支持 的能力,能够有效 防范和化解医保基金运营过程中的风险。 1医保元数据 医保基金风险防控平台系统架构可分为三个层次:数据源 然而,当前许多医疗保险的决策支持平台依然存在医疗参 保信息海量、数据来源异构、业务分析需求复杂多变等技术困 难。要解决这些问题,就必须对医保管理的各方面数据有更加 深人的理解,加强对决策平台各系统的控制 ,才能适应不断 变化的医保业务需求。元数据通过对医保平台数据仓库中存储 的各类历史数据和业务信息提供足够详尽的知识表示,满足了 数据分析利用过程中的绝大部分技术和业务知识的理解需求, 层、数据仓库层、分析应用层。数据仓库作为数据源层和分析应 用层的中心,既是数据源层中所有医保业务数据的集成存储区 域,也是医保基金管理业务的决策分析基础。因此,针对该医保 平台数据仓库构建的元数据管理应用就必须涵盖这些数据层以 收稿日期:2010—03—31。上海市科委科研计划基金项目(08511 500203);上海市重点学科建设项目(Bl14)。王月,硕士生,主研领域: 数据挖掘,数据科学。 为我国医疗保障体制应对不断变化的参保需求提供了很好的解 决方案。 本文结合一个医保基金风险防控平台(以下简称医保平 第8期 王月等:一个医保数据仓库的元数据管理解决方案 127 及数据仓库数据获取步骤(即ETL过程)的所有元数据信息。 的元数据记录存放在存储库中即可,因而对于异构数据源的支 医保平台下数据仓库构建相关元数据在各个层次中的分布 持性较为灵活。 情况为: 医保平台数据仓库构建过程涉及主要元数据对象包括(但 1)数据源层医保平台数据仓库的直接数据源为医保业 不限于)如表1所示的几类。 务系统大集中数据库和临时性的实时交易数据库,所涉及的元 表1存储库中主要元数据对象 数据主要是作为为数据源的关系数据库连接信息及环境配置、 元数据对象 描述 数据库表(包括城/镇参保人、保险账户、医疗机构、区县信息等 Source 源对象,如数据库表、源文件 方面的医保业务数据)、字段信息等。 Target 目标对象,如维表、事实表 2)数据仓库数据仓库内部主要包含两个数据区域,分别 Fields 数据库表、结构化平面文件的属性字段 是基于医保业务主题建立的基础数据区和基于动态数据仓库技 Connection 数据源、数据目标对象连接 术建立的动态数据区和基于粗粒度数据的汇总数据区,相关元 Transformation 转换步骤 数据会涉及到根据各医疗保险主题(如参保情况、医保缴费等) ETL Job 抽取任务,可包含多次转换步骤 所建立的维表和事实表、关联模式等。 Configuration 服务器的设备信配置情况 3)分析应用层主要包括即席查询、统计报表、预警监控、 Dimension 数据仓库维度 OLAP分析、数据挖掘等多种分析应用,为上层的应用系统提供 Metadata Extension 用户自定义的扩展属性, 技术支撑服务。元数据部分主要是数据分析模型说明、业务规 用来辅助理解医保业务元数据 则、风险防控模型库等。这些数据格式比较复杂,其中一部分会 由此看来,存储库实质是完成以上元数据对象及其属性到 直接以业务说明文档或帮助文档的形式存在。 关系型数据表及字段的映射。为了便于业务管理,这些元数据 4)ETL过程ETL过程将在基金风险防控分析过程中所 某些场合需要被抽象为具有某些共性的对象来进行操作,譬如 需的医保相关业务数据加载入数据仓库中。整个过程涉及抽取 统一性元数据查询。因此就必须为各种类型的元数据对象设计 数据的源和目标定义、映射规则、转换规则、装载策略等信 一个对应的基表来反映它的基本信息,比如对象名称、所属类别 息 ,不需要了解业务明细数据。 和其他基本描述等。对于不同类别元数据特有的属性则通过关 联各自的附加属性表和关系表来实现。另外,对于所属类别信 2元数据存储库设计 息,需要定义一个类别的映射表 将每个分类映射到一个唯一 的键值上,这样只需要简单地通过对该键值查询就能确定某个 基于医保平台数据仓库构建的实际,我们选择为整个平台 元数据所属的类别。 建立集中式元数据存储库作为元数据存储方案(如图1所示), 综上所述,存储库中的数据表主要由以下三种表组成: 对医保平台中的元数据进行统一管理。它的好处在于将元数据 1)基本表作为描述元数据对象的共陛,表2包含了最高层 对象转变为结构化的数据记录存放在数据库中,构建成本和技 的公有屙陛,在进行不依赖于对象类别的属性查询时能够简化跨表 术难度较低,支持标准数据库查询语言的主流数据库系统都可 关联查询。 以作为存储媒介,进行数据迁移时只需要根据选择数据库的不 表2 YB_BaseMetadata 同选用相关适配器;同时,集中式存储库能够减少分散管理时需 属性名 数据类型 描述说明 要建立元数据桥的开销,使整个平台下的元数据表征方式具有 BM ID NUMBER 元数据对象ID 统一的口径和标准。 BM NAME VARCHAR 元数据对象名称 伽一m NUMBER 元数据所属类型 DESCItI n0N VARCHAR 元数据描述 CREATION』ME DATE/JI1ME 创建时间 ≯ LAST_MODIFYED DATE/TIME 最近的修改时间 IS VAUD NUMBER 合法性 sTATUS NUMBER 当前状态 2)类别映射表类别映射表将基本表中的基础元数据与 某特定类别的元数据种类关联起来,当用户需要获取对象细节 信息时可以通过类别映射表进行关联查询。 3)细节属性表由于数据仓库构建过程中涉及元数据种 图1 医保平台的元数据存储 类繁多,除了基本表用来反映元数据对象的公有属性外,还会根 医保数据仓库中历史分析数据主要来源是一个汇总型业务 据不同类别来保留一些附加的详细属性表来提供复杂的属性信 大集中库,另外还有少量来自临时性实时交易记录库;因此,业 息,如源对象、目标对象属性。这些细节属性除了用于丰富表1 务大集中库和实时交易记录库是数据源,数据仓库则是数据流 中列举的主要元数据对象外,还包括一些用于辅助元数据管理 向的目标。 的细节信息,如用于辅助查询的元数据标签等属性。 我们将反映数据源和目标对象内部结构的元数据以结构化 数据表记录的形式进行存储。这样不但支持医保平台目前已有 3元数据管理系统功能模块 数据源,对于今后需求演变后可能出现的半结构化XML文档以 及平面文件等数据源,只需根据其数据组织规则解析成为对应 除了解决元数据存储形式问题,系统利用一系列相关的元 l28 计算机应用与软件 如表4所示。 201 1丘 数据管理功能,来简化元存储库的管理过程并且便于业务人员 更好地理解元数据的内容和作用。整个系统的管理流程和功能 一…一 器… 模块如图2所示。 。 ÷0 一一一一一一 ÷~ 熊 图2 医保元数据管理流程和功能 3.1数据查询 查询是元数据管理最为重要的功能之一。由于元数据对象 在存储库中以结构化的数据库表形式表征,因此属性定位就转 换为针对这些数据库表所包含字段值的数据库查询。因此,我 们将这些查询操作封装在一些预设定的查询接口中,由业务分 析人员根据需要提供查询条件来实现信息定位。所谓的查询接 口实质上就是管理工具提供给用户的一些可用的查询条件,通 过这些接口可以将元数据的查询实际上转化为对元数据库记录 的查询操作。这些查询接口如表3所示。 表3查询属性和相应查询条件 查询属性 查询条件 Metadata Name, Equals/Contains/Matches Description,Comments Creation Time, Before/After/ End Time,Modify Time Between/Not Between/is Status Active/Deleted/Disabled Owrier Is/Marches Source Type DatabasdFIat File/XML Source/Target/Mapping/Task/ Metadata Type Configuration/Connection/ Metadata Extension Parent,Children Metadata HaS/Not Has/IS/Is Not Metadata Extension EmailfAttached File/URL/Tag. 需要说明的是,表中元数据扩展(Metadata Extension)是由 用户为元数据对象添加的扩展性标注,主要一些是对该元数据 对象的附加性注释、分类标签等,也可以是用户对数据使用者或 使用目的的详尽说明。它们能够帮助技术或业务分析人员更好 地理解和辅助元数据信息的查询。 3.2数据验证与更新 错误、失效的医保元数据轻者导致分析结果的错误,重者造 成医保基金的损失和重大运营风险。为了及早掌握这些错误元 数据的情况,系统按照用户指定的时间段通过后台线程对存储 库中现有元数据进行周期性验证。对于验证状态错误或不一致 的元数据实例对象,管理系统通过主动改变其显示状态来提示 用户进行相应的处理。 在元数据管理中,最常被验证的元数据对象及其属性主要 表4数据验证情况 验证类别 验证内容 错误情况 Confiugration 服务器环境配置信息 配置环境已改变 Connection 数据库连接、数据库用 连接已失敛、 户登录信息是否有效 登录信息不正确 Data Source/ 进行数据库表的 关系数据表不 T仔在性卡令验, 存在、或字 a ̄et 字段信息情况检验 段信息不一敛等 Transformation/ 验证对于存储库【{J 存储库巾元数据 Mapping/ETL Task 对于数据 j Er程元数据的rL过 信息 I_ 一敛性 过程不一致 在取得元数据实例对象变更状态后,为r与其他数据_lL具 保持一致,元数据管理系统能够对发生变更的元数据进行数据 更新。更新策略暂不记录冗数据版本变化,而是采 直接覆盖 的形式保留元数据最新信息。 3.3血缘分析 血缘分析能够通过元数据的影响性分析来改善数据仓库中 的数据质量,这里主要包括以下两种应用: (1)进行元数据对象定位,获取所有使』}J剑该对象的关联 元数据,便于提前r解到其变更町能带来的影响 (2)分析数据的流动情况,跟踪它住兀数据链路I一的来源 和去向,从而用于追溯数据产生错误的根源。 对于第一种应用,存储库t1|的咩细信息表中往没计时包含 了元数据的来源情况以及元数据对象问的关联记录,系统会依 据各对象所在表问的键值映射情况作跨表查询获得各元数据之 间的关联结果。 对于数据流动情况的追溯义被称为血缘分析,管理系统必 须能够详尽记录元数据从源到目标的路径上位于所有节点的状 态以及流动方向。XML文档的节点及属性定制非常灵活,具有 很强的描述性;同时,它能始终保留数据间诸兄弟之间的关联, 对于数据流动信息的传递能力很好。因此,在涉及数据转换过 程(如ETL映射)时,系统利用XML这种强描述性为每个元数 据对象记录下其来源和去向,在血缘分析时通过扫描文档树子 节点所代表元数据在任意阶段节点的from和to值就能够获得 该对象在数据链路上的流动情况(如图3所示)。 \ 一,f/ 图3 Xml文档中的数据流动 3.4数据交换 数据交换分为元数据的获取和导入导出两个方面,它主要 目的是帮助管理系统与其他数据源进行元数据的交互,同时也 方便了元数据库的迁移。 为了保证管理系统与平台中的其他数据应用无缝的结合, 第8期 王月等:一个医保数据仓库的元数据管理解决方案 129 必须采用公共标准方便工具间的数据交换需要。医保平台下数 据源及数据仓库均采用Oracle系列产品作为数据容器,这些产 参考文献 品对于自身元数据的表征拥有一致的元模型,更重要的是它们 [1]Han Qingtian,Gao Xiaoyan.Research of Decision support system based 对数据仓库领域通用的CWM规范 提供了较好的支持。 on data warehouse techniques[C]//Second International Workshop 然而CWM标准本身比较复杂,如果将元数据管理系统本 knowldege Discovery and Data Miinng(WKDD),2OO9:215—218. 身完全依照它来进行模型设计的开销较大。因此,我们无需重 [2]Vaduva A,Dittrich K R.Metadata management for data warehousing 写现有系统的元数据模型,在交换时利用符合CWM规范元数 between vision and reality[C]//Database Engineering&Applications, 据适配器将用作交换的CWM元数据XML文档转换为系统内 2001:129—135. 部的一种中间格式,随后将中间格式的文档流转换为存储库支 [3]Foshay N,Mukhe6ee A,Taylor A.Does data warehouse end—user meta- 持的数据格式 。这样不但能够直接获取数据源的内部结构, data add value?[J].Communications ofthe ACM,2007,50(11):70 —也极大地减小了在交互时要与多个数据源间建立元数据桥的 77. 开销。 [4]Mrunalini M,Kumar T V S.Simulating Secure Data Extraction in Ex— 这里的数据迁移主要是指元数据存储库存储引擎的迁移。 rtaction Transformation Loading(ETL)Processes[C]//Third UKSim European Symposium on Computer Modeling and Simulation(EMS). 用户可以根据另选用其他数据库产品作为存储库,只需要利用 2009:142—147. 系统提供的软件适配器将原库中的数据载入新库即可。 [5]李珊珊,陈维斌.基于CWM的元数据储存库的设计[J].广西师范 3.5可视化 大学学报,2007(12):152—155. 值得说明的是,在可视化上凡是涉及元数据对象在父子从 [6]Poele J,Chang D,Tolben D,et a1.公共仓库元模型开发指南[M]. 属关联方面都利用树状结构对于不同类别元数据进行分类组织 彭蓉,刘进,译.北京:机械工业出版社,2004. (如图4所示)。其优点在于针对元数据类别和相互依赖展示 [7]谢泽添.基于CWM的商业银行元数据仓库的研究与[D].厦门: 能够让用户快速准确地定位所需医保数据的信息,同时避免不 厦门大学。2oo8. 清晰的层次组织导致用户对数据产生误解。 (上接第99页) 果表明,本文的算法有较好的分割结果和较强的抗噪性能。 参考文献 [1]蔡燕柳等.基于模糊c均值聚类与空间信息相结合的图像分割新 算法[J].激光杂志,2009,30(2):49—52. [2]Aristeidis Diplaros,Nikos Vlsasis.A Spatilaly Constrained Generative Model nad an EM Algorithm for Image Segmentation[J].IEEE Trnas, 2007,18(3):798—808. [3]Neal R,Hinton G.A view of the EM algorihtm that justiifes incremen・ tal,sparse,and other varinats[M]//Jordan M I.Learning in Graphical Models.Norwell,MA:Kluwer,1998:355—368. [4]Du Xiao・chen,Iju Jian-ping.Improvde Mehtdo For Image Thresholding Based on Fuzzy Index[J].Journal of Opto-Electornic Engineeirng, 2005,32(10):51—55. [5]Li Ming,Li Yun-song.Fuzzy c-Menas Clusteirng Based on The Gray And Spatila Feature For Image Segmentation[J].Proceedings IEEE, 图4元数据可视化组织层次 2006,6(6):1641—1646. [6]李志梅,肖德贵.快速模糊C均值聚类的图像分割方法[J].计算 4总结与展望 机工程与应用,2009,45(12):187—189. [7]Kwang-Baek Kim,Am-suk Oh,Young・Woon Woo.PCA・Basde Face Ver- 本文由数据仓库的数据集成管理特性在医保基金风险防控 ilfcation and Passoprt Code Recognition Using Improved FKCN Algo- 平台下的应用出发,引出了元数据管理在数据仓库建立过程中 rithm[J].Intelligent Systems Design and Applications.2008,2:51—57. 的应用,并且分析了该过程中所涉及元数据的范围及其医保业 [8]Cai Weiling,Dign Jundi.Effectiveimage esgmentationframeworkfor gauss・ 务含义。同时,基于一个现实的医保平台数据仓库应用实例,探 ina mixture model incorporating local information[J].Transcations of 讨了其中元数据集成方案和管理功能的设计,并且分析了元数 Nan jing University of Aeronautics&Astronautics,2008,25(4):266— 273. 据管理技术在医保基金管理领域中辅助数据仓库构建过程的 [9]Weiling Cai,eSngcna Chen,Danqinag Zhang.Fast nad robust fuzzy C- 价值。 means clustering algorithms incorporating local information for image 本文在元数据管理功能的探讨方面仅涉及了通用的主要功 semgentation[J].The journal fo hte pattenr recognition society,2007: 能,未来将不断完善当前系统架构及功能的设计,还将对元数据 825—838. 管理的版本控制和分布式管理等高级应用方面进行更加深人的 [10]Ping Wang,HongLei Wang.A modiifed FCM lagorihtm for MRI brain 研究,进一步利用元数据改善医保平台下数据仓库中的数据 image semgentation[C]//!ntemational Seminar on Future BioMedical 质量。 Ifnormation Engineering,2008:26—29.