Meta data

出自医学信息学大百科

跳转到: 导航, 搜索

概念

元数据是数据仓库中很关键的一个问题.

首先我们要了解什么是元数据。简单地说,元数据是数据仓库数据本身信息的数据(data about data),这是元数据最本质,最抽象的定义。元数据是数据仓库的一个主要组成部分。元数据分三部分:操作型、抽取/转换,以及最终用户元数据。 元数据的重要性元数据对于使用、构建、维护数据仓库都很关键。

1. 对数据仓库使用的必要性:与操作型系统不同,用户在使用数据仓库时,是自己从中获取信息的。所以在创建并运行查询之前,用户需要了解数据仓库中的数据。所以,用户需要元数据。要想从数据仓库中获取最大的收益,用户需要以复杂的方式浏览并考察数据仓库的内容,要知道数据项的含义。因此,如果不知道数据的确切含义就去做数据分析的话,很容易得出错误的结论。现在的数据仓库数据范围广、规模大,如果没有足够的元数据支撑,用户在使用数据仓库时必将受到很大的限制。

2. 对构建数据仓库的必要性:一方面,负责数据抽取盒数据转换的专家,需要了解数据仓库的结构及数据内容。另一方面,数据仓库的数据库管理员在对数据库进行物理设计和初始装载时,在进行定期增量装载时,以及其他一些职责时,都需要了解相当多的元数据,如数据库逻辑结构的元数据、数据刷新以及装载周期的元数据。

3. 对管理数据仓库的必要性:由于现代数据仓库的复杂性及其庞大的规模,要管理数据仓库,不可能没有坚实的元数据。例如,如何处理数据的变化;如何增加新的外部数据源,如何控制出错的查询等等问题都需要使用元数据。

由上可见,在数据仓库中,原数据处于一个关键的位置,它使不同的过程能够相互通信,是数据仓库的神经中枢。另一方面,我们可以认识到有两类人会用到元数据:最终用户(使用数据仓库的人)和IT人员(创建和管理数据仓库的人)。

接下来看看元数据对这两个群体的重要性。

1. 元数据对最终用户至关重要:作为数据仓库的关键用户(如商业分析员),他希望从数据仓库中得到分析结果,比如销售情况能否按照产品、促销、商店和月份进行分析等。没有元数据作引导,就好比客户下订单时没有商品目录一样,不仅分析起来很不方便,而且很可能做出错误的分析。

2. 元数据对IT人员非常关键:要设计和管理数据仓库,IT人员必须能够得到合适的元数据。在整个开发过程中,原数据对IT人员来说都非常重要。比如,从源系统中抽取数据,数据转换,数据清洗,数据汇总,数据准备,数据刷新,数据库设计以及查询和报表设计,这些处理过程中元数据都是不可或缺的。 元数据在数据仓库中扮演了一个活跃的角色,辅助处理过程的自动化。比如说,作为一个开发者,当你使用一个工具完成开发设计中的另外一个过程时,该工具会用到第一个工具建立的元数据。另一方面,作为一个最终用户,在使用访问信息的查询工具时,查询工具使用了某些后端工具构建的元数据。在这里,元数据不再是被动的文档,而是参与了整个过程,协助了数据仓库处理过程的自动化。由于元数据驱动了整个过程,所以它在数据仓库中是相当重要的。也正因为如此,元数据的标准化也就显得异常重要了。

按功能区域划分的元数据类型按功能区域划分,元数据包括:数据获取、数据存储以及信息传递。下面分别介绍。

1. 数据获取:在该区域中,数据仓库过程与下面的功能相关:数据抽取、数据转换、数据清洗、数据即成以及数据准备。对IT专业人员而言,会在数据获取区域中用到记录元数据的开发工具。在部署数据仓库之后,IT专业人员会使用数据获取区域中的处理过程所记录的元数据来管理和监控正在运行的功能。另一方面,对数据仓库用户而言,他们也会使用数据获取区域中记录的元数据。比如说,如果用户希望知道数据仓库中的利润率是如何计算和保存的,他/她或许会查看数据获取区域中元数据的来源规则描述。

2. 数据存储:在该区域,数据仓库处理过程与下面的功能相关:数据装载、数据存档以及数据管理。与上面描述的类似,当处理过程在数据存储功能区域中进行时,相应的工具记录了和处理相关的元数据元素。该区域过程中记录的元数据用于开发、管理及最终用户。对IT专业人员而言,完全数据刷新和增量数据装载中将会用到该区域中的元数据;数据库管理员会在备份、恢复、数据库调整的处理中用到这些元数据。另一方面,用户也会用到这个区域的元数据。比如说某用户想要构建一个查询,按销售地区将季度销售分开来。在他查询前,希望知道区域描述数据的最后装载时间。而该区域中记录的数据装载过程的元数据就为用户提供了这个最后装载时间。

3. 信息传递:在该区域中,数据仓库处理过程与下面的功能相关:报表生成、查询处理以及复杂分析。这个区域的处理过程主要是为最终用户服务的。而且在这个过程中,会用到数据存储区域或数据获取区域中记录的元数据。通常,记录在信息传递功能区域的元数据与预定义查询、预定义报表及对查询和报表的输入参数定义有关。该功能区域记录的元数据也包括OLAP的相关信息。开发者和管理员都参与这些处理过程。

元数据类型不仅可以按功能区域划分,还可以根据内容和格式的不同划分为商业元数据和技术元数据。下面分别介绍。

商业元数据商业元数据将数据仓库与商业用户联系起来。商业用户看数据的角度与IT专业人员的角度有很大的不同,这些元数据必须用商业术语和平直的语言描述内容。对经理层和商业分析人员来说,商业元数据就像一个易于使用的信息目录,是一个重要的指南。因为相当多的商业用户技术水平不够自己构建查询或格式化报表,所以商业元数据必须使最终用户能很容易地理解数据仓库中哪些数据是可用的,以及如何使用。

技术元数据技术元数据为负责开发和管理的IT人员服务。技术元数据对构建、维护和管理数据仓库的IT人员来说,就像一个支持指南。项目中的不同成员需要的技术元数据是不同的。例如,数据获取专家所需要的元数据就与信息访问开发人员的不一样。

IT人员需要技术元数据的目的如下:首先,需要技术元数据进行数据仓库的初始开发。其次,技术员数据对数据仓库的增长和维护绝对是关键的。另外,技术元数据对于数据仓库的管理也很关键。

元数据管理面临到挑战虽然在数据仓库环境中元数据极为重要,但要无缝地将所有部分的元数据集成起来却是一个相当困难的任务。全行业范围内的标准到现在还远没有形成,这是各工具间元数据要实现无缝传递最大的一个挑战。

元数据联盟和对象管理小组正在做这方面的努力,两个团体已经宣布了他们将会融和他们的标准,所以最终只有一个行业标准。 元数据储存库元数据储存库就像一个包括了几个扩展功能的通用信息目录,可以看作是一个用于分类、存储、管理元数据的,通用的信息目录。元数据储存库可以看作是两个不同的信息目录,一个存储商业元数据,一个存储技术元数据。选择一个合适的元数据储存库产品,是一个项目团队必须做的关键决策。 总结总之,在数据仓库环境中,元数据是非常重要的。然而,目前还缺少被广泛接受的元数据的行业标准。在一个使用多种不同供应商工具的典型的数据仓库环境中,有一些可供选择的方案包括商业元数据储存库产品的使用,也有其他自创的解决方法。目前的趋势是在报表和OLAP中使用Web技术。


相关标准

  • 11179-* Metadata registry (MDR)
  • 14957 Notation of format for data element values
  • 19763-* Metamodel interoperability
  • 19773-* Metadata modules
  • 20943-* MDR content consistency
  • 20944-* MDR interoperability & binding
  • 24706 Metadata for technical stds
  • 24707-* Common logic

相关项目

个人工具