扩展元数据注册项目
出自医学信息学大百科
项目范围
本项目所关心的是建立用于在元数据注册系统(metadata registries)中存储和检索数据元、术语系统及概念结构的语义的改良标准与技术。现有的元数据注册标准包括元数据注册标准(如ISO/IEC 11179、ISO/IEC 20943 和 ISO/IEC 20944)中的 ISO/IEC 11179 标准家族。我们打算提出对元数据注册标准 ISO/IEC 11179 家族的扩展,以便支持更多不同的元数据类型,以及用于语义说明和查询的增强功能。
- 提出对 ISO/IEC 11179 元数据注册标准的修订。
- 创建一个扩展元数据注册系统(XMDR)原型。
- 将一些术语系统和本体加载到该原型XMDR之中。
- 探索用于提供通过国际互联网对XMDR的访问能力的技术与方法。
扩展元数据注册项目概述
Accessed on 10/4/2006 11:31 AM
Source: http://xmdr.lbl.gov/xmdr-home/overview.html
项目范围(Scope)
本项目所关心的是建立用于在元数据注册系统(metadata registries)中存储和检索数据元、术语系统及概念结构的语义的改良标准与技术。现有的元数据注册标准包括元数据注册标准(如ISO/IEC 11179、ISO/IEC 20943 和 ISO/IEC 20944)中的 ISO/IEC 11179 标准家族。我们打算提出对元数据注册标准 ISO/IEC 11179 家族的扩展,以便支持更多不同的元数据类型,以及用于语义说明和查询的增强功能。
- 提出对 ISO/IEC 11179 元数据注册标准的修订。
- 创建一个扩展元数据注册系统(XMDR)原型。
- 将一些术语系统和本体加载到该原型XMDR之中。
- 探索用于提供通过国际互联网对XMDR的访问能力的技术与方法。
我们欢迎其他将会积极做出贡献(资金、数据、代码、劳动)的参与者参与到这一项目之中。请参见联系方式信息。
扩展元数据注册系统的用途(Uses of Extended Metadata Registries)
扩展元数据注册系统可用于各种各样的用途,其中包括:
- 数据库的数据管理(Data administration) - 如数据库设计(database design)、文档编制(documentation)、应用、用户帮助、查询规划与优化(query planning and optimization)、联合数据库与数据集成(federated databases/data integration)、数据仓库抽提/转换/加载(data warehousing extraction/translation/loading)等等。
- 数据集(datasets)的数据管理 – 用于那些并非保存在数据库之中的(科学)数据。
- 消息传输(messaging)与数据交换(data exchange)的数据管理 – 如电子数据交换(EDI)、电子商务(e-commerce)、军用信息传输(military messaging)、HL7、XML消息交换(XML message exchange)等等。
- 支持科学工作流程管理系统(scientific workflow management systems)、科学与统计学软件“工作平台”。
- 支持受控词表(controlled vocabularies)和权威列表(authority lists)的使用和强制实施(地点、组织、书目引用或人员之类的专有名词< proper nouns >)。
- 支持互操作性标注系统(interoperable annotation systems),如对文档、程序、DNA序列和基因等等的标注。
- 支持自然语言处理(natural language processing) - 实体提取(entity extraction)等等。
- 代理支持(Agent support) - 为软件代理(software agents)提供一种发现、检索和更新元数据的机制。
- 支持用于数据录入系统(data entry systems)的语义辅助手段(semantic help facilities),如数据元定义(data element definitions)。
- 对基于案例的推理系统(case based reasoning <CBR> systems)(用于医学、设备故障分析< equipment failure analysis >、软件问题求解< software problem resolution >、建筑与机械设计< architectural and mechanical design >以及执法应用程序< law enforcement applications >)提供元数据支持。
- 用于语义网应用程序(Semantic Web applications)的引导工具(Bootstrap facility)。XMDR将提供的是一种用于开放共享本体和/或本体元数据的机制,从而促进本体的共享、交换、合并与采用。
- 允许进行模式(schemas)和本体等模型的分散管理(decentralized stewardship)的企业元数据的集中存储(Centralized storage)。
ISO/IEC 11179元数据注册标准修订建议(Proposed Revisions of ISO/IEC 11179 Medata Registry Standards)
良构性与描述性元数据内容(Well-formed vs. Descriptive Metadata Content)
对关于术语系统、分类方案(classification schemes)以及本体方面增强功能的ISO/IEC 11179元数据注册标准(ISO/IEC 11179 Metadata Registry Standards)的修订建议,应当是规范性的(normative)。
我们(最终)希望注册的是语义上准确的(semantically accurate),本体上良构的(ontologically well structured)术语系统、分类方案和本体。这很可能会导致从某种描述逻辑(description logic,DL)的角度上去捕获语义说明(semantic specification)。
同时,我们也期望捕获许多可能并不满足关于“良构性”术语系统/分类方案的标准的术语系统、分类方案等。许多现有的术语系统/分类方案都缺乏描述逻辑编码,甚至缺乏足够精确的,允许在额外花费不少精力(每个术语系统需要投入许多个人年)的情况下进行此类描述逻辑编码的语义说明。
当前的考虑就是,我们可能对术语系统/分类方案采用一种类似于数据元注册(data element registration)所使用的多级注册过程(multi-level registration process)。较低层次的注册或许只是描述性的(descriptive)。较高层次的注册则可能需要满足额外的“良构性”要求("well-formedness" requirements)。
与ISO JTC1 SC32 WG2标准制定工作的协调(Coordination with related ISO JTC1 SC32 WG2 Standards Development)
我们知道在Hajime Horiuchi(东京国际大学< Tokyo International Univ >,日本ISO JTC1 SC32 WG2)领导下ISO JTC1 SC32 WG2关于制定元模型框架(Metamodel Framework,MMF)的工作。该项工作旨在支持本体注册,如OMG ODM方法中所说明的那些本体。我们期望将我们的工作与他们的工作加以协调。
原型扩展元数据注册系统(Prototype Extended Metadata Registry,XMDR)
本原型旨在演示构建一种涵盖更为丰富的用于包容术语系统的分类支持,以及更好地对语义的形式化说明(formal specification)进行支持的扩展元数据注册系统(extended metadata registry)的可行性(feasibility)和实用性(utility)。同时,这一注册系统原型还作为ISO 11179标准第2和第3部分修订本的一个有助于指导产品实施(production implementations)的参考实施(reference implementation)。
XMDR原型技术与方法(Technologies for XMDR Prototype)
当前,我们正在就将哪些技术方法用于语义元数据(semantic metadata)编码的问题展开辩论。表现力(expressiveness)与易于计算处理(computational tractability)(可伸缩性< scalability >)之间不可避免地存在着一种折衷。已在其他项目中用于类似目的的技术方法包括:
关于候选技术方法的更为完整的列举可参见网页XMDR平台技术方法(XMDR Platform Technologies)。
- 关系型数据库(Relational databases) - 用于当前的ISO 11179元数据注册系统(metadata registries)
- 基于框架的表达形式(Frame-based representations) - 用于较老的知识表达系统(knowledge representation systems) - 易于对照或映射为数据库表达形式(database representations)。比如,Ontolingua、Ecocyc和Riboweb。
- 面向对象型数据库(Object oriented databases),如Objectivity、Cache等等。
- 语义网络(semantic networks) - 一种基于图的表达(graph based representation)。其中,节点(nodes)是概念(concepts),而有向边(directed edges)则表示二元关系(binary relationships)(is-a、part-of .…..),如RDF以及美国国立医学图书馆(NLM)的一体化医学语言系统语义网络(UMLS Semantic Network)。
- 资源描述框架(Resource Description Framework,RDF) - 用于对网络上的元数据加以编码的一种基于图的数据模型(graph-based data model)。属于一种语义网络。
- 描述逻辑(Description logic) - 一阶逻辑(first order logic)的有限子集(restricted subset),广泛用于知识表达应用程序(knowledge representation applications),而最近还用于大规模术语系统(large scale terminology systems),如Galen和SNOMED等等。
- OWL-Lite、OWL-DL和OWL-Full - 万维网联盟语义网工作组(W3C Semantic Web working group)所标准化的本体网络语言(Ontology Web Language,OWL)。其构建于RDF之上。OWL-DL属于其描述逻辑版(description logic version)(同时也是最受欢迎的版本)。前身包括OIL+DAML。
- 一阶逻辑(First order logic) – 完全的一阶谓词逻辑(full first order predicate logic) - 表现力非常好,但在计算处理上却存在问题。
- 框架逻辑(Frame Logic,F-logic) - 如Flora system。
- 缺省逻辑(Default logic) - 允许指定缺省(正常)谓词(default <normal> predicates)和异常(exceptions)。
- 模态逻辑(Modal logic) - 用于将时间性(temporality)和多重语境(multiple contexts)结合到逻辑之中。
- 语义网规则语言(Semantic Web Rule Language) - OWL + RuleML,允许通过RuleML指定约束。
XMDR原型的潜在内容(Potential XMDR Prototype Content)
我们计划将几个元数据/术语系统数据集(metadata / terminology datasets)加载到扩展元数据注册系统(eXtended Metadata Registry,XMDR)原型(Prototype)之中。在该注册系统原型之中加载这些元数据数据集(metadata datasets)的目的有两个方面:一是为探索XMDR功能的用户提供示例元数据,二是测试XMDR基础结构成功捕获元数据语义(metadata semantics)的能力。
候选元数据/术语系统数据集将可能从如下列表中选出。目前,尚不清楚我们是否会拥有加载所有这些数据集的资源。
- 环境领域(Environmental Domain)(主要是EPA和DOE感兴趣)
- TRS(EPA的术语学参考系统<Terminology Reference System>)
- GEMET(通用多语言环境叙词表< General Multilingual Environmental Thesaurus >)
- GBIF(全球生物多样性信息工具< Global Biodiversity Information Facility >)
- 生态信息学首倡(Ecoinformatics Initiative)的生态术语系统Ecoterm
- CERES(加利福尼亚环境资源评价系统< California Environmental Resources Evaluation System >)
- Earth(环境应用程序参考叙词表<Environmental Applications Reference Thesaurus>)
- 生物医学领域(Biomedical < Biological, Medical > Domain)(用于NCI、EPA、DOE 生物学计划 < DOE Biology Programs >、DOD生物恐怖主义防范 < DOD bioterrorism >)。候选数据集(Candidate Datasets)可能包括:
- 其他的生物学本体(biological ontologies),请参见开放生物学本体(Open Biological Ontologies)
- 化学领域(Chemical Domain)(用于环境、医学和生物学应用程序之中) - 如化学命名法(chemical nomenclature)、化学代码集(chemical code sets)(化学文摘注册号< CAS registry numbers >)、化学反应(chemical reactions)、化学性质(chemical properties)。
- 地理信息系统(Geographic Information Systems,GIS)(用于EPA、DOD和DOE) - 候选数据集可能包括:
- FGDC地理空间内容标准(FGDC Geospatial Content Standard)(由NOAA、USGS、EPA……所使用)
- 各种各样的地名辞典(Gazetteers)
- 书目本体与元数据标准(Bibliographic Ontologies / Metadata Standards)
- 元数据对象描述模式(Metadata Object Description Schema,MODS)(美国国会图书馆<Library of Congress >)
- 通用术语系统与本体(General Terminologies / Ontologies)
- 来自普林斯顿(Princeton)的Wordnet
- Eurowordnet – 可能存在许可方面的问题
- John Sowa的顶层本体(Top Level Ontology) 许可方面存在疑问??
- 经济学代码集(Economic Code Sets)
- 零杂元数据集(Metadatasets)、术语系统等。
- 国防技术信息中心叙词表(DTIC Thesaurus)(来自美国国防技术信息中心< Defense Technology Information Center >)
- 来自DOE OSTI(美国能源部科学与技术信息办公室< Dept. of Energy Office of Science and Technology Information >)的能量技术与数据交换叙词表(Energy Technology and Data Exchange <ETDE> Thesaurus)
- 无线电通讯本体(Telecommunications Ontology)
元数据内容(Metadata Content)可包括:
- 数据元特性描述(Data Element Characterization)
- 定义(definitions) - 基于自然语言(natural language)的,基于逻辑的(logic-based)
- 类型(types)
- 量纲(dimensionality)/度量单位(measurement units)
- 分类法(Taxonomies)(属于关系< is-a relationships >) - 语言学、生物学.…..
- 分体关系(Partonomies)(部分-整体关系< part-of relationships >) - 地理学、组织机构、解剖学、人工制品…...
- 代码集(Code Sets) - 如国家代码(country codes)、化学文摘编号(CAS numbers)、机场代码(airport codes)
- 术语系统(Terminologies) - 受控词表(controlled vocabularies)
- 模式(Schemas) - 如用于数据库、消息(messages)、文件格式(file formats)等的模式
- 本体(Ontologies)
- 匹配(Matchings)、对照或映射(Mappings) - 多种术语系统之间、多种模式之间…...
从图论(graph theory)角度看,尚可将潜在的元数据内容分为:
- 树状结构(Tree)(如杜威十进分类< Dewey Decimal Classification >) - 一种无向无环图(acyclic undirected graph)
- 有向无环图(Directed Acyclic Graph,DAG)(如实例关系< instance-of relations >) - 又称为无环有向图(acyclic digraph)
- 偏序(Partial Order)(如属于关系< is-a relations >和部分关系< part-of relations >) - 偏序 = DAG + 传递性(transitivity)
- 晶格(Lattice)(时间间隔< temporal intervals >、集合< sets >)
- 一般图(General Graph)(如UMLS) - 可包含环形结构(cycles)
XMDR原型的平台(Platforms for the XMDR Prototype)
目前,我们在LBNL所采用的主要开发平台为基于x86芯片(Intel 或 AMD)的Linux。当前,我们运行的是Mandrake 9.1,但根据系统工作人员的建议,我们正准备转向SUSE 9.1。我们预计将采用Apache,为Web服务器以及前端的各种浏览器(Mozilla 1.7、Firefox、Microsoft Internet Explorer 6.x)部署一个基于Web的系统(web-based system)。
如前所述,除了人类用户界面(human user interfaces)之外,我们还打算为远程程序(remote programs)(或软件代理< software agents >)提供对XMDR的程序访问能力(programmatic access)。我们将首先实施一个REST接口(REST interface),理论上讲,采用SOAP封装REST API要比反过来简便。
另外参见即将发布的有关候选XMDR平台(candidate XMDR Platforms)的网页……
模式与本体(Schemas and Ontologies)
作为本项目的组成部分,将会制定和发布一些XML模式(XML schemas)、OWL本体(OWL Ontologies),且可能还有其他可复用的元数据资源。迄今为止,我们已经为ISO/IEC 11179标准第3部分第2版(11179 Part 3 version 2)编制了一个OWL本体。当前的网络服务器备有该本体:
为XMDR所编制的其他模式和本体在完成之时也将在此提供。
参与者(Participants)
- Bruce E. Bargmeyer (LBNL,ISO SC32主席) – 首席研究员(Principal Investigator)
- Frank Olken (LBNL) – 内容调查,ISO/IEC 11179标准第3版修订本(ISO/IEC 11179 Edition 3 Revisions)
- Kevin D. Keck (LBNL) – 技术调查,架构设计,ISO/IEC 11179标准元模型修订(ISO/IEC 11179 Metamodel Revisions),程序设计
- John L. McCarthy (顾问)
- Harold Solbrig (梅奥医学中心< Mayo Clinic >) - 医学术语系统(medical terminology),内容预处理(content preprocessing)
- Karlo Berket (LBNL) 程序员
- Gail Hodge (国际信息协会<Information International Associates>,美国地质勘探局国家生物信息基础结构< USGS / National Biological Information Infrastructure >) – 环境术语系统(environmental terminology)
- Larry Fitzwater (EPA, ISO SC32 WG2召集人) – EPA元数据注册系统(EPA metadata registries)
- Linda Spencer (EPA) – 环境术语系统,EPA数据标准(EPA data standards)
- Nancy K. Lawler (DoD) - ISO/IEC 11179标准第2部分第3版(ISO/IEC 11179 Part 2 Version 3)编辑
- LCDR Sam Chance (DoD) – 语义网技术(semantic web technologies),基于代理的应用程序(agent-based applications)
跨机构协作(Inter-agency Collaboration)
本项目涉及到如下机构之间的跨机构协作:
ISO/IEC 元数据标准资源(ISO/IEC Metadata Standards Resources)
ISO/IEC 11179、20943、20944和19763标准是国际标准化组织(International Organization for Standardization,ISO)第1联合技术委员会(Joint Technical Committee 1,JTC 1)第32分委会(SubCommittee 32,SC 32)第2工作组(Work Group 2,WG 2)与国际电工委员会(International Electrotechnical Commission,IEC)所制定的(参见SC32/WG2组织结构图<SC32/WG2 Organization Chart>)。
- ISO/IEC JTC 1/SC 32 (数据管理与交换< Data Management and Interchange >)
- ISO/IEC JTC 1/SC 32/WG 2 (元数据< Metadata >)
- 元数据注册系统开放论坛(Open Forum on Metadata Registries)

