摘 要: 提出了一种从关系数据库半自动学习OWL本体的方法。该方法在形式化表示关系数据库模式和OWL本体的基础上,遵循从关系数据库模式到OWL本体的一组通用映射方法和规则,并基于Java 2平台实现了原型工具OntoLearner。利用OntoLearner进行的典型案例研究表明了该方法的有效性。
关键词: 本体学习;关系数据库模式;本体工程;OWL;语义Web
本体是语义Web的关键使能技术。使用现有本体编辑器手工开发本体是一项冗长而繁琐的工作,极易导致知识获取的瓶颈,所以本体学习[1]技术应运而生。它极大地简化了本体的构建,满足了语义Web对于快速简便构造本体的需求,在语义Web中起到了杠杆的作用。关系数据库是基于Web的数据密集型应用的主要信息源,数据库模式中隐含着领域知识。因此,从关系数据库学习出的OWL本体更适合于数据密集型Web应用的需要。本文在形式化表示关系数据库模式和OWL本体的基础上,介绍了一种从关系数据库半自动学习OWL本体的方法,设计出一套通用的映射方法和规则,并基于Java 2平台实现了原型工具OntoLearner。
1 关系数据库模式
关系数据库模型是以集合论中的关系(relation)概念为基础发展起来的数据模型[2]。为了便于形式化描述本体学习方法中的映射规则,这里给出了关系数据库模式的形式化定义(符合3NF)。
定义1:一个关系数据库模式S=(L,pkey,unique,notnull,fkey,subof,fdependency)是七元组,其中:
2 OWL本体
本体是一组描述某领域内概念及其属性以及概念间关系的词汇和公理的集合。W3C在2004年2月发布了标准化的Web本体语言OWL[3]。这里给出OWL DL本体的形式化定义。
定义3:一个OWL DL本体O=(Cept,Axiom)是二元组,其中:
(1)标识符集Cept=CID∪DPID∪OPID∪DTID是一个有限集,由两两不相交的集合组成:
①一个类(class)标识符集CID;
②一个数据类型属性(datatype property)标识符集DPID;
③一个对象属性(object property)标识符集OPID;
④一个数据类型(data type)标识符集DTID,每个数据类型标识符是OWL本体中使用的预定义XML Schema数据类型标识符。
(2)公理集Axiom=CAxiom∪PAxiom是一个有限集,由两两不相交的集合组成:
①一个类公理(class axiom)集CAxiom,包含本体中定义的所有类公理;
②一个属性公理(property axiom)集PAxiom,包含本体中定义的所有属性公理。
3 从关系数据库学习OWL本体的方法
从关系数据库学习OWL本体的可行性基于以下事实:运用数据库逆向工程方法可从关系数据库模式中提取ER模式[4];ER模式可语义保持地转换成OWL本体[5-6]。因此,本文针对现有本体学习方法和工具的不足,提出了一种从关系数据库学习OWL本体的方法,该方法分为关系数据库的逆向工程和从关系数据库模式到OWL本体的映射两部分。
3.1 关系数据库的逆向工程
数据库逆向工程DBRE(Database Reverse Engineering)指的是从物理数据库恢复数据库逻辑和概念模式,一般分成两个互相独立的阶段:数据结构的提取和概念化。在研究和分析数据库逆向工程现有理论和方法的基础上,本文制定了一套适合本体学习工程环境的较完备的逆向工程方法。
3.2 从关系数据库模式到OWL本体的映射
为了形式化表示从关系数据库模式到OWL本体的映射规则,需要预先定义以下辅助函数:
(1)IS(x):布尔函数。若x(表达式)成立,则IS(x)=True;否则IS(x)=False。
(2)idMap(ID):将关系数据库模式中的关系名和属性名映射为OWL本体中的同名标识符。即若ID是关系数据库模式中的关系名和属性名,则idMap(ID)=ID∈CID∪DPID∪OPID。
(3)dtMap(DT):将关系数据库模式中的数据类型名映射为OWL本体中使用的数据类型(XML Schema数据类型)标识符。即若DT是关系数据库模式中的数据类型名,则dtMap(DT)=DType∈DTID。
3.2.1 属性公理的生成规则
规则1 将关系数据库模式中关系的非外键属性及其相应的预定义数据类型映射为OWL本体中以关系对应类为定义域的数据类型属性及其相应的预定义XML Schema数据类型。形式化表示为:
3.2.3 类关系的启发式规则
规则11 如果两个实体关系的主键之间存在包含依赖关系,则这两个关系对应的OWL本体中的两个类之间存在父类和子类的关系。形式化表示为:
3.3 OntoLearner设计思想
本体学习工具OntoLearner的体系结构如图1所示。基于OntoLearner,本体学习的过程由下面三个子过程组成:
(1)关系数据库的逆向工程。使用逆向工程的方法从关系数据库中获取规范化至3NF的数据库模式信息,明确数据源的语义;
(2)从关系数据库模式到OWL本体的映射。以提取出的关系数据库模式(3NF)作为输入,按照一组通用的启发式规则实现从关系数据库模式到OWL本体的映射,并以可视化的方式显示;
(3)利用现有本体工程工具对生成的OWL本体进行精炼、评估和验证。
4 实例
使用MS SQL Server 2000创建一个包含大学基本信息情况的关系数据库University,并插入实例数据。利用OntoLearner对该数据库进行本体学习,运行结果如图2所示。
语义Web研究的重点就是如何把信息表示为计算机能够理解和处理的形式,即带有语义。本体在创建这种机器可理解和处理的Web内容中扮演着关键的角色。由于关系数据库是本体学习重要的知识源,所以研究从关系数据库学习OWL本体的方法,对数据密集型Web站点向语义Web迁移、动态Web页语义标注、构建新一代信息管理基础结构等均具有重要的现实意义。
参考文献
[1] STAAB S, MAEDCHE A. Ontology learning for the semantic Web[J/OL]. IEEE Intelligent Systems, 2001, 16(2): 72-79.
[2] 王能斌. 数据库系统教程(上册)[M].北京: 电子工业出版社, 2002:22-238.
[3] MICHAEL K S, CHRIS W, DEBORAH L.OWL Web ontology language guide(W3C Recommendation)[J/OL].(2004-02-10).http://www.w3.org/TR/2004/REC-owl-guide-20040210/.
[4] CHIANG R HL, BARRON T M, STOREY VC. Reverse engineering of relational databases: extraction of an EER model from a relational database [C].Data & Knowledge Engineering, 1994, 12(2): 107-142.
[5] XU Zhuo Ming, CAO Xiao, DONG Yi Sheng, et al.Formal approach and automated tool for translating ER schemata into OWL ontologies[J/OL].Advances in Knowledge Discovery and Data Mining,2004(3056):464-
475.
[6] 王琦.计算机与信息技术[M].安徽:安徽省计算机学会.2009.