智能电网(输变电部分)领域知识体系构建和语义研究与应用
2017-12-09
如今,随着电力技术的发展日新月异,用户对电能质量的要求也逐渐提高,多个国家陆续提出了各自关于智能电网建设的方案。国家电网公司作为国有特大型央企,提出了建设坚强智能电网,以实现电网中电力流、业务流、信息流的高度融合。智能电网的发展必将使电力系统各环节的联系更加紧密、数据与信息交互更加频繁,也正因为如此,各级电网工作人员对知识的需求也更加迫切。
1、当前智能电网领域知识服务存在的问题
1 )知识资源组织管理体系结构落后。现有的智能电网知识资源组织管理体系结构比较单一,缺乏知识点间的关联性,层级简单,体系结构仍以图书形式为主,分类单一,知识点仅遵循“用、代、属、分、参”关系,显示方法比较扁平化,已经不能满足高性能、大容量知识服务的建构、处理与运行的要求。如何描述、存储、管理、处理、分析和使用海量分布的知识资源进行知识服务,是智能电网领域知识服务应用的重要问题 。
2 )知识服务开发成本高、更新维护困难。智能电网领域的专家系统和知识服务应用虽然可以较好地满足用户对知识服务的需求,但受到知识本身时效性强、更新速度快等特点的影响,导致此类知识服务的开发成本高,重用难度大,使得其实现和推广的难度相对较大。
3 )知识服务同用户需求本身存在一定的差距。当前智能电网的知识服务检索结果往往没有考虑检索者本身的实际情况,以及用户难以用计算机能理解的方式描述出其希望了解的内容。
造成这些问题的原因,一方面在于激增的数据超过了现有用户和系统所能承受、处理和利用的范围,导致数据无法被及时、合理地组织,决策者未能从中得到应有的启示;另一方面,知识的表现形式使其不能被有效利用,这是因为目前的知识表示方法不利于电网知识的发现,进而导致不能形式化地表示电网领域知识。
因此,本文研究基于语义网技术,并以输变电图书为样例,对智能电网(输变电部分)领域知识开展研究,完成智能电网(输变电部分)知识体系构建,以期更好地为国家电网公司提供知识服务。另外,通过本文研究成果对国家电网公司企业级知识管理系统进行优化,有利于实现知识整理和标引、知识协同构建、资源自动检索和标注、知识服务模型以及知识资源个性化推送等目标 。以智能电网(输变电部分)领域知识为研究范围,以10 kV 配网不停电作业知识为突破口,着力做好该领域知识收集、概念抽取、语义研究和本体设计,研究知识体系构建以及知识库搭建工作。
本文内容包含系统梳理智能电网(输变电部分)领域的主题词条,阐明词条之间的相互联系和相互作用;基于本体语言的知识表示方法和原则,开发专用的本体工具,构建智能电网(输变电部分)知识体系;并以语义检索应用为目的完成智能电网(输变电部分)专业知识库的建立,为整个智能电网领域知识体系的构建提供理论依据及技术支持,同时可对智能电网领域知识挖掘、发现与利用进行有益的探索 。
基于本体设计、语义标引技术,在电力领域专家的指导和配合下,对智能电网(输变电部分)领域知识开展研究,研究该领域知识收集、概念抽取、本体设计、语义标引、概念体系构建的关键技术路径,并完成了最终的知识库搭建工作。所完成的专业知识库系统提供了网站作为检索接口,集成了本体工具、数据加工模型的图书文献检索等技术 , 实现了智能电网(输变电部分)知识的语义检索应用。系统除了处理常规的文本检索之外,还提供了本体的交互式图形可视系统、自然语言及问句式查询系统、语义增强搜索系统以及相关词条推荐系统,可以智能化地协助用户提高检索效率 。
2、领域知识收集
领域知识收集工作包括对793 本与输变电专业相关图书、《电力名词(第二版送审稿)》中指定书目以及《电力主题词表》的计算机自动处理,并结合专家所提供的分类体系开展工作。
2.1自动分词
对这些图书进行自动分词,即将一本书、一段话看作一个汉字序列,通过计算机将其切分成一个个单独的词,以便进行下一步的理解和分析。
在 本 文 研 究 中,对 开 源 工 具Ikanalyzer 、Rwordseg进行了调研和试验。Ikanalyzer提供了可供Java使用的jar包,以及面向全文检索工具Lucene的接口,使用方便,主要用它来建立索引、本体以及对搜索语句进行分词,准确率可达95% ,其分词示例分词前的整个段落:“在电力系统中,除应采取各项积极措施消除或减少发生故障的可能性外,故障一旦发生,必须迅速而有选择地切除故障元件,这是保证电力系统安全运行的最有效方法之一,而继电保护装置就是能反映电力系统中电气元件发生故障或不正常运行的状态,并动作于断路器跳闸或发出信号的一种自动装置。”
计算机分词和自动去除无实意的词后的效果如下:“电力系统中因各项措施消除减少发生故障可能性外,故障发生而有选择切除故障元件这是保证电力系统安全运行最有效方法之一,而继电保护装置电力系统中电气元件发生故障不正常运行状态动作断路器跳闸发出信号一种自动装置”,可以达到建立索引的要求。
Rwordseg是一个R环境下的中文分词工具,使用rJava调用Java分词工具Ansj。Ansj基于Apache License ,是一个完全开源、免费的Java中文荐分词工具。它的实现原理基于Google语义模型和条件随机场模型。分词速度可达每秒约200万字(在Mac Air下测试),准确率能达到96%以上。通过研究,重写了一个Java 版本,并且全部开源,使得 Ansj可用于人名识别、地名识别、组织机构名识别、多级词性标注、关键词提取、指纹提取等领域,支持行业词典、用户自定义词典。
2.2词向量训练
词向量训练是利用深度学习的思想把单词表示
成向量的一种方式,语义越相近的词,形成的向量相似度越高。本文采用Google word2vec工具(基于Apache License 2 .0 的开源工具,提供continuou sbag-of-words和skip-gram architectures等算法对词向量进行训练)进行词向量训练,得到词向量之后,可以进一步得出这些词向量的聚类。
2.3词语筛选
根据停用词表,去除“的”、“比如”、“别的”等无实意、频繁出现的但对专业语义分析无实际帮助的词,编写程序去除无关的标点符号、乱码字符及其他短字符。在此基础上,研究人员通过人工对得到的词语进行筛选,得出重要的名词和动词以及相关概念的英文名和中文描述信息,作为本体分析的对象 。其中,名词集用来构建领域本体的相关概念,动词集用来描述领域本体概念之间的关系。
3、概念抽取
本文研究根据专家提供的输变电专业概念分类,对领域知识中的相关名词集进行总结归纳,以半自动的方式从相关的图书和词典中提取出相关概念,并将其结构化,形成分类体系 。
专家提供的输变电专业概念分类主要包含资产、作业、文档的大体框架分类结构,但不涉及每个具体词条的归属。其中资产可以在EnterpriseArchitecture软件中查看。其他分类体系通过专家口述,研究人员进行记录,专家进行核对的形式提供。
在领域知识收集之后,使用Apache Jena(Apche的开源项目,提供了Java接口,可使用Java编程对本体进行创建、修改、读入、保存、查询、推理等操作)将概念体系导入本体,将词条进行粗分类;在此基础上,多次征求高校电气学院领域专家的意见,使用Stanford Protégé工具(本体开发工具,具有导入、可视化编辑和保存本体的功能)进行交互展示,供专家审核、修改,并进行细分类 。Protégé(本体开发工具)中对本体进行展示及审核修改的工作界面如图1所示。
4、本体设计
在此阶段中,根据相关图书及专家所提供的顶层概念模型,使用Apache提供的开源工具Jena创建本体,并使用Protégé 和Word文档相结合的方式进行人工核对。
存储了中英文名的类如图2所示,其中每个类均存储了中英文名、所属词典以及简介。
具体建立过程如下:
1 )根据字符串匹配的方式得出父类与子类的关系;
2 )根据词典中的描述信息建立等价类关系;
3 )根据词典中的描述信息得出包含关系,如:根据U型挂环的描述信息得出结论“U型挂环有连接件”;
4 )根据词典中的描述信息定义反关系,如:“有连接件关系的反关系是组成U型挂环”;
5 )根据名称定义包含关系及其反关系;
6 )根据词典中的描述信息建立相关关系,如:钢管塔的描述信息及其所建立的关系,图3显示了从钢管塔的描述信息中建立其与金具、导线和绝缘子的关系;
7 )根据词典中的描述信息建立数值型属性,如:塔高的数值属性;
8 )建立实例,如:以中原变电站为例,变电站类有地址属性,属性用string表示,中原变电站作为其中一个具体的变电站,地址在郑州,将郑州作为中原变电站的地址属性的值。
根据Protégé软件的自动统计信息,本次研究所建成的本体的规模共有8094个类、21657个Object型属性、7511个父类–子类关系以及757个等价类。
5、语义标引
在此阶段,利用已有的本体对该领域中的文档资源进行标引,从而实现语义推理的目的,最终实现语义信息检索 。
在语义标引过程中,对属于本体中的实例,如:“巡视”、“维护”、“sub station”等加上html的标签,在前端通过处理与其他未标注文本进行区别显示,点击时可自动查询相应本体。
使用Jena 和Java 对本体进行标注。首先,将本体中类的中文名和英文名用Jena 导出,并根据词条长度进行由长到短的排序,排序后,“电子互感器”排在“互感器”之前。使用Java 遍历排序后的数组,为文本中匹配处依次加上 标签,避免了重复地将“电子互感器”标注为“电子互感器”和“互感器”。
专业词汇如“变电站”、“互感器”等的标注基本无误。本体中的其他相关词汇中含有一些多义词,人工筛选了“条件”、“单元”、“连结”等多义词进行剔除。
6、概念体系设计
在专家的帮助下,将智能电网的中英文名、描述信息、层次结构及其关系等知识进行整合,得到智能电网(输变电部分)领域中的一个概念体系。
概念体系包含了智能电网领域(输变电部分)中前面提到的所有信息(即概念分类体系以及词条的中英文名、释义、等价类、属性等)。以光缆为例,光缆示例如图4 所示。
图4中303.3.8 是“光缆”在本文概念体系中的编号,“optical fiber cable ”是英文名,“18.307 ”是“光缆”在《电力名词(第二版送审稿)》中的编号,“以光纤为传输元件……”这句话是“光缆”的描述信息,“相关材料”,表示“光缆”与“材料”这个概念相关。
7、知识库检索系统
本文研究基于领域知识的语义标引技术,通过对本体工具、数据加工模型的图书文献检索等技术的研究,完成了以语义检索应用为目的的智能电网(输变电部分)专业知识库系统研究。系统除处理常规的文本检索之外,还提供了本体的交互式图形可视系统、自然语言及问句式查询系统、语义增强搜索系统以及相关词条推荐系统,智能化地协助用户提高检索效率 ,主要支持的查询功能如下。
7.1拼音提示
用Jena 将本体中的中文信息全部导出成为词典,对词条的拼音进行关键词查询和操作。以“变压器”为例:
1 )在输入框输入或粘贴拼音,则输出为全拼按从左到右的顺序与输入的拼音相同的一组提示词,如输入“biany”时,提示包括“变压器”在内的10个词;
2 )在输入框输入或粘贴拼音首字母,则输出为拼音首字母按从左到右的顺序与输入相同的一组提示词,如输入“byq”时,提示包括“变压器”在内的10 个词;
3 )在输入框输入或粘贴汉字,则输出根据该汉字的全拼给出同音词的输入提示,如输入“边压气”时,提示包括“变压器”在内的10个词。
7.2普通搜索
普通搜索界面如图5 所示。
以“变电站”为例,在输入框中输入搜索词条,如变电站,则输出如下:
1 )在“您是不是想搜”条目下显示的9个词条,采用Lucene的Standard Analyzer对词典进行处理,根据中文字形匹配程度得到结果;
2 )书籍的总搜索结果数和用时,通过数学统计计算得到;
3 )前 10 本书的标题、与搜索词条匹配的摘要(摘要中搜索词用红色标出)、相关度,使用Lucene对文本进行全文检索计算得到;
4 )页码选项,单击页码之后跳转到该页码,使用Lucene进行分页查询;
5 )如果是本体中的词条,则出现本体交互图,单击可跳转到交互界面,交互界面的查询部分采用Jena预先加载本体,以加快与用户交互的速度;
6 )如果有同级本体,则出现同级本体,单击可跳转到该词条的搜索界面,同级本体通过Jena查询得到;
7 )如果有相关本体,则出现相关本体,单击可跳转到该词条的搜索界面,事先由Jena查询得出本体中各个类和实例的描述信息及其属性,存为文本,对这些文本用Lucene 建立索引,之后采用Lucene根据查询语句进行查询,当与查询语句匹配度达到阈值之后,则返回相关本体;
8 )出现更多词条等相关内容,单击可跳转到该词条的搜索界面,更多词条的信息来 自于使用Google word2vec对793 本图书进行词向量训练得到的词向量和词语的聚类,首先找出查询词语中与聚类中词语最相近的一个,之后返回这个聚类中的其他词语。
7.3根据英文搜索中文结果
通过英文查询中文的功能是通过Lucene对英文和中文建立一一对应的索引,这样根据索引中英文的匹配程度,可以找到相应的中文。以“keysub station ”为例,根据英文搜索中文结果的界面如图6 所示。
7.4语义增强搜索
语义增强搜索采用Jena 查询出所查词语的子类,再根据这些子类的名称在793 本图书中搜索,并将这些结果根据相关度由高到低排序,得出所需结果与子类匹配出的摘要 。如搜“建筑物”时,得到的是与其子类“防火墙”、“换流站”等匹配的文本,其他部分内容与普通查询时相同。
7.5自然语言查询
在输入框中以自然语言的形式输入,如果有对应的词条,则输出相应的词条和解释。以“变电站”为例,输入“变换电压等级汇集配送电能的设施是什么”时可以输出结果“变电站”;输入“在河流上下游的水电站”,则输出“梯级水电站”;输入“埋在地下的管子”,输出“电缆排管”。自然语言查询结果界面如图7 所示。
7.6本体图形交互
本体的图形交互功能均通过Jena 预先加载本体,在查询时对本体的各项信息进行查询。
1 )单击本体交互界面,界面放大,如果词条有英文或释义,则显示当前词条的详细信息。在图形中,父类与子类以不同的形式展示,变电站本体交互界面如图8 所示,其中“建筑物”为父类,其他为子类。
2 )单击某个词条并进行拖动,显示鼠标实时拖动效果。
3 )双击当前词条(如当前的“变电站”),则显示/隐藏该词条的属性。其中包括Object型的“线阻滤波器”和Data 型的“进线电压 :string ”(string表示Data的类型)。显示/ 隐藏变电站属性界面如图9所示。
4 )双击除当前词条外的其他词条,则以双击的词条进行查询,并显示新的结果。双击建筑物显示的界面如图10 所示。
7.7书籍显示
1 )在搜索结果页面,单击某本想看的书,则跳转到书籍显示界面,默认显示pdf 文件,可通过右侧滑动条翻页,并显示其相关文档。书籍显示界面如图11 所示。
2 )点击txt 标签,则跳转到txt 显示界面,显示该书籍对应的文本,可阅读书籍文本,与本体相关的标注(包括中英文)用蓝色和下划线表示,单击这些标注,如“变电站”、“sub station ”均可查看对应的“变电站”本体。中英文标注示例如图12 、图13 所示。
8、结语
通过本文智能电网领域(输变电部分)专业知识概念体系的建立,完成了对一个典型的专业知识概念体系完整的建立过程的调研,以及初步的专业知识库原型系统搭建。传统以单本或单册图书为载体,一般按单一分类介绍的电力知识,很难形成体系,且概念之间的关系无法展示,相比之下智能电网领域(输变电部分)专业知识概念体系解决了知识点分类单一且孤立的难题,方便使用者在相关领域轻松获取所需知识概念及相关知识。在未来工作中,以下方面还有待进一步深入提高:
1 )在研究上,还需研究如何更好地进行本体的可视化,如何利用聚类、分类算法消除语义标注的歧义,如何自动对未知的属性进行属性发现,如何进语义推理得到更多属性以及加快语义搜索速度;
2 )在工程上,可以在txt阅读模式下提供图片支持、完善作者信息、增加作者搜索、出版年份搜索、按标题搜索等功能,进一步实现根据词频、查询频繁度等更多信息进行拼音推荐等。