《电子技术应用》
您所在的位置:首页 > 通信与网络 > 业界动态 > 基于信息网格的数字图书馆研究

基于信息网格的数字图书馆研究

2008-07-15
作者:沈士根,陈如清

  摘 要: 讨论了信息网格" title="信息网格">信息网格和数字图书馆之间的关系、应用以及构建基于信息网格的数字图书馆的关键技术,并给出了基于织女星" title="织女星">织女星信息网格的数字图书馆体系结构。
  关键词: 信息网格 数字图书馆 因特网


  网格自二十世纪90年代中期被提出以来,得到了迅速的发展。网格是借鉴电力网的概念提出来的,其最终目的是希望用户在使用网格计算" title="网格计算">网格计算能力时,能像现在使用电力一样方便。人们在使用电力时,不需要知道它是从哪个发电站输送出来的,也不需要知道该电力是通过什么样的发电机产生的,不管是水利发电,还是核动力发电,使用的是统一的“电能”。网格也希望给最终使用者提供的是与地理位置无关、与具体的计算设施无关的通用问题求解能力。网格技术正逐渐成为分布式超级计算、高吞吐率计算和数据密集型计算的新平台。网格充分吸纳各种计算资源,包括网络通信能力、数据资料、仪器设备甚至是人等各种相关资源来建立复杂的虚拟组织,从而提供给用户随处可得的、可靠的、标准和经济的高端计算能力。根据求解问题的特点,网格可分为数据网格、信息网格和知识网格等。本文主要讨论信息网格与数字图书馆的关系、信息网格在数字图书馆建设中的应用、构建基于信息网格的数字图书馆的关键技术和基于织女星信息网格的数字图书馆体系结构。
1 信息网格与数字图书馆
  在互联网技术普及的今天,因特网上Web信息服务器的数目众多,但它们却如同分布在因特网世界上的一个个孤立的小岛。大量的信息被“锁”在各个小岛的中央数据库中,只能通过搜索程序或固定渠道搜索信息。若要使用户不必关心信息的实际存储位置,随心所欲地享用信息资源,其较理想的方法就是建立跨越Web的信息分布和集成应用程序逻辑,也就是信息网格。
  信息网格是利用网格技术实现信息的共享、管理和提供信息服务的系统,主要解决广域、异构信息的共享、互联和互操作问题,以满足企业、政府部门等组织信息共享的需求。信息网格通过使用现有的网络基础设施、协议规范、Web和数据库技术,为用户提供一体化的智能信息平台,其目标是创建一种架构在OS和Web之上的基于因特网的新一代信息平台和软件基础设施。在这个平台上,信息的处理是分布式、协作和智能化的,用户可以通过单一入口访问所有信息。信息网格追求的最终目标是能够做到服务点播(Service On Demand)和一步到位的服务(One Click is Enough)。
  数字图书馆的特点:(1)综合运用多种高新技术支持的数字信息资源系统,将分散于不同载体、不同地域的数字化信息资源以网络化方式互相联结起来,实现资源共享。(2)计算机可处理的、有序组织的信息集合,是存储数字信息的仓储。(3)通过数字技术进行信息资源的组织和管理,能够存储海量信息,用户可以通过互联网高效方便地进行查询、检索服务。(4)具有信息资源数字化、信息组织非线性化、结构复杂化、信息传递网络化、服务方式多样化等特点。网格是高性能计算机、数据源、因特网三种技术的有机组合,它具有高性能、一体化、知识生产、资源共享、异地协同工作、支持开放标准、功能动态变化等优点,为数字图书馆建设提供了有利的条件。
2 信息网格在数字图书馆中的应用
  (1)海量数据处理。数字图书馆需要处理的数据通常很大,而信息网格能存储和管理PB量级的海量数据,并对数据进行高效的分析和处理,还能提供可视化和多媒体的数据服务。在具体操作时,只要网格用户通过客户端发出进行数据计算的指令,信息网格便会把这些任务分配给信息网格中的各高性能计算机执行,然后将各高性能计算机执行的结果反馈给用户。实际上,信息网格建立于数据网格的层次上,海量数据处理都是通过数据网格提供的一组服务来支持资源和信息发现,如数据服务、注册与发布服务、信息发现服务、存储资源代理服务、身份认证与访问控制服务、调度服务和方法执行服务等。
  (2)高性能计算与信息处理。数字图书馆需要实时及时地对各种信息进行处理,为用户服务。而信息网格能大规模、高精度、高质量地处理问题,提供高速度、高效率、实时与及时的计算及信息处理能力。①基于信息网格的互联网比现有的因特网具有更大的带宽。②信息网格上的高性能并行处理计算机可使信息网格的计算速度和数据处理速度大幅度提高。③信息网格的体系结构将比现在的因特网更能有效地利用资源,如信息网格采用的广域缓存技术能自动地把用户最需要的信息存放到最近的服务器上。
  (3)资源共享。互联网实现了计算机硬件的连通,Web实现了网页的连通,而信息网格将实现互联网上所有资源的全面连通,包括计算资源、存储资源、通信资源、软件资源和信息资源等,从而消除信息孤岛,实现资源的全面共享。信息网格能实现对异构数据资源的访问,为用户提供统一的访问接口,通过选择适当的访问协议实现用户提出的数据访问" title="数据访问">数据访问请求。因此,基于信息网格的数字图书馆能实现资源的真正共享。
  (4)集成现有系统。自二十世纪90年代以来,有关数字图书馆的理论和建设已逐渐成为我国图书馆界研究和实践的最为热门的话题。由国家863计划智能计算机主题专家组牵头,联合国家图书馆、中国社科院图书馆、中央党校图书馆、首都图书馆等十几个应用单位,并聘请国内外诸多专家学者共同参与的中国数字图书馆工程(CDL工程),经过90年代末的酝酿启动,现已颇具规模。但由于各地在建设数字图书馆的过程中可能采用不同的管理系统,而基于信息网格的数字图书馆可集成现有的不同的管理系统,从而解决各管理系统间不兼容的问题。
  (5)一体化。信息网格的重要特征之一就是一体化。因特网只是通过网页的形式把全球的计算机联为一体,各个机构和公司可以在网上建立自己的网站,并为用户提供相应的信息。但用户却必须通过一定的网址或搜索引擎查找所需的信息,而且找到的信息通常是重复繁杂的。信息网格则进一步把分布在全国甚至全世界的计算机、数据、信息等联为一体,在逻辑上就像一台机器。用户可以像使用自己的计算机一样方便地使用网上的各种资源。并且,用户可以通过网格操作系统透明地使用整个网络资源。信息网格为用户提供一体化的智能信息平台。在这个平台上,信息处理是分布式、协作和智能化的,用户可以通过单一入口访问所有信息,而不是像因特网那样,用户需要在成千上万的网站中寻找合适的信息。所以,信息网格是能为数字图书馆提供各种一体化信息服务的信息基础设施。
  (6)知识生产和管理。数字图书馆的发展以智能化和知识化作为主要的发展动力和方向,即如何发现并找到与指定任务或需求相适应的所有信息,并以可解决问题的知识形式提交用户进行问题决策。信息网格为实现这一目标提供了框架上的可能性。信息网格的知识生产特性是信息网格与因特网二者之间质的区别。因特网只是简单的资源互联和单一使用,用户仅能获取和使用有限的信息和资源,而并不能通过因特网进行知识的再加工。而信息网格则可以通过组合来协同解决用户的各种复杂问题,从而产生出具有附加值的新服务、新数据和新信息等资源,以满足用户的新需求,即可以进行知识的再生产。所以,信息网格有利于数字图书馆进行知识管理。
3 构建基于信息网格的数字图书馆关键技术
  (1)网格安全基础设施GSI(Grid Security Infrastructure)。在构建基于信息网格的数字图书馆时,GSI是首先要考虑的问题,没有相应的网格安全基础设施,就不可能建立信息网格数字图书馆。在基于信息网格的数字图书馆环境中,各种资源都动态地连接在因特网上,不同节点之间的通信都由因特网连接,并且用户向网格计算环境提交任务和监控管理任务也是通过因特网来完成。同时,计算环境中的所有主体都可以动态地加入或撤离网格中的虚拟组织,从而使基于信息网格的数字图书馆对安全的要求除因特网的安全要求(访问控制和通信安全)外更进了一步。为了保证基于信息网格的数字图书馆安全,GSI应实现:①支持各主体之间的安全通信,防止主体假冒和数据泄密。②支持跨虚拟组织的安全,这样就不能采用集中管理的安全系统。③支持用户的单一登录,包括跨多个资源及地点的信任委托和信任转移等。为此,GSI提供了一系列的安全协议、安全服务、安全软件开发工具包(SDK)和命令行程序,如安全应用编程接口、相互安全身份鉴别技术、单一登录技术等。通过使用这些安全技术和服务,可有效地保证基于信息网格的数字图书馆的安全性。
  (2)元数据" title="元数据">元数据访问服务。信息网格中最基本的操作是数据访问,而用户通常不是直接访问数据,而是通过提供数据的需求描述信息(即元数据)进行间接的数据访问,这些描述性信息包括创建时间、文件类型、数据大小等。所有元数据构成一个元数据目录,目录中每一项或记录都对应着信息网格中的一个文件以及该文件的各种关键描述信息。元数据是实现不同数字图书馆系统中资源互操作的一种简单而有效的方法。因此实现元数据访问服务是基于信息网格的数字图书馆必须解决的问题。元数据访问服务通过元数据访问服务器进行实施和管理,其原理是根据用户提供的需求描述信息找到相应的数据并提供给用户。首先,该服务把用户对数据的描述性信息汇集并生成一条元数据;然后在元数据目录中查询与之相符的记录;最后把该记录对应的文件返回用户。通过元数据访问服务,用户能够根据自身需求定制数据信息,从而可以灵活快捷地进行数据访问。目前,主要用轻量目录存取协议(LDAP)实现元数据服务。
  (3)数据复制管理服务。数据复制管理服务可以实时地维护和更新逻辑文件与物理文件的映射,从而确定物理文件的位置。在基于信息网格的数字图书馆中数据复制管理服务是基本的、不可缺少的服务。通过使用数据复制管理服务,可以获得更好的数据访问效率及容错性能。因为在大规模分布式协作的信息网格数字图书馆中,一方面数据的用户群广域分布,另一方面数据也分布在不同位置上。为了减少计算时通过网络访问数据的时间,可以先从别的存储位置中复制一部分数据在本地机器上,或在多个位置存放某一数据。当某个计算节点需要这些数据时,可以从访问时间最短的存储节点上获取所需信息。这样就产生了一份数据在整个系统中的多个拷贝。根据不同的粒度进行数据复制,包括文件复制和数据对象复制。文件复制是指在现有文件粒度上的数据复制。数据对象复制是指在数据对象粒度上对数据进行复制。通常数据对象复制时,先要在源节点上将所需复制的数据对象拷贝到一个新的文件中,再将该文件传送到目的节点。在具体操作时,通常由复制文件管理器来建立、删除、修改及查询一个复制文件,并维护复制文件目录,以提供文件或文件组的逻辑名到其物理存储位置的映射关系。
  (4)网格文件传输协议GridFTP。在基于信息网格的数字图书馆中存在多种存储系统,这些存储系统因采用了不同的协议和软件而不兼容。因此在访问不同的存储系统时,必须采用多种访问方法。但这样会降低在不同存储系统上数据传输的效率,并增加用户使用的复杂性。为支持安全、高速的数据传输,需要一种通用网格文件传输协议GridFTP。GridFTP基于规范的FTP协议,并对其进行了全面的扩展。GridFTP协议相对于FTP协议有许多新的特点:①支持GSI和Kerberos安全机制,支持灵活可靠的安全鉴别和完整性检查,而且用户可以控制GridFTP在不同层次上的数据完整性。②支持第三方控制的数据传输。为了管理分布式通信中的大数据集,必须提供经过鉴别的第三方控制的数据传输。③支持并行数据传输、条状数据传输和部分文件传输。通过使用多个并行的TCP流提高数据传输的总带宽,使用条状数据传输提高数据的传输速度。对只需要访问某个远程文件一部分的某些应用,可从文件的任意位置开始传输数据,即部分文件传输。④自动调整TCP缓冲及窗口大小,使用优化的TCP缓冲/窗口大小设置可有效提高数据传输性能。⑤支持可靠传输和数据重传。对于许多应用程序而言,必须保证数据传输的可靠性,并需要支持容错的数据传输。
  (5)存储资源代理。基于信息网格的数字图书馆的数据位于广域范围内分布的异构存储设备上。为了提高数据访问的效率,在网格范围内应建立多个数据副本,从而实现数据的就近访问。存储资源代理是网格中的数据管理核心。在实现时,存储资源代理利用元数据目录为用户提供面向集合的数据视图,用户利用存储资源代理提供的应用程序接口(API)提出数据访问请求。存储资源代理利用元数据目录中的信息进行协议转接,并将转接后的数据访问请求发向不同的存储系统,从而实现对异构存储资源的统一访问。在系统功能方面,存储资源代理可以划分为:数据副本管理器、数据移动器、数据访问器、数据定位器和缓冲区等几个部分。数据副本管理器主要负责管理数据副本和维护数据副本的一致性,它通过数据定位器确定数据或其副本的物理位置,通过数据移动器实现对数据及其副本的访问和一致性维护。数据移动器主要负责数据在不同存储资源之间的移动,通过数据定位器确定物理位置,通过数据访问器实现对数据的访问。数据访问器主要负责与具体的存储设备和其他的存储资源代理联系,实现数据访问。数据定位器利用元数据目录获取含有数据的各种信息,从而实现数据定位。缓冲区的主要目标是提高数据访问的效率。为了实现存储资源代理对各种存储资源的数据访问,需要为不同的存储资源设计转换器,实现数据访问接口的转换。
4 基于信息网格的数字图书馆体系结构
  本文探讨的体系结构基于织女星信息网格。织女星信息网格(Vega Information Grid)是中国科学院计算所织女星网格研究的一个组成部分。其目的是在数据库技术、因特网技术、网格技术、万维网服务等技术的基础上研究信息网格的机制和体系结构,进而指导信息网格系统及应用的开发。织女星信息网格并不强调网格的地理规模,而是强调信息资源的有效共享与管理。该体系结构采用B/S模式,主要包括网格用户、网格应用服务器、网格操作系统和网格硬件等。其相互关系如图1所示。


  (1)网格用户
  网格用户使用网格浏览器通过网格服务请求协议GSRP(Grid Service Request Protocol)向网格应用服务器提出服务请求。其中,网格浏览器采用类似于XML的网格服务标记语言GSML(Grid Service Markup Language),提供图形化的网格服务。
  (2)网格应用服务器
  网格应用服务器是基于织女星网格编程接口开发的、面向网格最终用户提供特定服务的程序。它通过编程接口实现对单个计算资源的访问或协同使用多个计算资源,在收到网格浏览器使用GSML描述的服务请求并经过翻译后,调用网格编程接口完成计算任务,最后将结果通过GSRP协议返回网格浏览器。
  (3)网格操作系统
  网格操作系统是网格硬件资源的管理者。它主要实现全网格计算资源的统一管理,隐藏计算资源的异构性、动态性和分布性,提供可靠的资源使用方式,完成资源命名、资源绑定和资源协同等资源管理功能。网格操作系统使用网格目录文件系统对以物理形式保存在存储设备上的数据实现逻辑组织,通过数据复制和文件层次结构命名的方法完成数据管理。它使用网格计算协议GCP(Grid Computing Protocol)处理资源提供者和使用者之间的各种协议报文。GCP协议分为二层:资源路由协议和网格计算协议。资源路由协议是广域的资源查找协议,而网格计算协议则是网格计算的通用描述。它还提供应用程序编程接口,其相应函数定义如下:
  Vega( ):创建一个网格计算,返回网格描述符。
  Bind( ):查找计算资源,建立映射。
  Read( ):取回计算结果。
  Write( ):提交计算结果。
  Close( ):结束整个网格计算。
  (4)网格硬件
  网格硬件包含广域分布的各种计算资源,具体为:存放与数字图书馆密切相关的资源库、存储资源代理库、元数据目录库、全文索引库等资源的高性能计算机以及其他非计算机设备。
  本文的研究在信息网格的实际应用方面作了有益的探索。
参考文献
1 都志辉.网格计算.北京:清华大学出版社,2002
2 张 纲.基于角色的信息网格访问控制的研究.计算机研究与发展,2002;(8)
3 黄晓斌.网格技术的发展与数字图书馆建设.情报资料工作,2003;(5)
4 韩 毅.基于知识网格的区域数字图书馆建设框架.大学图书馆学报,2003;(6)
5 Chervenak A,Foster I,Kesselmal C et al.The Data Grid:To-wards an Architecture for the Distributed Management and Analysis of Large Scientific Dadasets.Journal of Network and Computer Applications,2002;(23)
6 王意洁.数据网格及其关键技术研究.计算机研究与发展,2002;(8)
7 徐志伟.织女星信息网格的体系结构研究.计算机研究与发展,2002;(8)

本站内容除特别声明的原创文章之外,转载内容只为传递更多信息,并不代表本网站赞同其观点。转载的所有的文章、图片、音/视频文件等资料的版权归版权所有权人所有。本站采用的非本站原创文章及图片等内容无法一一联系确认版权者。如涉及作品内容、版权和其它问题,请及时通过电子邮件或电话通知我们,以便迅速采取适当措施,避免给双方造成不必要的经济损失。联系电话:010-82306118;邮箱:aet@chinaaet.com。