语义网的发展及其可用工具
网界网
范范编译
摘要: 根据Tim Berners-Lee提出的概念,语义网的核心是联合搜索(Federated Search)。其可搜索引擎、代理或应用询问网络上成千上万个信息源,发现并在语义上分析相关内容,准确检索用户寻找的产品、答案或信息。
Abstract:
Key words :
美国阿尔法股权管理公司(Alpha Eqiuty Mangement)高级国际资产分析师Vince Fioramonti在2001年突然意识到,由于有价值的投资信息在网络上将会越来越多,今后越来越多的厂商将根据信息的重要性和关联性提供可搜集和解译这些信息的软件。
语义网络将成为企业发展的利器
Fioramonti称:“我曾经拥有一支专门为公司搜集和分析金融信息的分析团队。不过,他们的处理速度极为缓慢,得出的结论往往也过于主观,甚至有时会前后矛盾。”
第二年,Fioramonti改用Autonomy集团的语义平台——智能数据操作层(IDOL)来自动处理各种形式的数字化信息。他们在部署中遇到了一个障碍:IDOL仅提供了常用的语义算法。Fioramonti称,阿尔法股权管理公司为此不得不组建了一个由程序员和金融分析师组成的团队,专门研发适用于金融学的算法和元数据。由于耗资过于巨大,公司最后放弃了这一项目。
阿尔法股权管理公司在2008年迎来了新的契机,当时他们参加了汤森路透的机器可读新闻(Machine Readable News)服务。该服务可从3000多名路透社记者,以及网络报纸和博客等第三方资源那里收集、分析网络新闻。然后,根据影响力(如果公众对公司或产品的印象)、关联性和新颖性,对这些材料进行分析和评分。
这些结果会源源不断的提供给客户,包括公共关系和营销人员、使用自动化“黑匣子交易(black box trading)”系统的股票交易商、为长期投资决策收集整理数据的基金经理。
Fioramonti称该服务每月收费并不便宜。据估计,实时数据更新的成本每月在15000至50000英镑之间。不过,对于阿尔法股权管理公司来说,该服务确实物有所值。他称,这些信息不仅帮助提升了公司的资产收益,还帮助公司击败了许多竞争对手。
阿尔法股权管理公司的经历并不是唯一的案例。无论公司决定建造一个类似的内部系统,还是决定雇用服务提供商,通常都要花费巨资才能利用语义网技术。如果所搜索和分析的信息包括有针对特定商业领域的行话、概念和缩略语信息,那么同样可以实现。
以下我们将为大家介绍一下那些能够帮助进行商业部署和利用语义网基础的工具,以及要想发挥这一技术的潜能还需要哪些东西。
关键标准
根据Tim Berners-Lee提出的概念,语义网的核心是联合搜索(Federated Search)。其可搜索引擎、代理或应用询问网络上成千上万个信息源,发现并在语义上分析相关内容,准确检索用户寻找的产品、答案或信息。
尽管联合搜索正逐渐流行起来,特别是出现在了Windows 7上,但是要在整个网络上广泛普及还有很长的路要走。
为了有效的推动联合搜索,万维网联盟(W3C)制定了几个关键标准,定义了基本的语义基础设施。它们包括:
•简单协议与RDF 查询语言(SPARQL),其定义了用于查询和访问数据的标准语言。
•资源描述框架(RDF)和RDF模式(RDFS),其规范了在语义本体(又称为词汇表)中如何陈述和组织信息。
•网络本体语言(OWL),其对本体论和部分RDFS原理进行了详细陈述。
目前这些标准的最终定稿已经得到了Cambridge Semantics、Expert System、Revelytix、Endeca、Lexalytics、Autonomy 和Topquadrant等主要语义网平台厂商的支持。
谷歌、雅虎和微软必应等主要网络搜索引擎已经开始使用语义元数据区分搜索结果,并开始支持RDF等W3C标准。
如今甲骨文、企业软件厂商和IBM也加入到语义网的研发中,并分别推出了甲骨文Database 11g 语义技术、SAS 本体管理工具和IBM InfoSphere BigInsights工具。
W3C标准的推出目的是解决不同机构在组织、描述、呈现信息中的不一致性,为跨域语义查询和联合搜索铺平道路。
本体管理工具制造商Revelytix的首席执行官Michael Lang为我们描述了使用W3C标准的好处。他称,如果200家网上家用电子产品销售商使用诸如RDF的语义网标准描述他们产品库,Revelytix的软件则可以让这些信息通过SPARQL查询方式被访问。网络商家可以使用兼容W3C标准的浏览器工具在不同网站搜索产品,如通过输入“根据价格排列并显示所有42-52英寸平板电视”进行查询。
搜索引擎和一些第三方网络购物网站可提供产品对比,不过这些对比仅限于所搜索到的结果的属性。购物者经常发现由第三方所提供数据已经过时,甚至不正确,如无法准确提供有效的尺寸和颜色信息。基于标准的跨网站查询可为购物者提供由商家自己提供的更为丰富的对比信息和更新的介绍信息。
W3C SPARQL工作组联合组长Lee Feigenbaum 称,W3C SPARQL工作组目前正在研发SPARQL服务描述,旨在标准化SPARQL“终端”或信息源提供数据的方式,特别是详细规定了如何描述数据的类型和数量。
模块和软件工具
工具、平台、预置组件和服务均可有效缩短部署时间,降低技术复杂性,减少成本。
Jena为开发语义网应用的开源Java架构,其包括有RDF、RDFS和OWL的API,一个SPARQL查询引擎和一个推理引擎。Sesame为存储、推理和查询RDF数据的开源架构。
主流语义网平台都带有用于描述常用术语、概念、缩略语的“知识库”,让用户在使用时创建本体知识库。Lexalytics产品管理副总裁Seth Redmore称:“客户的需求往往相互矛盾:让平台能够反馈精确信息,对这些信息进行整编让其更适合自己的业务。”
为了解决这一矛盾,Lexalytics选择将他们的语义平台主要销售给服务提供商,由服务提供商再对特定商业领域和应用进行微调。汤森路透的机器可读新闻服务就是一个很好的例子。
部分平台厂商推出了专门针对商业的解决方案。比如,Endeca推出了用于电子商务和企业语义应用的应用开发工具包。
此外,还有一些可以自动将语义元数据和W3C标准整合到现有信息库中的工具。据Lang称,Revelytix的Spyder工具可自动将结构化和非结构化数据转换成RDF。作为能够被兼容SPARQL的浏览器访问的SPARQL终端,其可在网页上显示这些信息。
名为D2RQ的开源工具可以将所选择的数据库映射到RDF和OWL本体知识库中,让兼容SPARQL的应用访问这些数据,
Revelytix还推出了名为Knoodl.com的兼容W3C的知识库模块。该模块为基于维基的架构,主要是帮助技术专家和商业用户共同开发一个语义词汇表,描述和引导不同网站中的特殊信息。Lang称,相关社区可以通过Knoodl.com访问、共享和挑选有关的信息。
咨询公司Dachis集团欧洲业务部主管Lee Bryant称,他们开发了一个名为Social Business Design的架构,该架构的目的是帮助用户协作、分享想法,然后限制和明确某一商业机构或是社区中的数据含义。
上述这些产品都可以大幅减轻语义基础设施的研发任务。如,布依格建筑集团电子服务与知识管理总监Eric Juin称,他们通过Sinequa的语义平台Context Engine,在六个月的时间内就建立起了一个初具规模的语义系统。
Juin称,布依格建筑集团已经开发出了一个语义搜索应用,其可帮助员工迅速内部系统和外部互联网中的信息。他称,Context Engine可以从会议纪要、产品说明书、培训材料和项目文档等海量文件中查找到要找的相关的人员和概念。该平台包括了一个收录有常用词汇和术语的“通用语义学词典”,并且可在多种语言之间转换。如法国雇员能够在德语文件中进行语义搜索。
此外,特殊的商业缩略词和术语还可以手动添加,不过这需要语义专家和商业用户共同完成。Juin称,由于语义引擎能够使用其它相关词汇确定针对特殊主题的术语,因此他的团队只添加了很少一部分关键词的定义。
选择SaaS
对于那些缺乏内部资源建立自己的语义网基础设施的公司来说,他们可以像阿尔法股权管理公司那样选择由第三方提供语义服务。
服务提供商汤森路透除了提供机器可读新闻服务外,还提供名为OpenCalais的服务。该服务可为客户提交的内容创建语义元数据。据汤森路透副总裁Thomas Tague称,客户可为搜索、新闻聚合、博客、目录和应用部署经标记的内容。
OpenCalais包括一个免费的工具包,用户可创建自己的语义基础设施和元数据,与其他网络提供商建立链接。Tague称,该服务目前每天处理超过500万份文档。
DNA13、Lithium技术和Cymfony均为语义服务提供商,提供查询、收集和分析网络新闻、社交媒体,为用户在品牌、信誉管理、客户关系管理和市场营销等领域提供帮助。
语义网何时真正普及?
在皮尤研究中心2010年度报告中,该中心对895名语义技术专家和利益相关者 进行了调查,结果显示47%的受访者认为,到2020年,Berners-Lee的语义网设想不会实现,或与终端用户有着巨大分歧。另一方面, 41%的受访者认为这一设想能够实现。剩下的受访者表示无法回答这一问题。
W3C基础性标准目前最终定稿并获得了支持。目前平台和软件工具数量也在不断增加。专家表示,尽管如此,语义网技术和标准远没有获得能够充分展示其优势的足够支持。
重要的是,在通用语义技术和符合W3C标准与专用于网络信息资源的语义网技术之间有着明显的界限。
专家表示,语义技术正在普及,特别是在企业知识管理和商业智能领域。市场研究公司IDC分析师Susan Feldman称,“帮助用户查找他们想找的非结构性信息”的语义内容分析工具市场正在以每年20%的速度增长。她指出,目前大多数企业搜索平台正在包含语义技术。
与传统的商业智能工具相比,语义技术的一个最大优势是让主题专家(SME)能够创建他们自己的查询架构,无需经历苛刻而耗时的创建和重建数据仓库与数据集市任务。Project10X总经理Mills Davis举例称:“一个精通标准的专家能够在两周内,而不是在9个月里创建一个语义架构,然后轻松而快速的进行调整。”
与传统商业智能工具相比,语义技术另一个优势是具有执行更为复杂而模糊的查询,能够对非结构化数据进行分析,并且可先从小范围的精确查询开始,然后逐渐扩展。
在网络上,语义技术已经在日渐增长的商业市场中站稳了脚跟。在电子出版物市场,在线新闻服务商DBpedia、Geonames、RealTravel 和 MetaWeb都已经率先采用了该技术。在在线金融信息服务业务中,汤森路透和道琼斯也已经部署语义技术。其中汤森路透OpenCalais 的大客户中包括美国哥伦比亚广播传媒集团(CBS)旗下互动媒体集团和CNET 集团,老牌电子杂志Slate、赫芬顿邮报和网络新闻聚合公司Moreover 技术。另外,大约9000家在线书城目前正在使用OpenPublish。OpenPublish将OpenCalais 与开源内容管理系统Drupal整合在了一起。
近期,网络零售商开始部署语义网平台,帮助优化产品和品牌在搜索结果中的排名,为客户提供更多、更丰富的购物体验。
需克服的障碍
如今W3C 标准还缺乏更为广泛的支持,并且缺乏便于跨网络和商业领域进行语义查询的常用词汇表。数语义网图式主体还在开发之中。专业人士指出,由于这类框架通常包括特定的商业和功能术语,行话和缩略语,因此其他行业无法很好的理解它们。这也使得跨领域查询、语义应用和服务必须每个信息资源的本体知识库联系起来。
下面以为大家介绍一下全球知名的能源公司Eni的案例。据Eni的语义技术主管Daniele Montanari称,该公司的技术和主题专家花了12年开发和调整Expert System的Cogito语义商业智能平台。该平台可支持与石油、天然气和电力有关的交易、生产和物流处理。
Montanari 称,Cogito 允许Eni的终端用户前往网络上预选和预定的信息资源,查找关于特定主题的重要信息,然后生成一个可以下载、自动更新和进行语义查询的“语料库”。
Montanari 称,语义图式趋向于针对特定的商业领域。比如,公司的精炼部门开发了可在大量文档中快速定位信息的语义框架和分类。在这些文档中,许多由Eni的研发团队所编写,另一些则来自团队定购的网络资源。
对于石油工业最新的技术研发来说,由于每个网站都有自己的专用本体知识库,因此通用的网络搜索存在许多问题。Montanari 称:“在一个信息领域内包含有多个来源,因此你必须要定义一个普用的语义模式。”
Montanari 称,相同的问题还存在于内部语义查询中。他的团队曾经尝试创建一个适用于整个公司的语义图式,能够为公司的数据库和数据集中的每件事物准确找到对应物,但是公司最终无法解决石油、天然气、研发、营销等业务领域中存在的差异。
他称:“即使在逻辑上,这也是一个难题。”因此,在特殊的业务部门和行业中还是倾向于保留内部查询。
发展前景展望
在行业管控和客户压力下,标准化的本体知识库已经出现。电子商务公司是否会真正团结在一个通用图式下还有待观察。
其中一个尝试是GoodRelations 电子商务词汇表。目前,仅有BestBuy.com和Overstock.com等少数公司加入其中。不过,谷歌在近期也宣布他们支持该词汇表。
《新一波技术浪潮》作者Phil Simon称:“与电话和互联网一样,随着越来越多的人使用新技术,它们才会变得更具价值。”他指出,对于许多公司来说,目前仍然缺乏一个明确的投资回报,这是部署的主要成本。Simon称,那些希望能够访问内部和互联网中大量非结构化信息的公司在得到回报前往往要花上数年时间设置语义网基础设施。除了新技术需要投资外,清理和标记数据等工作也需要大量的资金。
实际上,与之前许多突破性信息技术一样,语义网可能会陷入《第22条军规》所描述的困境中:在新技术体现出优势前需要有大量的用户使用,但是公司,尤其是电子商务公司在用户数量达到一定规模后,才会部署新技术。
BestBuy.com网络研发总工程师Jay Myers在博客中称:“产品目录对于零售/制造商都是独一无二的,由于有着数十亿种产品,通用产品目录是一个不可能实现的目标。我看到了一些在产品目录方面的尝试,但是我没有看到这些尝试取得什么进展。目前业内已达成共识,即产品目录定义看起来没有用处,应用避免。”
不过,Myers表示:“正是由于没有任何通用标准,这并不意味着我们无法通过W3C 标准和GoodRelations等本体知识库为机器设置某种类似的产品目录。这是一种双赢的举措,因为公司将会让客户感到满意,而客户也将通过相关的产品数据权衡自己的购买决定。”
实际上,许多语义网社团仍然认为语义技术将最终会为网络带来一场革命。
Davis称:“随着用户数量和数据移动性的增加,以及互联网服务和数字化数据信息渗入到我们的日常生活中,迫使我们将研发方向转向语义。由于错误的网络信息源快速扩散,现在已经不再是在干草堆中找一针那样了,你的首要任务是找到是正确的那一垛干草堆。语义学为我们带来了一个重要的分离方法。”
Simon 称:“当我在技术圈里提到语义网时,90%的人不知道我在说什么。有人问我,我是否相信它的实力,是否相信它会成为游戏规则的改变者?我的答案是‘绝对是’。”
此内容为AET网站原创,未经授权禁止转载。