《电子技术应用》
您所在的位置:首页 > 嵌入式技术 > 设计应用 > 基于认知广度和深度的个性化信息检索模型
基于认知广度和深度的个性化信息检索模型
来源:微型机与应用2011年第13期
邹 海1,2,郇秀花1,2
(1.教育部智能计算与信号处理重点实验室,安徽 合肥 230039;2.安徽大学 计算机科学与技术学
摘要: 受心理学激活-扩散模型的启发,提出了在领域本体基础上的用户认知结构模型。该模型依据用户提供的认知中心,一方面,根据领域本体中概念之间的语义相关性推导出用户的认知范围;另一方面,根据概念之间的语义相关度刻画出用户的认知深度。从认知范围和认知深度两方面,描述用户对某领域知识的认知结构。实验结果表明,该模型与通用本体模型相比,具有较高的查准率。
Abstract:
Key words :

摘  要: 受心理学激活-扩散模型的启发,提出了在领域本体基础上的用户认知结构模型。该模型依据用户提供的认知中心,一方面,根据领域本体中概念之间的语义相关性推导出用户的认知范围;另一方面,根据概念之间的语义相关度刻画出用户的认知深度。从认知范围和认知深度两方面,描述用户对某领域知识的认知结构。实验结果表明,该模型与通用本体模型相比,具有较高的查准率。
关键词: 认知结构;激活扩散模型认知广度;认知深度;个性化检索

 随着信息的急剧膨胀,人们希望借助信息检索工具如搜索引擎来获取自己需要的信息显得尤为迫切。然而,传统的基于关键词匹配的信息检索技术往往只是得到“千人一面”的检索结果,难以理解用户检索目的和区别用户的需求。造成这种情况的主要原因有两方面:一是当前的互联网不能恰当的处理语义;二是缺乏对用户的理解。针对第一个原因,Tim Berners-Lee提出了语义Web(Semantic Web)的概念[1]。其引入了以本体(Ontology)来表示概念和语义关联信息这一思想,来实现不同系统之间的信息共享,提高网络服务的智能化与自动化。语义Web通过把当前Web上无序的信息变为有序的知识,为解决数据管理有序性与Web上信息无序性相矛盾,搜索引擎的查全查准要求与数据缺乏语义相矛盾等问题指明了方向[2]。针对第二个原因,许多学者引入了用户上下文信息,如用户工作内容、专业背景、兴趣、爱好、生活习惯、经验、点击反馈、用户认知(Cognition)、理解水平等因素都属于用户上下文信息。这些上下文信息都是理解用户个性化需求的关键信息。
 随着语义Web的研究,人们纷纷在本体的基础上对上下文信息进行分析和描述[3],这些研究具有以下特点:
 (1)研究对象仅仅只是用户的兴趣,缺乏从多角度对用户个性化需求,如理解水平、认知结构等的理解和挖掘。
 (2)分析只是集中于利用上下语义关系,缺乏精确的分析和表示。这些研究工作大都基于WordNet、dmoz ODP(Open Directory Project)之类的通用本体,只在概念间的父子关系基础上进行分析,而不能从细粒度上对用户的兴趣进行精确分析和表示。
 (3)研究方法多集中在定性的分析,缺乏定量分析和描述。这些研究大部分从父子语义关系入手来描述用户兴趣范围,缺乏对用户兴趣深度的描述和表示。如文献[4]的正例/反例扩展向量和文献[5]中的个性化层次树,只要描述的关键词相同,那么用户的个性化模型也必然相同。
心理学上认为,人们的兴趣、认识和情感密切联系。认识越深刻,情感就越丰富,兴趣也就越浓厚。用户的爱好、理解水平、表达等都和用户认知结构紧密相关[6]。因此,从用户的认知结构入手可以更好地理解用户的个性化需求。尤其在专业领域范围内,用户的检索目标往往和自身在该领域的认知结构相适应。
 受认知心理学上激活-扩散模型(spreading-activation model)的启发,本文提出了一种基于领域本体来描述用户认知结构的模型ObSAM(Ontology based Spreading-Activation Model)。激活-扩散模型是认知心理学领域里一种表征个体知识的模型,它认为个体内部知识不是按照层次组织的,而是根据概念间的语义关系或者语义之间的距离来组织和表示的。当概念在用户大脑里出现时,用户语义记忆中相对应的概念节点会被激活,被激活了的概念节点就开始扩散到其他的概念上,尤其会扩散到那些在语义上有紧密联系的概念。根据这个模型,本文提出了用户认知结构模型,依据用户给出的认知中心概念,一方面,根据领域本体中概念之间的语义相关性推导出用户认知范围;另一方面,通过概念之间的语义相关度刻画出用户认知深度,从这两个方面描述用户对某领域知识的认知结构。
1 激活-扩散模型
 1968年Quillian提出了最早的语义记忆模型。在这个模型中,他用type来描述概念,用token描述词语,用带有标签说明的激活扩散行为来描述两个节点之间关联时涉及到的中间节点。1975年Collins和Loftus最早提出了激活-扩散模型。他们认为个体内部知识不是按层次组织的,而是根据语义关系或语义之间的距离来组织和表示的,并提出了描述人类认知的激活-扩散模型。
 激活-扩散模型认为,个体头脑里所存储的知识是一种组织巨大的概念网络,概念之间是通过语义关系相关联。激活-扩散模型有两个关于知识结构的假设:(1)连接节点的线段表示概念之间的联系,连线越短,表明两个概念之间的联系越紧密;(2)语义的距离是知识组织的基本原则,即概念的内涵是由它相关联的其他概念,特别是联系密切的概念来确定的。它认为,当概念出现时,认知中相应的概念节点会被激活,被激活了的概念节点就开始扩散到其他的概念,特别是那些在语义上有紧密联系的概念。而激活-扩散的远近主要由以下因素决定:最初被激活节点的激活强度、从最初被激活的节点到目前节点的语义距离、扩散时间等。
20世纪80年代,激活-扩散模型已经被应用到信息检索领域,主要运用在文档和词汇查询过程中用以扩展词汇和文档集。F.Crestani曾经综述了激活-扩散模型在信息检索领域中的应用,指出了激活-扩散模型中典型的四点约束:扇出约束、路径约束、距离约束以及激活约束。本文试图在信息检索领域直接按照激活-扩散模型的本意来描述用户的认知结构,并把它应用到个性化信息检索中。

 

 


3 实验
3.1 实验设置

 为了表现出在领域本体上构建模型ObSAM比通用本体有优势,实验中采用了2个本体进行对比,一个是通用本体WordNet,另一个是经济学领域本体EO(economic ontology)(假设该领域本体包含所有的经济领域词汇)。WordNet的读取采用了SourceForge开放源码社区提供的JWNL接口(http://sourceforge.net/projects/jwordnet);EO是NSFC资助项目“通用网上知识编辑器及示范主题语义网研究”的一部分成果,基本包含了经济学领域的重要概念和关系。
 对应于两种不同的本体,相应采用的测试数据集是:一个是美国国家标准技术局NIST(National Institute of Standards and Technology)与2004年公开发布的TREC2001 Filtering Track中使用的REuters数据集(http://www.jmlr.org/papers/volume5/lewis04a/lyrl2004_rcv1v2_README.htm),另一个是中国人民大学数字图书馆个性化服务系统DLPers V2.0中的数字资源作为测试数据集。
3.2 实验评测标准和实验结果分析
 实验主要从查询准确率方面进行评价,查准率采用Precision@n和AP@k来衡量。Precision@n是前n个结果文档中查询准确率,用来衡量大多数用户关注的前n个结果文档的准确率。AP@k用来衡量前n个结果文档中相关文档的排序情况。Precision@n和AP@k在一起能更全面对top-k检索结果进行评价,因为大多数用户习惯在检索过程中主要关注top-k检索结果[7]。

 本文以认知心理学上的“激活-扩散模型”为基础,提出了一种基于用户认知结构的ObSAM模型。它具有以下优点:(1)它是基于领域本体而不是通用本体。由于人类知识的构建本身是分领域进行的,所以基于领域本体更有利于表达用户的认知结构,可以提供更精确和细致的分析。(2)基于概念之间的概念相关度来合理刻画出用户的认知深度,对用户的个性化需求增加了定量分析,从认知广度和认知深度两个方面,加深对用户个性化需求的理解。
参考文献
[1] Berners-Lee T, Hendler J, Lassila O.The Semantic Web-A New Form Of Web Content That is Meaningful to Computers Will Unleash a Revolution of New Possibilities[J]. Scientific American, 2001, 284(5):34-43.
[2] Berners-Lee T, Hendler J. Publishing On The Semantic Web-the Coming Internet Revolution Will Profoundly Affect Scientific Information[J]. Nature 2001,410(6832):1023-1024.
[3] Middleton S, Shadbolt N, De Roure D.Ontological user profiling in recommender systems[J]. ACM Transactions on Information Systems 2004,22(1):54-88.
[4] Sieg A, Mobasher B, Burke R, et al. Representing User Information Context with Ontologies[C]. In: Proceedings of 11thInternational Conference on Human-Computer Interaction(HCII2005); Las Vegas, Nevada, USA,2005.
[5] Chaffee J, Gauch S. Personal Ontologies for Web Navigation[C]. In: Proceedings of the ninth international conference on Information and knowledge management;McLean,Va.,USA,2000, P.227-234.
[6] 梁宁建.当代认知心理学[M].上海:上海教育出版社,2003.
[7] 田萱,杜小勇,李海华.语义查询扩展中词语-概念相关度的计算[J],软件学报,2008,19(8):2043-2053.
 

此内容为AET网站原创,未经授权禁止转载。