融合电影流行性与观影时间的协同过滤算法
网络安全与数据治理
钱泽俊,刘润然
(杭州师范大学阿里巴巴商学院,浙江杭州311121)
摘要: 相似度评估作为协同过滤推荐算法的核心,尽管研究人员对其不断改进,却仍难以在各个维度上充分利用评价数据。针对这一挑战,首先以用户与电影之间的相互影响方式作为切入点,对二者间可能存在的自洽逻辑进行探究,提出了电影流行度计算公式用于对电影进行加权;接着以用户观影时间作为研究对象,探究用户观影喜好的转变与观影时间顺序之间的联系,并结合肯德尔相关系数提出了观影顺序一致性度量公式;最后将以上研究内容与传统相似度算法融合,并基于Netflix Prize数据集与豆瓣电影评价数据集对改进后的相似度算法进行验证。实验结果表明改进后的相似度算法拥有更高的推荐准确度。
中图分类号:TP3913文献标识码:ADOI: 10.19358/j.issn.2097-1788.2024.02.009
引用格式:钱泽俊,刘润然.融合电影流行性与观影时间的协同过滤算法[J].网络安全与数据治理,2024,43(2):54-63.
引用格式:钱泽俊,刘润然.融合电影流行性与观影时间的协同过滤算法[J].网络安全与数据治理,2024,43(2):54-63.
Collaborative filtering algorithm combining movie popularity and viewing time
Qian Zejun,Liu Runran
(Alibaba Business School, Hangzhou Normal University, Hangzhou 311121, China)
Abstract: As the core of the collaborative filtering recommendation algorithm, similarity evaluation is still difficult to fully utilize evaluation data in all dimensions, despite researchers constantly improving it. In this paper, aiming at this challenge, the mutual influence between users and movies is taken as the starting point, the possible self consistent logic between the two is explored, and a formula called Movie Popularity Weight (MPW) calculation formula is proposed to calculate the weight of movies. Then, taking the viewing time of users as the research object, the relationship between the change of viewing preference and the viewing time sequence of users is explored, and combined with the theory of Kendall correlation coefficient, a formula called Consistency in Viewing Sequence (CVS) calculation formula is proposed. Finally, the traditional similarity algorithm is improved by using the above research content, and the improved similarity algorithm is validated by using two datasets, one is the Netflix Prize dataset, while the other one is built based on publicly available data from Douban.com called Douban Movie K5 dataset. The experimental result shows that the improved similarity algorithm has higher recommendation accuracy.
Key words : recommendation algorithm; collaborative filtering; similarity algorithm; movie popularity; viewing time
引言
推荐系统[1]是人们借助计算机系统的高计算能力,为解决用户在面对信息过载时获取有效信息的效率低下问题而设计的辅助系统,其准确性极大程度上依赖于所采用的推荐策略。在推荐系统的众多策略中,“协同过滤”是其中广泛使用的一种策略[2],它以用户的兴趣偏好作为推荐依据,并假设每个用户未来的行为更有可能与该用户过去的行为类似。因此,以协同过滤策略为基础的推荐系统,会基于与目标用户相似的其他用户对一些物品的评价来向目标用户推荐物品[3],具有良好的可解释性。协同过滤策略的关键步骤是计算用户间的相似度,但由于传统的相似度算法很容易受到冷启动、数据稀疏性、时间衰变等问题的影响[4],因此许多研究人员对此进行改进并提出了一些新的相似性度量算法。在研究物品的权值计算方面,Leskovec[5]等人对Pearson相关系数算法的改进考虑到评价的分布具有长尾特征,即随着时间的流逝,部分受欢迎的物品将会得到更多用户的评价,而一些不受欢迎的物品,它们得到的评价数量则一直非常有限。
作者信息:
钱泽俊,刘润然
(杭州师范大学阿里巴巴商学院,浙江杭州311121)
文章下载地址:https://www.chinaaet.com/resource/share/2000005903
此内容为AET网站原创,未经授权禁止转载。