基于CURE算法的网页分块及正文块提取研究
所属分类:技术论文
上传者:aet
文档大小:491 K
所需积分:0分积分不够怎么办?
文档介绍:研究基于CURE聚类的Web页面分块方法及正文块的提取规则。对页面DOM树增加节点属性,使其转换成为带有信息节点偏移量的扩展DOM树。利用CURE算法进行信息节点聚类,各个结果簇即代表页面的不同块。最后提取了正文块的三个主要特征,构造信息块权值公式,利用该公式识别正文块。
现在下载
VIP会员,AET专家下载不扣分;重复下载不扣分,本人上传资源不扣分。