基于视觉特征的网页正文提取方法研究
所属分类:技术论文
上传者:aet
文档大小:328 K
所需积分:0分积分不够怎么办?
文档介绍:利用网页的视觉特征和DOM树的结构特性对网页进行分块,并采用逐层分块逐层删减的方法将与正文无关的噪音块删除,从而得到正文块。对得到的正文块运用VIPS算法得到完整的语义块,最后在语义块的基础上提取正文内容。试验表明,这种方法是切实可行的。
现在下载
VIP会员,AET专家下载不扣分;重复下载不扣分,本人上传资源不扣分。