一种高效的新闻网页噪声过滤方法
所属分类:技术论文
上传者:aet
文档大小:584 K
所需积分:0分积分不够怎么办?
文档介绍:网页噪声过滤是网页预处理中关键的一步,其处理结果对后续处理的效率和准确性都有很大的影响。本文基于文本块字符数的统计规律,在总结了新闻网页特点的基础上设计了一种高效的新闻网页噪声过滤算法。该算法不仅完成了新闻正文的提取,也实现了新闻标题和报道时间的提取。试验证明,该算法有很高的处理速度,同时其提取的准确率也有了进一步的提高。
现在下载
VIP会员,AET专家下载不扣分;重复下载不扣分,本人上传资源不扣分。