首页
新闻
业界动态
新品快递
高端访谈
AET原创
市场分析
图说新闻
会展
专题
期刊动态
设计资源
设计应用
解决方案
电路图
技术专栏
资源下载
PCB技术中心
在线工具库
技术频道
模拟设计
嵌入式技术
电源技术
可编程逻辑
测试测量
通信与网络
行业频道
工业自动化
物联网
通信网络
5G
数据中心
信息安全
汽车电子
大学堂
期刊
文献检索
期刊投稿
登录
注册
首页
资源下载
通信与网络
正文
进入订阅《网络安全与数据治理》杂志
技术沙龙-数据要素资产化为网络安全行业带来的新发展机遇
SDV软件定义汽车技术专题
新型储能技术专题
基于视觉特征的网页正文提取方法研究
所属分类:
技术论文
上传者:
aet
文档大小:
328 K
所需积分:0分
积分不够怎么办?
文档介绍:
利用网页的视觉特征和DOM树的结构特性对网页进行分块,并采用逐层分块逐层删减的方法将与正文无关的噪音块删除,从而得到正文块。对得到的正文块运用VIPS算法得到完整的语义块,最后在语义块的基础上提取正文内容。试验表明,这种方法是切实可行的。
现在下载
VIP会员,AET专家下载不扣分;重复下载不扣分,本人上传资源不扣分。
活动
MORE
《集成电路应用》杂志征稿启事
【热门活动】2025年基础电子测试测量方案培训
【技术沙龙】可信数据空间构建“安全合规的数据高速公路”
【下载】5G及更多无线技术应用实战案例
【通知】2025第三届电子系统工程大会调整时间的通知
Copyright © 2005-
2024
华北计算机系统工程研究所版权所有
京ICP备10017138号-2