基于Boosting集成学习的风险URL检测研究
所属分类:技术论文
上传者:wwei
文档大小:3172 K
标签: Web攻击 集成学习 正则化
所需积分:0分积分不够怎么办?
文档介绍:随着互联网的不断发展,网站数量不断增长,URL作为访问网站的唯一入口,成为Web攻击的重点对象。传统的URL检测方式主要是针对恶意URL,主要方法是基于特征值和黑白名单,容易产生漏报,且对于复杂URL的检测能力不足。为解决上述问题,基于集成学习中的Boosting思想,提出一种针对业务访问的风险URL检测的混合模型。该模型前期将URL作为字符串,使用自然语言处理技术对其进行分词及向量化,然后采用分步建模法的思想,首先利用GBDT算法构建二分类模型,判断URL是否存在风险,接着将风险URL原始字符串输入到多分类模型中,利用XGBoost算法对其进行多分类判定,明确风险URL的具体风险类型,为安全分析人员提供参考。在模型构建过程中不断进行参数调优,并采用AUC值和F1值分别对二分类模型和多分类模型进行评估,评估结果显示二分类模型的AUC值为98.91%,多分类模型的F1值为0.993,效果较好。将其应用到实际环境中,与现有检测手段进行对比,发现模型的检出率高于现有WAF和APT安全设备,其检测结果弥补了现有检测手段的漏报。
现在下载
VIP会员,AET专家下载不扣分;重复下载不扣分,本人上传资源不扣分。