YJJFA:一种数据驱动的高性能正则表达式匹配算法
所属分类:技术论文
上传者:wwei
文档大小:4030 K
标签: 正则表达式匹配 可信区域 高性能
所需积分:0分积分不够怎么办?
文档介绍:正则表达式匹配技术在人工智能时代背景下扮演着重要角色,尤其在数据清洗与数据抽取领域,可为大语言模型训练所需的高质量数据处理提供技术支撑。然而,传统正则表达式匹配算法存在性能瓶颈,限制了其应用范围。针对此问题,提出一种基于可信区域的高性能正则表达式匹配算法,命名为YJJFA算法。该算法通过对状态转移表划分成最优可信区域与非信任区域,减少需要处理的状态转移表输入字符数量,并借助非内存访问的非信任字符集向量比较以实现信任字符低时间消耗处理。实验结果表明,YJJFA算法在L7filter规则上的吞吐率达17.88~53.81Gb/s,较原始DFA算法性能提升了一个数量级。
现在下载
VIP会员,AET专家下载不扣分;重复下载不扣分,本人上传资源不扣分。