一种基于指令流水线的数据匹配算法
所属分类:技术论文
上传者:wwei
文档大小:3345 K
标签: 正则表达式匹配 指令流水 高性能数据匹配
所需积分:0分积分不够怎么办?
文档介绍:基于正则表达式的数据匹配技术在基础数据治理和清洗方面有着重要的应用价值。然而,在高性能计算领域的数据处理过程中因算法匹配吞吐率低,无法满足大数据处理环境下对算法的高性能要求,造成其应用范围受限。针对此现象,提出一种基于指令流水线的数据匹配算法,称之为γFA:利用Intel架构内置的向量指令流水式读入若干字符段,通过大宽度向量比较函数进行字符段与非信任字符集的流水比值处理并转换成整型向量,通过位置定位函数累加定位出所有整型向量的首个非信任字符位置,计算出可略过的总字符数,减少正则表达式匹配引擎因处理非信任字符集导致访问低速内存而带来巨大的时间开销,实现正则表达式匹配算法的性能提升。实验结果表明,γFA算法的吞吐率是原始DFA算法的15.88~53.06倍,相比于ßFA算法,吞吐率提升了35.12%~63.26%,取得较好的性能加速效果。此外,通过对γFA算法进行优化后,性能可接近100 Gb/s,为原始DFA匹配算法性能的15.88~64.94倍,相比于γFA算法性能提升了2.15%~43.09%。
现在下载
VIP会员,AET专家下载不扣分;重复下载不扣分,本人上传资源不扣分。