基于ERNIE-CAB-CNN的稀土专利文本分类模型
电子技术应用
廖列法,石利娇
江西理工大学 信息工程学院
摘要: 针对稀土专利文本专业性强的特点以及现有的文本分类方法存在的不足,鉴于类别注意力在计算机视觉领域的广泛应用和取得的良好效果,提出了一种用于文本分类的类别注意力模块(Category Attention Module,CAB),并结合预训练模型ERNIE和卷积神经网络(Convolutional Neural Networks,CNN)构建了一个用于稀土专利文本分类的创新模型ERNIE-CAB-CNN。模型使用ERNIE对专利文本进行向量化,得到语义信息更加丰富的向量表示后,通过CAB为文本中各个类别的重要特征赋予较高权值,使模型可以更准确地区分不同类别的特征。最后用CNN进一步提取文本中其他关键局部特征,得到的最终文本向量表示用于分类。通过Patsnap专利数据库官方网站检索下载稀土专利数据构建数据集进行实验,实验结果表明,稀土专利文本分类模型ERNIE-CAB-CNN在测试集上分类的准确率、精确率、F1分数分别为82.68%、83.2%、82.06%,取得了良好的分类效果。
中图分类号:TP3 文献标志码:A DOI: 10.16157/j.issn.0258-7998.245583
中文引用格式: 廖列法,石利娇. 基于ERNIE-CAB-CNN的稀土专利文本分类模型[J]. 电子技术应用,2025,51(1):18-24.
英文引用格式: Liao Liefa,Shi Lijiao. Text classification model of rare earths patents based on ERNE-CAB-CNN[J]. Application of Electronic Technique,2025,51(1):18-24.
中文引用格式: 廖列法,石利娇. 基于ERNIE-CAB-CNN的稀土专利文本分类模型[J]. 电子技术应用,2025,51(1):18-24.
英文引用格式: Liao Liefa,Shi Lijiao. Text classification model of rare earths patents based on ERNE-CAB-CNN[J]. Application of Electronic Technique,2025,51(1):18-24.
Text classification model of rare earths patents based on ERNE-CAB-CNN
Liao Liefa,Shi Lijiao
School of Information Engineering, Jiangxi University of Science and Technology
Abstract: In view of the strong specialization of rare earth patents and the shortcomings of existing classification methods, this paper proposes a Category Attention Block (CAB) for text classification in view of the wide application of category attention in the field of computer vision. Combined with ERNIE and Convolutional Neural Network (CNN), an innovative model ERNE-CAB-CNN for rare earth patent text classification is constructed. The model uses ERNIE to vectorize the patent text, and obtains the vector representation with richer semantic information. Then, it assigns higher weights to the key features of each category in the text through CAB, so that the model can distinguish different types of features more accurately. Finally, CNN is used to further extract other key local features in the text, and the resulting text vector representation is used for classification. Through the official website of Patsnap patent database, rare earth patent data are retrieved and downloaded to build a dataset for experiments. The experimental results show that the precision rate, accuracy rate and F1 score of the rare earths patent text classification model based on ERNE-CAB-CNN on the test set are 82.68%, 83.2% and 82.06%, respectively, achieving a good classification effect.
Key words : rare earth patent classification;text classification;category attention;ERNIE;CNN;feature extraction
引言
稀土元素是指镧、铈、镨、钕、钐、铕、钆、铽、镝等17种元素的总称,因其独特的4f电子结构而显现出丰富的光电磁性能,在电子信息、新能源、有色金属、机械制造等行业用途广泛,被称为“万能之土”[1]。稀土被国家列为实行保护性开采的重要战略资源,是发展现代工业和国防尖端技术不可代替的有色金属资源[2]。
党的十八大明确提出科技创新是提高社会生产力和综合国力的战略支撑,必须摆在国家发展全局的核心位置。科技创新既是我国稀土产业高质量发展的必由之路,也是中国稀土集团打造创新驱动的世界一流稀土产业集团的必然要求。在我国由稀土资源大国加速迈向稀土产业强国的背景下,强化科技赋能,稀土产业集群正加快高质量发展,加快稀土由“世界级储量”向“世界级产业”迈进[3]。
专利申请作为保护创新成果、促进交流分享和增强竞争优势的有效途径,自1999年之后,我国稀土领域的专利布局开始变得活跃,专利数量迅速增长。与世界其他国家相比,中国的申请速度在加快,2011年到2018年增加了250%[1]。基于上述的我国由稀土资源大国加速迈向稀土产业强国的背景和创新驱动发展战略的实施,今后我国的稀土领域的专利的数量将仍会持续增长。
对大量的稀土专利进行分类研究,可以为科研人员提供快速准确的技术背景和相关文献,使科研人员及时地了解稀土专利文本中包含的最新技术信息,能够在一定程度上为科学研究工作提供强有力的支持,推动稀土材料科研的发展、促进稀土产业的创新与升级。
本文详细内容请下载:
https://www.chinaaet.com/resource/share/2000006277
作者信息:
廖列法,石利娇
(江西理工大学 信息工程学院,江西 赣州 341000)
此内容为AET网站原创,未经授权禁止转载。