《电子技术应用》
您所在的位置:首页 > 其他 > 设计应用 > 基于混合表征学习的专利分类方法研究
基于混合表征学习的专利分类方法研究
信息技术与网络安全 12期
王庆才1,2,刘贵全1,2
(1.中国科学技术大学 计算机科学与技术学院,安徽 合肥230027; 2.大数据分析与应用安徽省重点实验室,安徽 合肥230027)
摘要: 专利分类是专利分析的基本任务,而基于深度学习的自动化专利分类方法可以有效地执行专利分类任务。现有研究大多利用自然语言处理方法,基于单个专利的文本内容(如摘要和标题)对专利文本进行分类,而专利及标签之间的宏观关系(如专利之间的引用和标签之间的共现)在很大程度上被忽略。为了缓解专利分类中单一专利信息的问题,构建了三个图网络表示专利及其标签之间的宏观关系,然后提出一个基于混合表征学习的专利分类框架,将专利及标签的宏观关系融入分类中,以提高专利的自动化分类的准确性。在真实的专利数据集的实验结果表明,该分类方法在多个评价指标上取得了最佳的性能。
中图分类号: TP181
文献标识码: A
DOI: 10.19358/j.issn.2096-5133.2021.12.009
引用格式: 王庆才,刘贵全. 基于混合表征学习的专利分类方法研究[J].信息技术与网络安全,2021,40(12):51-59.
Hybrid representation based framework for patent classification
Wang Qingcai1,2,Liu Guiquan1,2
(1.School of Computer Science and Technology,University of Science and Technology of China,Hefei 230027,China; 2.Anhui Province Key Laboratory of Big Data Analysis and Application,Hefei 230027,China)
Abstract: Patent classification is a fundamental task in patent analysis, and automatic patent classification methods based on deep learning can perform effectively. Most existing studies utilize natural language processing methods to classify patent documents based on the textual contents of individual patents(e.g.,abstracts and titles), while the macro-relationships between patents and their labels(e.g.,citations between patents and co-occurrence between labels) are largely ignored. To alleviate the problem of single patent information in patent classification, this paper constructed three graphs to represent the macro-relationships between patents and labels, and then proposed a hybrid representation based framework for patent classification to enhance the automated classification of patents. Extensive experiments conducted on real patent datasets show that the proposed classification method achieves the best performance in several evaluation metrics.
Key words : patent classification;multi-label classification;Graph Neural Network;deep learning

0 引言

专利分类是专利挖掘和管理中重要的基础任务。其主要目的是通过自然语言处理等方法提取专利文档中的重要特征,然后将这些特征输入分类器中,其输出结果表示专利文档所属的标签。通常一个专利具有一个或多个标签。面对每年快速增长的专利申请数量,实现高效的、自动化的专利分类算法可以大大减少专利机构的人工成本和时间成本。目前,自动化专利分类算法已被专利机构广泛使用,为专利检索[1]、专利价值评估[2]、专利诉讼风险评估[3]等专利智能服务提供支持。

因此,这吸引了许多研究人员来研究自动专利分类问题[4-6],并且这些方法中的大多数将其视为多标签文本分类任务[4-5]。专利的主要内容为其组件和创新的详细说明文档,该任务的目标是针对专利自动化预测一组标准化的类别。传统的专利分类方法大多基于统计学和自然语言处理方法人工构造特征信息,输入到机器学习模型中进行训练,然后预测未知专利的类别信息。这些方法大多属于浅层模型,仅仅学习了专利文本简单的词义信息,无法获取深层的上下文语义信息。而且专利中包含了大量的非结构化信息,如专利之间的引用信息,通常将专利作为网络节点构建专利引用网络,然后基于网络分析的方法对专利节点进行分类。此类方法专注于学习网络的结构信息,忽略了专利文本信息对预测专利类别的影响。



本文详细内容请下载:http://www.chinaaet.com/resource/share/2000003896.





作者信息:

王庆才1,2,刘贵全1,2

(1.中国科学技术大学 计算机科学与技术学院,安徽 合肥230027;

2.大数据分析与应用安徽省重点实验室,安徽 合肥230027)


此内容为AET网站原创,未经授权禁止转载。