基于深度学习的可视化图表分类方法研究-AET-电子技术应用

基于深度学习的可视化图表分类方法研究

电子技术应用

张明凯1，胡军国1，刘江南2，邓飞1，尹文杰1

1.浙江农林大学数学与计算机科学学院；2.浙江农林大学化学与材料工程学院

摘要： 可视化图表的分类研究对于图表理解和文档解析具有很大的意义。分别通过爬虫和软件生成的方式，构建了两个包含16类常见图表的数据集，该数据集在数量、类型和样式丰富性上具有一定的优势。在3个数据集上实验对比了Transformer架构和卷积神经网络架构的模型，结果表明Transformer架构在图表分类任务上具有一定优势。基于Swin Transformer模型，设计了多种数据增强策略，在增加模型泛化性的同时也引入了分布差异；通过对不同策略训练出的模型预测进行均值融合，同单模型相比分类性能有较大提升。在6个测试集上对集成模型进行了测试，分类准确率均大于0.9；对于图像质量高、视觉形式简单的生成图表，模型分类准确率接近1。

关键词： 图表分类图表理解卷积神经网络 SwinTransformer 模型集成

中图分类号：TP391 文献标志码：A DOI: 10.16157/j.issn.0258-7998.244851
中文引用格式： 张明凯，胡军国，刘江南，等. 基于深度学习的可视化图表分类方法研究[J]. 电子技术应用，2024，50(5)：58-65.
英文引用格式： Zhang Mingkai，Hu Junguo，Liu Jiangnan，et al. Research on visualization chart classification method based on deep learning[J]. Application of Electronic Technique，2024，50(5)：58-65.

Research on visualization chart classification method based on deep learning

Zhang Mingkai1，Hu Junguo1，Liu Jiangnan2，Deng Fei1，Yin Wenjie1

1.College of Mathematics and Computer Science， Zhejiang A & F University； 2.College of Chemistry and Materials Engineering， Zhejiang A & F University

Abstract： The classification research of visual charts holds significant implications for chart comprehension and document parsing. This paper has constructed two datasets, each containing 16 common chart types, using web scraping and software generation. These datasets exhibit certain advantages in terms of quantity, type, and stylistic diversity. This paper has also conducted experiments comparing Transformer and Convolutional Neural Network (CNN) architectures on three datasets, and the results indicates that the Transformer architecture has certain advantages in the task of chart classification. Utilizing the Swin Transformer model, this paper designs various data augmentation strategies, not only increasing the generalization of the model, but also introducing the distribution difference. By averaging predictions from models trained with different strategies, there is a significant improvement in classification performance compared to individual models. The ensemble model was tested on 6 test sets, with classification accuracy exceeding 0.9 in all cases. For generated charts with high image quality and simple visual forms, the model's classification accuracy approached 1.

Key words : chart classification；chart comprehension；convolutional neural network；Swin Transformer；model ensemble

引言

可视化图表作为一种直观的信息表现形式，往往被用于文献或报告中展示关键的数据，在现代媒介中使用十分广泛。但受限于当下的技术水平，这些图表信息很难被计算机检索，大量的数据埋没在浩如烟海的网络中。随着相关数据的增加，图表的自动化解析逐渐被重视起来。图表通过简单的图形帮助人类理解数据背后隐含的差异或趋势等信息，但对于计算机来讲，读取这些图形所代表的含义却十分困难。不同类型的图表具有不同的视觉形式，很难用一套固定的模式或方法解析出来，目前较为有效的方法是根据图表类型使用特定的数据解析方案[1]。因此，理解图表的首要工作是图表类型识别，可视化图表的分类研究对于图表理解和文档解析具有很大的意义。

图表分类技术作为图像分类技术的子分支，与计算机视觉技术的发展联系十分密切。表1对相关研究进行了总结。早期研究[2-5]多使用一些手工设计的过滤器来提取图表图像的特征，先将提取到的特征降维，再通过一些机器学习方法实现分类。这些研究大都需要手工构建特征，数据集也相对较小，模型的泛化性不高。随着计算机视觉领域深度学习模型的发展，基于卷积神经网络的分类模型被用在图表分类任务中，这些研究[6-14]的分类效果有了很大提升，数据集也得到很大程度上的扩充。

本文详细内容请下载：

https://www.chinaaet.com/resource/share/2000005988

作者信息：

张明凯1，胡军国1，刘江南2，邓飞1，尹文杰1

（1.浙江农林大学数学与计算机科学学院，浙江杭州 311300；2.浙江农林大学化学与材料工程学院，浙江杭州 311300）

Magazine.Subscription.jpg

原创声明：此内容为AET网站原创，未经授权禁止转载。

相关内容