基于颜色分割的发票识别与自校正系统研究-AET-电子技术应用

基于颜色分割的发票识别与自校正系统研究

信息技术与网络安全

王涛

(同济大学浙江学院电子与信息工程系，浙江嘉兴314000)

摘要： 传统基于二值图像的框线特征提取信息的票据识别技术，其结果存在一定的差错率，针对此问题，提出了基于颜色分割的发票识别与验证系统。通过颜色分割和版式分析，将文字区域、二维码及图章等不同区域进行分割，分区域进行识别处理后，对发票关键信息进行比对验证。与传统的票据识别技术相比，该系统不仅可以完成发票自动识别，还可以结合二维码信息进行自我验证，提高了发票识别信息的准确性和完整性。

关键词： 颜色分割发票二维码自动识别 OCR

中图分类号： TP311
文献标识码： A
DOI： 10.19358/j.issn.2096-5133.2021.05.014
引用格式：王涛. 基于颜色分割的发票识别与自校正系统研究[J].信息技术与网络安全，2021，40(5)：80-85.

Research on invoice recognition and self correction system based on color segmentation

Wang Tao

(Department of Electronics and Information Engineering，Tongji Zhejiang College，Jiaxing 314000，China)

Abstract： Aiming at the problem of a certain error rate in the result of the traditional bill recognition technology based on the frame line feature extraction information of the binary image, an invoice recognition and verification system based on color segmentation is proposed. Through color segmentation and layout analysis, the text area, two-dimensional code, and stamps are divided into different areas, and the key information of the invoice is compared and verified after the area is identified. Compared with the traditional bill recognition technologies, this system can not only complete automatic invoice recognition, but also self-verify in combination with two-dimensional code information, which improves the accuracy and completeness of invoice recognition information.

Key words : color segmentation；invoice；two-dimensional code；auto recognition；OCR

0 引言

发票是企业经营或人们日常消费生活中不可或缺的一部分。面对日益增长的发票管理需求，无论是纸质发票还是电子发票，企业或个人都需要在发票信息的录入、存储及后续管理上花费很多时间。因此，应用现代技术对发票内容信息进行自动扫描识别并提取成为财务会计、计算机和软件应用等多个领域共同希望解决的课题。何文琦[1]在分析了高校财务报销难题后，提出了直接采用OCR技术对票据图片进行识别，提取发票中的关键信息，减少网上报销过程中的手工录入环节。王林水[2]等提出了一个自动票据识别系统，采用图像预处理技术将图像进行二值化，通过版面分析后进行字符识别。王贵新[3]等人建立了利用隐态马尔可夫模型(HMMs)的银行票据识别系统，系统首先通过光电扫描设备将用户填写的票据扫描成灰度图像，然后去掉票据的底色，使之变为黑白图像，对黑白图像进行去噪处理后，再进行文字的分割。

纵观上述文献，现有的研究都是将采集的发票图像进行二值化处理，忽略掉图片本身的颜色信息，其次不区分二维码、印章等图片组成，直接采用版式分析的方法或者OCR的方法对图片中的文字进行识别，这必然带来识别准确率的降低。而且上述方法都是对票面信息进行提取，并不进行验证，这导致存在最终结果上的差错率，在实际使用过程中还需要辅助人工验证。鉴于此，本文提出通过颜色分割方法对发票图片进行信息分层，得到二维码、印章区域和文字区域，针对文字区域按照预设的格式进行文字识别，获得发票上所记载的发票代码、发票号码、开票日期、购方税号、销方税号、金额和税额等信息；针对二维码图片进行自动扫描从互联网服务器获取发票代码、发票号码、开票日期、购方税号、销方税号、金额和税额等信息。然后将两部分信息进行比对验证发票的真伪。验证为正确的发票分别将原始图片和信息数据存入数据库，对用户的发票凭证进行统一的信息管理。验证为错误的信息以二维码获取得信息为准存入数据库，并在数据中进行标记以备后续查询。

本文详细内容请下载:http://www.chinaaet.com/resource/share/2000003556

作者信息:

王涛

(同济大学浙江学院电子与信息工程系，浙江嘉兴314000)

原创声明：此内容为AET网站原创，未经授权禁止转载。

相关内容