文献标识码: A
DOI: 10.19358/j.issn.2096-5133.2021.05.014
引用格式: 王涛. 基于颜色分割的发票识别与自校正系统研究[J].信息技术与网络安全,2021,40(5):80-85.
0 引言
发票是企业经营或人们日常消费生活中不可或缺的一部分。面对日益增长的发票管理需求,无论是纸质发票还是电子发票,企业或个人都需要在发票信息的录入、存储及后续管理上花费很多时间。因此,应用现代技术对发票内容信息进行自动扫描识别并提取成为财务会计、计算机和软件应用等多个领域共同希望解决的课题。何文琦[1]在分析了高校财务报销难题后,提出了直接采用OCR技术对票据图片进行识别,提取发票中的关键信息,减少网上报销过程中的手工录入环节。王林水[2]等提出了一个自动票据识别系统,采用图像预处理技术将图像进行二值化,通过版面分析后进行字符识别。王贵新[3]等人建立了利用隐态马尔可夫模型(HMMs)的银行票据识别系统,系统首先通过光电扫描设备将用户填写的票据扫描成灰度图像,然后去掉票据的底色,使之变为黑白图像,对黑白图像进行去噪处理后,再进行文字的分割。
纵观上述文献,现有的研究都是将采集的发票图像进行二值化处理,忽略掉图片本身的颜色信息,其次不区分二维码、印章等图片组成,直接采用版式分析的方法或者OCR的方法对图片中的文字进行识别,这必然带来识别准确率的降低。而且上述方法都是对票面信息进行提取,并不进行验证,这导致存在最终结果上的差错率,在实际使用过程中还需要辅助人工验证。鉴于此,本文提出通过颜色分割方法对发票图片进行信息分层,得到二维码、印章区域和文字区域,针对文字区域按照预设的格式进行文字识别,获得发票上所记载的发票代码、发票号码、开票日期、购方税号、销方税号、金额和税额等信息;针对二维码图片进行自动扫描从互联网服务器获取发票代码、发票号码、开票日期、购方税号、销方税号、金额和税额等信息。然后将两部分信息进行比对验证发票的真伪。验证为正确的发票分别将原始图片和信息数据存入数据库,对用户的发票凭证进行统一的信息管理。验证为错误的信息以二维码获取得信息为准存入数据库,并在数据中进行标记以备后续查询。
本文详细内容请下载:http://www.chinaaet.com/resource/share/2000003556
作者信息:
王 涛
(同济大学浙江学院 电子与信息工程系,浙江 嘉兴314000)