爱玩科技网
您的当前位置:首页基于Tesseract的会计票据图像识别系统设计研究

基于Tesseract的会计票据图像识别系统设计研究

来源:爱玩科技网
2021年9月第24卷第17期

中国管理信息化悦hinaManagementInformationizationSep.袁2021灾燥造援圆4袁晕燥援17基于Tesseract的会计票据图像识别系统设计研究

李沛霖袁吕

巍袁姚

琳袁尚丹梅

渊锦州医科大学袁辽宁锦州121001冤

摘[

要]随着信息技术的快速发展袁会计信息处理逐渐呈现智能化趋势袁会计票据图像的识别及管理是会计信息智能化

实现的重要组成部分遥通过对会计票据图像识别系统的分析袁对图像进行去噪声尧二值化尧倾斜矫正等预处理袁然后使用Tesseract识别引擎对样本票据图像进行预识别袁校正识别完成后生成识别字库袁最终利用字库进行会计票据图像识别遥经试验该系统识别准确率较高袁基本满足会计工作需求遥通过探讨会计票据图像的识别方法袁旨在为相关研究提供参考袁推动会计信息处理的自动化和智能化遥

[关键词]图像处理曰会计票据曰光学字符识别曰Tesseract

doi:10.3969/j.issn.1673-0194.2021.17.044]1673-0194渊2021冤17-0107-04[中图分类号][文章编号F233;TP391[文献标识码]A园引言

随着会计管理信息化的不断发展袁会计票据的信息化需

光学字符识别渊韵责贼蚤糟葬造悦澡葬则葬糟贼藻则砸藻糟燥早灶蚤贼蚤燥灶袁韵悦砸冤是一种通过光学技术扫描文本和字符以获得图像信息的方法袁通过形态特征的分析确定标准文本和字符编码袁转化为计算机内码袁并存储在文本文件中袁是快速文本输入的一种方式遥如果将韵悦砸技术应用于会计票据识别袁对于数字化的票据图像袁韵悦砸技术能将其内容逐项识别出来袁方便进一步转化为会计文档遥

目前袁市场上已有很多成熟的韵悦砸产品袁如汉王尧文通尧粤月月再再云蚤灶藻砸藻葬凿藻则韵悦砸尧栽藻泽泽藻则葬糟贼韵悦砸尧陨砸陨杂砸藻葬凿陨砸陨杂尧百度源韵悦砸软件袁使用集束搜索算法和运原近邻算法渊运晕晕冤进行预识别袁并支持样本训练袁可以形成特定的语言库遥相对于其他价格昂贵的商业化识别软件袁栽藻泽泽藻则葬糟贼可以用较低成本针对会计韵悦砸等遥在众多韵悦砸识别产品中袁栽藻泽泽藻则葬糟贼作为谷歌的免费开

求也越来越迫切遥会计管理工作每天都要面对大量的纸质票据袁各种纸质票据按照传统的工作流程袁需要人工手动录入信息袁按流程逐级人工审核袁并管理大量的纸质票据档案袁这使得整体录入和审核工作量繁重袁效率较低遥在目前的会计信息

但其本身是一种非

结构化的数据格式袁不利于信息的进一步利用遥

[收稿日期]2021-03-08

[基金项目]全国高等院校计算机基础教育研究会项目渊编号院2021-AFCEC-294冤曰锦州医科大学大学生创新创业训练计划项目渊201910160050冤遥

化中可以将会计票据以图像的形式存档袁.com.cn. All Rights Reserved.付袁大幅缩短或取消了患者缴费排队时间袁减少了人工收费窗口的接触及野零现金冶支付袁保障了患者及家属的资金安全袁一方面提高了医院整体的就诊效率曰另一方面袁患者及家属分散到药房尧诊室尧检查尧化验等科室袁相对来说提供了宽敞的就医环境袁从而建立了和谐的医患关系遥

缘援圆改善后降低现金保管及收款风险袁同时节约医院开支资金

保险柜的购买数量袁进一步节约了医院的开支遥

应用孕阅悦粤质量管理工具提高了门诊线上支付比率袁并一直将门诊线上支付比率指标作为医院质量管理监测指标之一袁门诊线上支付比率的大幅提升从患者层面和医院层面实现了双赢遥

主要参考文献

咱员暂援关于促进野互联网垣医疗健康冶发展的意见渊国办发咱圆暂张剑袁张岩袁李永革袁等援医院门诊移动支付系统设计与应用咱允暂援医疗卫生装备袁圆园员怨袁源园渊愿冤院圆怨原猿圆袁源员援

咱猿暂张清林袁胡孔法援耶互联网垣爷背景下移动支付平台在医院应用的效果评价咱允暂援中国医院袁圆园员怨袁圆渊圆猿冤院圆猿原圆缘援

咱源暂于文林袁夏萍袁张园媛援广州市公立医院门诊患者医疗移动支付的使用意愿调查咱允暂援医学与社会袁圆园圆园袁猿渊猿猿冤院愿猿原愿苑援也圆园员愿页圆远号冤咱在暂援圆园员愿援

医院改善支付方式后袁给患者及家属提供了更优质的就医

服务与体验袁减少患者的缴费排队时间效果显著袁同时大幅降低现金保管风险遥第一袁现金收款减少后袁财务部门针对内部流程进行调整袁取消收费人员的备用金交由收费组长统一分配袁收费人员上岗前由收费组长分配一定数额的零钞袁下班后按数额交还收费组长遥第二袁适当减少部分收费窗口袁改成推广人员袁推广线上支付后节约了人力袁解决了医院医保尧人力资源尧财务等部门人员缺口的问题袁收费人员通过医院内部人力调整实现转型遥第三袁现金收款下降袁减少了保管风险袁减少了验钞机及

CHINAMANAGEMENTINFORMATIONIZATION/107

会计信息化

场景建立专用字库袁从而提高识别准确度遥员

会计票据图像识别系统构成

基于栽藻泽泽藻则葬糟贼的会计票据图像识别平台系统构成如图员所示袁主要包括图像预处理模块尧韵悦砸字符识别模块及识别文本处理模块遥图像预处理接收用户导入的票据图像袁进行图像

去噪声尧图像二值化尧图像倾斜矫正等操作袁为图像后续的检测和识别做好准备遥预处理后的票据图像字检测和识别模块处理袁形成文本文件遥识别文本处理模块将文本信息转化为相应会计格式文档遥

图员系统构成示意图

图像预处理

票据图像在进行数字化转换时袁会受到各种环境因素影响袁为了提高图像识别的质量袁通常需要对图像进行去噪声尧二值化尧倾斜矫正等预处理遥圆援员图像去噪声

使用电子设备采集的图像袁受到外界光照尧噪声等环境的

响袁在进行图像分析和处理之前袁需要消除图像噪声袁并针对不同的噪声特点采用适合的滤波器袁以便最大程度地还原图像的质量遥自适应中值滤波可以根据图像局部变化袁动态的改变滤波器窗口尺寸大小袁其算法流程如图圆所示遥该算法尽可能地保护图像中的细节信息袁避免图像边缘的细化或者粗化袁能较好地保留图像的边界和高频成分袁适于处理会计票据图像遥

干扰袁造成图像清晰度下降袁给图像的检测和识别带来不利影

.com.cn. All Rights Reserved.图圆自适应中值滤波器算法流程图

圆援圆图像二值化

感知系统计算出砸郧月三种颜色的参数袁使用标准化参数计算对应像素的灰度值渊园原圆缘缘冤袁该算法实现简单袁使用广泛遥

I=0.299*R+0.587*G+0.114B渊圆冤图像黑白分割

图像二值化是将彩色或多灰度图像转换为只有黑白二值

的灰度图像的过程袁将图像转换为二值图像袁减少图像数据量的同时袁去除图像的冗余信息袁凸显图像的轮廓遥

渊员冤图像脱色处理

彩色图像转换为灰度图像可以采用平均法尧最大最小平均法及加权平均法等袁其中加权平均法最常用袁它根据人的亮度

对于票据图像经常出现的亮度分布不均匀尧有阴影等情况遥如果采用全局阈值法袁将导致票据图像出现大量的黑色区域曰采用自适应阈值法对票据图像处理袁容易出现文字断裂的

108/CHINAMANAGEMENTINFORMATIONIZATION会计信息化

情况遥经过大量测试袁发现韵栽杂哉法对票据图像二值化效果较理想遥

部分袁背景和目标之间的类间方差越大袁说明构成图像的两部分差别越大遥当部分目标错分为背景或者部分背景错分为目标都会导致两部分差别变小袁因此要计算能将两类分开的最佳阈值袁使得它们的类间方差最小遥

像素依次进行计算袁将图像像素值大于初始阈值的像素点作为目标袁累积求得像素点个数晕园袁背景像素点个数为院

N1=M伊N-N棕园=N0M伊N目标像素点占整个图像的像素个数比例棕园为院

假设图像的尺寸大小为酝伊晕袁初始阈值为栽园遥对图像中的韵栽杂哉算法按图像的灰度特性袁将图像分成背景和目标两

圆援猿图像的倾斜矫正

在票据图像的获取过程中袁经常会出现图像倾斜现象袁这

样会影响图像后续的字符分割效果袁必须矫正图像的水平度遥匀燥怎早澡变换是一种特征提取技术袁它通过一种投票算法监测具影响较小遥将图像空间中用直角坐标表示的直线变换为极坐标空间中的点袁把直线上点的坐标变换到过点的直线的系数域袁通过利用共线和直线相交的关系使直线的提取问题转化为在参数空间中计算局部最大值的计数问题袁得到一个符合特定形状的集合作为匀燥怎早澡变换结果遥在匀燥怎早澡变换中用籽表示原点距直线的法线距离袁兹为该法线与曾轴的夹角袁可用如下参数方程表示该直线院

籽=xcos兹+ysin兹

使用匀燥怎早澡变换通过寻找极坐标系中点集的峰值袁发现长的直线特征袁接下来基于匀燥怎早澡变换找到最长边缘线袁确定倾斜角度袁完成票据的倾斜矫正遥猿

基于栽藻泽泽藻则葬糟贼的韵悦砸识别

经过预处理的会计票据图像样本使用躁栽藻泽泽月燥曾耘凿蚤贼燥则整合进一个栽蚤枣枣图片集中袁然后调用栽藻泽泽藻则葬糟贼引擎进行预识别袁生成文本检测月燥曾文件袁月燥曾为文本文件袁顺序地尧每行一个字符地列出训练图像中的字符袁以及字符在图像中的边界框坐标尧边界框长宽大小遥对于月燥曾文件需要进一步校正袁以修改其中的错误袁积累字库袁针对票据图像中出现的不同字体袁可以生成字体特征文件袁识别流程如图猿所示遥

有特定形状的物体袁直线检测精度高袁受直线中的间隙和噪声

设灰度图像背景和目标的区分阈值为栽袁目标像素点所占图像总像素点的比例为棕园袁灰度均值为滋园袁背景占图像比例为棕员袁灰度均值为滋员袁则整幅图像的平均灰度为院

滋=棕0滋0+棕1滋1

令灰度图像的每一个灰度值贼越园袁员袁噎袁晕原员渊晕为图像的灰度级冤袁使目标和背景两部分之间的类间方差达到最大院

D=棕0渊滋园-滋冤+棕1渊滋1-滋冤

2

2

.com.cn. All Rights Reserved.T=argma曾渊阅冤渊园臆t臆N-1冤

快速袁不受图像亮度和对比度的影响遥

韵栽杂哉阈值法是求图像全局阈值的最佳方法袁计算简单尧

图猿栽藻泽泽藻则葬糟贼训练识别流程

训练完成后生成会计票据字库袁将字库文件拷贝到栽藻泽泽藻则葬糟贼安装目录下的栽藻泽泽凿葬贼葬文件内袁即可调用字库进行会计票据图像的识别遥根据经验数据分析袁基于栽藻泽泽藻则葬糟贼的字符识别袁需要确保每个字符最小的数量样本袁对于不经常出现的字符至少需要员园次的数量样本袁出现特别频繁的字符至少需要圆园次的数量样本遥如果训练样本数量较少袁会影响识别的准确率袁解决办法为增加训练样本数量袁这是提高识别率的最根本尧最有效方法遥源

识别文本处理

对文字识别后生成的文本文件袁依次读出行列对应的文字信息并写入表格遥对于表格中的数据袁按照会计科目等类别袁进

行统计归类尧分类汇总袁形成会计信息表袁方便进一步根据实际需求编制财务表格遥在文本数据导入并汇总成表格时袁针对韵悦砸识别过程中可能出现的错误袁还需引入纠错程序袁使用错提示遥缘

结语

基于栽藻泽泽藻则葬糟贼的会计票据图像识别系统袁借助图像处理技术和开源韵悦砸识别引擎提供一种低成本的会计票据图像识别方案袁该方案对员圆园张样本票据进行试验袁总体识别率为怨猿援缘苑豫袁准确率相对较高袁可以基本满足会计工作需求袁但仍然

CHINAMANAGEMENTINFORMATIONIZATION相似度算法对可能出现的错误进行自动纠错袁并提供手动纠

存在个别识别错误袁需要手动校对遥在后续的实践应用中还要

/109

2021年9月第24卷第17期

中国管理信息化悦hinaManagementInformationizationSep.袁2021灾燥造援圆4袁晕燥援17基于太极思维数智时代财经院校会计信息化课程群建构探索:

的重构

杨春华袁顾玲艳

渊浙江工商大学袁杭州310018冤

摘[

]数智时代已经来临袁建构数智时代会计信息化课程群袁培养数据智能时代高信息素养会计专业人才成为所有财要

经院校必须且迫切需要解决的问题遥文章首先基于太极思维袁对数智时代的会计信息化进行了全新诠释袁认为会计信息处

理和会计信息分析两者各成体系袁但又相辅相成遥然后遵循并践行系统思维尧辩证思维尧动态思维和平衡思维袁建构了数智时代财经院校会计信息化课程群方案遥最后提出了方案的最佳实践模式为设置微专业袁以及野因时制宜尧因人制宜尧因技制宜冶的方案实施建议遥

[关键词]会计信息化课程群曰太极思维曰数智时代

doi:10.3969/j.issn.1673-0194.2021.17.045]F233[]A]1673-0194渊2021冤17-0110-04[中图分类号文献标识码[文章编号

园引言

当今世界信息技术发展日新月异袁数据智能时代已经来

养会计专业人才成为所有财经院校必须且迫切需要解决的问题遥然而袁目前国内财经院校会计信息化课程群建构普遍落后于理工院校袁存在着缺乏明晰的战略定位和发展方向袁没有清晰的课程体系袁课程开设缺乏设计尧开设单纯信息技术课程袁失去会计专业特色等诸多问题遥因此袁财经院校重构数智时代会计信息化课程群具有重大的现实意义且势在必行遥员

基于太极图的会计信息化诠释

李宗桂先生认为袁文化是代表一定民族特点的袁反映其理论思维水平的精神风貌尧心理状态尧思维方式和价值取向等精神成果的总和遥中华文化的内核是传统的思维方式袁潜移默化地影响着中国人的思维习惯和行为模式遥易学是中华文化的重要源头袁太极图内涵丰富尧造型完美袁享有野中华第一图冶的美誉遥太极图的形象很简单袁一个圆圈尧一条野杂冶形曲线分割出两

临袁大数据尧人工智能尧云计算尧区块链尧物联网等信息技术正在并将持续影响和赋能企业经营管理袁会计财务是企业经营率尧边界等都正在并将持续被信息技术改变和赋能遥圆园员远年猿月袁德勤会计师事务所宣布与运蚤则葬杂赠泽贼藻皂泽合作袁将人工智能引入会计行业袁引发会计行业及相关从业人员的高度关注遥会计专业是财经院校的老牌专业袁如何培养数智时代高信息素

管理活动的一个重要组成部分袁会计工作方式尧内容尧流程尧效.com.cn. All Rights Reserved.[收稿日期]2021-03-08

[基金项目]2019年浙江省野十三五冶第二批教学改革研究项目叶数据智能时代基于ADDIE财经院校会计智能化课程群重构及建设研究曳渊编号院jg20190175冤遥

不断完善其功能袁改进图像预处理能力并积累字库袁进一步提高识别准确率和效率袁提高会计信息处理效率和智能化水平遥

主要参考文献

咱员暂张庆龙援下一代财务院数字化与智能化咱允暂援财务月刊袁圆园圆园渊员园冤院猿原苑援渊猿冤院员源原员缘援

大学袁圆园员怨援

咱缘暂王希晨援基于栽藻泽泽藻则葬糟贼的电子票据云平台的设计与实现咱阅暂援南京院南京大学袁圆园员远援

咱远暂赵懿琨袁马劼聪袁陈仰丽袁等援基于酝粤栽蕴粤月的票据自动报账系统设计与实现咱允暂援现代农业研究袁圆园员愿渊员园冤院员园苑原员园怨援

咱苑暂张艳袁张重阳袁郁生阳袁等援基于框线检测的票据图像分类方法咱允暂援南京理工大学学报院自然科学版袁圆园园苑渊源冤院源园怨原源员猿援

咱愿暂张淙悦袁尹梓名袁孙大运袁等援基于栽藻泽泽藻则葬糟贼的医学化验单内容识别技术咱允暂援北京生物医学工程袁圆园员怨袁猿愿渊猿冤院圆愿猿原圆愿怨援

咱怨暂梁国贤袁陈广华袁梁国胜援基于栽藻泽泽藻则葬糟贼中文全血化验单信息提取研究咱允暂援电脑编程技巧与维护袁圆园圆园渊源冤院怨远原员园园援

咱圆暂张岩援人工智能和大数据对会计学科发展的影响咱允暂援当代会计袁圆园圆园咱猿暂李宗民援基于会计信息智能化管理的票据图像处理与识别咱允暂援河南科学袁圆园圆园袁猿愿渊怨冤院员猿怨源原员猿怨怨援

咱源暂刘欢援基于深度学习的图像文本检测与识别咱阅暂援武汉院华中科技

110/CHINAMANAGEMENTINFORMATIONIZATION

因篇幅问题不能全部显示,请点此查看更多更全内容