关于印章去除的尝试

对于红色印章,去除方式是比较简单的。

网上能够搜索到的方式基本都是基于红色通道的去除,还是通过直方图找到最佳阙值threshold来二值化

image-20210723161147558

先对rgb不同通道来绘图,可以发现不同通道对于红色的敏感度不同

绘图红色通道的直方图

image-20210723161834119

找出红色值的阙值范围,可以去除图片的印章,去除效果如下:

image-20210723175548997

基于google识别的图形处理

再处理完发票后,我通过安装了pytesseractOCR进行了文字识别。

并且使用opencv的box方法对每张图的小格进行了绘制,效果如下:

image-20210723181000066

目前文字的处理效果还不够好,识别出的文字如下

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
发票代码: 012001900211

发村号码: 25484924

日期: 2019年12月11日

支 验 码: 05988 47634 16531 55207



机器编号: 499099606293

购 |名 称: 个人报销 | 0301226+<42+01515108457<-4/
买 | 纳税人识别号 兽| +69"669494*/>2+37>5420265>42
地 址' 电 话: 四川省成都市武修区本草洗芝堂 1901226+<42+015/51/4+<987*00
开户行及账号: 无无 上| 49><579/>*01<57319237/11/8--48
货物或应税劳务、服务名称 规格型号 单位 数 量 单 价 金 额 税率 税 额
“运输服务"客运服务费 无 次 1 412.29 412.29 | 3?% 12.37
合 计 王412.29 荆12.37
价税合计(大写 ) @@嫂佰武拾肆圆陆角陆分 (小写) 半424.66
销 名 称: 滴滴出行科技有限公司 非常规报销
纳税人识别号: 备
网 号: 911201163409833307
” | 地 址、电 话: 天津经济技术开发区南港工业区综合服务区办公楼C座103室12单元022-59002850 国
方 年

开户行及账号: 招商银行股份有限公司天津自由贸易试验区分行122905939910401
收 款 人: 张力强 复 核: 蒙静 开 票 人: 王秀丽



可以看到有一些乱码,可见在识别上还是有不少问题的

百度飞浆api的识别

如果调用百度飞浆api,识别率是很高的,但是对于印章部分没有去除,但如果去除印章后喂入框架,效果就会很好

image-20210723181000066

image-20210723180412873

image-20210723180421486

image-20210723180440325

今日任务总结:仔细研读了如何画框,如何提取表格以及如何文字识别,如果不调用任何api而是通过我们自己来写算法提升文字准确率的读取的话,可能需要一些训练,并且对图片进行一些预处理,github上有一些关于文字读取的训练好了的中文字模型,也可以到时候进行参考。