去除图片印章尝试
关于印章去除的尝试
对于红色印章,去除方式是比较简单的。
网上能够搜索到的方式基本都是基于红色通道的去除,还是通过直方图找到最佳阙值threshold来二值化
先对rgb不同通道来绘图,可以发现不同通道对于红色的敏感度不同
绘图红色通道的直方图
找出红色值的阙值范围,可以去除图片的印章,去除效果如下:
基于google识别的图形处理
再处理完发票后,我通过安装了pytesseractOCR进行了文字识别。
并且使用opencv的box方法对每张图的小格进行了绘制,效果如下:
目前文字的处理效果还不够好,识别出的文字如下
1 | 发票代码: 012001900211 |
可以看到有一些乱码,可见在识别上还是有不少问题的
百度飞浆api的识别
如果调用百度飞浆api,识别率是很高的,但是对于印章部分没有去除,但如果去除印章后喂入框架,效果就会很好
今日任务总结:仔细研读了如何画框,如何提取表格以及如何文字识别,如果不调用任何api而是通过我们自己来写算法提升文字准确率的读取的话,可能需要一些训练,并且对图片进行一些预处理,github上有一些关于文字读取的训练好了的中文字模型,也可以到时候进行参考。
本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来自 锅巴要写编译器!