查看: 4141|回复: 5

MORAN文本识别算法开源,刷新多个OCR数据集state-of-the-art

[复制链接]

665

主题

1234

帖子

6568

积分

xdtech

Rank: 5Rank: 5

积分
6568
发表于 2019-1-17 22:56:10 | 显示全部楼层 |阅读模式
近日华南理工大学金连文老师组在文本识别领域又出牛文,提出一种基于像素级不规则文本纠正的识别新算法MORAN(Multi-Object Rectified Attention Network),刷新了多个OCR数据集的最高精度,并将其开源了!

1.jpg

MORAN文本识别算法由矫正子网络MORN和识别子网络ASRN组成,在MORN中设计了一种新颖的像素级弱监督学习机制用于不规则文本的形状纠正,大大降低了不规则文本的识别难度。

MORN与ASRN可端到端联合学习,训练过程不需要字符位置或像素级分割的监督信息,使得网络的训练大大简化。在常用的IIIT 5K、IC03、IC13、SVT、SVT-Perspective、CUTE80、IC15等7个OCR数据集上,取得了state-of-the-art的识别性能。

文本识别的难题——形状不规则

虽然目前文字识别的应用广泛,但自然场景文字识别仍然面临诸多挑战,其中影响识别率的重要因素就是文本形状的不规则。如下图:

2.jpg
文本形状的多样化上如依次为(a)水平规则文本;(b)倾斜文本;(c)弯曲文本。

普通的矫正方法——仿射变换
普通的矫正方法,使用仿射变换能够对图像做整体的变换,其对图像的纠正局限于缩放、旋转和平移。在深度学习网络中使用STN(Spatial transformer networks)网络可以做这样的纠正。
3.jpg
使用STN学习仿射变换系数
MORN形状矫正方法

该文作者基于分解的思想,提出了一种像素级预测的纠正模型,首先将文本图像分解为多块小图像,然后对每块小图像回归偏移量,并对偏移量进行平滑操作,再在原图像上进行采样,得到新的形状更加规则的水平文本。

4.jpg
整体网络结构

5.jpg
MORN网络结构

6.jpg
矫正的文本图像示例

然后作者设计了基于注意力机制下的识别算法ASNR。

6.jpg
ASRN网络结构

最终的MORAN算法在多个数据集上均超越了state-of-the-art。

实验结果

7.jpg

8.jpg

作者称论文投稿时达到多个数据集当时最高准确率。

最新改进

该文已被Pattern Recognition录用,近期升级的MORAN v2版又做了多项改进:
(1)增强了MORN网络的稳定性,降低了训练难度,实现了单步训练;
(2)使用ResNet替换VGG作为骨干网络;
(3)借鉴了白翔老师组PAMI2018论文中双向解码器思想。

更新后精度如下:
9.jpg


论文及代码地址

https://arxiv.org/abs/1901.03003
https://github.com/HCIILAB/MORAN_v2
https://github.com/Canjie-Luo/MORAN_v2

回复

使用道具 举报

81

主题

162

帖子

493

积分

推广大使

积分
493
发表于 2019-1-27 10:48:57 | 显示全部楼层
只是文本检测
还是
连识别都一起做了?

回复

使用道具 举报

81

主题

162

帖子

493

积分

推广大使

积分
493
发表于 2019-1-27 10:49:12 | 显示全部楼层
这个东西
应用是很多的
比如
出国的翻译眼镜
回复

使用道具 举报

81

主题

162

帖子

493

积分

推广大使

积分
493
发表于 2019-1-27 10:49:25 | 显示全部楼层
神器在手
再也不要问人了
回复

使用道具 举报

81

主题

162

帖子

493

积分

推广大使

积分
493
发表于 2019-1-29 10:14:37 | 显示全部楼层
ocr识别
是爬虫的重要技术
验证码是
人为制造门槛啊
回复

使用道具 举报

81

主题

162

帖子

493

积分

推广大使

积分
493
发表于 2019-1-29 10:14:54 | 显示全部楼层
这方面
一直是道高一尺魔高一丈
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

快速回复 返回顶部 返回列表