[关闭]
@w460461339 2018-11-30T15:03:32.000000Z 字数 2392 阅读 2218

通用OCR-文本检测:DMPNET,RRPN,SegLink

MachineLearning


1、DMPNET

1.1 参考

https://blog.csdn.net/Jean_0724/article/details/78011800
https://blog.csdn.net/yaoqi_isee/article/details/73432759

http://xueshu.baidu.com/s?wd=paperuri:%28fc1365402d076d88ecd526e4bc1de069%29&filter=sc_long_sign&tn=SE_xueshusource_2kduw22v&sc_vurl=http://arxiv.org/abs/1703.01425&ie=utf-8&sc_us=13753494221714436567

1.2 原理

论文里也没有说网络结构,感觉和anchors-based的网络结构不会有太大的创新点。

我猜是基于SSD的方法,来进行的改进?

主要创新点在以下几个方面:

2、RRPN

2.1 参考

https://zhuanlan.zhihu.com/p/39717302

2.2 原理

别人的总结:

1、本文基于Faster-RCNN框架的RPN的改进的,提出了RRPN,使其适应任意方向的文本行检测

2、与CTPN相比,RRPN采用的是旋转anchor,用于检测任意方向的文本行;而CTPN采用的是垂直anchor,用于检测水平方向的文本

3、与TextBoxes++相比,同样采用的是旋转矩形框实现任意方向的文本行检测,但是其表示方法不一样;对于RRPN,其旋转矩形框是用 (x,y,h,w,\theta) 表示,而TextBoxes++的旋转矩形框用 (x_1,y_1,x_2,y_2,h) 表示
3.1 参考

https://zhuanlan.zhihu.com/p/37781277

思路清奇

3.2 原理

一次性定位整个文本区域有困难,那么就分块定位,然后把属于同一个文本的内容链接起来就好了。

image_1cocs44v5egvuab1c1m1oo01ejpp.png-280.2kB

Seg预测:

link预测:

输出维度:

1、对于conv4_3:其预测输出维度为: 2+5+2\times8=23 ,因为该层没有cross-layer link 

2、对于conv7, conv8_2, conv9_2, conv10_2, conv11,其预测输出维度为: 2+5+2*8+2*4=31 

image_1cocs5bb31gg91qeh6ctbua1iun1j.png-56.7kB

添加新批注
在作者公开此批注前,只有你和作者可见。
回复批注