具有自校正与注意力机制相结合的场景文本检测
DOI:
CSTR:
作者:
作者单位:

(1.湖北工业大学 电气与电子工程学院,湖北 武汉 430068; 2.襄阳湖北工业大学产业研究院,湖北 襄阳 441003; 3.美国南卡罗来纳大学 计算机科学与工程系, 南卡罗来纳 哥伦比亚 29201)

作者简介:

熊 炜 (1976-),男,博士,副教授,硕士生导 师,主要从事数字图像处理和计算机视觉方面的研究.

通讯作者:

中图分类号:

基金项目:

国家自然科学基金(61571182,61601177)、国家留学基金(201808420418)、 湖北省自然科学基金(2019CFB530)、湖北省科技厅重大专项(2019ZYYD020)和襄阳湖北工业大学产业研究院科研项目(XYYJ2022C05)资助项目


Scene text detection with self-calibration and attention mechanism
Author:
Affiliation:

(1.School of Electrical and Electronic Engineering,Hubei University of Technol ogy,Wuhan,Hubei 430068, China;2.Xiangyang Industrial Research Institute, Hubei University of Technology, Xiangyang, Hubei 441003, China;3.Department of Computer Science and Engineering,University of South Carolina,Columbia,SC 29201, USA)

Fund Project:

  • 摘要
  • |
  • 图/表
  • |
  • 访问统计
  • |
  • 参考文献
  • |
  • 相似文献
  • |
  • 引证文献
  • |
  • 资源附件
  • |
  • 文章评论
    摘要:

    在日常生活中,存在着丰富的文本信息,对这些 信息的提取,能够极大地提高人们的生活品质。 但自然场景中文本信息表达形式丰富多样,文本形状各异,在检测过程中存在误检、文本区 域定位不准 问题。针对以上不足,本文提出了一种具有自校正与注意力机制相结合的文本检测方法。首 先,在ResNet50 骨干网络中嵌入自校正卷积(self-calibrated convolution,SConv) 及高效通道注意力(efficient channel attention,ECA) ,使网络能够校正全局无关信息的干扰,并集 中关注于文 本区域,提取更加丰富的语义信息;其次,在特征融合后加入协调注意力(coordinate attention,CA) ,纠正不同尺度的特 征图在融合 过程中产生的位置偏差。最后,通过修正后的特征图预测得到多个不同尺度的文本实例,采用 渐进尺度扩 展算法,求出最终检测到的文本实例。实验结果表明,在任意方向数据集ICDAR2015以及弯 曲文本数据 集Total-Text、SCUT-CTW1500上,相比于改进前的ResNet50综合指标F值分别提升了1.0%、5.4%,证明了 本方法具有良好的检测能力。

    Abstract:

    In daily life,there are rich text information,the extraction of such information can greatly improve people′s quality of life.However,there are va rious forms of text information expression and different text shapes in natural scenes ,which result in false detection and inaccurate location of text regions.In order to s olve these problems,this paper proposes a text detection method with self-calibration and attention mechanism.Firstly,the self-calibrated convolution (SConv) and efficient cha nnel attention (ECA) are embedded in the backbone of ResNet50 to correct the interference o f irrelevant global information and concentrate on the text area to extract more a bundant semantic information Secondly,coordinated attention (CA) is added after feature fusi on to correct the position deviation of feature map in different scale.Finally,sever al text instances of different scales are predicted by the modified feature map,and the final detected text instances are obtained by using the progressive scale expansion algorithm.The experimental results show that the comprehensive index F-measure is increased by 1.0%,5.2% and 5.4% respectively compared with the unmodified ResNet50 on the arbitrary direction data set ICDAR2015 and the curved text data set Total-Text and SCUT-CTW1500.It is proved that this method has good detection ability.

    参考文献
    相似文献
    引证文献
引用本文

孙鹏,刘粤,强观臣,熊炜,付尧,李利荣.具有自校正与注意力机制相结合的场景文本检测[J].光电子激光,2022,33(12):1287~1295

复制
分享
文章指标
  • 点击次数:
  • 下载次数:
  • HTML阅读次数:
  • 引用次数:
历史
  • 收稿日期:2022-03-04
  • 最后修改日期:2022-04-11
  • 录用日期:
  • 在线发布日期: 2022-12-13
  • 出版日期:
文章二维码