强观臣,张丽真,杨茜,熊炜,李利荣.基于多模态迭代及修正的文本识别算法[J].光电子激光,2024,35(5):525~535
基于多模态迭代及修正的文本识别算法
Text recognition algorithm based on multimodal iteration and correction
投稿时间:2023-04-17  修订日期:2023-06-21
DOI:
中文关键词:  场景文本识别  动态卷积  注意力模块  外部注意力机制  编码器
英文关键词:scene text recognition  dynamic convolution  attention module  external attention mechanism  encoder
基金项目:国家自然科学基金(62202148)、 湖北省自然科学基金(2019CFB530)、 湖北省科技厅重大专项(2019ZYYD020)和国家留学基金(201808420418) 资助项目
作者单位
强观臣 湖北工业大学 电气与电子工程学院湖北 武汉 430068 
张丽真 湖北工业大学 电气与电子工程学院湖北 武汉 430068 
杨茜 湖北工业大学 电气与电子工程学院湖北 武汉 430068 
熊炜 湖北工业大学 电气与电子工程学院湖北 武汉 430068
湖北工业大学太阳能高效利用及储能运行控制湖北省重点实验室湖北 武汉 430068
湖北工业大学 新能源及电网装备安全监测湖北省工程研究中心湖北 武汉 430068
美国南卡罗来纳大学 计算机科学与工程系南卡罗来纳州 29201 
李利荣 湖北工业大学 电气与电子工程学院湖北 武汉 430068
湖北工业大学太阳能高效利用及储能运行控制湖北省重点实验室湖北 武汉 430068 
摘要点击次数: 167
全文下载次数: 3
中文摘要:
      针对场景文本识别在长距离建模时容易产生信息丢失和对低分辨率文本图像表征能力较弱的问题,提出了一种基于多模态迭代及修正的文本识别算法。本文算法的视觉模型(vision model)是由CoTNet(contextual transformer networks for visual recognition)、动态卷积注意力模块(dynamic convolution attention module,DCAM)、EA-Encoder(external attention encoder)和位置注意力机制组合而成的。其中CoTNet可以有效起到缓解长距离建模产生的信息丢失问题;DCAM在增强表征能力、专注于重要特征的同时,将重要的特征传给EA-Encoder,进而提高CoTNet和EA-Encoder之间的联系;EA-Encoder可以学习整个数据集上最优区分度的特征,捕获最有语义信息的部分,进而增强表征能力。经过视觉模型后,再经过文本修正模块(text correction model)和融合模块(fusion model)得到最终的识别结果。实验数据显示,本文所提出的算法在多个公共场景文本数据集上表现良好,尤其是在不规则数据集ICDAR2015上准确率高达85.9%。
英文摘要:
      A text recognition algorithm based on multimodal iteration and correction is proposed to address the problems that scene text recognition is prone to information loss when modeling over long distances and weak characterization for low-resolution text images.The visual model of the algorithm in this paper is a combination of contextual transformer networks for visual recognition (CoTNet),a dynamic convolutional attention module (DCAM),an external attention encoder (EA-Encoder),and a positional attention mechanism.The CoTNet can effectively alleviate the information loss problem arising from long-distance modeling.The DCAM enhances representation by focusing on the essential features while passing the critical components to the EA-Encoder,improving the connection between CoTNet and EA-Encoder.EA-Encoder learns the best distinguishing features on the entire dataset,capturing the most semantic information parts and thus enhancing representation.After the visual model,the text correction and fusion modules obtain the final recognition results.According to the experimental data,the algorithm proposed in this paper performs well on several public scene text datasets,especially on the irregular dataset ICDAR2015 with an accuracy of 85.9%.
查看全文    下载PDF阅读器
关闭

版权所有:《光电子·激光》编辑部  津ICP备12008651号-1
主管单位:天津市教育委员会 主办单位:天津理工大学 地址:中国天津市西青区宾水西道391号
技术支持:北京勤云科技发展有限公司