搜索
您的当前位置:首页正文

一种基于深度学习的试卷手写英文字符识别方法及系统[发明专利]

来源:爱够旅游网
(19)中华人民共和国国家知识产权局

(12)发明专利申请

(10)申请公布号 CN 111639646 A(43)申请公布日 2020.09.08

(21)申请号 202010418152.9(22)申请日 2020.05.18

(71)申请人 山东大学

地址 250101 山东省济南市高新区舜华路

1500号(72)发明人 许信顺 蔡文睿 罗昕 (74)专利代理机构 济南圣达知识产权代理有限

公司 37221

代理人 祖之强(51)Int.Cl.

G06K 9/34(2006.01)G06K 9/68(2006.01)G06N 3/04(2006.01)G06N 3/08(2006.01)

权利要求书2页 说明书8页 附图2页

CN 111639646 A(54)发明名称

一种基于深度学习的试卷手写英文字符识别方法及系统(57)摘要

本公开提供了一种基于深度学习的试卷手写英文字符识别方法及方法,属于图像识别技术领域,获取待识别试卷图像;对获取的图像进行切割,得到试卷图像中的单词图像,利用训练好的基于注意力机制的神经网络模型对单词图像

其中,对获取的图进行识别,得到单词识别结果;

像进行切割,具体为对试卷图像进行二值化操作,切割试卷图像中的文本行,切割文本行图像中的英文单词;本公开采用基于动态行分割的英文文本行切割方法和基于注意力机制的单词序列识别方法,对弯曲文本实现了良好的分割效果,并有效提高了单词识别的准确率。

CN 111639646 A

权 利 要 求 书

1/2页

1.一种基于深度学习的试卷手写英文字符识别方法,其特征在于,包括以下步骤:获取待识别试卷图像;对获取的图像进行切割,得到试卷图像中的单词图像;

利用训练好的基于注意力机制的神经网络模型对单词图像进行识别,得到单词识别结果;

其中,对获取的图像进行切割,具体为对试卷图像进行二值化操作,切割试卷图像中的文本行,切割文本行图像中的英文单词。

2.如权利要求1所述的基于深度学习的试卷手写英文字符识别方法,其特征在于,对试卷图像进行二值化操作,具体为:将原始试卷图像转化为灰度图像,根据原始试卷扫描图像的特点,使用分量法,选择图像的色彩三个通道中的一个通道,采用OTSU算法将其转换为二值化图像。

3.如权利要求1所述的基于深度学习的试卷手写英文字符识别方法,其特征在于,切割试卷图像中的文本行,具体为:计算文本的水平投影,在水平方向对二值化之后的图像的像素灰度值进行加和操作,得到水平投影的数组;

计算分割线的起始位置,判断分割起始点的投影值是否为零,当分割起始点的投影值为零时,使用投影法对文本行进行分割,否则使用动态行分割法对文本行进行分割。

4.如权利要求3所述的基于深度学习的试卷手写英文字符识别方法,其特征在于,计算分割线的起始位置,具体为:

设置第一预设阈值,对投影数组进行遍历,找到投影数组中投影值小于第一预设阈值的所有部分,计算每一部分的最小值,记录最小值出现的点的纵坐标,作为候补分割起始点的集合;

计算相邻两个候补分割起始点之间的距离,得到所有相邻分割起始点之间的平均距离,根据平均距离得到第二预设阈值和第三预设阈值;

当相邻两个候补分割起始点之间的距离大于第二预设阈值时,则这两个后补分割起始点之间有另外一个分割起始点;

当相邻两个候补分割起始点之间的距离小于第三预设阈值时,则这两个后补分割起始点之中有一个多余的错误分割起始点;

或者,

切割文本行图像中的英文单词,具体为:计算文本行的垂直投影,然后对投影数据进行均值滤波,所述均值滤波为使用一个预设长度的滑动窗口在投影数组上滑动,计算窗口内投影值的平均值,并将其作为当前位置的投影值;

得到经过均值滤波处理之后的投影直方图后,找到所有投影值为零的点,若有连续的大于或者等于预设个数的坐标的投影值为零,则选择其中的一个横坐标作为单词分割的起始点,在垂直方向采用一刀切的方式完成单词分割;

或者,

所述动态分割法,具体为:

2

CN 111639646 A

权 利 要 求 书

2/2页

其中,当横坐标为x时,分割路线的纵坐标即为y(x),imgAbove和imgBelow分别为以坐标(x+n,y(x)-D)和(x+n,y(x)+D)为中心的(n+1)×(n+1)大小的矩形中前景像素灰度值的和,n的取值为平均笔画宽度,D为所有相邻分割起始点之间的平均距离,横坐标取x+n用于对分割路径进行预判。

5.如权利要求1所述的基于深度学习的试卷手写英文字符识别方法,其特征在于,所述神经网络模块为基于注意力机制的深度神经网络模型,包括CNN特征提取器、LSTM特征编码器和LSTM特征解码器;

所述LSTM特征编码器为双层双向的LSTM网络,所述LSTM特征解码使用Soft Attention机制。

6.如权利要求5所述的基于深度学习的试卷手写英文字符识别方法,其特征在于,所述CNN特征提取器采用改进的AlexNet神经网络,去掉AlexNet神经的三个全连接层,采用批标准化层代替AlexNet神经网络的局部响应归一化层。

7.如权利要求5所述的基于深度学习的试卷手写英文字符识别方法,其特征在于,带有Soft Attention机制的解码器在解码时,某一时刻的输入包括前一时刻的输出、前一时刻的隐藏状态以及对编码器生成的特征编码的每一部分进行加权求和得到的上下文序列信息。

8.一种基于深度学习的试卷手写英文字符识别系统,其特征在于,包括:数据获取模块,被配置为:获取待识别试卷图像;数据处理模块,被配置为:对获取的图像进行切割,得到试卷图像中的单词图像;识别模块,被配置为:利用训练好的基于注意力机制的神经网络模型对单词图像进行识别,得到单词识别结果;

其中,对获取的图像进行切割,具体为对试卷图像进行二值化操作,切割试卷图像中的文本行,切割文本行图像中的英文单词。

9.一种介质,其上存储有程序,其特征在于,该程序被处理器执行时实现如权利要求1-7任一项所述的基于深度学习的试卷手写英文字符识别方法中的步骤。10.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-7任一项所述的基于深度学习的试卷手写英文字符识别方法中的步骤。

3

CN 111639646 A

说 明 书

1/8页

一种基于深度学习的试卷手写英文字符识别方法及系统

技术领域

[0001]本公开涉及图像识别技术领域,特别涉及一种基于深度学习的试卷手写英文字符识别方法及系统。

背景技术

[0002]本部分的陈述仅仅是提供了与本公开相关的背景技术,并不必然构成现有技术。[0003]试卷手写英文字符的识别包括两大步骤,一个是将试卷中的英文单词切割出来,第二步就是要将切割出来的单词图片进行识别,转录成单词文本。[0004]单词分割通常分为两个步骤进行:先是对文本行的分割,然后是对文本行中单词的分割。[0005](1)文本行的分割,其基本思路是先找到分割的起始点,然后配合连通区法、动态规划等方法寻找分割线,根据寻找分割起始点方法的不同可以分为两种:基于投影法的分割方法和基于霍夫变化的分割方法。[0006](2)文本行中单词的分割,对于文本行中单词分割的方法较多,通常是由投影法、连通区法、基于距离的分割法以及基于识别的分割法等方法中一种或几种方法相结合,共同完成单词的分割。

[0007]本公开发明人发现,对于单词识别来说,根据单词识别过程中提取特征的不同,单词识别技术可以分为三种方法:基于结构特征的识别方法、基于统计特征的识别方法以及基于深度学习的识别方法。[0008](1)基于结构特征的识别方法多见于对单词中字符的识别,它的基本思想是将字符图像分割成更小的基元特征,如字体轮廓、字符骨架、分叉点、分叉数、字符凹点、字符凸点等特征,根据这些字符特有的基元对其进行分类识别。这种方法提取的都是可视化特征,可解释性强,但是提取特征的过程较为繁杂。[0009](2)基于统计特征的识别方法的基本思想是通过提取字符或单词图像的矩特征、对其进行K-L变换或傅里叶变换所产生的特征向量等全局特征以及对图像局部进行变换的灰度、投影、梯度等局部特征进行分类识别,但是这类特征可解释性较弱。[0010](3)基于深度学习的识别方法是将单词识别作为检索问题,通过检索的方式对单词进行识别的方法又称为Word Spotting,这种方式一般思路将单词图像与单词文本映射到同一个低维空间,识别时使用图片特征在单词文本特征库中检索,选择匹配度最高的单词文本作为输出,虽然这种方式识别的准确率高,但是无法识别不在单词库中的单词。发明内容

[0011]为了解决现有技术的不足,本公开提供了一种基于深度学习的试卷手写英文字符识别方法及系统,采用基于动态行分割的英文文本行切割方法和基于注意力机制的单词序列识别方法,对弯曲文本实现了更好的分割,并有效提高了单词识别的准确率。[0012]为了实现上述目的,本公开采用如下技术方案:

4

CN 111639646 A[0013]

说 明 书

2/8页

本公开第一方面提供了一种基于深度学习的试卷手写英文字符识别方法。

[0014]一种基于深度学习的试卷手写英文字符识别方法,包括以下步骤:[0015]获取待识别试卷图像;[0016]对获取的图像进行切割,得到试卷图像中的单词图像;[0017]利用训练好的基于注意力机制的神经网络模型对单词图像进行识别,得到单词识别结果;

[0018]其中,对获取的图像进行切割,具体为对试卷图像进行二值化操作,切割试卷图像中的文本行,切割文本行图像中的英文单词。[0019]作为可能的一些实现方式,对试卷图像进行二值化操作,具体为:将原始试卷图像转化为灰度图像,根据原始试卷扫描图像的特点,使用分量法,选择图像的色彩三个通道中的一个通道,采用OTSU算法将其转换为二值化图像。[0020]作为可能的一些实现方式,切割试卷图像中的文本行,具体为:计算文本的水平投影,在水平方向对二值化之后的图像的像素灰度值进行加和操作,得到水平投影的数组;[0021]计算分割线的起始位置,判断分割起始点的投影值是否为零,当分割起始点的投影值为零时,使用投影法对文本行进行分割,否则使用动态行分割法对文本行进行分割。[0022]作为进一步的限定,计算分割线的起始位置,具体为:[0023]设置第一预设阈值,对投影数组进行遍历,找到投影数组中投影值小于第一预设阈值的所有部分,计算每一部分的最小值,记录最小值出现的点的纵坐标,作为候补分割起始点的集合;

[0024]计算相邻两个候补分割起始点之间的距离,得到所有相邻分割起始点之间的平均距离,根据平均距离得到第二预设阈值和第三预设阈值;

[0025]当相邻两个候补分割起始点之间的距离大于第二预设阈值时,则这两个后补分割起始点之间有另外一个分割起始点;

[0026]当相邻两个候补分割起始点之间的距离小于第三预设阈值时,则这两个后补分割起始点之中有一个多余的错误分割起始点。[0027]作为进一步的限定,切割文本行图像中的英文单词,具体为:计算文本行的垂直投影,然后对投影数据进行均值滤波,所述均值滤波为使用一个预设长度的滑动窗口在投影数组上滑动,计算窗口内投影值的平均值,并将其作为当前位置的投影值;[0028]得到经过均值滤波处理之后的投影直方图后,找到所有投影值为零的点,若有连续的大于或者等于预设个数的坐标的投影值为零,则选择其中的一个横坐标作为单词分割的起始点,在垂直方向采用一刀切的方式完成单词分割。[0029]作为进一步的限定,所述动态分割法,具体为:

[0030]

其中,当横坐标为x时,分割路线的纵坐标即为y(x),imgAbove和imgBelow分别为以坐标(x+n,y(x)-D)和(x+n,y(x)+D)为中心的(n+1)×(n+1)大小的矩形中前景像素灰度值的和,n的取值为平均笔画宽度,D为所有相邻分割起始点之间的平均距离,横坐标取x+n

[0031]

5

CN 111639646 A

说 明 书

3/8页

用于对分割路径进行预判。

[0032]作为可能的一些实现方式,所述神经网络模块为基于注意力机制的深度神经网络模型,包括CNN特征提取器、LSTM特征编码器和LSTM特征解码器;[0033]所述LSTM特征编码器为双层双向的LSTM网络,LSTM特征解码使用Soft Attention机制。

[0034]作为进一步的限定,所述CNN特征提取器采用改进的AlexNet神经网络,去掉AlexNet神经的三个全连接层,采用批标准化层代替AlexNet神经网络的局部响应归一化层。

[0035]作为进一步的限定,带有Soft Attention机制的解码器在解码时,某一时刻的输入包括前一时刻的输出、前一时刻的隐藏状态以及对编码器生成的特征编码的每一部分进行加权求和得到的上下文序列信息。

[0036]本公开第二方面提供了一种基于深度学习的试卷手写英文字符识别系统。[0037]一种基于深度学习的试卷手写英文字符识别系统,包括:[0038]数据获取模块,被配置为:获取待识别试卷图像;[0039]数据处理模块,被配置为:对获取的图像进行切割,得到试卷图像中的单词图像;[0040]识别模块,被配置为:利用训练好的基于注意力机制的神经网络模型对单词图像进行识别,得到单词识别结果;[0041]其中,对获取的图像进行切割,具体为对试卷图像进行二值化操作,切割试卷图像中的文本行,切割文本行图像中的英文单词。[0042]本公开第三方面提供了一种介质,其上存储有程序,该程序被处理器执行时实现如本公开第一方面所述的基于深度学习的试卷手写英文字符识别方法中的步骤。[0043]本公开第四方面提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的程序,所述处理器执行所述程序时实现如本公开第一方面所述的基于深度学习的试卷手写英文字符识别方法中的步骤。[0044]与现有技术相比,本公开的有益效果是:[0045]1、本公开所述的方法、系统、介质及电子设备,采用基于动态行分割的英文文本行切割方法和基于注意力机制的单词序列识别方法,对弯曲文本实现了良好的分割效果,并有效提高了单词识别的准确率。[0046]2、本公开所述的方法、系统、介质及电子设备,相邻分割起始点之间的平均距离设定第二和第三预设阈值,实现了对相邻两个候补分割起始点之间是否有另外一个分割起始点以及相邻两个候补分割起始点之中是否有多余的错误分割起始点的区分,提高了分割的准确度。[0047]3、本公开所述的方法、系统、介质及电子设备,采用动态行分割法进行文本分割,充分利用了图像的整体特征和局部特征,整体特征是指图像的水平投影,根据水平投影计算分割起始点;局部特征是指候选分割线相邻的两条文本行的局部形态,可以根据局部特征实时调整分割路线,进一步的提高了分割的准确性。附图说明

[0048]构成本公开的一部分的说明书附图用来提供对本公开的进一步理解,本公开的示

6

CN 111639646 A

说 明 书

4/8页

意性实施例及其说明用于解释本公开,并不构成对本公开的不当限定。

[0049]图1为本公开实施例1提供的基于深度学习的试卷手写英文字符识别方法的流程示意图。

[0050]图2为本公开实施例1提供的LSTM特征编码器的结构示意图。[0051]图3为本公开实施例1提供的Soft Attention机制的示意图。具体实施方式

[0052]下面结合附图与实施例对本公开作进一步说明。[0053]应该指出,以下详细说明都是例示性的,旨在对本公开提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本公开所属技术领域的普通技术人员通常理解的相同含义。

[0054]需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本公开的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。[0055]在不冲突的情况下,本公开中的实施例及实施例中的特征可以相互组合。[0056]实施例1:[0057]如图1所示,本公开实施例1提供了一种基于深度学习的试卷手写英文字符识别方法,包括以下步骤:[0058]步骤(1):获取待识别的试卷图像,切割出试卷图像中的单词。[0059]步骤(2):使用深度神经网络对单词图像进行识别。[0060]所述步骤(1)的具体过程为:[0061]步骤(1.1):对试卷图像进行二值化操作。[0062]首先将原始试卷图像转化为灰度图像,根据原始试卷扫描图像的特点,使用分量法,对图像的色彩三个通道选其一即可;然后使用OTSU算法将其转换为二值化图像。[0063]步骤(1.2):切割试卷图像中的文本行。[0064]详细过程如下:[0065]步骤(1.2.1):计算文本的水平投影。文本行的水平投影是指图像的前景区域的像素在水平方向上的灰度值之和,图像的水平投影可以使用数组存储,数组的长度为图像的高度。在水平方向对二值化之后的图像的像素灰度值进行简单地加和操作,即可得到水平投影的数组。

[0066]步骤(1.2.2):计算分割线的起始位置。[0067]计算候补分割起始点的位置。设置阈值P,对投影数组进行遍历,找到投影数组中投影值小于P的所有部分,记为Q={Q1,Q2...Qn},并计算每一部分的最小值,记录最小值出现的点的纵坐标,记为s={s1,s2...sn},将其作为候补分割起始点的集合,其中si表示第i个分割起始点的纵坐标。[0068]然而,仅仅通过投影确定的候补分割点并不准确,可能会漏掉某些点,也可能会将非起始点当作起始点,为此本实施例设计并实现了一种基于距离的方法对分割起始点进行修正。

7

CN 111639646 A[0069]

说 明 书

5/8页

计算相邻两个候补分割起始点之间的距离,用di表示第i个分割起始点和第i+1个

分割起始点之间的距离,并由此得到所有相邻分割起始点之间的平均距离D:[0070]若di>1.8×D,就可以判断第i个分割起始点和第i+1个分割起始点之间有另外一个分割起始点j,该分割点的纵坐标sj即为(si+si+1)/2,将sj加入候补分割起始点s;[0071]若di<0.5×D,就可以认为si和si+1中有一个为多余的错误分割起始点,此时可以通过比较在si和si+1位置的投影值的大小,若si处的投影值大于si+1处的投影值,就可以认为si为多余的错误起始点,将其从集合s中删除,反之亦然。[0072]步骤(1.2.3):判断分割起始点的投影值是否为0,分情况进行行分割。当分割起始点的投影值为0时,使用投影法对文本行进行分割。根据分割起始点的位置,在水平方向对文本行采取“一刀切”的方法进行分割;当分割起始点的投影值不为0时,说明相邻文本行之间存交错的情况,此时使用动态行分割法对文本行进行分割。[0073]动态行分割法充分利用了图像的整体特征和局部特征,整体特征是指图像的水平投影,根据水平投影计算分割起始点;局部特征是指候选分割线相邻的两条文本行的局部形态,可以根据局部特征实时调整分割路线,分割线的走向由imgAbove和imgBelow个区域像素的灰度值之和决定。[0074]动态行分割法的公式如(1)所示:

[0075]

其中,y(x)为分割路线,当横坐标为x时,分割路线的纵坐标即为y(x),下一步,即当横坐标为x+1时,分割路线的纵坐标为y(x+1)。[0077]如公式(2)、(3)所示,imgAbove和imgBelow分别为以坐标(x+n,y(x)-D)和(x+n,y(x)+D)为中心的(n+1)×(n+1)大小的矩形中前景像素灰度值的和,横坐标取x+n是为了对分割路径进行预判;B(x,y)为二值化图像B坐标(x,y)处的像素灰度值。n的取值为平均笔画宽度。经过测试,当D=5时,分割效果最好。

[0078]

[0076]

[0079][0080][0081]

步骤(1.3):切割文本行图像中的英文单词。

计算文本行的垂直投影,然后对投影数据进行均值滤波,均值滤波的具体操作方

法是:

使用一个长度为5的滑动窗口在投影数组上滑动,计算窗口内投影值的平均值,并

将其作为当前位置的投影值;得到经过均值滤波处理之后的投影直方图后,找到所有投影值为0的点;

[0083]若有连续的大于或等于N个坐标的投影值为0,则可选择其中的一个横坐标作为单词分割的起始点,在垂直方向采用“一刀切”的方式就可以完成单词分割。最后使用“一刀切”的方式对单词进行分割。经过测试当N=8时,整体的分割效果最佳。

8

[0082]

CN 111639646 A[0084]

说 明 书

6/8页

所述步骤(2)的具体过程为:

[0085]步骤(2.1):搭建基于注意力机制的深度神经网络模型。模型主要包括CNN特征提取器、LSTM特征编码器和LSTM特征解码器三部分。

[0086]本实施例所采用的CNN特征提取器由AlexNet改进而来,去掉了AlexNet的3个全连接层,并使用了批标准化层代替了AlexNet的局部响应归一化层。

[0087]本实施例所采用的LSTM特征编码器为双层双向的LSTM网络,其网络结构如图1所示。

[0088]

其中,{f0,f1...fn}为空间特征提取器提取的空间特征向量,表示第j层第i个

时刻的隐藏单元,{m0,mi...mn}为编码器生成的特征编码。

[0089]本实施例所采用的LSTM特征解码器使用了反向传播算法训练的Soft Attention机制。如图2所示,带有注意力机制的解码器在解码时,第t个时刻的输入除了t-1时刻的输出和t-1时刻的隐藏状态之外,还有对特征编码{m0,m1...mn}每一部分进行加权求和得到的上下文序列信息ct。

[0090]本实施例中的上下文信息的作用包括:[0091]a、实现对齐,如图2所示ct表示的就是上下文信息,LSTM编码器的输出有n+1个(从0到n),假如LSTM解码器的输入有x个,二者并不一定相等,这样就无法完成编码器的输出和解码器输入的对齐,而通过上下文信息ct,就可以将编码器所有的输出进行融合(每次融合的侧重点不同,表现在权重α生成x个上下文的信息,实现编码器的输出和解码器输i,j上),入的对齐;[0092]b、使用上下文信息就相当于做了一个“隐式”的语义纠正,举个简单的例子,考生在书写单词“eating”时不规范,“eating”写的像是“eatiog”,如果不根据上下文信息,单个识别的话第5个字母识别成“o”的概率就会很大,而如果考虑了上下文信息,识别第5个字母时也会考虑其他的字母,尤其是第4和第6个,这就更容易识别成“eating”。[0093]权重αi,j表现了编码器第j时刻隐藏层的输出对解码器第i时刻隐藏层的重要程度,例如图2中,αt,0就是指构成第t个上下文ct(解码器第t个时刻的输入)时编码器的第0个输出的权重。[0094]Soft Attention机制的公式如下:[0095]st=g(st-1,yt-1,ct)    (4)

[0096][0097][0098][0099]

其中,为t时刻第i个特征的得分,就是由归一化得到。Wa、Ua、ba即为解码器

要学习的参数,St-1是指解码器第t-1时刻的单元,St是指解码器第t时刻的单元。[0100]步骤(2.2):训练步骤(2.1)构建的基于注意力机制的神经网络模型,将标注好的单词图像数据集按照8∶1∶1分成训练集、验证集和测试集。数据集中的每张单词图片都将高度调整为32个像素,并保持其长宽比不变,为了能够对不同长度的单词图片进行批量处理,需要对单词图片在图片末尾补0,填充至512个像素。对于图片的标签,为了方便对字符的转

9

CN 111639646 A

说 明 书

7/8页

录,将所有字符都用数字代替,并在每个单词的开头和结尾添加开始标志和结束标志,各个字符的代表数字见表1。[0101]表1字符代表数字

字符代表数字(补0和空格)0120~93~12a~z13~38A~Z39~64.65-66

‘67

[0103]使用训练集对模型进行训练,训练时使用了Adam优化器对Sequence Loss进行优化,初始学习率为0.01,数据的Batch Size为256。每训练一轮,都将训练参数保存,直到模型收敛。

[0104]步骤(2.3):模型验证与测试。使用验证集选择最优的参数设置,最后使用测试集得到模型识别结果。[0105]实施例2:

[0106]本公开实施例2提供了一种基于深度学习的试卷手写英文字符识别系统,包括:[0107]数据获取模块,被配置为:获取待识别试卷图像;[0108]数据处理模块,被配置为:对获取的图像进行切割,得到试卷图像中的单词图像;[0109]识别模块,被配置为:利用训练好的基于注意力机制的神经网络模型对单词图像进行识别,得到单词识别结果;[0110]其中,对获取的图像进行切割,具体为对试卷图像进行二值化操作,切割试卷图像中的文本行,切割文本行图像中的英文单词。

[0111]所述系统的工作方法与实施例1中的基于深度学习的试卷手写英文字符识别方法相同,这里不再赘述。[0112]实施例3:

[0113]本公开实施例3提供了一种介质,其上存储有程序,该程序被处理器执行时实现如本公开实施例1所述的基于深度学习的试卷手写英文字符识别方法中的步骤,所述步骤为:[0114]获取待识别试卷图像;[0115]对获取的图像进行切割,得到试卷图像中的单词图像;[0116]利用训练好的基于注意力机制的神经网络模型对单词图像进行识别,得到单词识别结果;

[0117]其中,对获取的图像进行切割,具体为对试卷图像进行二值化操作,切割试卷图像中的文本行,切割文本行图像中的英文单词。

[0118]详细步骤与实施例中的基于深度学习的试卷手写英文字符识别方法的详细步骤相同,这里不再赘述。

10

[0102]

CN 111639646 A[0119]

说 明 书

8/8页

实施例4:

[0120]本公开实施例4提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的程序,所述处理器执行所述程序时实现如本公开实施例1所述的基于深度学习的试卷手写英文字符识别方法中的步骤,所述步骤为:[0121]获取待识别试卷图像;[0122]对获取的图像进行切割,得到试卷图像中的单词图像;[0123]利用训练好的基于注意力机制的神经网络模型对单词图像进行识别,得到单词识别结果;

[0124]其中,对获取的图像进行切割,具体为对试卷图像进行二值化操作,切割试卷图像中的文本行,切割文本行图像中的英文单词。[0125]本领域内的技术人员应明白,本公开的实施例可提供为方法、系统、或计算机程序产品。因此,本公开可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且,本公开可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。[0126]本公开是参照根据本公开实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。[0127]这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

[0128]这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

[0129]本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random AccessMemory,RAM)等。

[0130]以上所述仅为本公开的优选实施例而已,并不用于限制本公开,对于本领域的技术人员来说,本公开可以有各种更改和变化。凡在本公开的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本公开的保护范围之内。

11

CN 111639646 A

说 明 书 附 图

1/2页

图1

图2

12

CN 111639646 A

说 明 书 附 图

2/2页

图3

13

因篇幅问题不能全部显示,请点此查看更多更全内容

Top