您好,欢迎来到爱够旅游网。
搜索
您的当前位置:首页汉语连续语音识别结果评价算法研究

汉语连续语音识别结果评价算法研究

来源:爱够旅游网
BROADBAND&DIGITAL CONTENT 宽带与数字内容 。引言 合的评价算法,第1V部分为算法实现,最后为总结。 II.传统语音识别结果评价算法 连续语音识别结果评价,主要用来完成连续语 音识别系统的性能评价,以及为语音识别后处理研 究(如置信度标注)提供有用的信息。在语音识别 系统性能评价中.通常只需要得到正确识别率(或 连续语音识别结果的评价,是通过将语音识别 输出序列和参考文本序列(正确标注文本)进行比 错误识别率)即可,而语音识别后处理通常需要更 为详细的信息,即确定每个字或词的具体识别结果 评价信息(共有四种情况:正确、插入错误、删除 错误、替代错误)。 传统的语音识别结果评价算法,通常采用动态 规划算法得到识别输出与参考文本之间的最佳匹配 结果,HTK中的HResults工具是完成这一算法的典 型代表[1]。在进行匹配时,匹配单元可以是词,也 可以是字、音素等,在汉语连续语音识别中,通常 采用字作为匹配单元,如863语音识别评测[2],而 基于音素的匹配通常是在只需要评价声学模型性能 的时候使用。基于词的匹配由于会产生一些错误匹 配,而很少使用。 由于语音识别中通常采用基于词的语言模型 [3],网络搜索也是分为词内和词间搜索进行的[1】 因此很多时候需要得到基于词的识别结果分析。例 如在语音识别的置信度研究中,相对于音节来说 词的置信度特征更容易获得,因此很多置信度研究 都是基于词来进行的[4,但是由于基于词的语音识 4]别结果评价不够准确,严重影响了置信度评价的性 能。因此.如何得到基于词的汉语语音识别结果评 价是一个值得研究的问题。 本文分析了基于词的汉语语音识别结果评价 产生错误的原因.对HTK的识别结果评价工具 HResults进行了改进 提出一种基于字词混合的语 音识别结果评价算法。该算法分为三个部分:基于 字词混合的匹配平面定义、多匹配路径及路径得分 函数设计。为了给语音识别后处理提供更多可用的 信息,论文对传统算法的替代错误情况进行了扩展, 增加了插入式替代错误和删除式替代错误,并设计 了基于发音基元的得分函数进行判断。实验表明, 本文所提算法可以有效降低传统评价算法带来的虚 假错误,提高基于词的汉语连续语音识别结果的评 价精度,并可为语音识别后处理提供更多可用的信 息。 论文安排如下,第1I部分介绍传统语音识别结 果评价算法。第1II部分介绍本文提出的基于字词混 较得到的。图1给出了这一问题的描述,其中横轴 T表示识别输出序列(Test),纵轴R表示参考文本序 列,ti表示识别输出序列T中的第i个匹配单元,rs 表示参考序列R中的第,个匹配单元。由于输出序 列和参考序列可以是词序列、音节序列或音素序列 等(二者一般采用相同的形式),因此匹配单元也可 以是词、宇、音素等。语音识别结果评价算法就是 要在R.T平面上找到一条最佳的匹配路径.使得沿 着这条路径的匹配得分最小,通常采用动态规划算 法进行匹配,HResults是实现这一算法的典型工具。 在该算法中,匹配路径和匹配得分的定义直接影响 匹配的结果,下面结合HResults进行说明。 2.1 HResults简介 HTK是一个构建隐马尔可夫模型(HMM)的工 具包,主要用于语音识别研究,HResults是HTK中 用于语音识别结果评价的工具[1]。 在HResults中,匹配路径只有三种:水平方 向、对角线方向和垂直方向。水平方向表示插入 错误(I),垂直方向表示删除错误(D),对角线方向 表示正确(识别输出与参考文本相同,Hit)或替代 (识别输出与参考文本不同,s)错误,如图2(a)所 示。针对不同的匹配路径采用不同的匹配得分,令 co表示路径匹配得分,则有C(H)=0 c(s):lO. C(D)=C(I)=7,如图2(b)所示。同时,HResults也支 持US NIST的匹配得分定义(3,3,4)。最佳匹配结 果是具有最小匹配得分的路径。 HResults支持word和sentence两个层次的结果 R rN tl 。 tM 图1识别结果i ̄ffl"问题 . 1 33 哼西逼怯 China Communications b.路径得分 图2匹配路径及路径得分 输出.其典型格式如下所示: ..........................................Overall Results........................................ SENT:%Correct=55.79『H=l2712,S=10073, N=227851 WORD:%Corr=87.58,Acc=86.47 fH=l55866, D=4874,S=I7223,I=1978,N=I779631 其中word是指匹配的基本单元.可以是任 意的单元,如音素、音节、词等。基于Word的 识别正确率%Corr(percentage correct)和识别精 度%Acc(percentage accuracy)定义如式(1)和式(2) 所示。 %Co :—N-D-S—×100% (1) N % cc:—N-D-S-I—×100% f2、 N 其中N表示参考文本中标注单元的总个数。 2.2词匹配的常见错误 在基于词的语音识别结果评价中.产生错误匹 配的原因主要有两个:一是分词的标准不统一,汉 语与西文不同,词之间没有明显的分界 需要进行 分词 而且汉语中构词比较灵活,造成分词结果的 不同 从而产生一些错误匹配;二是语音识别系统 的原因,语音识别输出得到的词经常和参考词不一 致,即使采用了相同的分词方法(算法、参数、参 考词典等等均相同) 例如参考文本[是][应][…的 邀请],被识别为[适应][…的邀请],这些造成很 多的虚假匹配错误,使得识别结果的评价不可信。 由于在封闭的实验中.分词标准不统一的问题可以 回避,因此本文重点考虑识别结果输出和参考文本 不一致的情况。 采用传统算法(HResults)对汉语语音识别结果 进行分析时,通常会在以下几种情况下产生虚假的 词匹配错误: 2010.4 (1)E1:13 VS 1,表示n个参考词被识别为一个词 输出(n 2),如参考文本的两个词[是】[应】被识 别为一个词[适应],此时进行匹配,会产生很多的 虚假删除、替代错误。 (2)E2:1 VSn,表示1个参考词被识别为n个词 输出(n 2) 如参考文本中的一个词[践踏]被识 别为两个词[件Ⅱ他],此时进行匹配,会产生很 多的虚假插入、替代错误。 (3)E3:n vs n 表示n个参考词被识别为n个词 输出(n 2),如[曾经】[使】被识别为[曾]【金石】, 此时进行匹配,会增加一些虚假的替代错误。 综上所述 在汉语语音识别的结果评价中 采 用传统算法进行基于词的结果分析时,会产生很多 虚假的匹配错误(D,I,s),特别是产生大量的虚 假D和I错误。这也是常见汉语语音识别结果评价 中匹配单元采用字的原因。 Il1.基于字词混合的语音识别结果评价算法 本文研究的问题是如何进行最佳词匹配,也就 是说参与匹配的识别输出序列和参考序列都是词序 列,为此将算法的目标确定如下: 目标1:完成词层匹配(传统功能) 目标2:能完成字一级的匹配(解决El—E3问题) 目标3:词匹配优先(保证正确的词匹配) 目标4:识别输出序列中的词要保持完整性 基于以上考虑,本算法从以下三个方面进行处 理。 3.1基于字词混合的R-T平面定义 为了便于描述,本文将r 和t 分别称为序列R 和序列T中的一个节点,则在传统基于词的匹配算 法中,一个节点就是一个词.一个节点也就是一个 匹配单元.而在本算法中,节点t 的含义不变,节 点 只表示参考序列 中的第 个字,不再表示一 个匹配单元。 为了能够同时进行字词匹配.必须按照字构建 匹配平面R—T,同时为了保证识别输出词的完整性, 本文提出了基于字词混合的匹配平面定义方法。具 体来说,T序列(即识别输出序列)保持不变,即按 照词进行匹配(目标1、目标4),R序列(即参考文 本序列)由词扩展为字(目标2),但保留词的信息(目 标1)。下面着重讨论R序列的扩展问题。 设R序列包含N个词 N 个字 在定义R—T 134 BROADBAND&DtGITAL CONTENT 宽带与数字内容 平面时.R轴按照字来进行构建,为了保留词的基 本信息,节点 定义为: (i一1,j) ,={Cha,, ,nw5,Location} (3) (i・1,j—1) 其中Chai表示R序列中的第,个字(音节), 表示Cha,所在的词,nwri表示词 的词长(以 字为单位,即包括多少个字).Location表示字Chaj 在词 中的位置,具体定义如下: 表1 Locationl ̄值 Location 词的开始 词的中间 词的结尾 单宇词 赋值 l 2 3 4 扩展后的R—T平面如图3所示。 3.2多匹配路径 为了进行字词混合匹配.需要设置合理的匹配 路径,本算法从目标1、目标2着手.对传统匹配 路径进行了修改,设计了多匹配路径。如图4所示, 图中f表示T序列中的第i个节点f ,表示R序列 中的第,个节点rj,nwti表示节点 的词长,图4中 共有a—f六条匹配路径,下面分别说明每条路径的 含义和解决的问题。 路径a:词插入路径(匹配结果为I,下同) 同 传统算法; 路径b:字词匹配路径(S或H).当nwti=1时, 同传统算法; 路径c:以 为标准的词词匹配路径(S或 H),即参考序列中的nwt 个字组成的词(设为 ={Cha 一.Cha,})与词ti进行匹配.当 nwti>1时存在,当nwli=1时,等同路径b; 路径d:以 所在的词 为标准的词词匹配路 径(S或H),即 与ti进行匹配,路径存在条件: 仅当 一>Location=3时存在 即路径d只当ri 位于词尾的时候才有效, Fi一>Location=4(即 nwri=1)时,等同路径b; R vN{rN 一厂一广一l … rj I I I 一广一广一I IV2 —广一广I一: -v {r F+-: 斗+一: T tl tra 图3基于字词混合的R T平面 (i-1,j-nwrj) 图4多匹配路径 应 是 e 适应 件 他 a.2vsl E1 b.1 vs2B c.2vs2E3 图5 E1.E3问题的解决 路径e:字删除路径(D).即删除一个字或一个 单字词; 路径 词删除路径(D),路径存在条件同路径d, 当 一>Location=4(即 =】)时,等同路径e: 路径a、b、e相当于传统算法中的三条路径, 在本算法中路径b、e主要完成字词匹配,其它路径 主要完成词词匹配。对于E1一E3问题的解决图示如 图5所示。 3.3路径得分函数设计 路径得分函数直接影响各条路径的优先度,从 而影响匹配的结果,本算法以目标3(即词匹配优先) 为出发点,设计合理的路径得分函数。主要解决单 一路径优先问题和组合路径的优先问题。设C(x)表 示路径X的得分函数,1TI表示当前识别输出词和参 考词之间的匹配情况,m=l表示匹配,m=0表示不 匹配。 ㈣ 1 35 呻园逼{专 China Communications e ;▲ 等 人 既 (a) 与 趸 1 图6多组合路径优先问题(3.3节)及常见的三种替 代错误(3.4节,a:GS b:DS c:Is) (1)单一路径优先问题:本着词匹配优先的原则, 对于相同性质的路径 本文令词词匹配和字词匹配 的基本路径得分相等,即 C )=C( )=C(/)=Oc c(6)=cI(c)=c( ) 1『 00c ,m竹:0=1 其中o[ <oc,(鼓励插入、删除路径)。 (2)多组合路径优先问题:多次匹配路径的组 合,应该保证最佳匹配的路径得分最小,图6给出 几种组合路径的情况.合理的路径得分函数应该使 得沿着对角线匹配的得分最小。图6(a)是有多种替 代路径同时存在的情况,为使对角线路径得分最小, 应该使得词长相同的匹配得分小于不同词长的匹配 得分.为此本文引入词长差异因子 ,定义匹配词 长差异得分(仅限于对角线方向匹配路径)为匹配 词长差异乘以 。此外.由图6(b)可知 戗 .由图 6(c)可知0c,— <2a1。 考虑以上条件,本文取以 :8,a2=10. =5。 最终的路径代价函数分为两部分,基本路径得分和 匹配词长差异得分,详细描述如式4所示。 C(a) C( C(f) , c(6) 11m=1 f   +f,十f  nwt0  1— l lxp0 (4) C(m=1 c)={f  0 l 2 m=0 0 m=1 cW1= I nwt —nwr;I 0 1 36 ㈣. 此外 为了防止某些非法匹配路径的存在,对 连续出现的删除路径(e或f)或连续出现的插入路径 (a)进行惩罚。以删除路径为例.对于连续出现的删 除路径,从第二个删除路径开始每个路径得分增加 惩罚因子0,即新路径得分为原始路径得分加0,0 取值应满足0<a ,本文取0 = 。 3.4.替代错误的扩展 3.4.1替代错误分析 在传统的连续语音识别结果评价中,存在着三 种常见的错误情况,即替代、插入、删除,在基于 词的识别结果评价中,替代错误有三种形式,简称 为GS(一般替代)、Is(插入式替代)和DS(删除式 替代),如图6所示。 其中,GS错误是正常的错误形式,也是出现 频率最高的,一般发生在词长相等的匹配中,而DS 和IS错误则发生在词长不相等的匹配中 如果识别 输出词长大于参考词长.则发生IS错误,反之则发 生DS错误,因此可以通过词长来区分三种替代错误。 从图6还可以看出,DS路径(即DS错误) 有时可以拆分为多种情况.如D+S(前删除)、 S+D(后删除)、S+D+S(中间删除,多字词情况) 等,Is路径也可以拆分为I+S(或I+H.前插入)、 S+I(或S+H.后插入)等。由于在语音识别后处理 研究中 通常以识别输出的词为基元 因此IS错误 没有必要进行拆分 而DS路径进行拆分则会使得 对识别输出词的评价更为准确。下面重点研究如何 将DS错误进行拆分的问题。难点在于DS错误发生 多为无法匹配的情况,即识别输出词与参考词或参 考词的局部均不相同,因此难以判断是D+S或者还 是S+D.对于多字词的判断更为困难。 本文引入基于发音基元的代价函数,使得某些 DS路径转变为D+S或S+D路径,即让D+S路径的 代价函数小于DS路径的代价函数,对于一些不能 区分的则判断为DS。 3.4.2基于发音基元的路径得分函数 汉语中每个字的发音可以用一个拼音来描述, 而且是典型的辅音(声母)+元音(韵母)结构,因 此对于不相同的汉字可以采用其拼音来判断是否一 致或相似。考虑到汉语的辅音发音时间比较短且不 稳定,元音发音时间长、幅度大且稳定,因此在比 较时采用不同的代价函数,即强调韵母的作用。 为了使得组合路径(D+S或S+D)的得分函数小 于DS路径的得分函数,需要修改等长匹配路径(即 匹配词长差异得分为0)且输出词与参考词不匹配情 BROADBAND&DIGITAL CONTENT 宽带 数字内容 ,L C 、JC  ,●●●●●●● ‘●●●,●l=  ,L 2 仅 (2)迭代 况下的代价函数,即当识别输出词长nwt =l时,修 2/ for(i=l:M,j=l:N。) 2 改路径b的代价函数.nwti>1时修改路径C的代价 2 一 按照式(8)计算局部最佳匹配得分g(iJ),按照 函数。 令init表示声母,final表示韵母.r表示参考, 式(9)保存局部最佳匹配路径qg(i,J); t表示识别输出,则rinit表示参考字的声母,L (3)回溯 p 3 ifnal表示识别输出字的韵母 则当识别输出词长 从 ( ,Ⅳ,)开始回溯,得到最佳匹配结果; / 2 )l ●I  ,,nwti=1时,有 (旺 /2)一2 r init--t init.r fina1一t final @ /2)一1 r initI_t init.r final==t final C(b)= C【√2 r init::I init.r fina1 I-t final (5) C【 r initI_t init r fina1『-t final 当输出词长 w >1时,令n_init、nfina1分别 表示输出词与参考词声母、韵母相同的个数,则总 相似度定义为: :!: ±三 !: (6) 3 xnwt ̄ 显而易见,O 1,则路径C的得分函数修改为: 3.5整体算法描述 令god)表示局部最佳匹配得分函数,即表示从 (0,0)点匹配到(iJ)点的最小得分,则有如式(8)所 示的迭代公式。 g(i,J)=min{g(x(i. ))+C( )} =a,b C,d,P,ff81 公式中 表示任一路径, ,『)表示以(f,『)为 终点的路径 的起点.例如当 时, f,『)=口( ,『) =( —l, ,当x=f时, ( . ): f, )=( -1, 一nwrj)。 在HResults中,通过保存方向信息来保存匹配 路径,本文所提算法中路径增加很多,HResults的 方法不再适用,本文设计了式(9)所示的局部最佳 匹配路径保存函数。 ( , )=argmin{g(x(i, ))+C( )) x(t,, X=以 b,c,d,e.f 若路径a得分最小,则 (f√)= (f,力=(f一1,J) 依此类推。 整体算法流程如下: (1)输入识别输出词序列(长度为M)和参考词 序列(词长度为N,字长度为N )按照图3构造R.T 平面.初始化; <一 (4)统计结果 > p< 根据公式(1)、(32).计算评价结果识别正确率  2 <一=== ,, 和识别精度; 3 (5)输出结果。 ,L 7、J  IV.算法实现 4.1实验数据 实验系统使用HTK搭建的汉语大规模连续语 音识别系统,采用声母、韵母作为声学模型基元, 每个基元包含5个状态,每个状态采用8个混合高 斯分量。训练语音语料来自于863语音库训练集女 声部分 测试集来自于863语音库测试集女声部分 (50组.每组520句) 语音特征采用39维MFCC 特征 包括对数能量 12维MFCC参数静态特征以 及其一阶、二阶差分特征。 4.2置信度标注系统 置信度,是指语音识别结果正确的可信程度, 是语音识别中非常重要的后处理过程。置信度标注 通常需要进行置信度特征提取和建立分类模型进行 置信度评估。置信度特征通常是从语音解码过程中 提取的一些信息,如后验概率[4]等。置信度分类 是指将语音识别结果分类为正确/错误两类(或分 为4类HSDI),常见的置信度分类模型有决策树、 SVM等[5]。在置信度分类器模型的训练和分类性 能的评价阶段 需要提供语音识别结果的正确评价。 图7给出一个语音识别置信度评价系统的示意图。 本文通过置信度标注实验来验证本文所提算法的有 效性。 在本文的置信度评价实验中,置信度特征采用 固 圉基 图7置信度标注系统框图 宙豳 ㈣. 1 37 呻国迤怯 China Communications 表5词匹配结果 基于词的5维特征,包括词后验概率、语速(字长 /帧)、词语言模型得分、声学模型得分和声学模型 准确对于语音识别置信度评价的影响是很大的,即 得分似然比。置信度分类只分为两类(正确/错误). 即将替代S、插入I归为错误类别.由于删除错误 无法提取特征,实际分类时没有考虑删除错误。分 类器采用SVM分类器,分为正确/错误两类,12 个女声数据共48126个词作为训练数据,其它38个 女声数据作为测试数据。 4.3实验结果 4.3.1语音识别结果评价实验 为了便于描述.将HResults工具所用算法称 为htk,本文第1II节所提算法称为MW1,采用式 (5)的MW1算法称为MW2,采用式(5)和式(7)的 MW1算法称为MW3。表5给出了词的语音识别评 价结果。由实验结果来看,本文所提算法均可以有 效降低插入、删除、替代错误,提高基于词的匹配 精度 其中MW1算法的性能最好,但评价结果不 够准确 即包含多种替代错误,由于MW2和MW3 算法可能将一个错误拆分为多个错误,因此在评价 结果性能上不如MW1.后面将结合置信度实验进 行评价。 MW2和MW3显著提高插入错误的个数,表明 可以有效解决DS错误的拆分问题,提高识别结果 评价的准确性。MW3算法性能不如MW2算法的原 因分析:在设计路径代价函数时,已经考虑词匹配 优先问题,即基本路径匹配得分均为0【:.因此式(7) (即MW3算法)所起的作用不大.甚至因为过于降 低词长大于1的匹配路径的代价函数,引起一些虚 假的匹配错误。 4.3。2置信度标注实验 本文做了4个置信度标注实验 如表6所示. 其中,Mw2 1与MW2 2的区别在于 MW2 2的 SVM训练数据中不包括DS.IS数据。由实验结果 可以看出,采用本文的语音识别结果评价算法,可 以有效降低由识别结果匹配错误带来的坏样本影响, 而MW2 2方法的性能最好,也证明了本文所提算 法的有效性。 MW2实验的性能优于MW1,MW2—2实验的 性能优于MW2 l,都表明语音识别结果评价的不 1 38 更准确更细致的语音识别结果评价对于语音识别后 处理是非常有用的。 V.结论 本文提出了~种基于字词混合的汉语连续语音 识别结果评价算法,将识别结果评价由四种情况扩 展到六种情况(增加了插入式替代、删除式替代) 可以有效解决基于词匹配引起的虚假错误评价,从 而提高汉语连续语音识别结果的评价精度.为语音 识别后处理提供更多可用的信息 论文下一步的工作要对本文所提算法进行优化 和细化,使得连续语音识别结果的评价更详细、更 准确。呻西遣怯 参考文献 『1]S.Young et a1.,The HTK Book(for HTK Version 3.4), Speech Vision and Robotics Group,Cambridge University Engineering Department,December,2006. [2]Wang Xiangdong,Ruan Huanbo,Lin Shouxun, Qian Yuliang.Summary of Speech Recognition Evaluation, .http://forum.ict.ac.cn/uPfile/200605 l 61 55 3f.mf@ iqdd7wdu4bla47mdb li.doc. 【3】Zou Rong,Research on Statistical Language Model of Large—Vocobulary Continuous Speech Recognition System, Master thesis,BUPT,China。2006. f41 Rong Zhang and Alexander I.Rudnieky.Word l eve 1 confidence annotation using combination of features.fA]Proc. ofEuroSpeech,.『C1 Scandinavia,2001 [5】F.wessel,R.Schluter,K.Macherey,H.Ney. Confidence measures for large VOCabulary continuous speech recognition. J]IEEE Trans.Speech Audio Process.200 1. 9r31.288—298 『作者简介』 ,男,副教授,博士,北京邮电大学,主要研究 方向为模式识别、语音信号处理、音频信息检索。 陈伟,男,博士研究生,北京邮电大学,主要研究方 向为模式识别,机器学习 郭军,男,教授,博士生导师,北京邮电大学信息 与通信工程学院院长,主要研究方向为模式识别理论与应 用、信息检索、基于内容的信息安全、网络管理。 

因篇幅问题不能全部显示,请点此查看更多更全内容

Copyright © 2019- igbc.cn 版权所有 湘ICP备2023023988号-5

违法及侵权请联系:TEL:199 1889 7713 E-MAIL:2724546146@qq.com

本站由北京市万商天勤律师事务所王兴未律师提供法律服务