一种自动生成基于地方方言的讯或询问笔录的方法与流程

文档序号:16684227发布日期:2019-01-19 00:47阅读:666来源:国知局
一种自动生成基于地方方言的讯或询问笔录的方法与流程

本发明专利涉及一种讯或询问笔录的方法,尤其涉及一种自动生成基于地方方言的讯或询问笔录的方法。



背景技术:

中国上下五千年,历史悠久,文化一脉相承,又地大物博,但是因为地域广阔所以各地也有各自的风俗习惯,同时也语言丰富多彩。

以杭州市萧山区为例,目前常住人口约150万人,随着萧山经济的迅猛发展,社会矛盾日益凸显,各类违法犯罪案件呈现逐年上升趋势。公安机关肩负的责任和承担的工作任务越来越重。多年来案多人少、办案力量不足,一直是基层比较突出的问题。办案力量不足,不仅影响本职工作的开展,还影响其他工作的有效发挥和齐头并进。如何提高工作效率以破解“案多人少”的难题,如何革新现有技术手段以简化工作人员办公过程,成为当前公安领域日益凸显的问题。公安民警在处理各种案件时都需要制作笔录,笔录是公安民警审讯过程中常用到的取证手段。目前很多地方的民警在制作笔录的时候普遍采用手写形式。由于传统手工笔录制作非常耗时,也容易存在字迹潦草、记录不完整、制作不规范等问题而严重影响笔录的质量和法律效力。采用语音识别技术(尤其是针对萧山方言的语音识别技术)实现交谈语音数据的实时自动内容识别,可以解放公安民警的双手,让公安民警专注案件的分析和侦查,方便警务人员迅速办理、审查案件,提高笔录制作的速度和效率。



技术实现要素:

本发明主要是解决现有技术中存在的不足,提供建立一套针对日常交谈、能够将报案人或嫌疑人说的任意连续语音通过计算机自动转写为对应的文字系统的一种自动生成基于地方方言的讯或询问笔录的方法。

本发明的上述技术问题主要是通过下述技术方案得以解决的:

一种自动生成基于地方方言的讯或询问笔录的方法,按以下步骤进行:

(一)、前端语音处理模块:

针对输入的语音,首先使用基于能量及模型的vad技术进行分段,再采用基于模型的聚类技术对原始语音中的人声、非语音、背景噪音相关现象进行自动判别及归类,再进一步针对不同说话人进行聚类,针对分割后的语音提取对语音识别有效的、对噪声鲁棒性较好的声学特征,同时为了消除不同说话人对识别效果的影响,首先会从特征域尽可能去除说话人的信息,主流的特征域处理方式包括vtln、hlda、特征域sat相关技术,通过这些关键技术的加入,可以获得冗余信息更少、说话人信息被去除的声学特征,为后续的语音识别做好准备;

(二)、后端语音识别模块:

为了将各语音转写关键技术点进行更好的整合,并综合考虑识别效果和识别效率相关因素,在系统中将使用多编解码框架:首先使用简单声学模型和低阶语言模型,简单声学模型是指模型复杂度较小、未去除说话人信息;低阶语言模型是指三阶且模型复杂度较小;并结合wfst解码器进行一遍的快速解码,并生成对应的词图空间,该词图空间具有覆盖性好、结构紧致的特点;

接着,将绝大多数对性能提升的核心技术点放到二遍解码中,包括特征规整、区分性特征、模型区分性训练、模型自适应,并在二遍解码中相应使用更加复杂的声学模型和超大规模高阶语言模型,在词图空间中采用重新打分的方式输出二遍解码结果;虽然二遍解码融入了各关键技术点,且模型复杂度相对于一编解码提升很多,但是由于基于该词图空间的搜索范围小了很多,二遍解码的效率非常高;基于上述多编解码框架,不仅能将各转写技术点的性能提升发挥出来,在效率上还有巨大的优势;

置信度判决是后端语音识别系统中重要的后处理模块,针对识别结果中可能出现的错误通过词后验概率技术给出识别结果对应的可信度得分,对可信度低的识别结果进行智能拒识;

语音识别在解码过程中会生成词图网格来表征可能的句子候选空间;词图网格中每条弧表示了词的声学和语言模型得分,一般而言每一时刻会有若干候选词,通过维特比前后向算法计算每个词的后验概率;识别最优结果是词图候选空间中的一条整体得分最大的路径,通过构成该句子的每个词的后验概率;

由于一遍置信度计算是定义在词图上,词图对多候选的覆盖度一般很难控制,存在计算不够精确的情况;此外每个词一般包含若干语音帧,时间精度也不够;在一遍解码的基础之上采用forcealignment的方案得到每个语音帧的时间状态信息,基于最优路径状态声学后验概率的几何平均构建第二个句子置信度;最终置信度是词图置信度和最优路径状态声学置信度的平均;此外在解码过程中,由于每条路径的状态置信度可以同步存储下来,所以两个置信度得分计算可以在一遍解码过程中完成从而不会对引擎效率带来大的影响;

(三)、模型训练模块:

①声学模型训练:

声学模型训练模块用于识别方言声学模型资源,主要是指针对音素、音节相关声学建模单元设计适合的模型分布,并使用相应的语音数据,实际是转化为上面提及的声学特征,对这些模型参数进行训练;声学模型是语音识别引擎中最重要的模块之一,其模型准确性直接影响了最终的识别效果;基于长短时记忆(lstm)的lstm-hmm混合模型的相关研究成为国际上研究的热点,其相当于传统hmm获得了显著的性能提升;除了针对传统hmm模型进行了一系列核心技术的研发,还对最新的研究热点lstm-hmm模型进行研发,具体的是基于海量数据的声学模型区分性训练;

声学模型的区分性训练是提升声学模型性能的最主要手段;除了采用mpe和boostedmmi相关训练准则算法,还在传统ebw参数更新算法的基础上提出称为constrainedlinesearch(cls)和trustregion(tr)的两种模型参数更新算法,使得区分性模型参数更具有理论性和可调配性,有效地提升区分性训练算法的效果;

接着,在获得大量讯或询问场景下海量声学数据的前提下,研发大数据量下的声学模型区分性训练,数据量为2000-5000小时声学数据:首先,针对竞争空间的生成规模进行仔细的调节,否则容易出现过训练或欠训练的现象,只有结合训练数据量仔细的控制区分性训练中积累的统计量,才能使得海量数据上的声学模型区分性训练相对于最大似然估计的基线系统获得合理的提升;另外,相对于最大似然基线系统,区分性训练是非常耗费机器资源的,通过对区分性训练流程的优化,显著提升训练过程的效率,使得海量数据基础上的区分性训练真正实用化;

②语言模型训练:

语言模型模块用于识别方言语言模型资源,语言模型主要是指针对词序列之间的组合建立相应的概率体系,以判断哪些词序列在识别过程中更容易出现;语言模型对词序列的预测能力直接影响着识别性能的好坏;采用基于海量文本数据的超大规模高阶语言模型,以及rnn语言模型;

基于海量文本数据的超大规模高阶语言模型训练:在传统任务中,训练文本一般控制在1g以内,且相应训练的语言模型规模一般控制在1mn-gram数目以内,此时已经能获得较饱和的识别性能;然而,在询问或讯问环境下,语音输入的内容是完全开放没有任何限制的,此时如果想针对开放性内容获得较好的识别效果,一方面必须要扩大训练语料的获取范围和数据量以提高响应模型的覆盖度,另一方面也要相应增加语言模型的复杂度以用更多的模型参数来对海量数据进行建模;

基于大量的讯或询问文本训练了超大规模的语言模型,超大规模是指100mn-gram,同时为了提升语言模型对更长词序列的覆盖性,语言模型的阶数从传统的3阶提升到5阶;然而,如此庞大的语言模型一般无法直接在解码器中使用,通过开发查分系统,以达到在二遍解码中用到此超大规模语言模型得分的目的;在已有研究成果表明,在使用了该超大规模语言模型以后,整体识别结果提升了绝对5个点以上,在较生僻词汇及说法的识别效果有了显著的改善;

③词典资源训练:

词典资源模块用于识别方言音字词典资源,词典资源模块包含系统所能处理的单词的集合,并标明了其发音;通过词典资源得到声学模型的建模单元和语言模型建模单元间的映射关系,从而把声学模型和语言模型连接起来,组成一个搜索的状态空间用于解码器进行解码工作;词典资源是存放所有单词的发音的词典,它的作用是用来连接声学模型和语言模型的;如,一个句子可以分成若干个单词相连接,每个单词通过查询词典资源得到该单词发音的音素序列;相邻单词的转移概率可以通过语言模型获得,音素的概率模型可以通过声学模型获得;从而生成了这句话的一个概率模型。

本系统开创性的将智能语音交互技术引入询问、讯问工作领域,通过语音转写辅助公安笔录快速制作。采用针对萧山方言的语音识别技术实现交谈语音数据的实时自动内容识别,可以解放公安民警的双手,让公安民警专注案件的分析和侦查。同时,讯(询)问过程全程留痕,变听为看,语音与文字联动,解决在笔录制作过程中发生的记录不全,描述不准等问题,方便民警快速了解案情的第一手资料,彻底解决笔录漏记、错记、回溯监督难等问题,全面提升公安机关依法履责、依法管理的能力和水平。口供证据和客观证据的结合应用,从源头提高证据的合法性、客观性和关联性,提高办案民警工作质效,促进司法公正。

本发明提供一种自动生成基于地方方言的讯或询问笔录的方法,进一步提高办事效率和准确性。

附图说明

图1是本发明的系统生成原理图;

图2是本发明的后端语音识别技术框图;

图3是本发明的体声学模型训练流程图。

具体实施方式

下面通过实施例,并结合附图,对本发明的技术方案作进一步具体的说明。

实施例1:如图所示,一种自动生成基于地方方言的讯或询问笔录的方法,按以下步骤进行:

(一)、前端语音处理模块:

针对输入的语音,首先使用基于能量及模型的vad技术进行分段,再采用基于模型的聚类技术对原始语音中的人声、非语音、背景噪音相关现象进行自动判别及归类,再进一步针对不同说话人进行聚类,针对分割后的语音提取对语音识别有效的、对噪声鲁棒性较好的声学特征,同时为了消除不同说话人对识别效果的影响,首先会从特征域尽可能去除说话人的信息,主流的特征域处理方式包括vtln、hlda、特征域sat相关技术,通过这些关键技术的加入,可以获得冗余信息更少、说话人信息被去除的声学特征,为后续的语音识别做好准备;

(二)、后端语音识别模块:

为了将各语音转写关键技术点进行更好的整合,并综合考虑识别效果和识别效率相关因素,在系统中将使用多编解码框架:首先使用简单声学模型和低阶语言模型,简单声学模型是指模型复杂度较小、未去除说话人信息;低阶语言模型是指三阶且模型复杂度较小;并结合wfst解码器进行一遍的快速解码,并生成对应的词图空间,该词图空间具有覆盖性好、结构紧致的特点;

接着,将绝大多数对性能提升的核心技术点放到二遍解码中,包括特征规整、区分性特征、模型区分性训练、模型自适应,并在二遍解码中相应使用更加复杂的声学模型和超大规模高阶语言模型,在词图空间中采用重新打分的方式输出二遍解码结果;虽然二遍解码融入了各关键技术点,且模型复杂度相对于一编解码提升很多,但是由于基于该词图空间的搜索范围小了很多,二遍解码的效率非常高;基于上述多编解码框架,不仅能将各转写技术点的性能提升发挥出来,在效率上还有巨大的优势;

置信度判决是后端语音识别系统中重要的后处理模块,针对识别结果中可能出现的错误通过词后验概率技术给出识别结果对应的可信度得分,对可信度低的识别结果进行智能拒识;

语音识别在解码过程中会生成词图网格来表征可能的句子候选空间;词图网格中每条弧表示了词的声学和语言模型得分,一般而言每一时刻会有若干候选词,通过维特比前后向算法计算每个词的后验概率;识别最优结果是词图候选空间中的一条整体得分最大的路径,通过构成该句子的每个词的后验概率;

由于一遍置信度计算是定义在词图上,词图对多候选的覆盖度一般很难控制,存在计算不够精确的情况;此外每个词一般包含若干语音帧,时间精度也不够;在一遍解码的基础之上采用forcealignment的方案得到每个语音帧的时间状态信息,基于最优路径状态声学后验概率的几何平均构建第二个句子置信度;最终置信度是词图置信度和最优路径状态声学置信度的平均;此外在解码过程中,由于每条路径的状态置信度可以同步存储下来,所以两个置信度得分计算可以在一遍解码过程中完成从而不会对引擎效率带来大的影响;

(三)、模型训练模块:

①声学模型训练:

声学模型训练模块用于识别方言声学模型资源,主要是指针对音素、音节相关声学建模单元设计适合的模型分布,并使用相应的语音数据,实际是转化为上面提及的声学特征,对这些模型参数进行训练;声学模型是语音识别引擎中最重要的模块之一,其模型准确性直接影响了最终的识别效果;基于长短时记忆(lstm)的lstm-hmm混合模型的相关研究成为国际上研究的热点,其相当于传统hmm获得了显著的性能提升;除了针对传统hmm模型进行了一系列核心技术的研发,还对最新的研究热点lstm-hmm模型进行研发,具体的是基于海量数据的声学模型区分性训练;

声学模型的区分性训练是提升声学模型性能的最主要手段;除了采用mpe和boostedmmi相关训练准则算法,还在传统ebw参数更新算法的基础上提出称为constrainedlinesearch(cls)和trustregion(tr)的两种模型参数更新算法,使得区分性模型参数更具有理论性和可调配性,有效地提升区分性训练算法的效果;

接着,在获得大量讯或询问场景下海量声学数据的前提下,研发大数据量下的声学模型区分性训练,数据量为2000-5000小时声学数据:首先,针对竞争空间的生成规模进行仔细的调节,否则容易出现过训练或欠训练的现象,只有结合训练数据量仔细的控制区分性训练中积累的统计量,才能使得海量数据上的声学模型区分性训练相对于最大似然估计的基线系统获得合理的提升;另外,相对于最大似然基线系统,区分性训练是非常耗费机器资源的,通过对区分性训练流程的优化,显著提升训练过程的效率,使得海量数据基础上的区分性训练真正实用化;

②语言模型训练:

语言模型模块用于识别方言语言模型资源,语言模型主要是指针对词序列之间的组合建立相应的概率体系,以判断哪些词序列在识别过程中更容易出现;语言模型对词序列的预测能力直接影响着识别性能的好坏;采用基于海量文本数据的超大规模高阶语言模型,以及rnn语言模型;

基于海量文本数据的超大规模高阶语言模型训练:在传统任务中,训练文本一般控制在1g以内,且相应训练的语言模型规模一般控制在1mn-gram数目以内,此时已经能获得较饱和的识别性能;然而,在询问或讯问环境下,语音输入的内容是完全开放没有任何限制的,此时如果想针对开放性内容获得较好的识别效果,一方面必须要扩大训练语料的获取范围和数据量以提高响应模型的覆盖度,另一方面也要相应增加语言模型的复杂度以用更多的模型参数来对海量数据进行建模;

基于大量的讯或询问文本训练了超大规模的语言模型,超大规模是指100mn-gram,同时为了提升语言模型对更长词序列的覆盖性,语言模型的阶数从传统的3阶提升到5阶;然而,如此庞大的语言模型一般无法直接在解码器中使用,通过开发查分系统,以达到在二遍解码中用到此超大规模语言模型得分的目的;在已有研究成果表明,在使用了该超大规模语言模型以后,整体识别结果提升了绝对5个点以上,在较生僻词汇及说法的识别效果有了显著的改善;

③词典资源训练:

词典资源模块用于识别方言音字词典资源,词典资源模块包含系统所能处理的单词的集合,并标明了其发音;通过词典资源得到声学模型的建模单元和语言模型建模单元间的映射关系,从而把声学模型和语言模型连接起来,组成一个搜索的状态空间用于解码器进行解码工作;词典资源是存放所有单词的发音的词典,它的作用是用来连接声学模型和语言模型的;如,一个句子可以分成若干个单词相连接,每个单词通过查询词典资源得到该单词发音的音素序列;相邻单词的转移概率可以通过语言模型获得,音素的概率模型可以通过声学模型获得;从而生成了这句话的一个概率模型。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1