一种基于声纹选择词汇的方法、设备及存储设备与流程

文档序号:16047169发布日期:2018-11-24 10:58阅读:241来源:国知局

本发明涉及地质领域,尤其涉及一种基于声纹选择地质词汇的方法、设备及存储设备。

背景技术

地学数据采集过程中的智慧化是建设地学大数据中的一个基础环节,在地质生产的实际过程中占据重要地位。以往因为地学环境的复杂性,在野外使用语音录入系统时,周围不同的难以预料的地质环境可能存在风声、雨声、动物声等,又或是在矿场或是油田环境下,又存在着大量运作的机器噪声,都会为后期语音系统的准确识别产生较大的阻碍与难度;现如今,移动设备的应用多样性和灵活性可以帮助解决在地质信息化过程中遇到的来源于基层的前端技术困难,即地质信息的采集和控制问题,语言识别技术是解决移动设备交互问题的重要途径,随着地质现代化进程的不断深入,其在地质信息领域的重要性越来越突出,但基于移动设备的语音识别距离实用化还有一定距离,主要存在地质专业的词汇识别不准确及识别效率低的问题。因此,亟需研究一种新的方法来降低野外地学数据的采集难度,提高其采集效率与采集信息的准确度。



技术实现要素:

为了解决上述问题,本发明提供了一种基于声纹选择词汇的方法、设备及存储设备,一种基于声纹选择词汇的方法,主要包括以下步骤:

s101:通过机器学习及深度学习建立一个环境声识别系统;

s102:根据所述环境声识别系统,过滤掉录入的环境声,使录入的声音中仅保留人的语音;

s103:根据事先建立的多个用户的声纹模型,确定所述某个用户录入的语音所对应的专业领域;其中,一个声纹模型为一个用户的声纹特征与专业领域之间的对应关系;

s104:识别出所述某个用户录入的语音发音,根据识别出的语音发音从词库中筛选出匹配的词汇;

s105:将筛选出的词汇进行排序显示;排序显示时,所述某个用户录入的语音所对应的专业领域对应的词汇优先进行显示。

进一步地,在步骤s103中,所述词库是将已知的现行地质词汇国家标准构建基础地质字典库采编入库,实现基本词汇的查询。

进一步地,在步骤s104中,筛选出的词汇需要进行以下操作:

s201:判断与所述某个用户录入的语音匹配的词汇是否存在?若是,则到步骤s202;若否,则到步骤s203;

s202:判断匹配的词汇是否为首次使用的词汇?若是,则到步骤s204;若否,则到步骤s205;

s203:利用其它输入法在词库中添加与所述用户录入的语音匹配的词汇,并保存;再到步骤s206;

s204:匹配的词汇随机进行排序;

s205:判断匹配的词汇是否与所述某个用户上次的匹配的词汇相同?若是,则到步骤s206,若否,则到步骤s207;

s206:将上次与所述某个用户录入的语音匹配的词汇作为第一选择项;

s207:按照所述某个用户的使用词频数的由多到少,将与所述某个用户录入的语音匹配的词汇进行排序,以便于所述用户进行选择;其中,每个用户的使用词频数是在同一个终端上独立进行存储;

s208:获取所述某个用户选择的词汇,并保存;

s209:动态更新词库,并对词库进行云端备份和手动备份。

进一步地,在步骤s204中,通过数据训练得到所述某个用户的语言模型,对所述某个用户的使用词频数进行统计并实时进行更新。

一种存储设备,所述存储设备存储指令及数据用于实现一种基于声纹选择词汇的方法。

一种基于声纹选择词汇的设备,包括:处理器及所述存储设备;所述处理器加载并执行所述存储设备中的指令及数据用于实现一种基于声纹选择词汇的方法。

本发明提供的技术方案带来的有益效果是:便于多个用户使用,解决专业地学词汇语音识别准确率低的问题,降低野外地学数据的采集难度,提高其采集效率与采集信息的准确度。

附图说明

下面将结合附图及实施例对本发明作进一步说明,附图中:

图1是本发明实施例中一种基于声纹选择词汇的方法的流程图;

图2是本发明实施例中筛选出的词汇需要进行操作的流程图;

图3是本发明实施例中硬件设备工作的示意图。

具体实施方式

为了对本发明的技术特征、目的和效果有更加清楚的理解,现对照附图详细说明本发明的具体实施方式。

本发明的实施例提供了一种基于声纹选择词汇的方法、设备及存储设备。

请参考图1,图1是本发明实施例中一种基于声纹选择词汇的方法的流程图,具体包括如下步骤:

s101:通过机器学习及深度学习建立一个环境声识别系统;

s102:根据所述环境声识别系统,过滤掉录入的环境声,使录入的声音中仅保留人的语音;

s103:根据事先建立的多个用户的声纹模型,确定所述某个用户录入的语音所对应的专业领域;其中,一个声纹模型为一个用户的声纹特征与专业领域之间的对应关系;所述词库是将已知的现行地质词汇国家标准构建基础地质字典库采编入库,实现基本词汇的查询;

s104:识别出所述某个用户录入的语音发音,根据识别出的语音发音从词库中筛选出匹配的词汇;

s105:将筛选出的词汇进行排序显示;排序显示时,所述某个用户录入的语音所对应的专业领域对应的词汇优先进行显示。

请参见图2,图2是本发明实施例中筛选出的词汇需要进行操作的流程图,具体包括以下步骤:

s201:判断与所述某个用户录入的语音匹配的词汇是否存在?若是,则到步骤s202;若否,则到步骤s203;

s202:判断匹配的词汇是否为首次使用的词汇?若是,则到步骤s204;若否,则到步骤s205;

s203:利用其它输入法在词库中添加与所述用户录入的语音匹配的词汇,并保存;再到步骤s206;

s204:匹配的词汇随机进行排序;通过数据训练得到所述某个用户的语言模型,对所述某个用户的使用词频数进行统计并实时进行更新;

s205:判断匹配的词汇是否与所述某个用户上次的匹配的词汇相同?若是,则到步骤s206,若否,则到步骤s207;

s206:将上次与所述某个用户录入的语音匹配的词汇作为第一选择项;

s207:按照所述某个用户的使用词频数的由多到少,将与所述某个用户录入的语音匹配的词汇进行排序,以便于所述用户进行选择;其中,每个用户的使用词频数是在同一个终端上独立进行存储;

s208:获取所述某个用户选择的词汇,并保存;

s209:动态更新词库,并对词库进行云端备份和手动备份。

请参见图3,图3是本发明实施例的硬件设备工作示意图,所述硬件设备具体包括:一种基于声纹选择词汇的设备301、处理器302及存储设备303。

一种基于声纹选择词汇的设备301:所述一种基于声纹选择词汇的设备301实现所述一种基于声纹选择词汇的方法。

处理器302:所述处理器302加载并执行所述存储设备303中的指令及数据用于实现所述一种基于声纹选择词汇的方法。

存储设备303:所述存储设备303存储指令及数据;所述存储设备303用于实现所述一种基于声纹选择词汇的方法。

本发明的实施例提供一种基于声纹选择词汇的方法、设备及存储设备,比如,用户a录入一段语音,通过所述环境声识别系统,对所述语音进行识别,最终过滤掉录入的环境声,仅保留人的语音,因为一个声纹模型为一个用户的声纹特征与专业领域之间的对应关系,所以根据用户a的声纹特征所建立的声纹模型,可以确定用户a录入的语音所对应的专业领域,假如用户a是地质专业,则根据其专业,可以动态地建立地质专业方面的词库a1,词库a1是依据现行规程规范构建的基础地质字典库,用于根据勘探钻孔编录所涉及的数据字段,其中,词库a1中的部分词汇能够根据工程项目的特点进行自定义;对所述词库a1进行预处理,选择可以代表各类信息的样本,如地质编录本中岩性描述的内容或当地相关的地质资料等。

结合用户a录入的语音发音,从词库中筛选出匹配的词汇,就是在地质专业的词库a1中筛选与用户a录入的语音相匹配的地质词汇;首先判断与用户a录入的语音匹配的地质词汇是否存在?若不存在,则利用其它输入法在词库a1中添加与所述用户a录入的语音相匹配的词汇,并进行保存;词库a1中内容的添加或修改,使得词库a1的信息不断的进行丰富和扩充,以保证其广泛适用性,可采用关系数据库的方式对词库a1内容进行更新,将新添加的词汇信息作为关系数据库的条目添加到词库a1中。

针对用户a的语音识别词汇,通过数据训练得到用户a的语言模型,所述语言模型可以为n-gram、基于神经网络的语言模型等,用户语言模型的学习可以采取定期或者客户空闲的方式进行,以n-gram为例,可以对用户a的词库a1进行分词并统计使用词频数,词频数可以包括某一词汇在多用户的词库中出现的总词频数和出现在某个用户的词库中的词频数,将识别出的词汇按照汉字串与词库a1中的词条进行匹配;若存在,则判断匹配的地质词汇是否为首次使用的词汇?若是,则匹配的地质词汇随机进行排序;若否,则要判断匹配的地质词汇是否与上次匹配的地质词汇相同?若是,则将上次与用户a录入的语音匹配的地质词汇作为第一选择项,就是说,优先选择上次选择的地质词汇;若否,则按照用户a的使用词频数的由多到少,将与用户a录入的语音匹配的地质词汇进行排序,以便于用户a进行选择;相匹配的词汇的优先排序是随着使用词频数而实时改变。

最终获取用户a选择的地质词汇,并进行保存,并在结束后,动态更新词库,以保证所述词库a1的实时有效性;其中,动态更新词库的操作系统包括:分词系统、实体识别系统和后缀模型,分词系统和实体识别系统模块实现标记所需勘探的地区已有的地质编录本或基础地质资料作为基础文本的中包括的地质专业名称;其中,分词系统对所述词库a1中的文本进行分词,在分词过程中采用输入行为文本数据、自定义词库、设备文本数据、置信度高于预置阈值的语音识别文本等多种用户个性化数据进行用户语言模型的训练及对候选识别文本进行重新排序;后缀模型模块确定所述地质专业名称是否为该名称的全称,根据已有的专业名称后缀集合作为训练集合构建所述后缀模型,要求所述预设的训练集合包括多个已有地质专业名称的全称。在所述地质专业名称不是该名称的全称时,获取位于该地质专业名称之前满足预设条件的词语,将所述获取的词语和地质专业名称组成该地质专业词汇的全称,以此对不同工程项目进行定向化建立小型数据库,保证地质字典的广泛适用性;其中,全程判断的具体实现过程为:从所述后缀模型包括的至少一个已有地质专业词汇的后缀名称中获取后缀名称,所述后缀名称是已有地质专业名称的子串或该地质专业名称是该地质专业名称的子串;若该地质专业名称包括的第一文字数目不大于所述后缀名称包括的第二文字数目或该地质专业名称第一文字数目大于该地质专业名称第二文字数目且地质专业名称第一文字数目与所述第二文字数目之间的差值不大于预设阈值时,确定该地质专业名称不是它的全称;所述获取位于该地质专业名称之前满足预设条件的词语,包括:获取有效范围,所述有效范围为该地质专业名称与目标标点符号之间的文字,所述目标标点符号为该地质专业名称之前首次出现的标点符号,或者,所述有效范围为该地质专业名称与该地质专业名称所在段落的开始位置之间的文字;所述获取位于所述机构名称之前满足预设条件的词语,包括:获取位于该地质专业名称之前首次出现的名词词语,获取位于所述名词词语之前首次出现的非名词词语和获取位于所述非名词词语与该地质专业名称之间的词语。

最后对词库a1进行云端备份和手动备份,根据数据协同,可以对词库a1进行单一移动终端的数据库管理,也可以对不同移动终端的协同数据进行采集,实现了快速上传数据及多人、多机的数据同步。

本发明的有益效果是:便于多个用户使用,解决专业地学词汇语音识别准确率低的问题,降低野外地学数据的采集难度,提高其采集效率与采集信息的准确度。

以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1