语音文本串的解析方法和装置的制造方法

文档序号：9417408阅读：273来源：国知局

语音文本串的解析方法和装置的制造方法
【技术领域】
[0001]本发明涉及语义分析技术，尤其涉及一种语音文本串的解析方法和装置。
【背景技术】
[0002]目前，基于语音识别的应用由于其使用便利性，已得到广泛的应用。用户在输入语音时通常以口语化的方式表达其意图，因此在将用户的语音转换为语音文本串后进行解析时，需要使用适于口语表达的解析方式。
[0003]规则匹配是口语化语义解析比较常用的方法，使用预先编制好的规则串与(语音转换后的)语音文本串进行字符串匹配。
[0004]现有的用于口语解析的正则表达式通常是以非常抽象的方式呈现出来的。例如，假设要解析发短信的命令，则需要这样编写规则:“(给)C +)(发I回)(信息I短信)”或/和“(发I回)(信息I短信)(给)(.+)”，并将所述规则存入数据库。当用户语音录入“给刘德华发短信”时，在将所述语音转换为相应的文本串后，可匹配上前者的规则，进而给出解析结果。
[0005]目前的正则表达式的编写和维护存在以下缺点:
[0006]首先，正则表达式的编写规则抽象难懂，而且容易发生编写错误。
[0007]其次，现有的方案需要将关键词直接写入正则表达式中，例如“(信息I短信)”，而且很多正则表达式都包含同样的关键词。那么，当修改、添加、删除关键词的时候，就需要操作很多个正则表达式，非常繁琐。
[0008]再次，对于要提取的参数，现有的基于正则表达式的方法都是通过参数的顺序来表示，例如，在“(给)(.+)(发I回)(信息I短信)”中，用第二个参数来表示要提取的参数。这导致了每次编写正则表达式都要去数参数的顺序，容易出错。
[0009]最后，随着需要进行语义解析的领域的增加，要编写的正则表达式也越来越多，有效地管理和维护编写的正则表达式成为一个契待解决的问题。

【发明内容】

[0010]本发明的目的在于，提供一种语音文本串的解析方法和装置，通过结构化形式来表达和管理正则表达式，以有效地管理和维护编写的正则表达式。
[0011 ] 根据本发明的一方面，提供一种语音文本串的解析方法，其特征在于，所述方法包括:获取待解析的语音文本串；将所述语音文本串与预设的多个正则表达匹配模板进行匹配，获取匹配的正则表达匹配模板的信息，其中，所述正则表达匹配模板以结构化形式表达，在第一结构化标签中描述正则表达式的规则字符串序列，在至少一个第二结构化标签中表示所述规则字符串序列中相应的匹配字符串；输出所述匹配的正则表达匹配模板的信息。
[0012]优选地，在所述第二结构化标签中还包括所述匹配字符串的替换字符串的信息。其中，在所述将所述语音文本串与预设的多个正则表达匹配模板进行匹配的处理中，对于任一匹配字符串，将所述语音文本串中相应的字符串与所述匹配字符串以及其替换字符串进行匹配。
[0013]优选地，在所述第一结构化标签中，所述正则表达式的规则字符串序列中待提取的参数以变量表达，并且在第三结构化标签中描述与待提取的参数相应的变量的信息。
[0014]优选地，所述将所述语音文本串与预设的多个正则表达匹配模板进行匹配的处理还包括:根据所述第一结构化标签中的变量从所述语音文本串提取符合相应的第三结构化标签中的描述的参数数据；所述输出所述匹配的正则表达匹配模板的信息的处理还包括:输出提取的参数数据。
[0015]优选地，在第四结构化标签中描述所述正则表达匹配模板表示的用户意图的数据。相应地，所述将所述语音文本串与预设的多个正则表达匹配模板进行匹配的处理还包括:提取与所述匹配的正则表达匹配模板相应的第四结构化标签的数据；所述输出所述匹配的正则表达匹配模板的信息的处理还包括:输出所述正则表达匹配模板表示的用户意图的数据。
[0016]所述结构化形式可以是XML语言格式，所述正则表达匹配模板可以是DOM树。
[0017]根据本发明的另一方面，还提供一种语音文本串的解析装置。所述装置包括:语音文本串获取单元，用于获取待解析的语音文本串；正则表达匹配单元，用于将所述语音文本串与预设的多个正则表达匹配模板进行匹配，获取匹配的正则表达匹配模板的信息，其中，所述正则表达匹配模板以结构化形式表达，在第一结构化标签中描述正则表达式的规则字符串序列，在至少一个第二结构化标签中表示所述规则字符串序列中相应的匹配字符串；正则表达输出单元，用于输出所述匹配的正则表达匹配模板的信息。
[0018]优选地，在所述第二结构化标签中还包括所述匹配字符串的替换字符串的信息。其中，正则表达匹配单元用于对于任一匹配字符串，将所述语音文本串中相应的字符串与所述匹配字符串以及其替换字符串进行匹配。
[0019]优选地，在所述第一结构化标签中，所述正则表达式的规则字符串序列中待提取的参数以变量表达，并且在第三结构化标签中描述与待提取的参数相应的变量的信息。
[0020]优选地，所述正则表达匹配单元还用于根据所述第一结构化标签中的变量从所述语音文本串提取符合相应的第三结构化标签中的描述的参数数据；所述正则表达输出单元还用于输出提取的参数数据。
[0021]优选地，在第四结构化标签中描述所述正则表达匹配模板表示的用户意图的数据；相应地，所述正则表达匹配单元还用于提取与所述匹配的正则表达匹配模板相应的第四结构化标签的数据；所述正则表达输出单元还用于输出所述正则表达匹配模板表示的用户意图的数据。
[0022]所述结构化形式可以是XML语言格式，所述正则表达匹配模板可以是DOM树。
[0023]根据本发明示例性实施例的语音文本串的解析方法和实现所述方法的装置通过构建结构化形式的正则表达匹配模板的方式，使得正则表达式的表达和管理规范、简单。通过结构化形式编写的规则也更为直观，容易理解。此外，基本的结构化标签可被重复利用，更提高了管理效率。
[0024]此外，通过例如XML可扩展标记语言构建和管理正则表达式，与其他编程语言或软件工具之间的兼容性强，使得如此编写的正则表达式可用性强。
【附图说明】
[0025]图1是示出根据本发明的基本构思编写的正则表达匹配模板的示例；
[0026]图2是示出根据本发明的示例性实施例一的语音文本串的解析方法的流程图；
[0027]图3是示出根据本发明的示例性实施例二的语音文本串的解析装置的逻辑框图。
【具体实施方式】
[0028]本发明的基本发明构思是，以结构化形式的正则表达匹配模板来描述正则表达式，使用结构化标签(第一结构化标签)描述正则表达式的，并且通过至少一个另一种结构化标签(第二结构化标签)来分别表示所述规则字符串序列中的各匹配字符串。这样，在结构化标签中描述的规则字符串序列直观、易懂，隐藏了所述规则字符串序列中的匹配字符串的复杂度，同时通过第二结构化标签表示的所述匹配字符串还可在多个正则表达匹配模板重复被使用，提高了正则表达式的可复用性和可维护性。
[0029]此外，使用变量来表达所述正则表达式的规则字符串序列中待提取的参数，并且还通过再另一种结构化标签(第三结构化标签)描述与待提取的参数相应的变量的信息。由此，通过正则表达匹配模板还可提取出输入的语音文本串中的参数数据，如变量名称(即

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：时培轩;
技术所有人：百度在线网络技术（北京）有限公司;
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。