语音识别语义处理系统及其方法与流程

文档序号:17973022发布日期:2019-06-21 23:37阅读:385来源:国知局
语音识别语义处理系统及其方法与流程

本发明涉及电话机器人领域,更详而言之地涉及一语音识别语义处理系统及其方法,用于处理电话机器人语音识别结果的谐音,避免错误的语义理解而播放错误的语音,提高电话机器人的智能性。



背景技术:

人工智能是目前新一轮产业变革的核心驱动力,正在对世界的经济、社会的进步和人类的生活产生极其深刻的影响。生活中,人工智能的运用无处不在,例如指纹识别、人脸识别、智能搜索引擎以及语音识别等等。

电话机器人也是人工智能的一部分,近年来也越来越被相关企业关注,尤其是电话销售相关的企业。从事电话销售和电话客服的员工压力非常大,无法长时间保持工作热情,也会经常遭遇恶劣的对话,容易产生情绪波动,后期或丧失工作热情,陷入效率低下成本升高的恶性循环。对企业而言,招聘到从事电话销售和电话客服的员工很难,离职率也居高不下,同时市场竞争激烈,业务人数不够,客户难寻,如果采用人工筛选意向客户,时间利用率低,企业投入成本大,且工作效率随众多客观因素而下降,影响到企业销售业绩。所以用电话机器人代替人工从事电话销售和电话客服,可以大大减轻企业和员工的压力,可以做到24小时在线服务,并且无需顾虑恶劣对话对员工带来的影响。

市场上,目前所有的电话机器人都采用关键字匹配技术实现对客户语音的语义理解。即将客户的语音通过语音识别成文字后,通过关键字匹配语音库里的语音,并将匹配到的语音播放以实现智能语音回复。但是中国语音语言博大精深,不仅有近义词,同样的意思有不同的表达方式,还有同音不同字,同样的发音却代表了不同的意思。而关键字匹配技术识别较为单一,很容易将语义理解错误,进而匹配了不对应、不合适的语音,导致电话机器人播放的语音并不是对客户语音的合适回答,客户体验感差,智能性不强。

举例说明,“感兴趣”和“有兴趣”两个词都表示客户有意向,将这两个词作为关键字匹配所得的录音,是进一步对产品的介绍等(称为录音a)。但是如果客户说的是“不感兴趣”或者“没有兴趣”,表示的是客户并不想进一步了解产品。此时如果电话机器人采用关键字匹配技术,很有可能匹配错误,将“不感兴趣”或者“没有兴趣”的表达与录音a匹配,进而播放录音a,就是对语义理解错误。

此外,由于同音字和近义词等谐音,语音识别技术所识别的结果发生错误的概率很大,这对后续语义理解也产生影响。例如客户语音所说的“zhaojingli”有可能会被识别为“找经理”也有可能会被识别为“赵经理”,而关键字匹配技术根据“找经理”和“赵经理”所匹配的录音不同,也就是语义理解会不同。又例如,“公司”和“铺子”是近义词,“地点”和“地方”是近义词,客户语音说的是“铺子的地点”,其想表达的语义意思与“公司地址”相同,而如果关键字匹配技术只是将“公司地址”设为关键字,就无法为“铺子的地点”这个语音匹配到说明具体位置的录音(称为录音b)。也就是说,尽管“铺子的地点”和“公司地址”在实际汉语中所表达的语义相同,逻辑上应该都是匹配录音b,但是对于关键字匹配技术,这两个是不同的两个语义,就有可能匹配不同的录音,“铺子的地点”无法匹配录音b,这并不是智能电话机器人智能性的体现。

综上所述,现有的电话机器人无法对语音识别结果的谐音进行处理,且采用的关键字匹配技术有很大的出错率,导致语义理解产生偏差的可能性很大。所以,需要对电话机器人进行改进,提高电话机器人的合理性、逻辑性和智能性。



技术实现要素:

本发明的一个目的在于提供一语音识别语义处理系统及其方法,其中所述语音识别语义处理系统对语音识别所得一语音识别结果中的同音字或近义词等谐音进行处理,以进行正确的语义理解,降低谐音误导语义理解的可能性。

本发明的另一个目的在于提供一语音识别语义处理系统及其方法,其中所述语音识别语义处理系统基于整体语境理解语音识别结果,并对其中的谐音进行纠正,从而进行正确的语义理解,以保障整体理解的准确性和整个对话的协调性。

本发明的另一个目的在于提供一语音识别语义处理系统及其方法,其中所述语音识别语义处理系统利用词袋模型对语音识别结果进行理解,相比现有技术的关键字匹配技术,可以纵观全局,考虑整体语境。

本发明的另一个目的在于提供一语音识别语义处理系统及其方法,其中所述语音识别语义处理系统利用词袋模型对语音识别结果进行理解,相比现有技术的关键字匹配技术,良好地规避了汉语中文本前后倒置的问题对语音理解的影响,提供识别准确率。

本发明的另一个目的在于提供一语音识别语义处理系统及其方法,其中所述语音识别语义处理系统提供一基础词袋和多个扩展词袋,其中所述扩展词袋是所述基础词袋中的词关联的近义词或同音词等谐音,以使得语义向量转化的过程中,基础词和其关联的扩展词向量化成等值,从而获得相同的语义理解,降低谐音误导语义理解的可能性。

本发明的另一个目的在于提供一语音识别语义处理系统及其方法,其中所述扩展词袋被设置于所述基础词袋内,基础词和其关联的扩展词被设置为“或”关系,从而使得语义向量转化的过程中,基础词和其关联的扩展词向量化成等值。并且,此时所述扩展词袋占用空间小,向量化所用时间较短,效率更高。

本发明的另一个目的在于提供一语音识别语义处理系统及其方法,其中所述扩展词袋是所述基础词袋中的各个基础词和其关联的扩展词的笛卡尔积,以使得语义向量转化的过程中,谐音也可以被正确地理解,从而保证整个对话的协调性。

本发明的另一个目的在于提供一语音识别语义处理系统及其方法,其中所述语音识别语义处理系统提供一语义类别库,用于存储一电话机器人所用领域的常用语和专业用于等话术分类,从而为一语义确定模块,根据语义向量化值确定语义所属分类,进而确定语义理解,匹配对应的回应录音。

本发明的另一个目的在于提供一语音识别语义处理系统及其方法,其中所述语音识别语义处理系统利用贝叶斯和逆文本频率指数,对向量化的语义进一步理解、分析和确定,加强对区别文档最有意义的词语的权重,使得语义理解更加准确和更具协调性。

本发明的另一个目的在于提供一语音识别语义处理系统及其方法,其中扩展词袋与所采用的语音识别技术出错范围相关联,避免盲目地添加扩展词,使得各个基础词和其关联的各个扩展词更具针对性,提高语义理解效率和正确率。

本发明的另一个目的在于提供一语音识别语义处理系统及其方法,其中所述语音识别语义处理系统可以适用各种语音识别技术,对语音识别技术的并不限定,并可以针对不同的语音识别技术,设定对应的扩展词袋,适用范围更广,更灵活。

为了实现以上至少一个目的,依本发明的一个方面,本发明进一步提供一适用于一语音识别语义处理系统,包括:

一词袋模块,用于存储所述语音识别语义处理系统所需词;

一语义向量转换模块,其中所述语义向量转换模块根据所述语音识别语义处理系统所需词将一语音识别结果向量化;

一语义类别库,包括多个语义类别;以及

一语义确定模块,其中所述语义确定模块根据所述语音识别结果的向量化值,确定所述语音识别结果在所述语义类别库中所述语义类别,形成一语义类别信息,以确定所述语音识别结果的语义,匹配一应答语音。

根据本发明的一个实施例,所述词袋模型包括一基础词袋和至少一扩展词袋,其中所述基础词袋包括多个基础词,所述扩展词包括所述基础词袋包括一基础词谐音关联的至少一扩展词,其中所述语义向量转换模块根据所述基础词袋和所述扩展词袋,使扩展词和基础词向量化为相同值。

根据本发明的一个实施例,所述扩展词袋对应地被设置于所述基础词袋内,其中基础词和其关联的扩展词被设置为或关系,从而使扩展词和基础词向量化为相同值。

根据本发明的一个实施例,所述词袋模块是所述基础词袋中的各个基础词和其关联的扩展词的笛卡尔积,从而使扩展词和基础词向量化为相同值。

根据本发明的一个实施例,所述扩展词袋与所述语音识别结果的出错范围相关联。

根据本发明的一个实施例,所述语义确定模块利用贝叶斯,根据所述语音识别结果的向量化值,确定所述语音识别结果在所述语义类别库中所述语义类别,形成所述语义类别信息。

根据本发明的一个实施例,所述语义确定模块利用贝叶斯和逆文本频率指数,根据所述语音识别结果的向量化值,确定所述语音识别结果在所述语义类别库中所述语义类别,形成所述语义类别信息。

根据本发明的一个实施例,所述语义类别库的语义类别对应于所述电话机器人应用领域和行业话术。

根据本发明的一个实施例,所述语音识别语义处理系统进一步包括一语音识别模块,其中所述语音识别模块将一客户语音识别成文字,形成所述语音识别结果。

根据本发明的一个实施例,所述语音识别语义处理系统进一步包括一应答录音匹配模块和一应答录音库,其中所述应答录音库包括多个应答录音,每个所述应答录音和对应的所述语义类别关联,其中所述答录音匹配模块根据所述语义类别信息,在所述应答录音库中匹配对应的所述应答录音,形成一应答录音信息。

根据本发明的一个实施例,所述语音识别语义处理系统进一步包括一放音模块,其中所述放音模块根据所述应答录音信息播放对应的所述应答录音。

依本发明的另一个方面,本发明进一步提供一语音识别语义处理方法,包括步骤:

(a)根据一词袋模块存储的处理语音识别语义所需词,向量化一语音识别结果,形成一语音识别结果向量化值;和

(b)根据所述语音识别结果向量化值,确定所述语音识别结果所属的语义类别,形成一语义类别信息。

根据本发明的一个实施例,所述步骤(a)进一步包括步骤:

(a.1)设定一基础词袋和至少一扩展词袋,其中所述扩展词袋是所述基础词袋中的一基础词谐音关联的扩展词,形成所述词袋模块,以使扩展词和基础词的向量化结果相同。

根据本发明的一个实施例,所述步骤(a.1)中所述扩展词袋对应地被设置于所述基础词袋内,基础词和其关联的扩展词被设置为或关系。

根据本发明的一个实施例,所述步骤(a.1)中所述词袋模块是所述基础词袋中的各个基础词和其关联的扩展词的笛卡尔积。

根据本发明的一个实施例,所述步骤(b)进一步包括步骤:

(b.1)通过贝叶斯和\或逆文本频率指数,根据所述语音识别结果向量化值,确定所述语音识别结果所属的语义类别,形成所述语义类别信息。

根据本发明的一个实施例,在步骤(a)之前,所述语音识别语义处理方法进一步包括步骤:将一客户语音识别为文字,形成所述语音识别结果。

根据本发明的一个实施例,在步骤(b)之后,所述语音识别语义处理方法进一步包括步骤:

(c)根据所述语义类别信息,匹配对应的应答语音,形成一应答语音信息;

根据本发明的一个实施例,所述语音识别语义处理方法进一步包括步骤:

(d)根据所述应答语音信息播放对应的所述应答语音。

附图说明

图1是根据本发明的一个实施例的语音识别语义处理系统应用图。

图2是根据本发明的一个实施例的语音识别语义处理系统结构框图。

图3是根据本发明的一个实施例的语音识别语义处理系统的语义类别库和应答录音库的举例说明。

图4是根据本发明的一个实施例的语音识别语义处理方法的流程图。

具体实施方式

以下描述用于揭露本发明以使本领域技术人员能够实现本发明。以下描述中的优选实施例只作为举例,本领域技术人员可以想到其他显而易见的变型。在以下描述中界定的本发明的基本原理可以应用于其他实施方案、变形方案、改进方案、等同方案以及没有背离本发明的精神和范围的其他技术方案。

本领域技术人员应理解的是,在本发明的揭露中,术语“纵向”、“横向”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系是基于附图所示的方位或位置关系,其仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此上述术语不能理解为对本发明的限制。

可以理解的是,术语“一”应理解为“至少一”或“一个或多个”,即在一个实施例中,一个元件的数量可以为一个,而在另外的实施例中,该元件的数量可以为多个,术语“一”不能理解为对数量的限制。

如图1至图4所示,根据本发明的一较佳实施例的一语音识别语义处理系统及语义处理方法被阐述,以对语音识别所得文字中的同音字或近义词等谐音进行处理,以进行正确的语义理解,降低谐音误导语义理解的可能性。值得一提的是,本发明中谐音不仅包括同音字和近义词,还泛指所采用的语音识别成文字的技术中容易识别出错和混淆的词,例如发音相近的前后鼻音字、平舌音和翘舌音等。为了方便阐述和说明,本发明以同音字和近义词进行举例说明,并不是限制。

值得一提的是,本发明的所述语音识别语义处理系统优选地用于一电话机器人,以使电话机器人更智能地与客户互动。电话机器人根据客户资料,拨通客户电话,并在电话接通后播放预设的开场白,后续根据不同的场景话术,智能地应答。所述电话机器人可以智能地与客户互动,也可以从大量的客户资料中筛选出可能的意向客户并进行分类,从而便于销售或客服人员根据数据分析和通话记录进行有效地二次跟进。当本发明的所述语音识别语义处理系统应用于所述电话机器人时,可以使得所述电话机器人理解客户语音,更智能地应对不同的场景话术。

具体地,所述语音识别语义处理系统包括一语音识别模块10,用于将客户的语音识别成文字。也就是说,所述语音识别模块10接收一客户语音,将所述客户语音识别成一语音识别结果。所述语音识别结果以文字的形式表达。在本发明中,所述语音识别模块10所采取的技术方案并不限制,本领域技术人员可以采取其已知的或自行开发的技术方案,将所述客户语音转换成文字,形成所述语音识别结果。举例说明,所述语音识别模块10可以将所述客户语音解析为更小的声音单元,借助声学模型以及深度学习的数据模型,转换为对应的文字。

可以知道的是,中国语音语言博大精深,不仅有近义词,同样的意思有不同的表达方式,还有同音不同字,同样的发音却代表了不同的意思,再加上语音识别技术的局限性,所述语音识别模块10所识别的所述语音识别结果都会有出错的可能性。也就是说,所述语音识别结果所包含的被识别字很可能并不是和所述客户语音真正想表达的字一样。例如,所述客户语音为“能贷多少”,而由于同音字或语音识别技术的局限性,所述语音识别模块10识别出来的所述语音识别结果很可能是“能带多少”。如果采用现有技术的关键字匹配技术,“能贷多少”和“能带多少”属于不同的语义,也就无法通过“能带多少”匹配到本应匹配到的进一步对贷款详细说明的录音(称为录音c)。

而在本发明中,所述语音识别语义处理系统进一步包括一语义向量转换模块20和一词袋模块30,用于将所述语音识别结果向量化。即通过建立词袋模型将所述语音识别结果向量化,相比现有技术的关键字匹配技术,可以纵观全局,考虑整体语境。同时,利用词袋模型对语音识别所得文字进行理解,可以良好地规避了汉语中文本前后倒置的问题对语音理解的影响,提供识别准确率。

所述词袋模块30作为词典,存储了一电话机器人被应用领域和行业的相关话术的词,也就是组成该领域和行业的常用语、专业用语等的词。例如,金融贷款相关的公司,利用所述电话机器人为客户各种贷款项目。金融贷款的常用语有“我能贷多少”,对应地,所述词袋模块30作为字典,可能是{我能贷多少}。当然,此处只是举例说明而简化,一个行业和领域的相关话术可能有几百条,对应地,所述词袋模型30包含这些几百条的话术的所有的所需词,所包含的词也会数量庞大,例如可能是{我想贷款能多少项目银行……}。

所述语义向量转换模块20根据所述词袋模块30,将所述语音识别结果向量化。在本发明的一实施例中,当在所述词袋模块30中,所述语音识别结果中的文字出现一次,则所述语义向量转换模块20在对应位置标记1,如果出现两次则所述语义向量转换模块20在对应位置标记2。也就是说,所述语音识别结果向量化值表示的是所述词袋模块30的哪些词出现的次数。例如所述词袋模块30为{我能贷多少},所述客户语音为“能贷多少”,而所述语音识别结果识别正确为“能贷多少”,此时所述语音识别结果向量化后的结果为{0,1,1,1,1},此时不管所述语音识别结果是否前后倒置,其向量化后的结果都为{0,1,1,1,1},也就良好地规避了汉语中文本前后倒置的问题对语音理解的影响,提供识别准确率。

但是实际识别过程中,所述语音识别模块10很容易将“能贷多少”识别成“能带多少”。而“能带多少”向量化后的结为{0,1,0,1,1},和“能贷多少”本应的向量值{0,1,1,1,1}并不相同,这就导致后续匹配过程中,很可能无法匹配到本应匹配的录音c,从而发生语义理解错误。也就是说,现有的词袋模型虽然在一定程度上提高了识别准确率,但是对谐音处理仍有不足之处。

在本发明中,所述词袋模块30进一步包括一基础词袋31和至少一扩展词袋32,其中所述扩展词袋32是所述基础词袋31中的一基础词谐音关联的扩展词。例如,对于所述基础词袋31中基础词“贷”,其关联的扩展词有“带”和“借”,则所述基础词袋31中基础词“贷”的所述扩展词袋为{带借}。所以可以理解的是,所述基础词袋31的可能有多个基础词都有关联的扩展词,则对应地可能有多个关联的扩展词袋32。

值得一体的是,所述扩展词袋32与所述语音识别模块10采用的语音识别技术出错范围相关联。也就是,所述语音识别模块10所采用样本覆盖较少,训练过程中就会发现所述语音识别模块10出错范围可能就较大,例如除了“带”,“贷”还有可能被误识别为“袋”、“待”等。此时基础词“贷”的所述扩展词袋32{带借袋待}。或者所述语音识别模块10所采用样本覆盖多,识别效果好,出错范围较低,例如基础词“贷”被识别为“带”的情况最多,其他很少会失误,则基础词“贷”的所述扩展词袋32就可以包括近义词和“带”,为{带借}。

所述扩展词袋32与所述语音识别模块10采用的语音识别技术出错范围相关联可以避免盲目地添加扩展词,使得各个基础词和其关联的各个扩展词更具针对性,提高语义理解效率和正确率,也可以节约更多的空间。也就是说,所述语音识别模块10可以适用各种语音识别技术,对语音识别技术的并不限定,并可以针对不同的语音识别技术,所述词袋模块30被设定对应的扩展词袋,适用范围更广,更灵活。

所述语义向量转换模块20根据所述基础词袋31和所述扩展词袋32,使得基础词和其关联的扩展词向量化成等值,从而获得相同的语义理解,降低谐音误导语义理解的可能性。也就是说,当所述客户语音为“能贷多少”时,不论是所述语音识别模块10是将其识别为“能贷多少”还是“能带多少”,所述语义向量转换模块20都可以向量化为相同的值,理解为相同的语义,从而均可以匹配至录音c,使得电话机器人更加智能。

在本发明的所述较佳实施例中,所述扩展词袋32对应地被设置于所述基础词袋31内,基础词和其关联的扩展词被设置为“或”关系,从而使得语义向量转化的过程中,基础词和其关联的扩展词向量化成等值。举例说明,所述词袋模块30为{我能{贷or借or带}多少}。此时,所述扩展词袋{带借}被设置于所述基础词袋31内,其中基础词“贷”和其关联的扩展词“带”、“借”相互之间是“或”的关系,也就是说,只要出现{贷or借or带}中一个,对应向量就为1,从而获得相同的向量化值,进行相同的语义理解。

具体地说,当所述客户语音为“能贷多少”时,如果所述语音识别模块10是将其识别为“能贷多少”,则所述语义向量转换模块20根据所述基础词袋31和所述扩展词袋32,向量化值为{0,1,1,1,1}。如果所述语音识别模块10是将其识别为“能带多少”,则所述语义向量转换模块20根据所述基础词袋31和所述扩展词袋32,向量化值为{0,1,1,1,1}。

当所述客户语音为“能借多少”时,所述语音识别模块10是将其识别为“能借多少”,而所述语义向量转换模块20根据所述基础词袋31和所述扩展词袋32,向量化值也为{0,1,1,1,1},和上述两个所述语音识别结果的向量化值相同,理解为相同的意思。

也就是说,对于所述语音识别模块10识别成的近义词和同音字等谐音,本发明的所述语音识别语义处理系统可以纠正为正确的语义理解,避免谐音对语义的影响。并且,本发明的较佳实施中,所述扩展词袋32占用空间小,向量化所用时间较短,效率更高。

在本发明的另一实施例中,所述基础词袋31和所述扩展词袋32是所述基础词袋中的各个基础词和其关联的扩展词的笛卡尔积,以使得语义向量转化的过程中,谐音也可以被正确地理解,从而保证整个对话的协调性。举例说明,基础词“公司”的扩展词有“商店”、“店铺”、“铺子”、“店家”、“商户”、“营业所”和“商厦”,以组成数组{公司商店店铺铺子店家商户营业所商厦}。而基础词“地点”的扩展词有“地方”和“地址”,以组成数组{地点地址地方}。则“公司地址”的所述基础词袋31和所述扩展词袋32是前述两个数组的笛卡尔积,其中{公司地址}即为所述基础词袋31,剩余的即为所述扩展词袋32。

在本实施例中,利用笛卡尔积将基础词袋31扩充,生成所述扩展词袋32,使得各种谐音情况都可以被向量化为相同的值,进而被理解为相同的意思,有效提高分类准确率。进一步,在本实施例中,所述扩展词袋32与所述语音识别模块10采用的语音识别技术出错范围相关联可以有效地避免不必要的数组组合,缩小所述词袋模块30,从而提高语义理解效率。

进一步,本发明的所述语音识别语义处理系统包括一语义确定模块40和一语义类别库50。所述语义确定模块40根据所述语音识别结果的向量化值,确定所述客户语音在所述语义类别库50中的所属语义类别,也就是确定所述客户语音的语义。

所述语义类别库50用于存储一电话机器人所用领域的常用语和专业用于等话术分类,即所用领域常见的不同语义。换句话说,所述语义类别库50包括多个语义类别51。每个所述语义类别51相互之间语义不同,对应地匹配不同的应答语音。例如在金融贷款领域,所述语义类别库50可能存储的语义类别有“一年多少利息?用半年多少利息?一个月多少利息?”、“利息怎么这么低?”、“无业游民、没有工作、贷不了款、信用不好”和“需要哪些资质”等等语义类别。可以知道的是,所述语义类别库50针对不同的使用者、不同的领域都有可能不同,可以被针对性地设置和存储对应的内容。

所述语义确定模块40根据所述语音识别结果的向量化值,确定所述客户语音所属语义类别,也就确定所述客户语音的语义。在本发明的所述较佳实施例中,基于所述语音识别结果的各个词之间无关联的假设,所述语义模块40分析所述语音识别结果属于哪一个所述语义类别51的概率最大,即可确定所述语音识别结果所属语义类别。

例如,所述词袋模块30为{我能{贷or借or带}多少},所述客户语音为“能贷多少”,所述语音识别模块10是将其识别为“能带多少”,则所述语义向量转换模块20根据所述基础词袋31和所述扩展词袋32,向量化值为{0,1,1,1,1}。所述语义确定模块40根据向量化值为{0,1,1,1,1},基于所述语音识别结果的各个词之间无关联的假设,计算分析属于哪一个所述语义类别51的概率最大。例如,根据向量化值为{0,1,1,1,1},所述语义确定模块40确定所述语音识别结果属于“可以贷多少”这个一语义类别51的可能最大。

优选地,所述语义确定模块40利用贝叶斯,计算所述语音识别结果的向量化值属于每个类别的概率,从而取最大值对应的所述语义类别51作为确定语义。相比现有技术的关键字单一匹配,利用贝叶斯分析可以提高语义理解的准确率。优选地,所述语义确定模块40利用贝叶斯和和逆文本频率指数,对向量化的语义进一步理解、分析和确定,加强对区别文档最有意义的词语的权重,使得语义理解更加准确和更具协调性。

本领域技术人员应知道的贝叶斯和逆文本频率指数的基本原理和内容,此处不再赘述。本领域技术人员应知道的此处贝叶斯和逆文本频率指数只是举例说明,并不是限制,本领域技术人员可以采用其他概率计算方法确定所述语音识别结果所属语义类别。

进一步,所述语音识别语义处理系统包括一应答录音匹配模块70和一应答录音库60,用于根据所述语义确定模块40确定的所述语义类别51,在所述应答录音库60匹配合适对应的应答录音61。

具体地,所述应答录音库60包括多个应答录音61。所述应答录音61为预先录制作为对所述客户语音回应和播放的录音。每个所述应答录音61和对应的所述语义类别51关联。例如在本发明的一实施例中,所述应答录音61和对应的所述语义类别51通过关联标识符关联,比如所述关联标识符被实施为录音序号,所述应答录音61和对应的所述语义类别51设有相同的录音序号。也就是说,所述应答录音61和所述语义类别51为一对一关系,每个所述语义类别51均设有对应的所述应答录音61作为回答。举例说明,所述语义类别51为“利息怎么这么低”,与所述应答录音61“因为我们对接的是银行内部渠道,担保方式为您进件,所以银行给的都是最低优惠政策”相关联,两者通过相同的编号“113”相关联,如图3所示。

所述应答录音匹配模块70根据确定的所述语义类别51,通过关联标识符,即可在所述应答录音库60匹配合适对应的应答录音61,形成一应答录音信息。举例说明,当所述语义确定模块40确定所述语音识别结果所属语义类别51为“可以贷多少”,则根据关联标识符“124”,可以在所述应答录音库60中匹配到对应的所述应答录音61“这个贷多少要根据你个人情况来定了,每个人情况都不同的”,并形成对应的所述应答录音信息,如图3所示。

所述应答录音信息可以包括但不限制所述应答录音61的存储地址、内容和编号等等。所述应答录音匹配模块70将所述应答录音信息发送至一放音模块80。所述放音模块80根据所述应答录音信息播放对应的所述应答录音61。至此,所述客户语音即可获得应答,而且在本发明的所述语音识别语义处理系统中,所述客户语音的所识别结果的谐音被处理,使得所述客户语音被更准确的理解,以使得获得的所述应答录音61更具针对性,也就使得电话机器人更具智能性,更趋于人性化。

根据本发明的另一方面,本发明进一步提供一语音识别语义处理方法,以实现本发明的目的和优势。所述语音识别语义处理方法可以被用于上述语音识别语义处理系统。如图4所示,为本发明的所述语音识别语义处理方法的流程图。

步骤110:接收一客户语音。

当电话机器人拨号和接通成功后,将客户(即接通电话的对方)所述的话录音为所述客户语音。部分电话机器人在电话接通后,可以先播放开场白录音,比如介绍身份和主要业务等。

步骤120:将所述客户语音识别为文字,形成一语音识别结果。

具体地,此处语音识别所采用的语音识别技术并不限定,本领域技术人员可以采用公知的或其自行开发的技术将所述客户语音识别为文字。值得一提的是,所述语音识别结果以文字形式表达。

可以知道的是,由于语音识别技术的局限和中文词汇的复杂,所述语音识别结果很有可能并不是完全和所述客户语音的内容一致,存在谐音的可能性很大。此处的谐音是泛指所采用的语音识别成文字的技术中容易识别出错和混淆的词,例如近义词、同音字、发音易出错的前后鼻音和平舌音和翘舌音等。

步骤130:根据一词袋模块,向量化所述语音识别结果,形成一语音识别结果向量化值。

具体地,此步骤可以利用词袋模型将所述语音识别结果向量化,从而所述语音识别结果向量化值表示的是所述词袋模块的哪些词出现的次数。本领域技术人员应知晓词袋模型的基本概念和内容,此处不再赘述。也就是说,所述语音识别结果向量化值无需顾虑所述语音识别结果是否前后倒置,也就良好地规避了汉语中文本前后倒置的问题对语音理解的影响,提供识别准确率。

进一步,所述步骤130还可以包括步骤:设定一基础词袋和至少一扩展词袋,其中所述扩展词袋是所述基础词袋中的一基础词谐音关联的扩展词,形成所述词袋模块,以使扩展词和基础词的向量化结果相同。

如上文所述,所述语音识别结果除了文本前后倒置的问题,还会出现谐音问题,从而影响整体语义理解。所述扩展词袋包含的是对应基础词的谐音词。这样,在向量化所述语音识别结果过程中,扩展词和基础词的向量化结果相同,已达到相同的语义理解。

在本发明的一个实施例中,所述扩展词袋对应地被设置于所述基础词袋内,基础词和其关联的扩展词被设置为“或”关系。在本发明的另一实施例中,所述词袋模块是所述基础词袋中的各个基础词和其关联的扩展词的笛卡尔积。这两种方法都可以使得扩展词和基础词的向量化结果相同,从而避免谐音对语音理解的误导。

步骤140:根据所述语音识别结果向量化值,确定所述语音识别结果所属的语义类别,形成一语义类别信息。

具体地,每个行业和领域都有其特定的常用语和专业用等话术。将这些话术按照语义预先分类呈不同的语义类别。根据所述语音识别结果向量化值,可以利用概率计算出所述语音识别结果属于哪一个语义类别的概率最大,从而确定所述语音识别结果所属的语义类别。所述语义类别信息可以包括但不限定,语音识别结果所属语义类别编号、存储地址、内容、关联的应答录音编号等。

优选地,所述步骤140进一步包括步骤:通过贝叶斯和逆文本频率指数,根据所述语音识别结果向量化值,确定所述语音识别结果所属的语义类别,形成所述语义类别信息。

步骤150:根据所述语义类别信息,匹配对应的应答语音,形成一应答语音信息。

不同的语义类别对应的有不同的应答。预先录制对应的应答语音,并将其和对应的语义类别关联,例如通过相同的编号等等,此处并不限制。这样,根据所述语义类别信息即可查找和匹配对应的应答语音,形成所述应答语音信息。所述应答语音信息可以包括但不限制于所述应答录音的存储地址、内容和编号等等。

步骤160:根据所述应答语音信息播放对应的所述应答语音。

也就是说,所述应答语音也就是所述客户语音的回答,电话机器人实现了智能应答。在本发明的所述语音识别语义处理方法不仅抛弃了传统的关键字匹配技术,还考虑到识别中的谐音问题,利用贝叶斯等方式提高语义理解准确率,使得电话机器人更具人性化,整体对话更加协调。

本领域的技术人员应理解,上述描述及附图中所示的本发明的实施例只作为举例而并不限制本发明。本发明的目的已经完整并有效地实现。本发明的功能及结构原理已在实施例中展示和说明,在没有背离所述原理下,本发明的实施方式可以有任何变形或修改。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1