人工智能体、语音信息识别方法、存储介质和程序产品与流程

文档序号：31184107发布日期：2022-08-19 18:49阅读：134来源：国知局

1.本技术涉及自然语言处理技术领域，特别是涉及一种人工智能体、语音信息识别方法、存储介质和程序产品。

背景技术：

2.随着科技的迅速发展，人工智能技术也越来越多地应用到人们的日常生活中，给我们的日常生活带来更多的便利。
3.相关技术中，诸如车载系统、语音机器人、手机等智能设备大多具有识别并执行语音指令的功能，使得用户可以通过语音对话系统与智能设备进行交互。
4.然而，相关技术中在进行语音对话时，存在语音信息识别准确率低的问题。

技术实现要素：

5.基于此，有必要针对上述技术问题，提供一种能够提高语音信息识别准确率的人工智能体、语音信息识别方法、存储介质和程序产品。
6.第一方面，本技术提供了一种人工智能体。该人工智能体包括存储器和处理器，存储器中存储有计算机程序，处理器用于调用并执行该计算机程序时实现如下步骤：
7.响应于目标语音信息，通过预设的语义识别模型识别目标语音信息的语义信息；
8.其中，语义识别模型为通过大样本标注数据训练得到的，大样本标注数据为通过预先构建的语义知识图谱对小样本标注数据进行数据扩充处理后得到的；语义知识图谱包括多种人机交互场景中的语料；
9.根据目标语音信息和语义信息确定响应信息，并输出响应信息。
10.在其中一个实施例中，处理器用于调用并执行计算机程序时还实现如下步骤：
11.获取多种人机交互场景中的语料；
12.从各人机交互场景中的语料中提取对应的三元组信息；三元组信息包括实体、关系和属性；
13.根据三元组信息构建语义知识图谱。
14.在其中一个实施例中，数据扩充处理包括：数据变换处理和数据增删处理；
15.处理器用于调用并执行计算机程序时还实现如下步骤：
16.获取各人机交互场景中的小样本标注数据；
17.对小样本标注数据进行数据变换处理，得到扩充样本数据；
18.对扩充样本数据进行数据增删处理，得到大样本标注数据。
19.在其中一个实施例中，对小样本标注数据进行数据变换处理，得到扩充样本数据，包括：
20.确定各小样本标注数据中目标实体和目标实体对应的实体属性；目标实体包括至少一个实体；
21.根据目标实体对应的实体属性，从语义知识图谱中获取目标实体的同类型实体；
22.将小样本标注数据中的目标实体替换为同类型实体，得到扩充样本数据。
23.在其中一个实施例中，将小样本标注数据中的目标实体替换为同类型实体，包括：
24.获取目标实体在小样本标注数据中的位置信息；
25.根据位置信息，将小样本标注数据中的目标实体替换为同类型实体。
26.在其中一个实施例中，对扩充样本数据进行数据增删处理，得到大样本标注数据，包括：
27.基于预设的前后缀数据库，对扩充样本数据随机添加前缀和/或后缀，得到第一扩充数据；
28.对第一扩充数据进行语气词增删操作，得到大样本标注数据。
29.在其中一个实施例中，根据目标语音信息和语义信息确定响应信息，包括：
30.确定目标语音信息中参考实体和参考实体的属性；
31.根据参考实体的属性，从语义知识图谱中获取参考实体对应的至少一个候选实体；
32.将至少一个候选实体中与参考实体相似度最高的实体确定为标准实体；
33.根据标准实体和目标语音信息的语义信息，确定响应信息。
34.在其中一个实施例中，处理器用于调用并执行计算机程序时还实现如下步骤：
35.按照预设周期，根据当前时刻的各人机交互场景中的语料，对语义知识图谱进行更新。
36.第二方面，本技术还提供了一种语音信息识别方法。该方法包括上述第一方面中任一项人工智能体所实现的步骤。
37.第三方面，本技术还提供了一种计算机可读存储介质。该计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述第一方面中任一项人工智能体所实现的步骤。
38.第四方面，本技术还提供了一种计算机程序产品。该计算机程序产品，包括计算机程序，计算机程序被处理器执行时实现上述第一方面中任一项人工智能体所实现的步骤。
39.上述人工智能体、语音信息识别方法、存储介质和程序产品，响应于目标语音信息，通过预设的语义识别模型识别目标语音信息的语义信息；根据目标语音信息和语义信息，确定响应信息，并输出响应信息。其中，语义识别模型为通过大样本标注数据训练得到的，大样本标注数据为通过预先构建的语义知识图谱对小样本标注数据进行数据扩充处理后得到的；语义知识图谱包括多种人机交互场景中的语料。在本技术中，基于多种人机交互场景中的语料来构建语义知识图谱，语义知识图谱中包含大量人机交互中产生的语言文本中的实体和实体关系，使得构建的语义知识图谱能够为语义识别模型的学习提供数据支撑。进一步地，由于小样本标注数据是人为标注好的语言句式，因此，从语义知识图谱中获取大量语料后，可以参照小样本标注数据中标注好的语言句式来自动标注，得到大样本标注数据，减少了人为标注海量数据的标注成本，提高了标注速率的同时，也提高了标注数据的可靠性。另外，通过扩充处理后的大样本标注数据来训练语义识别模型，语义识别模型可以学习到更多的交互语料，提高了语义识别模型的训练效果。如此，在人机语音对话场景中，人工智能体接收到目标语音信息后，通过训练好的语义识别模型对目标语音信息进行识别和分析，从而精准地确定目标语音信息的语义信息，提高了语义信息的识别准确度。进
一步地，基于精确的语义信息和目标语音信息，人工智能体可以输出更符合交互期望的响应信息，人机交互效果更佳。
附图说明
40.图1为一个实施例中语音信息识别方法的应用环境图；
41.图2为一个实施例中语音信息识别方法的流程示意图；
42.图3为一个实施例中语义知识图谱构建方法的流程示意图；
43.图4为一个实施例中语义知识图谱的局部示意图；
44.图5为一个实施例中数据增强方法的流程示意图；
45.图6为一个实施例中数据变换处理的示意图；
46.图7为另一个实施例中数据变换处理的示意图；
47.图8为另一个实施例中数据增强方法的流程示意图；
48.图9为另一个实施例中语音信息识别方法的流程示意图；
49.图10为一个实施例中语音信息识别装置的结构框图；
50.图11为一个实施例中人工智能体的内部结构图。
具体实施方式
51.为了使本技术的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本技术进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本技术，并不用于限定本技术。
52.随着科技的发展，技术的进步，人工智能技术也越来越多地应用人们的日常生活中，为人们生活带来更多的便利。比如，人工智能体可以通过对话系统与用户进行交互，以响应用户的语音信息，输出对应的响应信息和/或执行相应的动作。
53.其中，对话系统是指具备同人类进行连贯交互的计算机系统，具备对话系统的人工智能体可以是但不限于是：解放用户的双手，执行各种订票、订餐等动作的语音助手；代替人工客服，与用户进行语音对话的智能客服；智能音箱、智能投影仪等智能终端设备。另外，上述人工智能体还可以为单独的语音交互机器人存在，以在实际应用场景中，与人类进行语音交互，进而提供相应的服务等，本技术对此不做限制。
54.在对话系统中，人工智能体需要能识别用户的语音信息和用户的语义信息，进而根据语义信息和语音信息中的实体，从数据库中查询用户需要的响应信息，并向用户输出该响应信息。
55.相关技术中，人工智能体识别和分析用户的语音信息，可以通过语义识别模型来实现。语义识别模型的识别效果是建立在模型训练数据的质量和数量之上的，因此，为了提高语义识别模型的识别效果，需要采用大量的标注数据来对其进行训练。
56.然而，在某些领域或人机交互场景中，人机交互中产生的语音信息较少，且语音信息很难获取，导致用于语义识别模型训练的数据较少。进一步地，由于训练数据都需要人工预先进行标注，数据标注成本高，且为了尽可能减少标注过程中的人为失误，对标注人员有一定的专业要求，使得标注更为困难。
57.另外，通过海量的样本标注数据训练得到的语义识别模型依然存在泛化能力有限
的问题，无法像人类一样具有广阔的前置知识和逻辑推理能力，在进行语音信息识别和分析时，存在语义识别错误和/或实体抽取错误等情况。一部分原因是标注数据存在误差，另一部分原因则是标注数据虽然是海量的但依然是有限的，随着社会发展日新月异，新的语言词汇也将不断涌现，导致语义识别模型需要新的标注数据重新进行训练。
58.基于此，本技术提供了一种人工智能体、语音信息识别方法、存储介质和程序产品，使得人工智能体和用户进行语音对话时，通过语义识别模型对用户的目标语音信息进行识别和分析，从而精准地确定目标语音信息的语义信息，提高了语义识别准确度。
59.其中，本技术提供的语音信息识别方法，可以应用于人工智能体中。该人工智能体可以为在实际环境中实现人机语音对话的任一智能体，该智能体可以作为终端中的智能组件，比如，终端中的智能客服和语音助手，该智能体还可以作为单独终端，比如，智能音箱和语音交互机器人等。
60.作为一个示例，该人工智能体的内部结构如图1所示，该内部结构中处理器用于响应于接收的语音信息，输出响应信息。该内部结构中的存储器包括非易失性存储介质和内存储器，该非易失性存储介质存储有操作系统、计算机程序和数据库；该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该数据库用于存储各种人机交互场景中的语料等数据。该网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现本技术提供的语音信息识别方法。
61.下面将通过实施例并结合附图，具体地对本技术实施例的技术方案以及本技术实施例的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例中不再赘述。需要说明的是，本技术实施例提供的一种语音信息识别方法，其执行主体可以为人工智能体，还可以为语音信息识别装置，该装置可以通过软件、硬件或者软硬件结合的方式实现成为处理器的部分或者全部。显然，所描述的实施例是本技术实施例一部分实施例，而不是全部的实施例。
62.在一个实施例中，本技术提供了一种人工智能体。该人工智能体包括存储器和处理器，存储器中存储有计算机程序。如图2所示，处理器调用并执行计算机程序时实现以下步骤：
63.步骤210：响应于目标语音信息，通过预设的语义识别模型识别目标语音信息的语义信息。
64.其中，语义识别模型为通过大样本标注数据训练得到的，大样本标注数据为通过预先构建的语义知识图谱对小样本标注数据进行数据扩充处理后得到的；语义知识图谱包括多种人机交互场景中的语料。
65.需要说明的是，目标语音信息可以为人工智能体接收到的任一用户的任一语音的语音内容，语义信息为目标语音信息的含义，反映用户的真实的对话意图。
66.在一种可能的实现方式中，步骤210的实现过程可以为：人工智能体接收目标语音信息，通过语义识别模型对目标语音信息进行实体识别，并根据识别的实体之间的关系，分析目标语音信息的语义信息。
67.作为一个示例，目标语音信息为：“今天上海天气如何”，则该目标语音信息中的实体为：“今天”、“上海”和“天气”，进而根据各实体之间属性和关系，确定该目标语音信息的语义信息为：询问天气。
68.另外，在步骤210之前，获取语义识别模型的过程可以为：获取多种人机交互场景下人工标注好的小样本标注数据；通过构建的语义知识图谱对小样本标注数据进行数据扩充处理，得到海量的大样本标注数据；通过大样本标注数据对初始语义识别模型进行训练，得到训练好的语义识别模型。
69.其中，大样本标注数据包括多组标注数据，每组标注数据包括一条语音文本和该语音文本的语义信息。
70.进一步地，使用大样本标注数据训练初始语义识别模型的实现过程可以为：将大样本标注数据中的多组标注数据依次作为初始语义识别模型的输入，对初始语义识别模型进行训练，直到初始语义识别模型输出的语义信息满足预设的收敛条件，确定初始语义识别模型收敛，得到语义识别模型。
71.另外，为了验证模型的学习效果，大样本标注数据中还可以包括未标注语义信息的语音文本，在训练周期中，通过未标注语义信息的语音文本来验证初始语义识别模型的学习效果。
72.需要说明的是，对初始语义识别模型进行训练时，可以采用监督学习的方式进行迭代训练，也可以采用非监督学习的方式进行迭代训练，本技术实施例对此不做限制。
73.作为一个示例，监督学习的训练过程具体可以为：将多组标注数据作为初始语义识别模型的输入，对初始语义识别模型进行迭代训练，直到初始语义识别模型识别出的语义信息与各语音文本已标注的语义信息之间的误差小于预设值，则满足预设的收敛条件，确定初始语义识别模型已收敛，得到语义识别模型。
74.步骤220：根据目标语音信息和语义信息确定响应信息，并输出响应信息。
75.其中，响应信息可以以语音形式输出，也可以以文本语言形式输出，还可以以图表形式输出，具体采用哪种形式输出响应信息，可以结合实际情况或者用户的交互需求来确定，本技术对此不做限制。
76.在一种可能的实现方式中，人工智能体根据语义信息，确定用户向人工智能体输出目标语音信息的真实意图，进而基于语义信息和目标语音信息，从数据库中获取相应的响应内容，以根据响应内容确定最终输出的响应信息。
77.作为一个示例，当目标语音信息为：今天上海天气怎么样，语义信息为：询问天气。则人工智能体根据目标语音信息中的实体“今天”，确定对应的日期，根据实体“上海”确定地点，进而根据语义信息，从数据库中获取今日上海的天气情况。
78.其中，天气情况可以是一整天的变化情况，也可以是当前时间点的实时情况。而且，天气情况包括但不限于：阴晴雨雪、温度、湿度、风向、风力、保暖指数、紫外线强度、能见度、特殊灾害性天气的发生概率。
79.进一步地，可以采用语音播报的方式进行输出上海今天的天气情况，也可以采用图表的方式在人工智能体的显示界面中进行直观展示，还可以直接输出天气情况的文字描述信息。
80.应该理解的是，上述仅以通过人工智能体查询天气情况的对话场景进行举例，并不在于限制人工智能体执行上述语音信息识别方法的具体应用场景。
81.在本技术实施例中，基于多种人机交互场景中的语料来构建语义知识图谱，语义知识图谱中包含大量人机交互中产生的语言文本中的实体和实体关系，使得构建的语义知
识图谱能够为语义识别模型的学习提供数据支撑。进一步地，由于小样本标注数据是人为标注好的语言句式，因此，从语义知识图谱中获取大量语料后，可以参照小样本标注数据中标注好的语言句式来自动标注，得到大样本标注数据，减少了人为标注海量数据的标注成本，提高了标注速率的同时，也提高了标注数据的可靠性。另外，通过扩充处理后的大样本标注数据来训练语义识别模型，语义识别模型可以学习到更多的交互语料，提高了语义识别模型的训练效果。如此，在人机语音对话场景中，人工智能体接收到目标语音信息后，通过训练好的语义识别模型对目标语音信息进行识别和分析，从而精准地确定目标语音信息的语义信息，提高了语义信息的识别准确度。进一步地，基于精确的语义信息和目标语音信息，人工智能体可以输出更符合交互期望的响应信息，人机交互效果更佳。
82.基于上述实施例，本技术还提供了一种语义知识图谱构建方法，以通过该方法构建包括多种人机交互场景中语料的语义知识图谱，为训练语义识别模型提供更多的样本标注数据。
83.其中，知识图谱(knowledge graph，kg)的概念是谷歌在2012年正式提出，最初的目的是优化其搜索引擎性能。从本质上看，知识图谱是一种语义网络，其表达了各类型实体及其之间的语义关系。换言之，知识图谱是由不同类型的实体作为节点，实体之间的各种关系作为边的一种有向图。
84.在一个实施例中，如图3所示，本技术提供的语义知识图谱构建方法，以该方法应用于图1中的人工智能体为例进行说明，包括以下步骤：
85.步骤310：获取多种人机交互场景中的语料。
86.其中，语料为不同人机交互场景中，不同用户在表达不同交互意图时向人工智能体输出的语音文本。应该理解的是，在同一场景，且语义信息相同的情况下，不同用户的语言表达方式和/或表达习惯的不同，都会使得语音文本也不相同。
87.作为一个示例，在通过人工智能体播放音乐的人机交互场景中，语义信息为播放一首音乐。则获取的语料可以包括：你好，放一首a作品来听听；随便播放一首周x的歌听听；来首周x的a作品。
88.作为另一个示例，在通过人工智能体控制电影播放的人机交互场景中，语义信息为播放一部李x的电影，则获取的语料可以包括：播放李x导演的《盗梦空间》；放一部李x参演的电影看看；放一下李x的xx电影吧。
89.在一种可能的实现方式中，步骤310的实现过程可以为：通过爬虫方式，从各种人机交互场景中获取语音数据，进一步地，对用户输出给人工智能体的语音文本进行预处理(比如，筛重、清洗、转换、整理和分类等)，得到多种人机交互场景中的语料。
90.步骤320：从各人机交互场景中的语料中提取对应的三元组信息；其中，三元组信息包括实体、关系和属性。
91.在一种可能的实现方式中，步骤320的实现过程可以为：对各人机交互场景中的语料，进行信息抽取，得到相应的实体、关系和实体属性等结构化信息。进一步地，通过知识表示将从现实世界中抽取的各类知识表达成计算机可存储和计算的结构语言文本，得到三元组信息。
92.其中，信息抽取包括实体抽取、关系抽取和属性抽取。实体抽取也称命名实体识别(named entity recognition，ner)是从语音文本中自动识别出命名实体，主要方法包括基
于规则的方法、统计机器学习方法、以及面向开放域的信息抽取等；然而，语音文本经过实体抽取，得到的是一系列离散的命名实体，为了得到语义信息，还需要从语音文本中分析实体之间的关系，通过关系将实体联系起来，形成网状的知识结构。关系抽取的主要方法包括人工构造语法和语义规则、统计机器学习、以及面向开放域的关系抽取技术等。进一步地，属性抽取的目的是从不同信息源中采集特定实体的属性信息，例如针对某个公众人物，可以从网络公开信息中得到其昵称、生日、国籍、教育背景等信息。属性抽取技术能够从多种数据来源中汇集这些信息，实现对实体属性的完整勾画。
93.进一步地，知识表示通常是使资源描述框架(resource descriptionframework，rdf)三元组(subject-property-object，spo)来符号性的描述实体之间的关系。
94.具体地，三元组可以采用(实体，属性，属性值)的方式进行表示，也可以采用(实体，关系，实体)的方式进行表示，本技术实施例对此不做限制。
95.步骤330：根据三元组信息构建语义知识图谱。
96.其中，构建的语义知识图谱可以是满足单一人机交互场景的知识图谱，也可以是满足多种人机交互场景的综合知识图谱，本技术实施例对此不做限制。
97.另外，在构建语义知识图谱时，需要先设定语义知识图谱的模式(schema)，以限定待加入语义知识图谱中的语料的格式。换言之，确定各人机交互场景下的语料模型，该语料模型包含了该场景内有意义的实体类型，以及这些实体类型对应的实体属性。
98.如此，通过设定模式来规范语义知识图谱中语料的结构化表达，一条语料必须满足模式中预先定义好的实体对象和类型，才被允许更新到语义知识图谱中。
99.另外，需要说明的是，执行上述步骤320，可以从原始语料中提取出实体、关系与属性等知识要素，但这些结果中可能包含大量的冗余和错误信息，数据之间的关系也是扁平化的，缺乏层次性和逻辑性。
100.因此，在一种可能的实现方式中，步骤330的实现过程可以为：通过知识融合，对上述三元组信息中的实体、关系和属性进行清理和整合，消除实体指称项与实体对象之间的歧义，得到一系列基本的事实表达。进一步地，对知识融合后的基本事实进行知识加工，知识加工包括本体构建、知识推理、质量评估等，得到结构化和网络化的语义知识图谱。
101.作为一个示例，如图4所示，针对音乐领域，歌手a的相关信息组成的三元组信息包括：(歌手a，身份，歌手)、(歌手a，身份，制作人)、(歌手a，身份，导演)、(歌手a，出生地，台湾)、(歌手a，民族，汉族)、 (歌手a，国籍，中国)、(歌手a，演唱，音乐1)、(歌手a，演唱，音乐 2、)(歌手a，演唱，音乐3)和(歌手a，演唱，音乐4)。进一步地，对于歌手a，其妻子为演员e，则还存在三元组信息(演员e，夫妻，歌手a)；对于音乐4，歌手b和歌手c也演唱过，则还存在三元组信息(歌手b，演唱，音乐4)和(歌手c，演唱，音乐4)。
102.应该理解的是，图4只是上述示例的三元组信息对应的语义知识图谱，是通过人工智能体播放音乐这一人机交互场景中的局部语义知识图谱的示意图，该语义知识图谱还可以包括其他的三元组信息。
103.本实施例中，通过获取多种人机交互场景中的语料，并从中抽取实体、关系和属性，得到多个三元组信息。进一步地，根据三元组信息构建语义知识图谱。如此，构建的语义知识图谱中包含多种人机交互场景中语音文本中的实体和实体之间的关系，可以为语义识别模型的学习提供数据支撑。
104.另外，语义识别模型若想要达到理想的识别准确率，则需要采用非常多的标注数据来进行学习。因此，本技术通过对数量有限的小样本标注数据进行扩充处理，来获取海量的大样本标注数据，为语义识别模型的学习提供数据支撑。在一种可能的实现方式中，可以通过构建的语义知识图谱，来对小样本标注数据进行扩充处理，得到大样本标注数据，以此实现标注数据增强的目的。其中，据扩充处理包括数据变换处理和数据增删处理。
105.需要说明的是，数据增强作为一种数据预处理方法，在计算机视觉领域应用非常广泛，例如对图像样本进行旋转、裁剪、翻转、平移等，使用数据增强可以有效地提升模型的泛化能力，减少标注数据的需求量。然而，在自然语言处理领域，数据增强的方法较少，而且，需要针对不同的任务需要设计不同的数据增强方法。
106.在一个实施例中，如图5所示，本技术提供了一种数据增强方法，以该方法应用于图1中的人工智能体为例进行说明，包括以下步骤：
107.步骤510：获取各人机交互场景中的小样本标注数据。
108.其中，小样本标注数据中每条标注数据均包括一条语音文本和对应的语义信息。
109.需要说明的是，同一交互场景中，人机交互过程中的语义信息可能是相同的，但不同用户的表达方式和/或表达习惯不同，针对同一语义，不同用户输送给人工智能体的语音文本是不同的。
110.上述小样本标注数据可以是人工智能体采集各人机交互场景中的语音文本，且由人工进行标注后，存储在数据库中的样本标注数据，也可以是从其他第三方系统或数据库中直接获取的已标注好的样本标注数据，本技术实施例对其来源不做限制。
111.步骤520：对小样本标注数据进行数据变换处理，得到扩充样本数据。
112.在一种可能的实现方式中，步骤520的实现过程可以为：确定各小样本标注数据中目标实体和目标实体对应的实体属性；根据目标实体对应的实体属性，从语义知识图谱中获取目标实体的同类型实体；将小样本标注数据中的目标实体替换为同类型实体，得到扩充样本数据。
113.其中，目标实体包括至少一个实体，同类型实体包括多个实体。换言之，基于一个目标实体，可以从语义知识图谱中获取到多个同类型实体，且目标实体和同类型实体的实体属性相同。
114.作为一个示例，如图6所示，获取的标注数据中的语音文本为：来首王xx 的a作品，语义信息为：播放音乐。则该标注数据中的第一目标实体为“王xx”，第二目标实体为“a作品”。而且，实体“王xx”的属性为歌手，实体a作品的属性为音乐，第一目标实体和第二实体之间存在演唱关系。
115.基于第一目标实体，在语义知识图谱中获取属性为“歌手”的同类型实体包括但不限于：周xx、张x、蔡xx和林xx。针对第一目标实体的各同类型实体，在知识图谱中获取属性为“音乐”的同类型实体包括但不限于：b作品、 c作品、d作品和e作品。
116.进一步地，在一种可能的实现方式中，将小样本标注数据中的目标实体替换为同类型实体的实现过程可以为：获取目标实体在小样本标注数据中的位置信息；根据位置信息，将小样本标注数据中的目标实体替换为同类型实体。
117.参见图6，将语音文本中“王xx”依次替换为：周xx、张x、蔡xx和林xx，将“a作品”依次替换为b作品、c作品、d作品和e作品。
118.需要说明的是，在替换过程中，应该保持第一目标实体和第二目标实体之间存在的演唱关系不变。比如，在上述示例中，将第一目标实体替换为“周xx”时，第二目标实体只能使用b作品去替换，以此保证替换后，生成的大样本标注数据的准确性。
119.基于上述示例，小样本标注数据“来首王xx的a作品”在进行数据变化处理后，得到的扩充样本数据包括：来首周xx的b作品；来首蔡xx的d作品，来首张x的c作品，来首林xx的e作品。
120.在另一种可能的实现方式中，将小样本标注数据中的目标实体替换为同类型实体的实现过程可以为：根据小样本标注数据中语音文本对应的语义信息，对小样本标注数据进行分类，得到多类标注数据，每类标注数据的语义信息相同。然后，对于语义信息相同的多条语音文本，确定各语音文本中所包括的目标实体和目标实体的属性，并将目标实体的位置空出，在空出位置注明该位置需要填充的实体的属性，即可得到该语音文本下的多个句式模板。进一步地，按照各句式模板中标记的可填充实体位置的属性，以及可填充实体之间的实体关系，从语义知识图谱中获取符合要求的多个同类型实体，将同类型实体依次填充到各句式模板中，即可得到扩充样本数据。
121.作为一个示例，假设小样本标注数据中语义信息为：播放音乐，该类语义信息下已标注的语音文本包括以下几种：
122.(1)请播放周xx的b作品，好吗？
123.(2)来首c作品听听，就是那个张x的。
124.(3)林xx的y作品集里的歌随便来一首。
125.其中，第(1)个语音文本中的目标实体为：周xx和b作品，属性分别为：歌手和音乐，则由此得到的第一句式模板为：请播放【歌手】的【音乐】，好吗？。
126.同理，第(2)个语音文本中的目标实体为：c作品和张x，属性分别为：音乐和歌手，则由此得到的第二句式模板为：来首【音乐】听听，就是那个【歌手】的。第(3)个语音文本中的目标实体为：林xx和y作品集，属性分别为：歌手和专辑，则由此得到的第三语音句式为：【歌手】的【专辑】里的歌随便来一首。
127.进一步地，如图7所示，根据第一句式模板中目标实体的实体属性，以及目标实体之间的关系，从语义知识图谱中获取具备“歌手”属性的第一同类型实体可以为：王xx、张x、蔡xx和林xx。然后，按照“歌手”和“音乐”之间存在的演唱关系，获取王xx演唱过的歌曲，张x演唱过的歌曲，林xx 演唱过的歌曲，以及蔡xx演唱过的歌曲，得到具备“音乐”属性的第二同类型实体可以为：a作品、c作品、d作品和e作品。最后，将上述第一同类型实体依次填充到第一句式模板中标记“歌手”属性的位置，将第二同类型实体依次填充到第一句式模板中标记“音乐”属性的位置，即可得到扩充样本数据。
128.如此，通过第一句式模板得到扩充样本数据包括：请播放张x的c作品，好吗？、请播放林xx的e作品，好吗？、请播放蔡xx的d作品，好吗？、请播放王xx的a作品，好吗？。
129.步骤530：对扩充样本数据进行数据增删处理，得到大样本标注数据。
130.其中，对于扩充样本数据，增删处理包括对语音文本增加文本内容，以及删除语音文本的文本内容。
131.在一种可能的实现方式中，步骤530的实现过程可以为：基于预设的前后缀数据库，对扩充样本数据随机添加前缀和/或后缀，得到第一扩充数据；对第一扩充数据进行语
气词增删操作，得到大样本标注数据。
132.其中，前后缀数据库包括前缀库和后缀库，前缀库中包括多个可以增加到语音文本首端的词汇，比如：帅哥、美女、hello、你好啊、在吗。后缀库中包括多个可以增加到语音文本末端的词汇，比如：好吗、可以吗、可不可以、ok 吗、求求你、拜托了。
133.作为一个示例，语音文本中的语气词包括：嗯、的、了、呢、吧、啊、哎呀等不影响内容但可能涉及个人表达习惯和方式的无意义词汇。
134.在本技术实施例中，基于构建的语义知识图谱，通过对小样本标注数据进行数据变化处理和数据增删处理，得到的大样本标注数据。如此，通过已经注的小样本标注数据和语义知识图谱，可以自动得到海量的大样本标注数据，降低了人工标注成本的同时，也提高了数据标注速率和准确率。
135.基于图5所示的实施例，如图8所示，本技术还提供了另一种数据增强方法，以该方法应用于图1中的人工智能体为例进行说明，包括以下步骤：
136.步骤810：获取各人机交互场景中的小样本标注数据；
137.步骤820：确定各小样本标注数据中目标实体和目标实体对应的实体属性；目标实体包括至少一个实体；
138.步骤830：根据目标实体对应的实体属性，从语义知识图谱中获取目标实体的同类型实体；
139.步骤840：获取目标实体在小样本标注数据中的位置信息；
140.步骤850：根据位置信息，将小样本标注数据中的目标实体替换为同类型实体，得到扩充样本数据；
141.步骤860：基于预设的前后缀数据库，对扩充样本数据随机添加前缀和/或后缀，得到第一扩充数据；
142.步骤870：对第一扩充数据进行语气词增删操作，得到大样本标注数据。
143.本实施例提供的数据增强方法中各步骤，其实现原理和技术效果与前面图5 所示的方法实施例类似，在此不再赘述。
144.基于上述实施例中所示的数据增强方法，在对小样本标注数据进行扩充处理，得到海量的大样本标注数据。进一步地，采用大样本标注数据训练初始语义识别模型，得到本技术的语义识别模型。如此，在得到语义识别模型后，人工智能体可以应用该语义识别模型对目标语音信息进行精准识别和响应。
145.在一个实施例中，如图9所示，上述步骤220中根据目标语音信息和语义信息，确定响应信息的实现过程，包括以下步骤：
146.步骤910：确定目标语音信息中参考实体和参考实体的属性。
147.其中，参考实体为目标语音信息中的至少一个实体，属性为从不同维度描述该实体的特性的词汇。
148.作为一个示例，若目标语音信息为：播放周杰伦的逐客令来听听，则人工智能体基于语义识别模型，从中识别的参考实体包括：周杰伦和逐客令来，且属性为“歌手”和“音乐”。
149.步骤920：根据参考实体的属性，从语义知识图谱中获取参考实体对应的至少一个候选实体。
150.需要说明的是，从语义知识图谱中获取的候选实体可能与参考实体相同，也可能不相同，本实施例旨在说明参考实体和候选实体的属性相同，并不限制其内容文字一定相同。
151.步骤930：将至少一个候选实体中与参考实体相似度最高的实体确定为标准实体。
152.在该步骤中，若候选实体与参考实体相同，则将参考实体作为标准实体；若候选实体与参考实体不同，则根据候选实体和参考实体之间的相似度，将相似度最高的一个候选实体确定为标准实体。
153.也即是，本技术实施例以语义知识图谱为标准，通过语义知识图谱中的候选实体来对人工智能体中语义识别模型的识别结果进行纠错，当两者不同时，以语义知识图谱中相似度最高的候选实体作为标准实体，忽略语义识别模型识别的参考实体。
154.基于上述示例，目标语音信息为：播放周xx的yyy来听听，参考实体为“yyy来”，属性为“音乐”。然而，从语义知识图谱中查询周xx演唱的音乐，获取到的候选实体为“yyy”，则最终将“yyy”确定为标准实体。
155.步骤940：根据标准实体和目标语音信息的语义信息，确定响应信息。
156.基于上述示例，目标语音信息为：播放周xx的yyy来听听，语义信息为播放音乐，则人工智能体确定的响应信息可以为：好的，这就为您播放周xx 的歌曲yyy。
157.在本实施例中，人工智能体通过语义识别模型对目标语音信息进行识别，确定参考实体、参考实体的属性，以及目标语音信息的语义信息。然后，根据参考实体的实体属性，从语义知识图谱中获取至少一个候选实体，采用候选实体对人工智能体识别的参考实体进行纠错，以从中参考实体和候选实体中确定标准实体。进一步地，根据标准实体和目标语音信息的语义信息，确定更符合用户交互期望的响应信息，使得人机交互效果更佳。
158.基于上述实施例，由于本技术需要利用语义知识图谱对语义识别模型的识别结果进行纠错，以提高语义识别模型的识别精度。因此，随着新语料的出现，本技术还需要对构建的语义知识图谱进行更新，以为语义识别模型提供更多的参考信息。
159.一种实施例中，更新语义知识图谱的实现过程可以为：按照预设周期，根据当前时刻的各人机交互场景中的语料，对语义知识图谱进行更新。
160.在一种可能的实现方式中，定期获取各人机交互场景中的语料，并根据当前时刻的语料中的三元组信息，对语义知识图谱进行全量更新或者增量更新，使得语义知识图谱可以在原基础上，补充更多的实体，并丰富实体之间的关系。
161.可选地，对语义知识图谱进行更新后，可以采用更新后的语义知识图谱，对原有的大标注数据做进一步扩充处理，并采用扩充后的标注数据重新训练语义识别模型。
162.在本技术实施例中，通过更新语义知识谱图，一方面，可以为语义识别模型提供更多的训练样本。另一方面，采用更新后的语义知识图谱中的实体对语义识别模型的实体识别结果进行纠错，在减少语义识别模型训练次数的情况下，通过更新语义知识图谱，可以保证语义识别模型的识别准确度。
163.应该理解的是，虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个
阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
164.另外，本技术实施例还提供了一种语音信息识别方法，该方法所提供的解决问题的实现方案与上述人工智能体进行语音信息识别的实现过程相似，故下面所提供的一个或多个语音信息识别方法方法实施例中的具体限定可以参见上文中人工智能体中处理器调用并执行计算机可读指令时实现步骤的限定，在此不再赘述。
165.需要说明的是，本技术提供的语音信息识别方法可以由人工智能体来执行，也可以由其他的计算机设备来实现，本技术对执行主体可不做限制，按照本技术中所示出的语音信息识别方法进行语音识别，或者实现人机语音对话交互的任一计算机设备均在本技术的保护范围内。
166.其中，本技术提供的语音信息识别方法，包括以下步骤：
167.响应于目标语音信息，通过预设的语义识别模型识别目标语音信息的语义信息；
168.其中，语义识别模型为通过大样本标注数据训练得到的，大样本标注数据为通过预先构建的语义知识图谱对小样本标注数据进行数据扩充处理后得到的；语义知识图谱包括多种人机交互场景中的语料；
169.根据目标语音信息和语义信息确定响应信息，并输出响应信息。
170.在其中一个实施例中，该方法还包括：
171.获取多种人机交互场景中的语料；
172.从各人机交互场景中的语料中提取对应的三元组信息；三元组信息包括实体、关系和属性；
173.根据三元组信息构建语义知识图谱。
174.在其中一个实施例中，数据扩充处理包括：数据变换处理和数据增删处理；该方法还包括：
175.获取各人机交互场景中的小样本标注数据；
176.对小样本标注数据进行数据变换处理，得到扩充样本数据；
177.对扩充样本数据进行数据增删处理，得到大样本标注数据。
178.在其中一个实施例中，对小样本标注数据进行数据变换处理，得到扩充样本数据，包括：
179.确定各小样本标注数据中目标实体和目标实体对应的实体属性；目标实体包括至少一个实体；
180.根据目标实体对应的实体属性，从语义知识图谱中获取目标实体的同类型实体；
181.将小样本标注数据中的目标实体替换为同类型实体，得到扩充样本数据。
182.在其中一个实施例中，将小样本标注数据中的目标实体替换为同类型实体，包括：
183.获取目标实体在小样本标注数据中的位置信息；
184.根据位置信息，将小样本标注数据中的目标实体替换为同类型实体。
185.在其中一个实施例中，对扩充样本数据进行数据增删处理，得到大样本标注数据，包括：
186.基于预设的前后缀数据库，对扩充样本数据随机添加前缀和/或后缀，得到第一扩
充数据；
187.对第一扩充数据进行语气词增删操作，得到大样本标注数据。
188.在其中一个实施例中，根据目标语音信息和语义信息确定响应信息，包括：
189.确定目标语音信息中参考实体和参考实体的属性；
190.根据参考实体的属性，从语义知识图谱中获取参考实体对应的至少一个候选实体；
191.将至少一个候选实体中与参考实体相似度最高的实体确定为标准实体；
192.根据标准实体和目标语音信息的语义信息，确定响应信息。
193.在其中一个实施例中，该方法还包括：
194.按照预设周期，根据当前时刻的各人机交互场景中的语料，对语义知识图谱进行更新。
195.本实施例提供的语音信息识别方法的实现原理和技术效果与上述人工智能体执行的步骤类似，在此不再赘述。
196.基于同样的发明构思，本技术实施例还提供了一种用于实现上述所涉及的语音信息识别方法的语音信息识别装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似，故下面所提供的一个或多个语音信息识别装置实施例中的具体限定可以参见上文中对于语音信息识别方法的限定，在此不再赘述。
197.在一个实施例中，如图10所示，提供了一种语音信息识别装置，该装置1000 包括：语义识别模块1010和响应模块1020，其中：
198.语义识别模块1010，用于响应于目标语音信息，通过预设的语义识别模型识别目标语音信息的语义信息；
199.其中，语义识别模型为通过大样本标注数据训练得到的，大样本标注数据为通过预先构建的语义知识图谱对小样本标注数据进行数据扩充处理后得到的；语义知识图谱包括多种人机交互场景中的语料；
200.响应模块1020，用于根据目标语音信息和语义信息，确定响应信息，并输出响应信息。
201.在其中一个实施例中，该装置1000还包括：
202.第一获取模块，用于获取多种人机交互场景中的语料；
203.提取模块，用于从各人机交互场景中的语料中提取对应的三元组信息；三元组信息包括实体、关系和属性；
204.构建模块，用于根据三元组信息构建语义知识图谱。
205.在其中一个实施例中，数据扩充处理包括：数据变换处理和数据增删处理；该装置1000还包括：
206.第二获取模块，用于获取各人机交互场景中的小样本标注数据；
207.数据变换模块，用于对小样本标注数据进行数据变换处理，得到扩充样本数据；
208.数据增删模块，用于对扩充样本数据进行数据增删处理，得到大样本标注数据。
209.在其中一个实施例中，数据变换模块，包括：
210.第一确定单元，用于确定各小样本标注数据中目标实体和目标实体对应的实体属性；目标实体包括至少一个实体；
211.第一获取单元，用于根据目标实体对应的实体属性，从语义知识图谱中获取目标实体的同类型实体；
212.替换单元，用于将小样本标注数据中的目标实体替换为同类型实体，得到扩充样本数据。
213.在其中一个实施例中，替换单元，包括：
214.获取子单元，用于获取目标实体在小样本标注数据中的位置信息；
215.替换子单元，用于根据位置信息，将小样本标注数据中的目标实体替换为同类型实体。
216.在其中一个实施例中，数据增删模块，包括：
217.添加单元，用于基于预设的前后缀数据库，对扩充样本数据随机添加前缀和/或后缀，得到第一扩充数据；
218.增删单元，用于对第一扩充数据进行语气词增删操作，得到大样本标注数据。
219.在其中一个实施例中，响应模块1020，包括：
220.第二确定单元，用于确定目标语音信息中参考实体和参考实体的属性；
221.第二获取单元，用于根据参考实体的属性，从语义知识图谱中获取参考实体对应的至少一个候选实体；
222.第三确定单元，用于将至少一个候选实体中与参考实体相似度最高的实体确定为标准实体；
223.第四确定单元，用于根据标准实体和目标语音信息的语义信息，确定响应信息。
224.在其中一个实施例中，该装置1000，还包括：
225.更新模块，用于按照预设周期，根据当前时刻的各人机交互场景中的语料，对语义知识图谱进行更新。
226.上述语音信息识别装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。
227.在一个实施例中，提供了一种人工智能体，该人工智能体可以是任一智能体或者智能终端，其内部结构图可以如图11所示。该人工智能体包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中，该人工智能体的处理器用于提供计算和控制能力。该人工智能体的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该人工智能体的通信接口用于与外部的终端进行有线或无线方式的通信，无线方式可通过wifi、运营商网络、nfc(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种语音信息识别方法。该人工智能体的显示屏可以是液晶显示屏或者电子墨水显示屏，该人工智能体的输入装置可以是显示屏上覆盖的触摸层，也可以是人工智能体外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。
228.本领域技术人员可以理解，图11中示出的结构，仅仅是与本技术方案相关的部分结构的框图，并不构成对本技术方案所应用于其上的人工智能体的限定，具体的人工智能体可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。
229.在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器中存储有
计算机程序，该处理器执行计算机程序时实现以下步骤：
230.响应于目标语音信息，通过预设的语义识别模型识别目标语音信息的语义信息；
231.其中，语义识别模型为通过大样本标注数据训练得到的，大样本标注数据为通过预先构建的语义知识图谱对小样本标注数据进行数据扩充处理后得到的；语义知识图谱包括多种人机交互场景中的语料；
232.根据目标语音信息和语义信息确定响应信息，并输出响应信息。
233.上述实施例提供的一种计算机设备，其实现原理和技术效果与上述方法实施例类似，在此不再赘述。
234.在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：
235.响应于目标语音信息，通过预设的语义识别模型识别目标语音信息的语义信息；
236.其中，语义识别模型为通过大样本标注数据训练得到的，大样本标注数据为通过预先构建的语义知识图谱对小样本标注数据进行数据扩充处理后得到的；语义知识图谱包括多种人机交互场景中的语料；
237.根据目标语音信息和语义信息确定响应信息，并输出响应信息。
238.上述实施例提供的一种计算机可读存储介质，其实现原理和技术效果与上述方法实施例类似，在此不再赘述。
239.在一个实施例中，提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现以下步骤：
240.响应于目标语音信息，通过预设的语义识别模型识别目标语音信息的语义信息；
241.其中，语义识别模型为通过大样本标注数据训练得到的，大样本标注数据为通过预先构建的语义知识图谱对小样本标注数据进行数据扩充处理后得到的；语义知识图谱包括多种人机交互场景中的语料；
242.根据目标语音信息和语义信息确定响应信息，并输出响应信息。
243.上述实施例提供的一种计算机程序产品，其实现原理和技术效果与上述方法实施例类似，在此不再赘述。
244.本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本技术所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(read-only memory，rom)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(randomaccess memory，ram)或外部高速缓冲存储器。作为说明而非局限，ram可以是多种形式，比如静态随机存取存储器(static random access memory， sram)或动态随机存取存储器(dynamic random access memory，dram)等。
245.以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。
246.以上所述实施例仅表达了本技术的几种实施方式，其描述较为具体和详细，但并
不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本技术构思的前提下，还可以做出若干变形和改进，这些都属于本技术的保护范围。因此，本技术专利的保护范围应以所附权利要求为准。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：左珑喻祥
技术所有人：深圳市普渡科技有限公司
我是此专利的发明人

上一篇：用于飞行器操纵面致动的校准系统和方法与流程
上一篇：混合高速电力线载波通信和无线通信网络资源调度方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。