语料生成方法、装置、计算机设备及存储介质与流程

文档序号:26005238发布日期:2021-07-23 21:23阅读:96来源:国知局
语料生成方法、装置、计算机设备及存储介质与流程

本发明涉及人工智能技术领域,尤其涉及一种语料生成方法、装置、计算机设备及存储介质。



背景技术:

在如今的互联网+时代,人工智能的技术已大规模应用于交流管理等领域,问答系统是人工智能的重要领域,涉及人工智能在垂直领域的应用落地。而对于目前的问答系统来说,用户的问题绝大部分集中在头部的一些高频问题上,也就是frequentlyaskedquestions(faq)的提出动机,faq语料集的数量和质量是整个系统的基础,但是目前并没有通用的全覆盖的faq语料集,导致在针对不同的垂直领域,均需要重新构建faq语料集,而重新构建faq语料集则需要消耗大量人力和物力资源,人工成本高,且效率低。



技术实现要素:

本发明实施例提供一种语料生成方法、装置、计算机设备及存储介质,以解决现有针对不同垂直领域均需要重新构建语料集,人工成本高且效率低的问题。

一种语料生成方法,包括:

获取目标问答领域对应的高频提问词以及待挖掘文本;其中,所述高频提问词用于指示所述目标问答领域中高频问题对应的主题词;

根据所述高频提问词,从所述待挖掘文本中提取所述高频提问词对应的目标应答语句;

对所述高频提问词与历史问答库中的多条历史提问语句进行文本相似度匹配,获取多个历史提问语句作为历史提问模板;

将所述历史提问模板中的历史提问词替换成所述高频提问词,得到提问语料;其中,所述历史提问词为所述历史提问模板对应的主题词;

将所述提问语料与所述高频提问词对应的目标应答语句作为目标问答语料。

一种语料生成装置,包括:

数据获取模块,用于获取目标问答领域对应的高频提问词以及待挖掘文本;其中,所述高频提问词用于指示所述目标问答领域中高频问题对应的主题词;

目标问答语句提取模块,用于根据所述高频提问词,从所述待挖掘文本中提取所述高频提问词对应的目标应答语句;

历史提问模板获取模块,用于对所述高频提问词与历史问答库中的多条历史提问语句进行文本相似度匹配,获取多个历史提问语句作为历史提问模板;

提问语料获取模块,用于将所述历史提问模板中的历史提问词替换成所述高频提问词,得到提问语料;其中,所述历史提问词为所述历史提问模板对应的主题词;

目标问答语料获取模块,用于将所述提问语料与所述高频提问词对应的目标应答语句作为目标问答语料。

一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述语料生成方法的步骤。

一种计算机存储介质,所述计算机存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述语料生成方法的步骤。

上述语料生成方法、装置、计算机设备及存储介质中,通过获取目标问答领域对应的高频提问词以及待挖掘文本,以便根据所述高频提问词,从所述待挖掘文本中提取所述高频提问词对应的目标应答语句,即通过针对高频提问词构建语料数据,可实现问答语料构建的快速冷启动。然后,将所述高频提问词与历史问答库中的多条历史提问语句进行文本相似度匹配,以获取多个历史提问语句作为历史提问模板,以便基于高频提问对词历史真实提问语句中提取到的历史提问模板进行重构,得到提问语料,可有效保证提问语料的真实性;最后,将所述提问语料与所述高频提问词对应的目标应答语句作为目标问答语料,可实现不同垂直领域自动构建问答语料的目的,降低人工成本,且可实现快速构建问答语料的目的。

附图说明

为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。

图1是本发明一实施例中语料生成方法的一应用环境示意图;

图2是本发明一实施例中语料生成方法的一流程图;

图3是本发明一实施例中语料生成方法的一流程图;

图4是本发明一实施例中语料生成方法的一流程图;

图5是图2中步骤s202的一具体流程图;

图6是图4中步骤s403的一具体流程图;

图7是图4中步骤s408的一具体流程图;

图8是图2中步骤s203的一具体流程图;

图9是本发明一实施例中语料生成装置的一示意图;

图10是本发明一实施例中计算机设备的一示意图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

该语料生成方法可应用在如图1的应用环境中,其中,计算机设备通过网络与服务器进行通信。计算机设备可以但不限于各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。服务器可以用独立的服务器来实现。

在一实施例中,如图2所示,提供一种语料生成方法,以该方法应用在图1中的服务器为例进行说明,包括如下步骤:

s201:获取目标问答领域对应的高频提问词以及待挖掘文本;其中,高频提问词用于指示目标问答领域中高频问题对应的主题词。

其中,本方法可应用在一种问答语料自动生成工具中,用于针对不同垂直领域(例如保险领域)通过文本挖掘方式自动生成该领域的问答语料,实现问答语料构建的快速冷启动的目的,且可有效降低人工成本,提高问答语料的构建效率。

其中,目标问答领域可包括但不限于各种垂直领域,例如保险领域。于本实施例中,为便于理解,以下技术方案以应用在保险领域为例进行说明。

具体地,由于针对保险问答领域来说,保险中的条款相关内容以及专业术语的定义是用户咨询的高频问题,故本实施例中的高频提问词可为保险条款以及专业术语相关的问题对应的主题词,即该主体词可为高频问题中的条款词以及专业术语等。该待挖掘文本可为保险说明文档以及保单说明书等。可以理解地是,该高频提问词可为一个或多个此处不做限定。

s202:根据高频提问词,从待挖掘文本中提取高频提问词对应的目标应答语句。

具体地,为节省存储空间以及提高目标应答语句的提取效率,在根据高频提问词,从待挖掘文本中提取高频提问词对应的目标应答语句之前,可对待挖掘文本进行预处理,包括但不限于去除英文处理和去除标点符号处理。本实施例中,去除标点符号处理包括但不限于采用正则表达式进行处理。该正则表达式可由开发人员预先设定好的表达式,如语句system.out.println(str.replaceall("\\pp","")),即可删除文本中的标点符号。具体地,可基于高频提问词对待挖掘文本进行关键词匹配,以得到该高频提问词对应的目标应答语句,例如高频提问词为xxx,待挖掘文本中包括“xxx的含义是……”,通过关键匹配即可将“……”作为xxx对应的目标应答语句。

可以理解地是,由于本实施例中目标应答语句从待挖掘文本,即保险说明文档以及保单说明书的规范文本中挖掘得到,故可保证目标应答语句的合规性和准确性,此外还可还可以进一步节省语料合规审核的成本。

s203:对高频提问词与历史问答库中的多条历史提问语句进行文本相似度匹配,获取多个历史提问语句作为历史提问模板。

其中,该文本相似度用于表征该高频提问词与历史提问语句间的相似程度。该文本相似度可为jaccard(杰卡德)相似度表示,此处不做限定。该jaccard(杰卡德)相似度即为高频提问词与历史提问语句的向量交集与向量并集的比值。可以理解地是,可先将高频提问词与历史提问语句分别采用词向量的形式表示,以便于计算文本相似度。

具体地,由于本实施例中主要是搜索包含高频提问词或相近词的历史提问语句,但该历史提问语句中是否包含重复的高频提问词或相近词对于本实施例来说,影响不大,故本实施例采用jaccard(杰卡德)相似度表示文本相似度。

需要强调的是,为进一步保证上述历史提问语句私密和安全性,上述历史提问语句还可以存储于一区块链的节点中。

s204:将历史提问模板中的历史提问词替换成高频提问词,得到提问语料;其中,历史提问词为历史提问模板对应的主题词。

其中,历史提问词为历史提问模板对应的主题词。该主题词用于反映历史提问语句中主题的关键词,例如“xxx的定义是什么”,该句子中的历史提问词即为“xxx”。具体地,将历史提问模板中的历史提问词替换成高频提问词,以得到提问语料,例如历史提问模板为“xxx的定义是什么”,其中,“xxx”为历史提问词,假设当前高频提问词包括“a”,“b”,故可按顺序或循环随机选取一个对历史提问模板中的历史提问词进替换,即得到“a的定义是什么”,“b的定义是什么”。

s205:将提问语料与高频提问词对应的目标应答语句作为目标问答语料。

具体地,通过将提问语料与该提问语料中高频提问词对应的目标应答语句关联,即可得到目标问答语料,无需人工采集样本且由于是根据历史提问语句挖掘提问模板,可保证生成的目标问答语料的真实性和有效性。

本实施例中,通过获取目标问答领域对应的高频提问词以及待挖掘文本,以便根据高频提问词,从待挖掘文本中提取高频提问词对应的目标应答语句,即通过针对高频提问词构建语料数据,可实现问答语料构建的快速冷启动。然后,对高频提问词与历史问答库中的多条历史提问语句进行文本相似度匹配,以获取多个历史提问语句作为历史提问模板,以便基于高频提问对词历史真实提问语句中提取到的历史提问模板进行重构,得到提问语料,可有效保证提问语料的真实性;最后,将提问语料与高频提问词对应的目标应答语句作为目标问答语料,可实现不同垂直领域自动构建问答语料的目的,降低人工成本,且可实现快速构建问答语料的目的。

在一实施例中,如图3所示,步骤s204之后,该语料生成方法还包括如下步骤:

s301:采用预训练的语言模型对提问语料进行语法语义检查,得到提问语料的得分值。

s302:当得分值不小于预设分值阈值,保留提问语料。

s303:当得分值小于预设分值阈值,去除提问语料。

s304:将保留的提问语料与高频提问词对应的目标应答语句作为目标问答语料。

具体地,由于在对历史提问模板中的历史提问词进行替换后所生成的提问语料可能存在语法及语义上的问题,故为保证提问语料的有效性,本实施例中可针对替换后的提问语料采用预先训练好的语言模型对替换后的提问语料进行打分,以保留得分较高的提问语料。其中,该语言模型可采用gpt(generativepre-training)模型,该语言模型可预先通过标注预料数据进行训练得到,用于对自然语句的语法以及语义的准确性进行检查。具体地,通过语言模型的对提问语料进行语法语义检查,得到提问语料的得分值,当得分值不小于预设分值阈值,认为该提问语料为可用语料,保留提问语料,当得分值小于预设分值阈值,,认为该提问语料不符合自然语句的表达,则去除该不可用的提问语料,以保证提问语料的有效性和准确性。

在一实施例中,如图4所示,该语料生成方法还包括如下步骤:

s401:获取目标问答领域对应的高频提问词以及待挖掘文本。

具体地,步骤s401与步骤s201保持一致,为避免重复,此处不再赘述。

s402:根据高频提问词,从待挖掘文本中提取高频提问词对应的目标应答语句。

具体地,步骤s402与步骤s202保持一致,为避免重复,此处不再赘述。

s403:对高频提问词进行同义词扩充,获取高频提问词对应的多个目标同义词。

具体地,本实施例中通过进一步对高频提问词进行同义词扩充,以获取高频提问词对应的多个目标同义词,以便后续然后才采用每一目标同义词对提问语料中的高频提问词进行替换,以得到高频提问词对应的多个目标提问语料,实现扩充语料的目的。

s404:对高频提问词与历史问答库中的多条历史提问语句进行文本相似度匹配,获取多个历史提问语句作为历史提问模板。

具体地,步骤s404与步骤s203保持一致,为避免重复,此处不再赘述。

s405:将历史提问模板中的历史提问词替换成高频提问词,得到提问语料。

具体地,步骤s405与步骤s204保持一致,为避免重复,此处不再赘述。

s406:采用预训练的语言模型对提问语料进行语法语义检查,得到提问语料的得分值。

具体地,步骤s406与步骤s301保持一致,为避免重复,此处不再赘述。

s407:当得分值不小于预设分值阈值,保留提问语料。

具体地,步骤s407与步骤s302保持一致,为避免重复,此处不再赘述。

s408:根据每一目标同义词对保留的提问语料中的高频提问词进行替换,得到高频提问词对应的多个目标提问语料。

具体地,通过采用每一目标同义词对保留的提问语料中的高频提问词进行替换,即在确定提问语料的语义语法符合自然语言表达,再对该部分保留的提问语料进行替换,以减少替换的工作量,且可保证词替换的有效性。

s409:将每一目标提问语料与高频提问词对应的目标应答语句作为目标问答语料。

具体地,通过将每一目标提问语料与高频提问词对应的目标应答语句作为目标问答语料,以扩充问答语料集,得到更多的问答语料。

在一实施例中,如图5所示,步骤s202中,即根据高频提问词,从待挖掘文本中提取高频提问词对应的目标应答语句,具体如下步骤:

s501:获取目标问答领域对应的语句提取模板。

s502:根据语句提取模板,从待挖掘文本中提取高频提问词对应的目标应答语句。

具体地,该语句提取模板为预先根据该目标问答领域的需要创建的语句提取表达式,例如xxx的定义是***,其中,xxx即为高频提问词,根据该语句提取模板可从待挖掘文本中提取到符合上述表达的与高频提问词对应的多个字符串,并将提取到的多个字符串中的“***”部分作为高频提问词对应的目标应答语句。

在一实施例中,如图6所示,步骤s403中,即对高频提问词进行同义词扩充,获取高频提问词对应的多个目标同义词,具体包括如下步骤:

s601:将高频提问词输入到近似度函数中进行处理,获取与高频提问词相对应的多个候选同义词以及与候选同义词相对应的第一近似度。

其中,近似度函数是即指word2vec工具中,可返回与高频提问词与候选同义词间的第一相似度的函数。第一相似度即为高频提问词与候选同义词的词相似度。

具体地,服务器通过直接将高频提问词输入到近似度函数中进行处理,以获取近似度函数返回的高频提问词相对应的多个候选同义词以及候选同义词与该高频提问词之间的第一近似度。

s602:基于第一近似度,从多个候选同义词中选取高频提问词对应的多个目标同义词。

具体地,对每一候选同义词相对应的近似度进行降序排列,选取排在前k位的候选同义词作为目标同义词。或者,通过设置一相似度阈值,以将第一相似度大于该相似度阈值的候选同义词作为目标同义词。其中,k的取值可根据实际需要自行设定,此处不做限定。

在一实施例中,如图7所示,步骤s408中,即根据每一目标同义词对保留的提问语料中的高频提问词进行替换,得到高频提问词对应的多个目标提问语料,具体包括如下步骤:

s701:对目标提问语料进行分割,去除目标提问语料中的高频提问词,获取中间语句。

其中,本实施例中通过对目标提问语料进行分割,以对去除目标提问语料中的高频提问词,得到除高频提问词外的字符串即中间语句进行同义词扩充处理,以更进一步扩充语料集。

s702:对中间语句进行分词处理,得到多个待替换词次。

具体地,在进行分词之前,开发人员会预先设定好中文词库,为分词提供技术支持。其中,中文词库(以下简称“词库”)是用于对中文字符进行分词的词库。本实施例中,可采用最大逆向匹配的算法对中间语句进行分词的具体步骤为:首先需设定句子分割的最大长度max;然后将历史发文信息拆分为多个句子,具体可按照句子的结束符进行划拆分(如:?。,!);再对每一句子按照从右往左的顺序开始切分,获取单字串;然后将该单字串和词库进行比对,若词库中包含有该词就记录下来,形成一待替换词次,否则通过减少一个单字,继续比较,直至剩下一个单字则停止。

示例性地,句子分割的最大长度max=5,输入的句子为“我一个人吃饭”,首先按照从右往左的顺序开始切分,获取单字串即“一个人吃饭”;在词库中没有该词,则减少一个单字即“一”变为“个人吃饭”;在词库中没有该词,则继续减少一个单字“个”,变为“人吃饭”;在词库中没有该词则减少一个单字即“人”,变为“吃饭”;在词库中存在该词即“吃饭”,将该词记录下来,获取一待替换词次。此时,句子变为“我一个人”,在词库中没有该词,则减少一个单字即“我”,变为“一个人”;在词库中没有该词,则继续减少一个单字“一”,变为“个人”;在词库中存在该词即“个人”,将该词记录下来,获取另一待替换词次。此时句子变为“我一”,在词库中没有该词,则减少一个单字即“我”,变为“一”;在词库中存在该词即“一”,将该词记录下来,获取另一待替换词次。此时句子只剩下一个单字“我”,算法终止。最终,采用最大逆向匹配的算法对于中间语句“我一个人吃饭”的分词结果为“我/一/个人/吃饭”。

s703:将待替换词次输入到近似度函数中进行处理,获取与待替换词次相对应的多个原始近义词以及与原始近义词相对应的第二近似度。

其中,近似度函数是即指word2vec工具中,可返回与每一待替换词次对应的原始近义词的函数。第二近似度即为待替换词次与原始近义词的词相似度。

s704:基于第二近似度,从多个原始近义词中选取待替换词次对应的目标近义词。

具体地,可对每一候选同义词相对应的近似度进行降序排列,获取排在前m位的原始近义词作为目标同义词。或者,通过设置一相似度阈值,以将第一相似度大于该相似度阈值的原始近义词作为目标目标近义词。其中,m的取值可根据实际需要自行设定,此处不做限定。

s705:基于目标近义词与高频提问词,对目标提问语料进行重构,以更新目标提问语料。

具体地,服务器可从多个目标近义词中随机选取一个目标近义词对目标问答语料中对应的待替换词次进行替换,并与高频提问词结合,以还原该目标提问语料的句式结构,以进一步实现扩充数据的目的。

进一步地,本实施例中,由于每一待替换词次对应的多个待替换词次,故在从多个待替换词次中随机选取一个待替换词次进行替换时,该待替换词次可能与目标同义词相同,会出现新增语料与目标提问语料相同的情况,故在得到新增语料后,需对所有新增的提问语料进行去重处理并更新,以保证扩充数据的有效性。

为方便理解,现以如下示例进行说明,例如,待替换词次包括a和b,由于每一待替换词次的位置与中间语句对应,则有如下语句顺序,即a-b,且每一待替换词次对应的目标近义词包括a-(a1)和b-(b1,b2),则a对应的多个目标同义词表示为{a,a1},b对应的多个目标同义词表示为{b,b1,b2},从每一待替换词次对应的多个目标同义词中随机选取一个目标同义词,可包括如下几种形式,(a,b)、(a,b1)、(a、b2)、(b、a1)、(a1、b1)、(a1,b2),将中间语句中的每一待替换词次替换为目标同义词,获取替换后的中间语句,即(a-b)、(a-b1)、(a-b2)、(b-a1)、(a1-b1)、(a1-b2),将重复的中间语句去除,得到更新后的中间语句,即(a-b1)、(a-b2)、(b-a1)、(a1-b1)、(a1-b2),然后将每一更新后的中间语句与对应的高频提问词结合,即按照分割前目标提问语料的句式结构以及词位置将高频提问词在中间语句中还原,以得到重构后的目标提问语料。

在一实施例中,如图8所示,步骤s203中,即基于文本相似度,获取多个历史提问语句作为历史提问模板,具体包括如下步骤:

s801:获取高频提问词与每一历史提问语句的文本相似度。

其中,该文本相似度可为jaccard(杰卡德)相似度表示;具体地,可通过将高频提问词与历史提问语句分别进行向量化转换,以得到高频提问词与历史提问语句对应的向量,然后计算高频提问词与历史提问语句的向量交集与向量并集的比值作为文本相似度。

s802:对获取的多个文本相似度进行降序排列,获取排在前n位的历史提问语句为历史提问模板;或者,

s803:基于获取多个文本相似度,将文本相似度大于预设文本相似度阈值的历史提问语句为历史提问模板。

具体地,本实施例中在确定历史提问模板是可包括但不限于以下两种方式实现,一种是对文本相似度进行降序排列,以将排在前n位的历史提问语句为历史提问模板;其中,n值可根据实际需要进行设定,此处不做限定。另一种是:将文本相似度大于预设文本相似度阈值的历史提问语句为历史提问模板。

应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。

在一实施例中,提供一种语料生成装置,该语料生成装置与上述实施例中语料生成方法一一对应。如图8所示,该语料生成装置包括数据获取模块10、目标问答语句提取模块20、历史提问模板获取模块30、提问语料获取模块40以及目标问答语料获取模块50。各功能模块详细说明如下:

数据获取模块10,用于获取目标问答领域对应的高频提问词以及待挖掘文本;其中,高频提问词用于指示目标问答领域中高频问题对应的主题词

目标问答语句提取模块20,用于根据高频提问词,从待挖掘文本中提取高频提问词对应的目标应答语句

历史提问模板获取模块30,用于对高频提问词与历史问答库中的多条历史提问语句进行文本相似度匹配,获取多个历史提问语句作为历史提问模板

提问语料获取模块40,用于将历史提问模板中的历史提问词替换成高频提问词,得到提问语料;其中,历史提问词为历史提问模板对应的主题词

目标问答语料获取模块50,用于将提问语料与高频提问词对应的目标应答语句作为目标问答语料。

具体地,该语料生成方法装置还包括语义语法检查模块、第一处理模块、第二处理模块以及目标问答语料获取模块。

语义语法检查模块,用于采用预训练的语言模型对提问语料进行语法语义检查,得到提问语料的得分值

第一处理模块,用于当得分值不小于预设分值阈值,保留提问语料

第二处理模块,用于当得分值小于预设分值阈值,去除提问语料

目标问答语料获取模块具体为,将保留的提问语料与高频提问词对应的目标应答语句作为目标问答语料。

具体地,该语料生成方法装置还包括同义词扩充模块、目标提问语料获取模块以及目标问答语料获取模块。

同义词扩充模块,用于对高频提问词进行同义词扩充,获取高频提问词对应的多个目标同义词

目标提问语料获取模块,用于根据每一目标同义词对保留的提问语料中的高频提问词进行替换,得到高频提问词对应的多个目标提问语料

目标问答语料获取模块具体为,将每一目标提问语料与高频提问词对应的目标应答语句作为目标问答语料。

具体地,目标问答语句提取模块包括提取模板或单元以及目标应答语句提取单元。

提取模板或单元,用于获取目标问答领域对应的语句提取模板

目标应答语句提取单元,用于根据语句提取模板,从待挖掘文本中提取高频提问词对应的目标应答语句。

具体地,同义词扩充模块包括候选同义词获取模块以及目标同义词获取模块。

候选同义词获取模块,用于将高频提问词输入到近似度函数中进行处理,获取与高频提问词相对应的多个候选同义词以及与候选同义词相对应的第一近似度

目标同义词获取模块,用于基于第一近似度,从多个候选同义词中选取高频提问词对应的多个目标同义词。

具体地,该语料生成方法装置还包括分割模块、分词模块、原始近义词获取模块、目标同义词获取模块以及目标提问语料重构模块。

分割模块,用于对目标提问语料进行分割,去除目标提问语料中的高频提问词,得到中间语句

分词模块,用于对中间语句进行分词处理,得到多个待替换词次

原始近义词获取模块,用于将待替换词次输入到近似度函数中进行处理,获取与待替换词次相对应的多个原始近义词以及与原始近义词相对应的第二近似度

目标近义词获取模块,用于基于第二近似度,从多个原始近义词中选取待替换词次对应的目标近义词。

目标提问语料重构模块,用于基于目标近义词与高频提问词,对目标提问语料进行重构,以更新目标提问语料。

具体地,历史提问模板获取模块包括排序单元以及历史提问模板获取单元。

文本相似度获取单元,用于获取高频提问词与每一历史提问语句的文本相似度。

排序单元,用于对获取的多个文本相似度进行降序排列,获取排在前n位的历史提问语句为历史提问模板;或者,

历史提问模板获取单元,用于基于获取多个文本相似度,将文本相似度大于预设文本相似度阈值的历史提问语句为历史提问模板。

关于语料生成装置的具体限定可以参见上文中对于语料生成方法的限定,在此不再赘述。上述语料生成装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图9所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括计算机存储介质、内存储器。该计算机存储介质存储有操作系统、计算机程序和数据库。该内存储器为计算机存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储执行语料生成方法过程中生成或获取的数据,如意图识别模型。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种语料生成方法。

在一个实施例中,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现上述实施例中的语料生成方法的步骤,例如图2所示的步骤s201-s207,或者图3至图7中所示的步骤。或者,处理器执行计算机程序时实现语料生成装置这一实施例中的各模块/单元的功能,例如图8所示的各模块/单元的功能,为避免重复,这里不再赘述。

在一实施例中,提供一计算机存储介质,该计算机存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述实施例中语料生成方法的步骤,例如图2所示的步骤s201-s207,或者图3至图7中所示的步骤,为避免重复,这里不再赘述。或者,该计算机程序被处理器执行时实现上述语料生成装置这一实施例中的各模块/单元的功能,例如图8所示的各模块/单元的功能,为避免重复,这里不再赘述。

本实施例中所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(rom)、可编程rom(prom)、电可编程rom(eprom)、电可擦除可编程rom(eeprom)或闪存。易失性存储器可包括随机存取存储器(ram)或者外部高速缓冲存储器。作为说明而非局限,ram以多种形式可得,诸如静态ram(sram)、动态ram(dram)、同步dram(sdram)、双数据率sdram(ddrsdram)、增强型sdram(esdram)、同步链路(synchlink)dram(sldram)、存储器总线(rambus)直接ram(rdram)、直接存储器总线动态ram(drdram)、以及存储器总线动态ram(rdram)等。

所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。

以上实施例仅用以说明本发明的技术方案,而非对其限制,尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1