结合RPA和AI的语料泛化方法、装置和电子设备与流程

文档序号:23805857发布日期:2021-02-03 09:05阅读:230来源:国知局
结合RPA和AI的语料泛化方法、装置和电子设备与流程
结合rpa和ai的语料泛化方法、装置和电子设备
技术领域
[0001]
本申请涉及自然语言处理领域,尤其涉及一种结合rpa和ai的语料泛化方法、装置、电子设备及存储介质。


背景技术:

[0002]
机器人流程自动化(robotic process automation,rpa)是通过特定的“机器人软件”,模拟人在计算机上的操作,按规则自动执行流程任务。
[0003]
人工智能(artificia lintelligence,ai)是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门技术科学。
[0004]
自然语言处理(natura llanguage processing,简称:nlp)是研究能有效地实现自然语言通信的计算机系统,特别是其中的软件系统的一门科学,是计算机科学领域与人工智能领域中的一个重要方向。
[0005]
对于诸如搜索引擎、智能语音、客服机器人等人机交互产品,通常通过机器学习模型识别用户的语句意图。机器学习模型预先通过语料进行训练,而机器学习模型的识别能力取决于用于训练该模型的语料数量。在语料数量不足时,可以通过对语料进行泛化,来提高语料的数量。
[0006]
现有技术中,通过众包任务的方式将语料泛化任务发布给多个作业人员,由作业人员通过人工想象对语料进行泛化。
[0007]
然而由于是通过人工想象对语料进行泛化,语料泛化的效率较低。


技术实现要素:

[0008]
本申请实施例提供一种语料泛化方法、装置、设备及存储介质,以解决目前语料泛化的效率较低的问题。
[0009]
第一方面,本申请实施例提供一种结合rpa和ai的语料泛化方法,应用于第一电子设备,所述第一电子设备包括rpa系统,所述方法包括:
[0010]
所述rpa系统接收第一请求,其中,所述第一请求中包括种子语料;
[0011]
所述rpa系统基于自然语言处理nlp,按照预设泛化方式对所述种子语料进行泛化,得到所述种子语料的至少一个候选语料;
[0012]
所述rpa系统识别所述至少一个候选语料与所述种子语料的相似度,将相似度大于预设阈值的候选语料确定为所述种子语料的泛化语料;
[0013]
所述rpa系统输出所述种子语料的泛化语料。
[0014]
在一种可能的实施方式中,所述预设泛化方式包括以下方式中的至少一种:
[0015]
网络爬取方式、同义词替换方式、知识库检索方式和句式提取方式。
[0016]
在一种可能的实施方式中,所述预设泛化方式包括所述网络爬取方式时,所述rpa系统基于自然语言处理nlp,按照预设泛化方式对所述种子语料进行泛化,得到所述种子语料的至少一个候选语料,包括:
[0017]
所述rpa系统按照所述网络爬取方式对所述种子语料进行泛化,得到所述种子语料的至少一个候选语料;
[0018]
所述rpa系统按照所述网络爬取方式对所述种子语料进行泛化,得到所述种子语料的至少一个候选语料,包括:
[0019]
所述rpa系统在网页搜索网站中搜索所述种子语料,得到展示搜索结果的网页列表,其中,所述网页列表中包括多个网页项,每个网页项具有一个标题语句;
[0020]
所述rpa系统爬取各网页项的标题语句;
[0021]
所述rpa系统将各网页项的标题语句中符合匹配条件的标题语句作为所述种子语料的候选语料。
[0022]
在一种可能的实施方式中,所述方法还包括:
[0023]
所述rpa系统接收过滤词;
[0024]
所述rpa系统将各网页项的标题语句中符合匹配条件的标题语句作为所述种子语料的候选语料,包括:
[0025]
所述rpa系统根据所述过滤词,将各网页项的标题语句中符合所述匹配条件的标题语句作为所述种子语料的候选语料。
[0026]
在一种可能的实施方式中,所述网页列表包括至少一个展示页面,每个展示页面内包括至少一个网页项;
[0027]
所述方法还包括:
[0028]
所述rpa系统接收指定网站地址和/或指定爬取页数;
[0029]
所述rpa系统在网页搜索网站中搜索所述种子语料,包括:
[0030]
所述rpa系统在所述指定网站地址指示的网页搜索网站中搜索所述种子语料;
[0031]
所述rpa系统爬取各网页项的标题语句,包括:
[0032]
所述rpa系统在所述指定爬取页数对应的展示页面内,爬取各网页项的标题语句。
[0033]
在一种可能的实施方式中,所述预设泛化方式包括所述同义词替换方式时,所述rpa系统基于自然语言处理nlp,按照预设泛化方式对所述种子语料进行泛化,得到所述种子语料的至少一个候选语料,还包括:
[0034]
所述rpa系统按照所述同义词替换方式对所述种子语料进行泛化,得到所述种子语料的至少一个候选语料;
[0035]
所述rpa系统按照所述同义词替换方式对所述种子语料进行泛化,得到所述种子语料的至少一个候选语料,包括:
[0036]
所述rpa系统获取所述种子语料的所属领域,并从预置的多个同义词表中选取所述所属领域对应的同义词表,其中,每个同义词表对应一个领域;
[0037]
所述rpa系统查找所述种子语料中的关键词;
[0038]
所述rpa系统根据所述所属领域对应的同义词表,对所述种子语料中的关键词进行同义词替换,得到所述种子语料的至少一个候选语料。
[0039]
在一种可能的实施方式中,所述预设泛化方式包括所述知识库检索方式时,所述rpa系统基于自然语言处理nlp,按照预设泛化方式对所述种子语料进行泛化,得到所述种子语料的至少一个候选语料,还包括:
[0040]
所述rpa系统按照所述知识库检索方式对所述种子语料进行泛化,得到所述种子
语料的至少一个候选语料;
[0041]
所述rpa系统按照所述知识库检索方式对所述种子语料进行泛化,得到所述种子语料的至少一个候选语料,包括:
[0042]
所述rpa系统在知识库中查找所述种子语料对应的泛化语料,其中,所述知识库中包括多个种子语料及其对应的泛化语料;
[0043]
所述rpa系统将所述知识库中所述种子语料对应的泛化语料作为所述种子语料的候选语料。
[0044]
在一种可能的实施方式中,所述预设泛化方式包括所述句式提取方式时,所述rpa系统基于自然语言处理nlp,按照预设泛化方式对所述种子语料进行泛化,得到所述种子语料的至少一个候选语料,还包括:
[0045]
所述rpa系统按照所述句式提取方式对所述种子语料进行泛化,得到所述种子语料的至少一个候选语料;
[0046]
所述rpa系统按照所述句式提取方式对所述种子语料进行泛化,得到所述种子语料的至少一个候选语料,包括:
[0047]
所述rpa系统通过依存句法分析算法识别并提取所述种子语料中的关键词汇;
[0048]
所述rpa系统对所述种子语料的关键词汇进行组合,生成所述种子语料的候选语料。
[0049]
在一种可能的实施方式中,每种预设泛化方式对应于一个标识;
[0050]
所述方法还包括:
[0051]
所述rpa系统接收指定标识;
[0052]
所述rpa系统基于自然语言处理nlp,按照预设泛化方式对所述种子语料进行泛化,得到所述种子语料的至少一个候选语料,还包括:
[0053]
所述rpa系统采用所述指定标识对应的预设泛化方式对所述种子语料进行泛化。
[0054]
在一种可能的实施方式中,所述rpa系统输出所述种子语料的泛化语料之后,所述方法还包括:
[0055]
所述rpa系统接收第二请求,其中,所述第二请求用于指示所述种子语料的至少一个泛化语料;
[0056]
所述rpa系统将所述第二请求所指示的泛化语料作为新的种子语料进行泛化,得到所述新的种子语料的候选语料;
[0057]
所述rpa系统将所述新的种子语料的候选语料添加到所述种子语料的候选语料中,并重新识别所述种子语料的至少一个候选语料与所述种子语料的相似度,将相似度大于所述预设阈值的候选语料确定为所述种子语料的泛化语料;
[0058]
所述rpa系统重新输出所述种子语料的泛化语料。
[0059]
在一种可能的实施方式中,所述rpa系统接收第一请求之后,所述方法还包括:
[0060]
所述rpa系统在历史记录中查找所述种子语料,所述历史记录包括历史泛化的种子语料及其相应的泛化语料;
[0061]
所述rpa系统若在所述历史记录中查找到所述种子语料,则从所述历史记录中获取所述种子语料的泛化语料;
[0062]
所述rpa系统若在所述历史记录中未查找到所述种子语料,则根据预设泛化方式
对所述种子语料进行泛化,得到所述种子语料的至少一个候选语料。
[0063]
在一种可能的实施方式中,所述方法还包括:
[0064]
所述rpa系统将所述种子语料以及所述种子语料的泛化语料更新到知识库中,所述知识库中至少包括所述种子语料及其对应的泛化语料;
[0065]
所述rpa系统识别所述至少一个候选语料与所述种子语料的相似度,包括:
[0066]
所述rpa系统通过逻辑回归模型识别所述至少一个候选语料与所述种子语料的相似度,其中,所述逻辑回归模型预先经过由所述知识库中的多个语料组成的训练集训练。
[0067]
第二方面,本申请实施例提供一种结合rpa和ai的语料泛化方法,应用于第二电子设备,所述第二电子设备包括rpa系统,所述方法包括:
[0068]
所述rpa系统接收用户输入的种子语料;
[0069]
所述rpa系统向第一电子设备发送包含所述种子语料的第一请求,其中,所述第一请求用于指示所述第一电子设备基于自然语言处理nlp,按照预设泛化方式对所述种子语料进行泛化,得到所述种子语料的至少一个候选语料,识别所述至少一个候选语料与所述种子语料的相似度,将相似度大于预设阈值的候选语料作为所述种子语料的泛化语料;
[0070]
所述rpa系统接收并显示所述第一电子设备发送的所述种子语料的泛化语料。
[0071]
在一种可能的实施方式中,所述种子语料的泛化语料为至少一个;
[0072]
所述rpa系统接收并显示所述第一电子设备发送的所述种子语料的泛化语料,包括:
[0073]
所述rpa系统显示所述种子语料的至少一个泛化语料及指示控件,其中,所述指示控件用于指示将用户选择的泛化语料作为新的种子语料进行泛化;
[0074]
所述rpa系统接收并显示所述第一电子设备发送的所述种子语料的泛化语料之后,还包括:
[0075]
所述rpa系统响应于针对所述指示控件的触发操作,向所述第一电子设备发送第二请求,其中,所述第二请求用于指示所述第一电子设备将用户选择的泛化语料作为新的种子语料进行泛化;
[0076]
所述rpa系统接收并显示所述第一电子设备重新发送的所述种子语料的泛化语料。
[0077]
在一种可能的实施方式中,所述rpa系统接收并显示所述第一电子设备发送的所述种子语料的泛化语料,还包括:
[0078]
所述rpa系统接收所述第一电子设备发送的所述种子语料的所述至少一个泛化语料及其对应的相似度和/或泛化方式;
[0079]
所述rpa系统将所述种子语料的所述至少一个泛化语料及其对应的相似度和/或泛化方式进行关联显示;
[0080]
所述rpa系统接收并显示所述第一电子设备发送的所述种子语料的泛化语料之后,还包括:
[0081]
所述rpa系统接收用户输入的筛选指令,其中,所述筛选指令用于指示所述预设泛化方式中的至少一种;
[0082]
所述rpa系统显示以所述筛选指令所指示的泛化方式得到的泛化语料。
[0083]
在一种可能的实施方式中,所述种子语料为至少一个;
[0084]
所述rpa系统接收并显示所述第一电子设备发送的所述种子语料的泛化语料,还包括:
[0085]
所述rpa系统显示至少一个种子语料及其泛化语料的个数;
[0086]
所述rpa系统显示至少一个种子语料及其泛化语料的个数之后,还包括:
[0087]
所述rpa系统接收用户针对指定种子语料的泛化语料的个数的触发指令,其中,所述指定种子语料为所有种子语料中的一个;
[0088]
所述rpa系统显示所述指定种子语料的泛化语料。
[0089]
第三方面,本申请实施例提供一种结合rpa和ai的语料泛化方法,应用于第三电子设备,所述第三电子设备包括rpa系统,所述方法包括:
[0090]
所述rpa系统接收用户输入的种子语料;
[0091]
所述rpa系统根据预设泛化方式对所述种子语料进行泛化,得到所述种子语料的至少一个候选语料;
[0092]
所述rpa系统识别所述至少一个候选语料与所述种子语料的相似度,将相似度大于预设阈值的候选语料确定为所述种子语料的泛化语料;
[0093]
所述rpa系统显示所述种子语料的泛化语料。
[0094]
第四方面,本申请实施例提供一种结合rpa和ai的语料泛化装置,应用于第一电子设备,包括:
[0095]
第一接收模块,用于接收第一请求,其中,所述第一请求中包括种子语料;
[0096]
第一处理模块,用于基于自然语言处理nlp,按照预设泛化方式对所述种子语料进行泛化,得到所述种子语料的至少一个候选语料;
[0097]
第一确定模块,用于识别所述至少一个候选语料与所述种子语料的相似度,将相似度大于预设阈值的候选语料确定为所述种子语料的泛化语料;
[0098]
第一输出模块,用于输出所述种子语料的泛化语料。
[0099]
第五方面,本申请实施例提供一种结合rpa和ai的语料泛化装置,应用于第二电子设备,包括:
[0100]
第二接收模块,用于接收用户输入的种子语料;
[0101]
第一发送模块,用于向第一电子设备发送包含所述种子语料的第一请求,其中,所述第一请求用于指示所述第一电子设备基于自然语言处理nlp,按照预设泛化方式对所述种子语料进行泛化,得到所述种子语料的至少一个候选语料,识别所述至少一个候选语料与所述种子语料的相似度,将相似度大于预设阈值的候选语料作为所述种子语料的泛化语料;
[0102]
第一显示模块,用于接收并显示所述第一电子设备发送的所述种子语料的泛化语料。
[0103]
第六方面,本申请实施例提供一种结合rpa和ai的语料泛化装置,应用于第三电子设备,包括:
[0104]
第三接收模块,用于接收用户输入的种子语料;
[0105]
第二处理模块,用于根据预设泛化方式对所述种子语料进行泛化,得到所述种子语料的至少一个候选语料;
[0106]
第二确定模块,用于识别所述至少一个候选语料与所述种子语料的相似度,将相
似度大于预设阈值的候选语料确定为所述种子语料的泛化语料;
[0107]
第二显示模块,用于显示所述种子语料的泛化语料。
[0108]
第七方面,本申请实施例提供一种第一电子设备,包括:至少一个处理器和存储器;
[0109]
所述存储器存储计算机执行指令;
[0110]
所述至少一个处理器执行所述存储器存储的计算机执行指令,使得所述至少一个处理器执行如上第一方面以及第一方面各种可能的实施方式所述的语料泛化方法。
[0111]
第八方面,本申请实施例提供一种第二电子设备,包括:至少一个处理器和存储器;
[0112]
所述存储器存储计算机执行指令;
[0113]
所述至少一个处理器执行所述存储器存储的计算机执行指令,使得所述至少一个处理器执行如上第二方面以及第二方面各种可能的实施方式所述的语料泛化方法。
[0114]
第九方面,本申请实施例提供一种第三电子设备,包括:至少一个处理器和存储器;
[0115]
所述存储器存储计算机执行指令;
[0116]
所述至少一个处理器执行所述存储器存储的计算机执行指令,使得所述至少一个处理器执行如上第三方面以及第三方面各种可能的实施方式所述的语料泛化方法。
[0117]
第十方面,本申请实施例提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,当处理器执行所述计算机执行指令时,实现如上第一方面以及第一方面各种可能的实施方式所述的语料泛化方法。
[0118]
第十一方面,本申请实施例提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,当处理器执行所述计算机执行指令时,实现如上第二方面以及第二方面各种可能的实施方式所述的语料泛化方法。
[0119]
第十二方面,本申请实施例提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,当处理器执行所述计算机执行指令时,实现如上第三方面以及第三方面各种可能的实施方式所述的语料泛化方法。
[0120]
本申请实施例提供的结合rpa和ai的语料泛化方法、装置、电子设备及存储介质,rpa系统通过接收第一请求,其中,第一请求中包括种子语料,根据预设泛化方式对种子语料进行泛化,得到种子语料的至少一个候选语料,识别各候选语料与种子语料的相似度,将相似度大于预设阈值的候选语料确定为种子语料的泛化语料,输出种子语料的泛化语料。该方法中,能够通过预设泛化方式自动对种子语料进行泛化,并根据预设阈值对泛化的候选语料进行筛选,从而筛选出种子语料的泛化语料,提高语料泛化的效率。
附图说明
[0121]
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0122]
图1为本申请一实施例提供的结合rpa和ai的语料泛化方法的场景示意图;
[0123]
图2为本申请又一实施例提供的结合rpa和ai的语料泛化方法的场景示意图;
[0124]
图3为本申请一实施例提供的结合rpa和ai的语料泛化方法的流程示意图;
[0125]
图4为本申请又一实施例提供的结合rpa和ai的语料泛化方法的流程示意图;
[0126]
图5为本申请另一实施例提供的结合rpa和ai的语料泛化方法的流程示意图;
[0127]
图6为本申请实施例提供的预设泛化方式选择界面的示意图;
[0128]
图7为本申请实施例提供的网络爬取方式的配置界面的示意图;
[0129]
图8为本申请一实施例提供的泛化语料的显示界面的示意图;
[0130]
图9为本申请另一实施例提供的泛化语料的显示界面的示意图;
[0131]
图10为本申请一实施例提供的结合rpa和ai的泛化语料方法的信令交互图;
[0132]
图11为本申请再一实施例提供的结合rpa和ai的语料泛化方法的流程示意图;
[0133]
图12为本申请一实施例提供的结合rpa和ai的语料泛化装置的结构示意图;
[0134]
图13为本申请又一实施例提供的结合rpa和ai的语料泛化装置的结构示意图;
[0135]
图14为本申请另一实施例提供的结合rpa和ai的语料泛化装置的结构示意图;
[0136]
图15为本申请一实施例提供的第一电子设备的硬件结构示意图;
[0137]
图16为本申请又一实施例提供的第二电子设备的硬件结构示意图;
[0138]
图17为本申请另一实施例提供的第三电子设备的硬件结构示意图。
具体实施方式
[0139]
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
[0140]
图1为本申请一实施例提供的结合rpa和ai的语料泛化方法的场景示意图。该场景中可以包括第一电子设备11和第二电子设备12。其中,第一电子设备11可以包括但不限于服务器、计算机设备等设备。第二电子设备12可以包括但不限制于手机、台式电脑、车载终端、或者平板电脑等设备。第一电子设备11可以在网络中为第二电子设备12提供后台的计算或者应用服务支持,如第一电子设备11可以支持用于进行语料泛化的语料泛化平台,语料泛化平台可为机器人流程自动化(robotic process automation,rpa)系统。第二电子设备12可以通过应用程序、社交应用程序中的插件、网站登录等方式接入语料泛化平台的接口,从而访问语料泛化平台。用户可以通过对第二电子设备12的操作,来访问语料泛化平台进行语料泛化。
[0141]
例如,用户可以在第二电子设备12上通过网页登录语料泛化平台,在语料泛化平台内输入所要泛化的种子语料,并触发泛化指令。第二电子设备12接收到用户触发的泛化指令后,向第一电子设备11发送第一请求。第一电子设备11对种子语料进行泛化后,将种子语料的泛化语料通过语料泛化平台返回到第二电子设备12上。第二电子设备12可以根据用户的指示以显示、下载等方式输出泛化语料。
[0142]
图2为本申请又一实施例提供的结合rpa和ai的语料泛化方法的场景示意图。该场景中可以包括第三电子设备13。其中,第三电子设备13可以包括但不限于手机、台式电脑、车载终端、或者平板电脑、机器人等设备。第三电子设备13不需要其他后台设备的支持,自
身可以实现语料泛化。
[0143]
例如,第三电子设备可以运行实现语料泛化的应用程序,该应用程序不需要与后台服务器等设备交互即可实现语料泛化。用户可以在第三电子设备13上运行该应用程序,在该应用程序的界面内输入所要泛化的种子语料,并触发泛化指令。第三电子设备13接收到用户触发的泛化指令后,对种子语料进行泛化,然后将种子语料的泛化语料以显示、下载等方式向用户输出。其中,实现语料泛化的应用程序可为rpa系统。
[0144]
需要注意的是,本申请实施例提供的方法并不限用于图1和图2所示的应用场景中,还可以用于其他可能的应用场景,并不进行限制。
[0145]
图3为本申请一实施例提供的结合rpa和ai的语料泛化方法的流程示意图。该方法的执行主体为图1中的第一电子设备,第一电子设备包括rpa系统,如图3所示,该方法包括:
[0146]
s301、rpa系统接收第一请求,其中,所述第一请求中包括种子语料。
[0147]
本实施例中,种子语料为待泛化的语料。例如,种子语料可以为“备孕期饮食禁忌”,则第一电子设备中的rpa系统接收到第一请求后,对该种子语料进行泛化。
[0148]
可选地,可以接收第二电子设备发送的所述第一请求。
[0149]
本实施例中,第二电子设备可以为图1中的第二电子设备。用户在需要进行语料泛化时,可以将种子语料输入到第二电子设备,之后第二电子设备可向第一电子设备发送第一请求,以请求第一电子设备对该种子语料进行泛化。
[0150]
s302、rpa系统基于自然语言处理nlp,按照预设泛化方式对所述种子语料进行泛化,得到所述种子语料的至少一个候选语料。
[0151]
本实施例中,rpa系统可以基于自然语言处理(natura llanguage processing,nlp),采用预置的预设泛化方式对种子语料进行泛化,得到种子语料的候选语料。后续可以对候选语料进一步进行筛选,得到种子语料的泛化语料。
[0152]
可选地,所述预设泛化方式包括以下中的至少一种:
[0153]
网络爬取方式、同义词替换方式、知识库检索方式和句式提取方式。
[0154]
本实施例中,rpa系统可以采用以上一种或多种预设泛化方式对种子语料进行泛化。具体所采用的预设泛化方式,可以为默认的,或由用户指定的。
[0155]
可选地,每种预设泛化方式可对应于一个标识,则rpa系统可接收指定标识。
[0156]
进一步地,rpa系统按照预设泛化方式对所述种子语料进行泛化,可包括采用所述指定标识对应的预设泛化方式对所述种子语料进行泛化。
[0157]
本实施例中,标识可以为预设泛化方式的名称、代码等,在此不做限定。指定标识为用户所指定的标识。rpa系统中预置多种预设泛化方式时,若接收到指定标识,则采用指定标识对应的预设泛化方式对种子语料进行泛化。其中,指定标识可以为一个或多个。指定标识可以为第二电子设备发送的。例如,用户在所有预设泛化方式中选择所想采用的泛化方式的标识,输入给第二电子设备,第二电子设备将该指定标识发送至第一电子设备。
[0158]
s303、rpa系统识别至少一个候选语料与所述种子语料的相似度,将相似度大于预设阈值的候选语料确定为所述种子语料的泛化语料。
[0159]
本实施例中,rpa系统可以根据相似度,从候选语料中筛选出与种子语料相似的语料,作为种子语料的泛化语料。泛化语料即为对种子语料的泛化结果。预设阈值可以根据实际需求设定,在此不作限定。例如,预设阈值可以设为0.9,0.8等。
[0160]
可选的,rpa系统可以首先采用深度学习模型识别各候选语料与所述种子语料的相似度,然后将预设阈值与各候选语料对应的相似度进行对比,确定出相似度大于预设阈值的候选语料,作为种子语料的泛化语料。由此,rpa系统可根据相似度对候选语料进行筛选,能够保证泛化语料的准确性。
[0161]
可选的,深度学习模型的获取,可包括基于知识库中的语料样本,以jaccrad、coverity、w2v(词向量)、wmd(词移距离)等多种距离特征,利用xgb算法/逻辑回归模型训练最优模型,训练得到的最优模型用于计算出句子之间相似度。
[0162]
作为另一种可能的实施方式,rpa系统还可以通过逻辑回归模型识别各候选语料与所述种子语料的相似度,其中,所述逻辑回归模型预先经过由所述知识库中的多个语料组成的训练集训练。本实施例中,知识库中可以存储泛化过的种子语料和相应的泛化语料。可以从知识库中选取语料组成训练集,通过训练集训练创建的逻辑回归模型,采用训练后的逻辑回归模型识别各候选语料与所述种子语料的相似度。
[0163]
可选的,为了保证泛化后泛化语料的准确性,rpa系统还可以采用排序算法计算泛化后的候选语料与种子语料的相似度,并对按照相似度大小对所有候选语料进行排序,删除相似度低于预设阈值的候选语料,进而获取种子语料的泛化语料。
[0164]
s304、rpa系统输出所述种子语料的泛化语料。
[0165]
本实施例,第一电子设备可通过rpa系统向用户输出种子语料的泛化语料,以便用户查看或下载种子语料的泛化语料,后续根据该泛化语料进行模型训练等。例如,种子语料为“备孕期饮食禁忌”,该种子语料的泛化语料可以为“备孕期饮食注意”、“备孕期饮食注意事项”、“备孕期食物注意”等。
[0166]
综上,本申请实施例的结合rpa和ai的语料泛化方法,rpa系统通过接收第一请求,其中,第一请求中包括种子语料,然后基于自然语言处理nlp,按照预设泛化方式对种子语料进行泛化,得到种子语料的至少一个候选语料,之后识别至少一个候选语料与种子语料的相似度,将相似度大于预设阈值的候选语料确定为种子语料的泛化语料,最后输出种子语料的泛化语料。该方法中rpa系统能够通过预设的泛化方式自动对种子语料进行泛化,并根据预设阈值对泛化的候选语料进行筛选,从而筛选出种子语料的泛化语料,在保证泛化效果的情况下,提高语料泛化的效率。
[0167]
可选地,第一电子设备中的rpa系统可以将所述种子语料的泛化语料发送给第二电子设备。
[0168]
由此,第一电子设备可通过rpa系统将种子语料的泛化语料发送给第二电子设备,以便第二电子设备显示种子语料的泛化语料,方便用户进行后续的查看、选择和下载等操作。
[0169]
可选地,rpa系统将所述种子语料的泛化语料发送给第二电子设备,可包括将所述种子语料的泛化语料,以及各泛化语料对应的相似度和/或泛化方式发送给所述第二电子设备。
[0170]
其中,泛化语料对应的相似度,是指泛化语料与种子语料之间的相似度。泛化语料对应的泛化方式,是指第一电子设备在确定该泛化语料所采用的预设泛化方式。例如,泛化语料“备孕期饮食注意”是通过“同义词替换方式”得到的,泛化语料“备孕期饮食注意事项”是通过“网络爬取方式”得到的。
[0171]
由此,第一电子设备中的rpa系统在将种子语料的泛化语料发送给第二电子设备时,同时将各泛化语料对应的相似度和/或泛化方式发送给第二电子设备,以便第二电子设备向用户显示各泛化语料对应的相似度和/或泛化方式。
[0172]
在一种实施方式中,在s304之后,上述方法还包括:所述rpa系统将所述种子语料以及所述种子语料的泛化语料更新到知识库中。
[0173]
由此,rpa系统在采用知识库检索方式进行语料泛化时,从知识库中存储的语料中检索种子语料的候选语料。在得到种子语料的泛化语料后,可以将该种子语料以及相应的泛化语料更新到知识库中,从而丰富知识库中的语料数据。
[0174]
在一种实施方式中,在s304之后,上述方法还包括:所述rpa系统接收第二请求,其中,所述第二请求用于指示所述种子语料的至少一个泛化语料,之后将所述第二请求所指示的泛化语料作为新的种子语料进行泛化,得到所述新的种子语料的候选语料,之后将所述新的种子语料的候选语料添加到所述种子语料的候选语料中,并重新识别所述种子语料的至少一个候选语料与所述种子语料的相似度,将相似度大于所述预设阈值的候选语料确定为所述种子语料的泛化语料,之后重新输出所述种子语料的泛化语料。
[0175]
本实施例中,第二请求可以是由第二电子设备发送的。在得到种子语料的泛化语料后,用户可以在该种子语料的所有泛化语料中,指示一个或多个泛化语料作为新的种子语料进行泛化,并将泛化的结果更新到原先的种子语料的泛化语料中。例如,种子语料为“备孕期饮食禁忌”,该种子语料的泛化语料可以为“备孕期饮食注意”、“备孕期饮食注意事项”、“备孕期食物注意”等,用户可以指定“备孕期饮食注意事项”作为新的种子语料进行泛化,将对“备孕期饮食注意事项”泛化得到的候选语料添加到原先的种子语料“备孕期饮食禁忌”的候选语料中,重新从中筛选出种子语料“备孕期饮食禁忌”的泛化语料,并重新输出“备孕期饮食禁忌”的泛化语料,以进行更新。
[0176]
本公开的实施例中,当对某种子语料进行泛化后,如果用户发现泛化后的泛化语料的数量较少时,可以选取泛化后效果比较准确的泛化语料,作为新的种子语料,对这些新的种子语料进行泛化,将其泛化的结果嵌入到原种子语料的候选语料中,对所有候选语料重新计算与原种子语料的相似度。这样便于用户直接对种子语料的泛化语料进行泛化,减少用户操作,提升用户体验,提高泛化效率和准确性。
[0177]
在一种实施方式中,在所述预设泛化方式包括所述网络爬取方式时,rpa系统按照所述网络爬取方式对所述种子语料进行泛化,得到所述种子语料的至少一个候选语料,包括:所述rpa系统在网页搜索网站中搜索所述种子语料,得到展示搜索结果的网页列表,其中,所述网页列表中包括多个网页项,每个网页项具有一个标题语句之后爬取各网页项的标题语句,之后将各网页项的标题语句中符合匹配条件的标题语句作为所述种子语料的候选语料。
[0178]
本实施例中,对rpa系统采用网络爬取方式得到种子语料的候选语料的具体实现过程进行了说明。网页搜索网站是指根据关键词检索相应网页的网站。网页搜索网站可以是默认设置的,也可以是由用户指定的,在此不作限定。
[0179]
rpa系统可以在网页搜索网站中搜索种子语料,得到与种子语料相关的多个网页项以及每个网页项的标题语句。例如,种子语料为“备孕期饮食禁忌”,在网页搜索网站中搜索到的网页项及标题语句可以包括:网页项一www.aaa.com.cn,标题语句为“孕前吃什么
好_备孕不能吃什么_aaa网”;网页项二www.bbb.com.cn,标题语句为“【备孕饮食宜忌】备孕饮食注意事项-bbb网”;网页项三www.ccc.com.cn,标题语句为“备孕期注意5要点,好习惯让你更幸运-ccc网站”等。
[0180]
进一步地,rpa系统可以爬取每个网页项的标题语句,然后识别标题语句是否符合匹配条件,将符合匹配条件的标题语句作为种子语料的候选语料。其中,匹配条件用于排除不包含种子语料的相似语句的标题语句。
[0181]
进一步地,rpa系统可以将符合匹配条件的标题语句中与种子语料无关的词汇删除,得到种子语料的候选语料。例如,匹配条件为包含种子语料中各词汇或其同义词。
[0182]
在上述的示例中,网页项一、网页项二的标题语句符合匹配条件,网页项三的标题语句不符合匹配条件,可以将网页项一的标题语句中的“备孕不能吃什么”,以及网页项二的标题语句中的“备孕饮食注意事项”,作为种子语料“备孕期饮食禁忌”的候选语料。
[0183]
由此,rpa系统按照网络爬取方式,可以从由众多网站构成的泛化库中,获取种子语料的候选语料,样式更多且更贴近用户提问的真实情况,泛化效果更符合用户需求。
[0184]
可选地,在所述预设泛化方式包括所述网络爬取方式时,上述方法还可以包括:rpa系统接收过滤词,根据过滤词将各网页项的标题语句中符合所述匹配条件的标题语句作为所述种子语料的候选语料。
[0185]
本实施例中,rpa系统可以接收第二电子设备发送的过滤词,按照过滤词确定相应的匹配条件,对各网页项的标题语句进行筛选,将各网页项的标题语句中符合匹配条件的标题语句作为所述种子语料的候选语料,从而可根据用户设置的过滤词进行网络爬取。
[0186]
由此,通过设置过滤词,便于用户根据需求调整网络爬取方式的匹配条件,从而筛选出符合需求的候选语句,提高网络爬取方式的个性化。
[0187]
作为另一种可能的实施方式,rpa系统还可接收过滤词和匹配模式,根据过滤词和匹配模式,将各网页项的标题语句中符合所述匹配条件的标题语句作为所述种子语料的候选语料。
[0188]
其中,所述匹配模式为精准匹配或模糊匹配,在所述匹配模式为精准匹配时,所述匹配条件为标题语句中包含所述过滤词;在所述匹配模式为模糊匹配时,所述匹配条件为标题语句中包含所述过滤词或所述过滤词的同义词。
[0189]
本实施例中,rpa系统可以根据用户设定的过滤词和匹配模式进行网络爬取。rpa系统可以接收第二电子设备发送的过滤词和匹配模式,按照过滤词和匹配模式确定相应的匹配条件,对各网页项的标题语句进行筛选。
[0190]
其中,匹配模式包括两种可选地模式:精准匹配或模糊匹配。
[0191]
精准匹配对应的匹配条件为标题语句中必须包含过滤词,例如,上述的示例中,假设用户设置的过滤词为“饮食”,由于网页项二的标题语句中包含“饮食”,符合匹配条件;网页项一、网页项三的标题语句中不包含“饮食”,所以不符合匹配条件。
[0192]
模糊匹配对应的匹配条件为标题语句中包含过滤词或过滤词的同义词,例如,上述的示例中,假设用户设置的过滤词为“饮食”,由于网页项一的标题语句中包含“吃”(饮食的同义词)、网页项二的标题语句中包含“饮食”,符合匹配条件;网页项三的标题语句中不包含“饮食”,所以不符合匹配条件。
[0193]
由此,通过设置过滤词和匹配模式,便于用户根据需求调整网络爬取方式的匹配
条件,从而筛选出符合需求的候选语句,提高网络爬取方式的个性化。
[0194]
可选地,在所述预设泛化方式包括所述网络爬取方式时,上述方法还可以包括:所述网页列表包括至少一个展示页面,每个展示页面内包括至少一个网页项。
[0195]
所述方法还包括:所述rpa系统接收指定网站地址和/或指定爬取页数。
[0196]
所述在网页搜索网站中搜索所述种子语料,包括:所述rpa系统在所述指定网站地址指示的网页搜索网站中搜索所述种子语料。
[0197]
所述爬取各网页项的标题语句,包括:所述rpa系统在所述指定爬取页数对应的展示页面内,爬取各网页项的标题语句。
[0198]
本实施例中,rpa系统可以根据接收的指定网络地址,在指定网络地址对应指示的网页搜索网站中搜索种子语料。例如,用户可以将自己想要搜索的网页搜索网站的地址,作为指定网络地址输入到第二电子设备,第二电子设备将指定网络地址发送到第一电子设备,第一电子设备中的rpa系统在采用网络爬取方式进行泛化时,在该指定网络地址对应的网站上搜索。
[0199]
可选地,网页列表包括至少一个展示页面,每个展示页面内包括至少一个网页项。例如,rpa系统在采用网络爬取方式进行泛化时,通过网页搜索网站搜索到与种子语料相关的网页项为100项,分为10个展示页面进行展示,每个展示页面上显示10个网页项。rpa系统可以爬取从起始页开始的指定爬取页数的展示页面内各个网页项的的标题语句。例如,指定爬取页数可以为5,则rpa系统爬取第1页至第5页的展示页面内各个网页项的的标题语句。其中,用户可以将指定爬取页数输入到第二电子设备,第二电子设备将指定爬取页数发送至第一电子设备中的rpa系统。
[0200]
由此,通过按照指定网站地址进行爬取,可以在用户指定的网页搜索网站进行爬取,提升用户体验。通过仅在指定爬取页数对应的展示页面内爬取,可以仅爬取与种子语料相关度大的网页项,避免爬取无关的网页项,进而提高种子语料的处理效率。
[0201]
在一种实施方式中,在所述预设泛化方式包括所述同义词替换方式时,按照所述同义词替换方式对所述种子语料进行泛化,得到所述种子语料的至少一个候选语料,包括:所述rpa系统获取所述种子语料的所属领域,并从预置的多个同义词表中选取所述所属领域对应的同义词表,其中,每个同义词表对应于一个领域,之后查找所述种子语料中的关键词,之后根据所述所属领域对应的同义词表,对所述种子语料中的关键词进行同义词替换,得到所述种子语料的至少一个候选语料。
[0202]
本实施例中,对第一电子设备采用同义词替换方式得到种子语料的候选语料的具体实现过程进行了说明。其中,种子语料的所属领域可以自动进行识别,也可以由用户指定。领域可以包括网络领域、新闻领域、医疗领域、旅游领域、生活领域等,在此不作限定。例如,用户可以判断种子语料的所属领域,将所属领域输入到第二电子设备,第二电子设备将种子语料的所属领域发送给第一电子设备。第一电子设备中的rpa系统可以识别种子语料中的关键词,根据所属领域对应的同义词表,对种子语料中的关键词进行同义词替换,得到种子语料的候选语料。
[0203]
例如,种子语料为“备孕期饮食禁忌”,所属领域为“生活领域”,对于种子语料中的关键词“禁忌”,该领域对应的同义词表中存在近义词“注意”、“注意事项”,则经过同义词替换得到的候选语料包括“备孕期饮食注意”、“备孕期饮食注意事项”。
[0204]
可选地,rpa系统可以对种子语料进行分词,查找到tf-idf(term frequency

inverse documentfrequency,词频-逆向文件频率)比较高的关键词,并基于同义词表进行关键词的替换,进而生成候选语料。其中,考虑到不同领域的同义词会有不同,划分了网络、医疗、旅游、新闻、生活及其他领域的同义词表,可以通过选择领域,进行更准确进行同义词替换。其中,可以采用pkuseg分词工具对种子语料进行分词。
[0205]
由此,通过种子语料的所属领域对应的同义词表,对种子语料中的关键词进行同义词替换,能够提高同义词替换得到的候选语料的准确性,进而提高语料泛化的准确性。
[0206]
在一种实施方式中,在所述预设泛化方式包括所述知识库检索方式时,rpa系统按照所述知识库检索方式对所述种子语料进行泛化,得到所述种子语料的至少一个候选语料,包括:rpa系统在知识库中查找所述种子语料对应的泛化语料,其中,所述知识库中包括多个种子语料及其对应的泛化语料,之后将所述知识库中所述种子语料对应的泛化语料作为所述种子语料的候选语料;
[0207]
本实施例中,对采用知识库检索方式得到种子语料的候选语料的具体实现过程进行了说明。可以理解的是,可以将每一次对种子语料泛化后的泛化语料添加到知识库中。可选地,可以由训练师审核,选择泛化语料中准确度较高的泛化语料存入知识库中。这样,当需要对种子语料进行泛化时,可以在知识库中检索是否存在该种子语料对应的泛化语料,如果存在,则将知识库中该种子语料对应的泛化语料作为种子语料的候选语料。由此,通过将每次种子语料对应的泛化语料添加到知识库中,保证知识库中语料的准确性,进而提高后续语料泛化的准确性。
[0208]
在一种实施方式中,在所述预设泛化方式包括所述句式提取方式时,rpa系统按照所述句式提取方式对所述种子语料进行泛化,得到所述种子语料的至少一个候选语料,包括:rpa系统通过依存句法分析(dependency parsing,dp)算法识别并提取所述种子语料中的关键词汇,之后对所述种子语料的关键词汇进行组合,生成所述种子语料的候选语料。
[0209]
本实施例中,对采用句式提取方式得到种子语料的候选语料的具体实现过程进行了说明。其中,关键词汇可以包括但不限于种子语料中主语、谓语、宾语中的至少一个。rpa系统可以通过dp算法识别并提取种子语料中的关键词汇,然后将关键词汇进行组合,生成种子语料的候选语料。例如,种子语料为“怎么知道自己怀孕了”,其中的关键词汇可以为“怎么”、“知道”、“自己”“怀孕”等,组合生成的候选语料可以包括“知道自己怀孕了”,“怎么知道怀孕了”,“怎么知道怀孕”等。
[0210]
由此,本实施例通过依存句法分析,提取出种子语料中主谓宾等重点词汇,组成完整句子,或删除限定后语,但仍能保留原句子含义,从而保证生成的候选语料的准确性。
[0211]
图4为本申请又一实施例提供的结合rpa和ai的语料泛化方法的流程示意图。本实施例在图4实施例的基础上,对检测设备状态的具体实现过程进行了详细说明。如图4所示,该方法包括:
[0212]
s401、rpa系统接收第一请求,其中,所述第一请求中包括种子语料。
[0213]
本实施例中,s401与图3实施例中的s301类似,此处不再赘述。
[0214]
s402、rpa系统在历史记录中查找所述种子语料,所述历史记录包括历史泛化的种子语料及其相应的泛化语料。
[0215]
s403、rpa系统若在所述历史记录中查找到所述种子语料,则从所述历史记录中获
取所述种子语料的泛化语料。
[0216]
本实施例中,历史记录中可以存储用户之前输入的种子语料及其相应的泛化语料。rpa系统在接收到第一请求后,首先查找历史记录中是否存在该种子语料,如果存在,则从历史记录中直接获取该种子语料的泛化语料,如果不存在,则按照s404和s405的方式泛化得到该种子语料的泛化语料。
[0217]
s404、rpa系统若在所述历史记录中未查找到所述种子语料,则根据预设泛化方式对所述种子语料进行泛化,得到所述种子语料的至少一个候选语料。
[0218]
本实施例中,s404与图3实施例中的s302类似,此处不再赘述。
[0219]
s405、rpa系统识别至少一个候选语料与所述种子语料的相似度,将相似度大于预设阈值的候选语料确定为所述种子语料的泛化语料。
[0220]
本实施例中,s405与图3实施例中的s303类似,此处不再赘述。
[0221]
s406、rpa系统输出所述种子语料的泛化语料。
[0222]
本实施例中,s406与图3实施例中的s304类似,此处不再赘述。
[0223]
本实施例中,先查询历史记录中是否存在种子语料,对于历史泛化过的种子语料,直接获取其泛化语料,可以提高泛化效率。例如,如果用户要批量泛化200个种子语料,且通过查询历史记录,确定其中50个种子语料泛化过,则从历史记录中直接获取这50个种子语料的泛化语料,仅需要通过预设泛化方式对其余的150个种子语料进行泛化,从而减少所需泛化的数据量,提高泛化效率。
[0224]
图5为本申请另一实施例提供的结合rpa和ai的语料泛化方法的流程示意图。该方法的执行主体可以为图1中的第二电子设备,第二电子设备包括rpa系统,如图5所示,该方法包括:
[0225]
s501、rpa系统接收用户输入的种子语料。
[0226]
本实施例中,第二电子设备中的rpa系统可以接收用户输入的种子语料。用户可以输入单个种子语料,也可以批量输入多个种子语料,在此不作限定。其中,种子语料可以是由用户输入到输入框中,也可以是由用户上传包含种子语料的文件,rpa系统从文件中提取种子语料。
[0227]
s502、ppa系统向第一电子设备发送包含所述种子语料的第一请求,其中,所述第一请求用于指示所述第一电子设备基于自然语言处理nlp,按照预设泛化方式对所述种子语料进行泛化,得到所述种子语料的至少一个候选语料,识别所述至少一个候选语料与所述种子语料的相似度,将相似度大于预设阈值的候选语料作为所述种子语料的泛化语料。
[0228]
本实施例中,第一电子设备可以为图1中的第一电子设备。第二电子设备中的rpa系统可以向第一电子设备发送第一请求。第一电子设备可以根据第一请求对种子语料进行泛化处理,得到其泛化预料,具体的泛化处理过程与上述的以第一电子设备为执行主体的语料泛化方法的实现类似,在此不再赘述。
[0229]
可选地,所述预设泛化方式包括以下中的至少一种:网络爬取方式、同义词替换方式、知识库检索方式和句式提取方式。
[0230]
可选地,上述方法还包括:rpa系统显示各预设泛化方式的标识,之后接收用户输入的选择指令,其中,所述选择指令用于指示预设泛化方式的标识中的指定标识,之后将所述指定标识发送至所述第一电子设备。
[0231]
本实施例中,预设泛化方式可以包括以上四种方式中的一种或多种。各预设泛化方式的实现过程,与上述的以第一电子设备为执行主体的语料泛化方法的实施例类似,在此不再赘述。
[0232]
在预设泛化方式包括多种时,第二电子设备可以显示各预设泛化方式的标识,以便用户选择所要采用的预设泛化方式。
[0233]
可选的,rpa系统在接收到用户输入的选择指令后,将用户所选择的指定标识发送至第一电子设备,以便第一电子设备采用该指定标识对应的预设泛化方式对种子语料进行泛化。用户所选择的指定标识可以为一个或多个,在此不作限定。
[0234]
图6为本申请实施例提供的预设泛化方式选择界面的示意图。图6中,用户可以通过在种子语料输入框中输入种子语料,或者通过点击上传文件控件上传包括种子语料的文件。用户可以勾选所要使用的预设泛化方式,在点击泛化控件后,rpa系统向第一电子设备发送第一请求,以请求第一电子设备采用用户勾选的预设泛化方式,对用户输入的种子语料进行泛化。
[0235]
由此,通过显示各预设泛化方式的标识,以及接收用户输入的选择指令,可以便于用户选择使用的预设泛化方式,便于用户操作,提升用户体验。
[0236]
可选地,在所述预设泛化方式包括所述网络爬取方式时,上述方法还包括:rpa系统接收用户输入的过滤词和匹配模式,将所述过滤词和所述匹配模式发送至所述第一电子设备。
[0237]
本实施例中,用户可以对网络爬取方式进行配置。rpa系统可以接收用户输入的过滤词和匹配模式,将过滤词和匹配模式发送至第一电子设备,以便第一电子设备根据过滤词和匹配模式进行网络爬取。根据过滤词和匹配模式进行网络爬取的实现过程,与上述的以第一电子设备为执行主体的语料泛化方法的实施例类似,在此不再赘述。
[0238]
可选地,在所述预设泛化方式包括所述网络爬取方式时,上述方法还包括:rpa系统接收用户输入的指定网站地址和/或指定爬取页数,将所述指定网站地址和/或所述指定爬取页数发送至所述第一电子设备。
[0239]
本实施例中,用户可以对网络爬取方式进行配置。rpa系统可以接收用户输入的指定网站地址和/或指定爬取页数,将指定网站地址和/或指定爬取页数发送至第一电子设备,以便第一电子设备根据指定网站地址和/或指定爬取页数进行网络爬取。根据指定网站地址和/或指定爬取页数进行网络爬取的实现过程,与上述的以第一电子设备为执行主体的语料泛化方法的实施例类似,在此不再赘述。
[0240]
图7为本申请实施例提供的网络爬取方式的配置界面的示意图。图7中,用户可以在指定网络地址输入框中配置所要使用的指定网站地址,在指定爬取页数输入框内配置指定爬取页数,在过滤词入框内配置过滤词,并选择一种匹配模式。
[0241]
s503、rpa系统接收并显示所述第一电子设备发送的所述种子语料的泛化语料。
[0242]
本实施例中,rpa系统可以接收第一电子设备发送的种子语料的泛化语料,并进行显示。
[0243]
综上,本申请实施例的结合rpa和ai的语料泛化方法,通过接收用户输入的种子语料,向第一电子设备发送包含种子语料的第一请求,其中,第一请求用于指示第一电子设备根据预设泛化方式对种子语料进行泛化,得到种子语料的至少一个候选语料,识别至少一
个候选语料与种子语料的相似度,将相似度大于预设阈值的候选语料作为种子语料的泛化语料,接收并显示第一电子设备发送的种子语料的泛化语料。该方法中,能够通过预设的泛化方式自动对种子语料进行泛化,并根据预设阈值对泛化的候选语料进行筛选,从而筛选出种子语料的泛化语料,在保证泛化效果的情况下,提高语料泛化的效率。
[0244]
可选地,为了更方便用户对泛化后的泛化语料进行编辑,rpa系统显示的页面上设有增加、删除、修改等操作,并支持批量操作控件,以根据用户触发的操作控件进行相应的处理。
[0245]
在一种实施方式中,rpa系统接收并显示所述第一电子设备发送的所述种子语料的泛化语料,包括:rpa系统接收所述第一电子设备发送的所述种子语料的至少一个泛化语料及其对应的相似度和/或泛化方式,将所述种子语料的至少一个泛化语料及其对应的相似度和/或泛化方式进行关联显示。
[0246]
本实施例中,rpa系统可以接收第一电子设备发送的种子语料的至少一个泛化语料及其对应的相似度和/或泛化方式,并进行关联显示,方便用户查看各泛化语料与种子语料的相似度,以及得出该泛化语料的泛化方式。
[0247]
rpa系统在接收并显示所述第一电子设备发送的所述种子语料的泛化语料之后,所述方法还包括:rpa系统接收用户输入的筛选指令,其中,所述筛选指令用于指示所述预设泛化方式中的至少一种,显示以所述筛选指令所指示的泛化方式得到的泛化语料。
[0248]
本实施例中,用户还可以根据预设泛化方式对rpa系统显示的泛化语料进行筛选,rpa系统根据筛选指令仅显示以筛选指令所指示的泛化方式得到的泛化语料,方便用户查看不同泛化方式得到的泛化语料。
[0249]
例如,在批量种子语料泛化时,用户通常会选择全部的预设泛化方式,以获得尽量多的泛化语料,但追溯到每一个种子语料上,会发现对某一种子语料,有效的泛化方式不一样,且在某一个泛化方式下的泛化语料就已满足用户需求。本实施例通过设置设计了泛化方式的筛选按钮,进而满足泛化语料的个性化处理。
[0250]
图8为本申请实施例提供的泛化语料的显示界面的示意图。图8中,在每个泛化语料的后面显示了相应的相似度和泛化方式。并且,显示界面内设置了泛化方式的筛选控件,用户可以点击筛选控件进行泛化方式的筛选,rpa系统在用户点击筛选控件后,弹出泛化方式筛选弹窗,用户可以在泛化方式筛选弹窗内勾选所需的泛化方式,然后rpa系统在显示界面内仅显示以用户所勾选的泛化方式得到的泛化语料。
[0251]
在一种实施方式中,所述种子语料为至少一个。
[0252]
上述方法还包括:rpa系统显示各种子语料及其泛化语料的个数;
[0253]
rpa系统显示所述第一电子设备发送的所述种子语料的泛化语料,包括:接收用户针对指定种子语料的泛化语料的个数的触发指令,其中,所述指定种子语料为所有种子语料中的一个,显示所述指定种子语料的泛化语料。
[0254]
本实施例中,在种子语料为多个时,rpa系统可以仅在界面上显示各种子语料的泛化语料的个数,在接收用户针对某个种子语料的泛化语料的个数的触发指令之后,再显示该种子语料的各条泛化语料。这样使得在种子语料较多时,显示界面更为简洁。例如,用户对多个种子语料进行搜索,为便于用户对泛化后的泛化语料进行删除、修改等操作,可以在用户点击的种子语料的右侧弹出其泛化语料列表,符合用户的操作习惯。用户再次点击种
子语料,即可消失弹窗。
[0255]
在一种实施方式中,在s403之后,上述方法还可以包括:所述种子语料的泛化语料为至少一个;
[0256]
rpa系统显示所述第一电子设备发送的所述种子语料的泛化语料,还包括:显示所述种子语料的各泛化语料及指示控件,其中,所述指示控件用于指示将用户选择的泛化语料作为新的种子语料进行泛化;
[0257]
进一步地,所述方法还包括:rpa系统响应于针对所述指示控件的触发操作,向所述第一电子设备发送第二请求,其中,所述第二请求用于指示所述第一电子设备将用户选择的泛化语料作为新的种子语料进行泛化,接收并显示所述第一电子设备重新发送的所述种子语料的泛化语料。
[0258]
本实施例中,rpa系统可以显示种子语料的各泛化语料及指示控件,并响应于针对指示控件的触发操作,向所述第一电子设备发送第二请求,以使第一电子设备将用户选择的泛化语料作为新的种子语料进行泛化,将其泛化的结果嵌入到原种子语料的候选语料中,对所有候选语料重新计算与原种子语料的相似度,重新确定原种子语料的泛化语料并发送给rpa系统,以便rpa系统更新显示原种子语料的泛化语料。第一电子设备具体的泛化过程与上述的以第一电子设备为执行主体的语料泛化方法的实现类似,在此不再赘述。
[0259]
图9为本申请实施例提供的泛化语料的显示界面的示意图。图9中,每个泛化语料具备一个选择框,用户可以通过选择框勾选其中的一个或多个作为新的种子语料,然后点击界面上的指示控件“种子语料”,从而触发rpa系统向第一电子设备发送第二请求。本实施例中,通过设置指示控件,能够便于用户从当前展示的泛化语料中选择新的种子语料,以便第一电子设备根据用户勾选的新的种子语料,对原种子语料的泛化语料重新泛化,提高用户操作的便捷性,进而提高泛化效率,提升用户体验。
[0260]
图10为本申请一实施例提供的泛化语料方法的信令交互图。该信令交互图中的执行主体包括图1中的第一电子设备和第二电子设备。如图10所示,该方法可以包括:
[0261]
s1001、第二电子设备接收用户输入的种子语料。
[0262]
s1002、第二电子设备向第一电子设备发送包含该种子语料的第一请求。
[0263]
s1003、第一电子设备根据预设泛化方式对该种子语料进行泛化,得到该种子语料的至少一个候选语料。
[0264]
s1004、第一电子设备识别各候选语料与该种子语料的相似度,将相似度大于预设阈值的候选语料确定为该种子语料的泛化语料。
[0265]
s1005、第一电子设备将该种子语料的泛化语料发送至第二电子设备。
[0266]
s1006、第二电子设备显示该种子语料的泛化语料。
[0267]
该方法的具体实现过程及技术效果,与上述的以第一电子设备为执行主体的泛化语料方法的实施例,以第二电子设备为执行主体的泛化语料方法的实施例类似,因而此处仅简要说明,不赘述。
[0268]
图11为本申请再一实施例提供的语料泛化方法的流程示意图。该方法的执行主体可以为图2中的第三电子设备,第三电子设备包括rpa系统。如图11所示,该方法包括:
[0269]
s1101、rpa系统接收用户输入的种子语料。
[0270]
本实施例中,rpa系统可以接收用户输入的种子语料,其实现过程及技术效果与上
述的以第二电子设备为执行主体的语料泛化方法的实施例类似,在此不再赘述。
[0271]
s1102、rpa系统根据预设泛化方式对所述种子语料进行泛化,得到所述种子语料的至少一个候选语料。
[0272]
本实施例中,rpa系统可以接收用户输入的种子语料,其实现过程及技术效果与上述的以第一电子设备为执行主体的语料泛化方法的实施例类似,在此不再赘述。
[0273]
可选地,所述预设泛化方式包括以下中的至少一种:同义词替换方式、网络爬取方式、知识库检索方式和句式提取方式。
[0274]
可选地,每种预设泛化方式对应于一个标识。
[0275]
所述方法还包括:rpa系统显示各预设泛化方式的标识,接收用户输入的选择指令,其中,所述选择指令用于指示预设泛化方式的标识中的指定标识。
[0276]
rpa系统根据预设泛化方式对所述种子语料进行泛化,包括:rpa系统采用所述指定标识对应的预设泛化方式对所述种子语料进行泛化。
[0277]
本实施例中,rpa系统显示各预设泛化方式的标识,以及接收用户输入的选择指令,其实现过程及技术效果与上述的以第二电子设备为执行主体的语料泛化方法的实施例类似,在此不再赘述。rpa系统采用指定标识对应的预设泛化方式对所述种子语料进行泛化,其实现过程及技术效果与上述的以第一电子设备为执行主体的语料泛化方法的实施例类似,在此不再赘述。
[0278]
s1103、rpa系统识别至少一个候选语料与所述种子语料的相似度,将相似度大于预设阈值的候选语料确定为所述种子语料的泛化语料。
[0279]
本实施例中,rpa系统识别各候选语料与所述种子语料的相似度,将相似度大于预设阈值的候选语料确定为种子语料的泛化语料,其实现过程及技术效果与上述的以第一电子设备为执行主体的语料泛化方法的实施例类似,在此不再赘述。
[0280]
s1104、rpa系统显示所述种子语料的泛化语料。
[0281]
本实施例中,rpa系统显示种子语料的泛化语料,其实现过程及技术效果与上述的以第二电子设备为执行主体的语料泛化方法的实施例类似,在此不再赘述。
[0282]
综上,本申请实施例的结合rpa和ai的语料泛化方法,通过接收用户输入的种子语料,根据预设泛化方式对种子语料进行泛化,得到种子语料的至少一个候选语料,识别至少一个候选语料与种子语料的相似度,将相似度大于预设阈值的候选语料确定为种子语料的泛化语料,显示种子语料的泛化语料。该方法中,能够通过预设的泛化方式自动对种子语料进行泛化,并根据预设阈值对泛化的候选语料进行筛选,从而筛选出种子语料的泛化语料,在保证泛化效果的情况下,提高语料泛化的效率。
[0283]
在一种实施方式中,所述种子语料的泛化语料为至少一个。
[0284]
rpa系统显示所述种子语料的泛化语料,包括:rpa系统显示所述种子语料的至少一个泛化语料及指示控件,其中,所述指示控件用于指示将用户选择的泛化语料作为新的种子语料进行泛化。
[0285]
所述方法还包括:
[0286]
rpa系统响应于针对所述指示控件的触发操作,将用户选择的泛化语料作为新的种子语料进行泛化,得到所述新的种子语料的候选语料,之后将所述新的种子语料的候选语料添加到所述种子语料的候选语料中,并重新识别所述种子语料的至少一个候选语料与
所述种子语料的相似度,将相似度大于所述预设阈值的候选语料确定为所述种子语料的泛化语料,之后重新显示所述种子语料的泛化语料。
[0287]
本实施例中,rpa系统显示种子语料的至少一个泛化语料及指示控件,以及重新显示种子语料的泛化语料,其实现过程及技术效果与上述的以第二电子设备为执行主体的语料泛化方法的实施例类似,在此不再赘述。rpa系统将用户选择的泛化语料作为新的种子语料进行泛化,得到新的种子语料的候选语料;将新的种子语料的候选语料添加到种子语料的候选语料中,并重新识别种子语料的至少一个候选语料与种子语料的相似度,将相似度大于预设阈值的候选语料确定为种子语料的泛化语料,其实现过程及技术效果与上述的以第一电子设备为执行主体的语料泛化方法的实施例类似,在此不再赘述。
[0288]
在一种实施方式中,在所述预设泛化方式包括所述网络爬取方式时,rpa系统按照所述网络爬取方式对所述种子语料进行泛化,得到所述种子语料的至少一个候选语料,包括:rpa系统在网页搜索网站中搜索所述种子语料,得到展示搜索结果的网页列表,其中,所述网页列表中包括多个网页项,每个网页项具有一个标题语句,爬取各网页项的标题语句,将各网页项的标题语句中符合匹配条件的标题语句作为所述种子语料的候选语料。
[0289]
本实施例中,rpa系统采用网络爬取方式对种子语料进行泛化,其实现过程及技术效果与上述的以第一电子设备为执行主体的语料泛化方法的实施例类似,在此不再赘述。
[0290]
可选地,所述方法还包括:rpa系统接收用户输入的过滤词和匹配模式。
[0291]
rpa系统将各网页项的标题语句中符合匹配条件的标题语句作为所述种子语料的候选语料,包括:rpa系统根据所述过滤词和所述匹配模式,将各网页项的标题语句中符合所述匹配条件的标题语句作为所述种子语料的候选语料,其中,所述匹配模式为精准匹配或模糊匹配,在所述匹配模式为精准匹配时,所述匹配条件为标题语句中包含所述过滤词;在所述匹配模式为模糊匹配时,所述匹配条件为标题语句中包含所述过滤词或所述过滤词的同义词。
[0292]
可选地,所述方法还包括:rpa系统接收用户输入的指定网站地址和/或指定爬取页数。
[0293]
rpa系统在网页搜索网站中搜索所述种子语料,包括:rpa系统在所述指定网站地址指示的网页搜索网站中搜索所述种子语料;
[0294]
rpa系统爬取各网页项的标题语句,包括:rpa系统在所述指定爬取页数对应的展示页面内,爬取各网页项的标题语句。
[0295]
本实施例中,rpa系统接收用户输入的过滤词和匹配模式,以及接收用户输入的指定网站地址和/或指定爬取页数,其实现过程及技术效果与上述的以第二电子设备为执行主体的语料泛化方法的实施例类似,在此不再赘述。rpa系统采用网络爬取方式对种子语料进行泛化,其实现过程及技术效果与上述的以第一电子设备为执行主体的语料泛化方法的实施例类似,在此不再赘述。
[0296]
在一种实施方式中,在所述预设泛化方式包括所述同义词替换方式时,rpa系统按照所述同义词替换方式时对所述种子语料进行泛化,得到所述种子语料的至少一个候选语料,包括:rpa系统获取所述种子语料的所属领域,并从预置的多个同义词表中选取所述所属领域对应的同义词表,其中,每个同义词表对应于一个领域,查找所述种子语料中的关键词,根据所述所属领域对应的同义词表,对所述种子语料中的关键词进行同义词替换,得到
所述种子语料的至少一个候选语料。
[0297]
本实施例中,rpa系统采用同义词替换方式对种子语料进行泛化,其实现过程及技术效果与上述的以第一电子设备为执行主体的语料泛化方法的实施例类似,在此不再赘述。
[0298]
在一种实施方式中,在所述预设泛化方式包括所述知识库检索方式时,rpa系统按照所述知识库检索方式对所述种子语料进行泛化,得到所述种子语料的至少一个候选语料,包括:rpa系统在知识库中查找所述种子语料对应的泛化语料,其中,所述知识库中包括多个种子语料及其对应的泛化语料;将所述知识库中所述种子语料对应的泛化语料作为所述种子语料的候选语料。
[0299]
本实施例中,rpa系统采用知识库检索方式对种子语料进行泛化,其实现过程及技术效果与上述的以第一电子设备为执行主体的语料泛化方法的实施例类似,在此不再赘述。
[0300]
在一种实施方式中,在所述预设泛化方式包括所述句式提取方式时,rpa系统按照所述句式提取方式对所述种子语料进行泛化,得到所述种子语料的至少一个候选语料,包括:rpa系统通过依存句法分析算法识别并提取所述种子语料中的关键词汇,对所述种子语料的关键词汇进行组合,生成所述种子语料的候选语料。
[0301]
本实施例中,rpa系统采用句式提取方式对种子语料进行泛化,其实现过程及技术效果与上述的以第一电子设备为执行主体的语料泛化方法的实施例类似,在此不再赘述。
[0302]
图12为本申请一实施例提供的结合rpa和ai的语料泛化装置的结构示意图。该语料泛化装置120应用于第一电子设备。如图12所示,该语料泛化装置120包括:第一接收模块1201、第一处理模块1202、第一确定模块1203、第一输出模块1204。
[0303]
第一接收模块1201,用于接收第一请求,其中,所述第一请求中包括种子语料;
[0304]
第一处理模块1202,用于基于自然语言处理nlp,按照预设泛化方式对所述种子语料进行泛化,得到所述种子语料的至少一个候选语料;
[0305]
第一确定模块1203,用于识别所述至少一个候选语料与所述种子语料的相似度,将相似度大于预设阈值的候选语料确定为所述种子语料的泛化语料;
[0306]
第一输出模块1204,用于输出所述种子语料的泛化语料。
[0307]
在一种可能的实施方式中,所述预设泛化方式包括以下方式中的至少一种:网络爬取方式、同义词替换方式、知识库检索方式和句式提取方式。
[0308]
在一种可能的实施方式中,所述预设泛化方式包括所述网络爬取方式时,所述第一处理模块1201,包括:第一处理单元,用于按照所述网络爬取方式对所述种子语料进行泛化,得到所述种子语料的至少一个候选语料;
[0309]
所述第一处理单元,具体用于:在网页搜索网站中搜索所述种子语料,得到展示搜索结果的网页列表,其中,所述网页列表中包括多个网页项,每个网页项具有一个标题语句;爬取各网页项的标题语句;将各网页项的标题语句中符合匹配条件的标题语句作为所述种子语料的候选语料。
[0310]
在一种可能的实施方式中,所述第一处理单元,还用于:接收过滤词;根据所述过滤词,将各网页项的标题语句中符合所述匹配条件的标题语句作为所述种子语料的候选语料。
[0311]
在一种可能的实施方式中,所述网页列表包括至少一个展示页面,每个展示页面内包括至少一个网页项;
[0312]
所述第一处理单元,还用于:接收指定网站地址和/或指定爬取页数;在所述指定网站地址指示的网页搜索网站中搜索所述种子语料;在所述指定爬取页数对应的展示页面内,爬取各网页项的标题语句。
[0313]
在一种可能的实施方式中,所述预设泛化方式包括所述同义词替换方式时,所述第一处理模块1202,还包括:第二处理单元,用于按照所述同义词替换方式对所述种子语料进行泛化,得到所述种子语料的至少一个候选语料;
[0314]
所述第二处理单元,具体用于:获取所述种子语料的所属领域,并从预置的多个同义词表中选取所述所属领域对应的同义词表,其中,每个同义词表对应一个领域;查找所述种子语料中的关键词;根据所述所属领域对应的同义词表,对所述种子语料中的关键词进行同义词替换,得到所述种子语料的至少一个候选语料。
[0315]
在一种可能的实施方式中,所述预设泛化方式包括所述知识库检索方式时,所述第一处理模块1202,还包括:第三处理单元,用于按照所述知识库检索方式对所述种子语料进行泛化,得到所述种子语料的至少一个候选语料;
[0316]
所述第三处理单元,具体用于:在知识库中查找所述种子语料对应的泛化语料,其中,所述知识库中包括多个种子语料及其对应的泛化语料;将所述知识库中所述种子语料对应的泛化语料作为所述种子语料的候选语料。
[0317]
在一种可能的实施方式中,所述预设泛化方式包括所述句式提取方式时,所述第一处理模块1202,还包括:第四处理单元,用于按照所述句式提取方式对所述种子语料进行泛化,得到所述种子语料的至少一个候选语料;
[0318]
所述第四处理单元,具体用于:通过依存句法分析算法识别并提取所述种子语料中的关键词汇;对所述种子语料的关键词汇进行组合,生成所述种子语料的候选语料。
[0319]
在一种可能的实施方式中,每种预设泛化方式对应于一个标识;
[0320]
所述第一处理模块1202,还用于:接收指定标识;采用所述指定标识对应的预设泛化方式对所述种子语料进行泛化。
[0321]
在一种可能的实施方式中,所述第一输出模块1204,还用于:接收第二请求,其中,所述第二请求用于指示所述种子语料的至少一个泛化语料;将所述第二请求所指示的泛化语料作为新的种子语料进行泛化,得到所述新的种子语料的候选语料;将所述新的种子语料的候选语料添加到所述种子语料的候选语料中,并重新识别所述种子语料的至少一个候选语料与所述种子语料的相似度,将相似度大于所述预设阈值的候选语料确定为所述种子语料的泛化语料;重新输出所述种子语料的泛化语料。
[0322]
在一种可能的实施方式中,所述第一接收模块1201,还用于:在历史记录中查找所述种子语料,所述历史记录包括历史泛化的种子语料及其相应的泛化语料;若在所述历史记录中查找到所述种子语料,则从所述历史记录中获取所述种子语料的泛化语料;若在所述历史记录中未查找到所述种子语料,则根据预设泛化方式对所述种子语料进行泛化,得到所述种子语料的至少一个候选语料。
[0323]
在一种可能的实施方式中,所述第一确定模块1203,还用于:将所述种子语料以及所述种子语料的泛化语料更新到知识库中,所述知识库中至少包括所述种子语料及其对应
的泛化语料;通过逻辑回归模型识别所述至少一个候选语料与所述种子语料的相似度,其中,所述逻辑回归模型预先经过由所述知识库中的多个语料组成的训练集训练。
[0324]
本申请实施例提供的结合rpa和ai的语料泛化装置,可用于执行上述以第一电子设备为执行主体的方法实施例,其实现原理和技术效果类似,本实施例此处不再赘述。
[0325]
图13为本申请又一实施例提供的结合rpa和ai的语料泛化装置的结构示意图。该语料泛化装置130应用于第二电子设备。如图13所示,该语料泛化装置130包括:第二接收模块1301、第一发送模块1302、第一显示模块1303。
[0326]
第二接收模块1301,用于接收用户输入的种子语料;
[0327]
第一发送模块1302,用于向第一电子设备发送包含所述种子语料的第一请求,其中,所述第一请求用于指示所述第一电子设备基于自然语言处理nlp,按照预设泛化方式对所述种子语料进行泛化,得到所述种子语料的至少一个候选语料,识别所述至少一个候选语料与所述种子语料的相似度,将相似度大于预设阈值的候选语料作为所述种子语料的泛化语料;
[0328]
第一显示模块1303,用于接收并显示所述第一电子设备发送的所述种子语料的泛化语料。
[0329]
在一种可能的实施方式中,所述种子语料的泛化语料为至少一个;
[0330]
所述第一显示模块1303,具体用于:显示所述种子语料的至少一个泛化语料及指示控件,其中,所述指示控件用于指示将用户选择的泛化语料作为新的种子语料进行泛化;响应于针对所述指示控件的触发操作,向所述第一电子设备发送第二请求,其中,所述第二请求用于指示所述第一电子设备将用户选择的泛化语料作为新的种子语料进行泛化;接收并显示所述第一电子设备重新发送的所述种子语料的泛化语料。
[0331]
在一种可能的实施方式中,所述第一显示模块1303,还用于:接收所述第一电子设备发送的所述种子语料的所述至少一个泛化语料及其对应的相似度和/或泛化方式;将所述种子语料的所述至少一个泛化语料及其对应的相似度和/或泛化方式进行关联显示;
[0332]
所述第一显示模块1303,还用于:接收用户输入的筛选指令,其中,所述筛选指令用于指示所述预设泛化方式中的至少一种;显示以所述筛选指令所指示的泛化方式得到的泛化语料。
[0333]
在一种可能的实施方式中,所述种子语料为至少一个;
[0334]
所述第一显示模块1303,还用于:显示至少一个种子语料及其泛化语料的个数;接收用户针对指定种子语料的泛化语料的个数的触发指令,其中,所述指定种子语料为所有种子语料中的一个;显示所述指定种子语料的泛化语料。
[0335]
本申请实施例提供的结合rpa和ai的语料泛化装置,可用于执行上述以第二电子设备为执行主体的方法实施例,其实现原理和技术效果类似,本实施例此处不再赘述。
[0336]
图14为本申请另一实施例提供的结合rpa和ai的语料泛化装置的结构示意图。该语料泛化装置140应用于第三电子设备。如图14所示,该语料泛化装置140包括:第三接收模块1401、第二处理模块1402、第二确定模块1403、第二显示模块1404。
[0337]
第三接收模块1401,用于接收用户输入的种子语料;
[0338]
第二处理模块1402,用于根据预设泛化方式对所述种子语料进行泛化,得到所述种子语料的至少一个候选语料;
[0339]
第二确定模块1403,用于识别所述至少一个候选语料与所述种子语料的相似度,将相似度大于预设阈值的候选语料确定为所述种子语料的泛化语料;
[0340]
第二显示模块1404,用于显示所述种子语料的泛化语料。
[0341]
在一种可能的实施方式中,所述预设泛化方式包括以下方式中的至少一种:网络爬取方式、同义词替换方式、知识库检索方式和句式提取方式。
[0342]
在一种可能的实施方式中,所述预设泛化方式包括所述网络爬取方式时,所述第二处理模块1402,包括:第五处理单元,用于按照所述网络爬取方式对所述种子语料进行泛化,得到所述种子语料的至少一个候选语料;
[0343]
所述第五处理单元,具体用于:在网页搜索网站中搜索所述种子语料,得到展示搜索结果的网页列表,其中,所述网页列表中包括多个网页项,每个网页项具有一个标题语句;爬取各网页项的标题语句;将各网页项的标题语句中符合匹配条件的标题语句作为所述种子语料的候选语料。
[0344]
在一种可能的实施方式中,所述第五处理单元,还用于:接收过滤词;根据所述过滤词,将各网页项的标题语句中符合所述匹配条件的标题语句作为所述种子语料的候选语料。
[0345]
在一种可能的实施方式中,所述网页列表包括至少一个展示页面,每个展示页面内包括至少一个网页项;
[0346]
所述第五处理单元,还用于:接收指定网站地址和/或指定爬取页数;在所述指定网站地址指示的网页搜索网站中搜索所述种子语料;在所述指定爬取页数对应的展示页面内,爬取各网页项的标题语句。
[0347]
在一种可能的实施方式中,所述预设泛化方式包括所述同义词替换方式时,所述第二处理模块1402,还包括:第六处理单元,用于按照所述同义词替换方式对所述种子语料进行泛化,得到所述种子语料的至少一个候选语料;
[0348]
所述第六处理单元,具体用于:获取所述种子语料的所属领域,并从预置的多个同义词表中选取所述所属领域对应的同义词表,其中,每个同义词表对应一个领域;查找所述种子语料中的关键词;根据所述所属领域对应的同义词表,对所述种子语料中的关键词进行同义词替换,得到所述种子语料的至少一个候选语料。
[0349]
在一种可能的实施方式中,所述预设泛化方式包括所述知识库检索方式时,所述第二处理模块1402,还包括:第七处理单元,用于按照所述知识库检索方式对所述种子语料进行泛化,得到所述种子语料的至少一个候选语料;
[0350]
所述第七处理单元,具体用于:在知识库中查找所述种子语料对应的泛化语料,其中,所述知识库中包括多个种子语料及其对应的泛化语料;将所述知识库中所述种子语料对应的泛化语料作为所述种子语料的候选语料。
[0351]
在一种可能的实施方式中,所述预设泛化方式包括所述句式提取方式时,所述第二处理模块1402,还包括:第八处理单元,用于按照所述句式提取方式对所述种子语料进行泛化,得到所述种子语料的至少一个候选语料;
[0352]
所述第八处理单元,具体用于:通过依存句法分析算法识别并提取所述种子语料中的关键词汇;对所述种子语料的关键词汇进行组合,生成所述种子语料的候选语料。
[0353]
在一种可能的实施方式中,每种预设泛化方式对应于一个标识;
[0354]
所述第二处理模块1402,还用于:显示各预设泛化方式的标识;接收用户输入的选择指令,其中,所述选择指令用于指示预设泛化方式的标识中的指定标识;采用所述指定标识对应的预设泛化方式对所述种子语料进行泛化。
[0355]
在一种可能的实施方式中,所述种子语料的泛化语料为至少一个;
[0356]
所述第二显示模块1404,还用于:显示所述种子语料的至少一个泛化语料及指示控件,其中,所述指示控件用于指示将用户选择的泛化语料作为新的种子语料进行泛化;响应于针对所述指示控件的触发操作,将用户选择的泛化语料作为新的种子语料进行泛化,得到所述新的种子语料的候选语料;将所述新的种子语料的候选语料添加到所述种子语料的候选语料中,并重新识别所述种子语料的至少一个候选语料与所述种子语料的相似度,将相似度大于所述预设阈值的候选语料确定为所述种子语料的泛化语料;重新显示所述种子语料的泛化语料。
[0357]
本申请实施例提供的结合rpa和ai的语料泛化装置,可用于执行上述以第三电子设备为执行主体的方法实施例,其实现原理和技术效果类似,本实施例此处不再赘述。
[0358]
图15为本申请一实施例提供的第一电子设备的硬件结构示意图。如图15所示,本实施例提供的第一电子设备150包括:至少一个处理器1501和存储器1502。该第一电子设备150还包括通信部件1503。其中,处理器1501、存储器1502以及通信部件1503通过总线1504连接。
[0359]
在具体实现过程中,至少一个处理器1501执行所述存储器1502存储的计算机执行指令,使得至少一个处理器1501执行如上以第一电子设备为执行主体的语料泛化方法。
[0360]
处理器1501的具体实现过程可参见上述方法实施例,其实现原理和技术效果类似,本实施例此处不再赘述。
[0361]
图16为本申请又一实施例提供的第二电子设备的硬件结构示意图。如图16所示,本实施例提供的第二电子设备160包括:至少一个处理器1601和存储器1602。该第二电子设备160还包括通信部件1603。其中,处理器1601、存储器1602以及通信部件1603通过总线1604连接。
[0362]
在具体实现过程中,至少一个处理器1601执行所述存储器1602存储的计算机执行指令,使得至少一个处理器1601执行如上以第二电子设备为执行主体的语料泛化方法。
[0363]
处理器1601的具体实现过程可参见上述方法实施例,其实现原理和技术效果类似,本实施例此处不再赘述。
[0364]
图17为本申请另一实施例提供的第三电子设备的硬件结构示意图。如图17所示,本实施例提供的第三电子设备170包括:至少一个处理器1701和存储器1702。该第三电子设备170还包括通信部件1703。其中,处理器1701、存储器1702以及通信部件1703通过总线1704连接。
[0365]
在具体实现过程中,至少一个处理器1701执行所述存储器1702存储的计算机执行指令,使得至少一个处理器1701执行如上以第三电子设备为执行主体的语料泛化方法。
[0366]
处理器1701的具体实现过程可参见上述方法实施例,其实现原理和技术效果类似,本实施例此处不再赘述。
[0367]
在上述的图15、图16、图17所示的实施例中,应理解,处理器可以是中央处理单元(英文:centra lprocessing unit,简称:cpu),还可以是其他通用处理器、数字信号处理器
(英文:digita lsigna lprocessor,简称:dsp)、专用集成电路(英文:application specific integrated circuit,简称:asic)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合申请所公开的方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。
[0368]
存储器可能包含高速ram存储器,也可能还包括非易失性存储nvm,例如至少一个磁盘存储器。
[0369]
总线可以是工业标准体系结构(industry standard architecture,isa)总线、外部设备互连(periphera lcomponentinterconnect,pci)总线或扩展工业标准体系结构(extended industry standard architecture,eisa)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示,本申请附图中的总线并不限定仅有一根总线或一种类型的总线。
[0370]
本申请还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,当处理器执行所述计算机执行指令时,实现如上以第一电子设备为执行主体的语料泛化方法。
[0371]
本申请还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,当处理器执行所述计算机执行指令时,实现如上以第二电子设备为执行主体的语料泛化方法。
[0372]
本申请还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,当处理器执行所述计算机执行指令时,实现如上以第三电子设备为执行主体的语料泛化方法。
[0373]
上述可读存储介质可以是由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(sram),电可擦除可编程只读存储器(eeprom),可擦除可编程只读存储器(eprom),可编程只读存储器(prom),只读存储器(rom),磁存储器,快闪存储器,磁盘或光盘。可读存储介质可以是通用或专用计算机能够存取的任何可用介质。
[0374]
一种示例性的可读存储介质耦合至处理器,从而使处理器能够从该可读存储介质读取信息,且可向该可读存储介质写入信息。当然,可读存储介质也可以是处理器的组成部分。处理器和可读存储介质可以位于专用集成电路(application specific integrated circuits,简称:asic)中。当然,处理器和可读存储介质也可以作为分立组件存在于设备中。
[0375]
最后应说明的是:以上各实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述各实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1