一种数据检测方法、装置、设备及可读存储介质与流程

文档序号:26790429发布日期:2021-09-28 23:11阅读:106来源:国知局
一种数据检测方法、装置、设备及可读存储介质与流程

1.本技术涉及人工智能中的自然语言处理技术领域,尤其涉及一种数据检测方法、装置、设备及可读存储介质。


背景技术:

2.在许多领域中,需要进行监管才能提升业务质量。例如,在销售领域内,由于公司监管力度不足,销售人员在向客户销售产品时,为了提升业绩,会存在使用虚假信息,或者隐瞒风险信息,导致用户在不知情的情况下购买产品,后续在产品面临风险的情况下会对公司进行投诉等,影响公司信誉。因此,如何提高对相关领域的监管力度,是亟待解决的问题。现有技术中一般使用人工进行监管,成本较高,数据检测准确性较低。


技术实现要素:

3.本技术实施例提供一种数据检测方法、装置、设备及可读存储介质,可以提高数据检测的准确性。
4.第一方面,本技术提供一种数据检测方法,包括:
5.获取目标文本数据,确定该目标文本数据对应的目标场景标识;
6.提取该目标文本数据中与目标场景关联的目标对象标识,对该目标文本数据进行检测,提取该目标文本数据中与该目标场景关联的第一关键信息,该目标场景标识用于标识该目标场景;
7.获取该目标对象标识对应的第二关键信息,基于该第一关键信息与该第二关键信息确定该目标文本数据的违规结果。
8.结合第一方面,在一种可能的实现方式中,该确定目标文本数据对应的目标场景标识,包括:
9.接收数据提供终端发送的数据获取响应,该数据获取响应中包括该目标文本数据和该目标场景标识;或者,
10.获取数据提供终端的接口信息,将该接口信息对应的场景标识确定为该目标文本数据对应的目标场景标识。
11.结合第一方面,在一种可能的实现方式中,该第一关键信息包括多个第一关键词;
12.该对该目标文本数据进行检测,提取该目标文本数据中与该目标场景关联的第一关键信息,包括:
13.获取该目标场景关联的目标识别模型,基于该目标识别模型对该目标文本数据进行识别,提取该目标文本数据中与该目标场景关联的多个第一关键词。
14.结合第一方面,在一种可能的实现方式中,该第二关键信息包括多个第二关键词;
15.该获取该目标对象标识对应的第二关键信息,包括:
16.从数据存储库中获取该目标对象标识所标识的目标对象的属性信息,该数据存储库用于存储至少一个对象的属性信息;
17.从该目标对象的属性信息中提取与该多个第一关键词属于同一类别的多个第二关键词,一个第一关键词对应一个第二关键词。
18.结合第一方面,在一种可能的实现方式中,该基于该第一关键信息与该第二关键信息确定该目标文本数据的违规结果,包括:
19.确定该第一关键信息与该第二关键信息是否匹配;
20.若该第一关键信息与该第二关键信息匹配,则确定该目标文本数据的违规结果为不违规;
21.若该第一关键信息与该第二关键信息不匹配,则确定该目标文本数据的违规结果为违规。
22.结合第一方面,在一种可能的实现方式中,该方法还包括:
23.若该目标文本数据的违规结果为违规,则获取该目标文本数据中包含的违规关键词,该违规关键词属于该第一关键信息包含的关键词;
24.获取该目标文本数据对应的数据提供终端的标识,确定数据提供终端关联的目标用户的违规信息,该目标用户的违规信息中包括该目标用户的标识、该目标用户的历史违规数据以及该目标用户的违规等级中的至少一种,该数据提供终端的标识用于标识该数据提供终端;
25.输出该目标文本数据中包含的违规关键词与该目标用户的违规信息。
26.结合第一方面,在一种可能的实现方式中,该获取目标文本数据,包括:
27.从数据提供终端获取初始数据,该初始数据包括初始语音数据或者初始文本数据中的至少一种;
28.对该初始语音数据进行语音识别处理,得到该初始语音数据对应的文本数据,将该初始语音数据对应的文本数据确定为该目标文本数据;和/或,
29.对至少一条初始文本数据进行文本拼接处理,得到该目标文本数据;和/或,
30.对该初始文本数据进行文本筛选处理,得到与目标用户关联的文本数据,将该目标用户关联的文本数据确定为该目标文本数据。
31.第二方面,本技术提供一种数据检测装置,包括:
32.数据获取模块,用于获取目标文本数据,确定该目标文本数据对应的目标场景标识;
33.数据提取模块,用于提取该目标文本数据中与目标场景关联的目标对象标识,对该目标文本数据进行检测,提取该目标文本数据中与该目标场景关联的第一关键信息,该目标场景标识用于标识该目标场景;
34.违规确定模块,用于获取该目标对象标识对应的第二关键信息,基于该第一关键信息与该第二关键信息确定该目标文本数据的违规结果。
35.结合第二方面,在一种可能的实现方式中,该数据获取模块,包括:
36.数据响应单元,用于接收数据提供终端发送的数据获取响应,该数据获取响应中包括该目标文本数据和该目标场景标识;或者,
37.接口确定单元,用于获取数据提供终端的接口信息,将该接口信息对应的场景标识确定为该目标文本数据对应的目标场景标识。
38.结合第二方面,在一种可能的实现方式中,该第一关键信息包括多个第一关键词;
该数据提取模块,具体用于:
39.获取该目标场景关联的目标识别模型,基于该目标识别模型对该目标文本数据进行识别,提取该目标文本数据中与该目标场景关联的多个第一关键词。
40.结合第二方面,在一种可能的实现方式中,该第二关键信息包括多个第二关键词;该违规确定模块,包括:
41.属性获取单元,用于从数据存储库中获取该目标对象标识所标识的目标对象的属性信息,该数据存储库用于存储至少一个对象的属性信息;
42.词语提取单元,用于从该目标对象的属性信息中提取与该多个第一关键词属于同一类别的多个第二关键词,一个第一关键词对应一个第二关键词。
43.结合第二方面,在一种可能的实现方式中,该违规确定模块,包括:
44.信息匹配单元,用于确定该第一关键信息与该第二关键信息是否匹配;
45.结果确定单元,用于若该第一关键信息与该第二关键信息匹配,则确定该目标文本数据的违规结果为不违规;
46.该结果确定单元,还用于若该第一关键信息与该第二关键信息不匹配,则确定该目标文本数据的违规结果为违规。
47.结合第二方面,在一种可能的实现方式中,该数据检测装置还包括:
48.结果输出模块,用于若该目标文本数据的违规结果为违规,则获取该目标文本数据中包含的违规关键词,该违规关键词属于该第一关键信息包含的关键词;
49.该结果输出模块,用于获取该目标文本数据对应的数据提供终端的标识,确定数据提供终端关联的目标用户的违规信息,该目标用户的违规信息中包括该目标用户的标识、该目标用户的历史违规数据以及该目标用户的违规等级中的至少一种,该数据提供终端的标识用于标识该数据提供终端;
50.该结果输出模块,用于输出该目标文本数据中包含的违规关键词与该目标用户的违规信息。
51.结合第二方面,在一种可能的实现方式中,该数据获取模块,具体用于:
52.从数据提供终端获取初始数据,该初始数据包括初始语音数据或者初始文本数据中的至少一种;
53.对该初始语音数据进行语音识别处理,得到该初始语音数据对应的文本数据,将该初始语音数据对应的文本数据确定为该目标文本数据;和/或,
54.对至少一条初始文本数据进行文本拼接处理,得到该目标文本数据;和/或,
55.对该初始文本数据进行文本筛选处理,得到与目标用户关联的文本数据,将该目标用户关联的文本数据确定为该目标文本数据。
56.第三方面,本技术提供了一种计算机设备,包括:处理器、存储器、网络接口;
57.上述处理器与存储器、网络接口相连,其中,网络接口用于提供数据通信功能,上述存储器用于存储计算机程序,上述处理器用于调用上述计算机程序,以使包含该处理器的计算机设备执行上述第一方面的方法。
58.第四方面,本技术提供了一种计算机可读存储介质,该计算机可读存储介质中存储有计算机程序,该计算机程序适于由处理器加载并执行,以使得具有该处理器的计算机设备执行上述第一方面的方法。
59.第五方面,本技术提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述第一方面中的各种可选方式中提供的方法。
60.本技术实施例中,获取目标文本数据,确定目标文本数据对应的目标场景标识;提取目标文本数据中与目标场景关联的目标对象标识,对目标文本数据进行检测,提取目标文本数据中与目标场景关联的第一关键信息,目标场景标识用于标识目标场景;获取目标对象标识对应的第二关键信息,基于第一关键信息与第二关键信息确定目标文本数据的违规结果。通过确定目标文本数据所对应的目标场景以及目标对象标识,对目标文本数据进行检测,可以提取目标文本数据中与目标场景关联的第一关键信息,再结合目标对象的第二关键信息(例如目标对象的属性信息)来二次判断目标文本数据的违规结果,确定目标文本数据是否违规,可以提高违规检测的准确性。例如,在对产品进行销售的过程中,通过获取销售人员对应的目标文本数据,结合上述过程对目标文本数据进行检测确定目标文本数据中的关键信息,再结合产品的属性信息对该目标文本数据中的关键信息进行二次判断,以确定目标文本数据中是否包含违规操作,从而确定销售人员是否违规,可以提高违规检测的准确性。
附图说明
61.为了更清楚地说明本技术实施例中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
62.图1是本技术实施例提供的一种数据检测方法的应用场景示意图;
63.图2是本技术实施例提供的一种数据检测方法的流程示意图;
64.图3是本技术实施例提供的另一种数据检测方法的流程示意图;
65.图4是本技术实施例提供的一种数据检测装置的组成结构示意图;
66.图5是本技术实施例提供的一种计算机设备的组成结构示意图。
具体实施方式
67.下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。
68.人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音技术、自然语言处理技术以及机器学习/深度学习等几大方向。
69.其中,自然语言处理(nature language processing,nlp)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的
各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。语音技术(speech technology)的关键技术有自动语音识别技术(asr)和语音合成技术(tts)以及声纹识别技术。让计算机能听、能看、能说、能感觉,是未来人机交互的发展方向,其中语音成为未来最被看好的人机交互方式之一。
70.本技术涉及人工智能中的自然语言处理技术,利用自然语言处理技术对目标文本数据进行识别,可以提高目标文本数据识别的准确性,进而提高目标文本数据中的违规结果检测准确性;并且,通过对目标文本数据进行机器自动识别,可以提高数据检测的效率;本技术可适用于智慧政务、智慧教育等领域,有利于推动智慧城市的建设。
71.请参见图1,图1是本技术实施例提供的一种数据检测方法的应用场景示意图,如图1所示,计算机设备可以从数据提供终端11获取初始数据12,初始数据12可以包括通话录音数据、社交程序中的聊天文本数据、社交程序中的聊天语音数据,等等。计算机设备可以使用数据处理模块13对初始数据进行处理,得到目标文本数据。其中,数据处理模块13中可以包括语音识别模块、文本处理模块,等等,例如可以采用语音识别模块对通话录音数据、以及聊天语音数据进行处理得到目标文本数据,采用文本处理模块对聊天文本数据进行处理,得到目标文本数据。进一步的,计算机设备可以确定目标文本数据对应的目标场景标识,从而确定目标文本数据所属的目标场景,提取目标文本数据中与目标场景关联的目标对象标识14,目标对象标识14例如可以为对象名称(产品名称)。进一步的,计算机设备可以获取目标场景关联的目标识别模型15,基于目标识别模型15对目标文本数据进行识别,提取目标文本数据中与目标场景关联的第一关键信息16。进一步的,计算机设备可以基于目标对象标识14从数据存储库17中获取与目标对象标识14对应的第二关键信息,例如产品的属性信息,基于第一关键信息与第二关键信息确定目标文本数据的违规结果。若违规检测结果为不违规,则可输出不违规的提示信息。若违规检测结果为违规,则可以获取目标文本数据中的违规关键词、以及与目标文本数据关联的目标用户的违规信息(例如工作人员的名称、历史违规次数、历史违规关键词,等等),输出该目标文本数据中的违规关键词和目标用户的违规信息,以便于相关管理用户对目标用户进行相应管理。
72.可以理解的是,本技术实施例中所提及的计算机设备包括但不限于终端设备或服务器。换句话说,计算机设备可以是服务器或终端设备,也可以是服务器和终端设备组成的系统。其中,以上所提及的终端设备可以是一种电子设备,包括但不限于手机、平板电脑、台式电脑、笔记本电脑、掌上电脑、车载设备、增强现实/虚拟现实(augmented reality/virtual reality,ar/vr)设备、头盔显示器、可穿戴设备、智能音箱、数码相机、摄像头及其他具备网络接入能力的移动互联网设备(mobile internet device,mid)等。其中,以上所提及的服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、车路协同、内容分发网络(content delivery network,cdn)、以及大数据和人工智能平台等基础云计算服务的云服务器。
73.进一步地,请参见图2,图2是本技术实施例提供的一种数据检测方法的流程示意图;如图2所示,该方法包括但不限于以下步骤:
74.s101,获取目标文本数据,确定目标文本数据对应的目标场景标识。
75.本技术实施例中,计算机设备可以获取目标文本数据,确定目标文本数据对应的目标场景标识。其中,目标文本数据可以是指需要进行违规检测的文本数据,例如可以包括多种应用场景中每种应用场景对应的文本数据。本技术实施例中是以对一个目标文本数据检测进行的举例说明,若存在多个目标文本数据时,可以参考对该目标文本数据进行检测的方法。目标场景标识可以用于唯一地指示目标场景,例如可以包括目标场景的名称、目标场景的编号或者其他用于唯一指示目标场景的标识。也就是说,计算机设备确定目标场景标识,则确定了目标场景标识所标识的目标场景,即确定了目标文本数据所属的目标场景。目标场景可以包括基金销售坐席场景、保险销售坐席场景、服务场景、信用卡办理场景或者其他场景中的任意一种。可选的,计算机设备可以从数据获取终端中获取目标文本数据,也可以从本地存储中获取目标文本数据,本技术实施例中不做限定。
76.可选的,计算机设备可以获取初始数据,对初始数据进行处理得到目标文本数据。具体的,计算机设备可以从数据提供终端获取初始数据,其中,初始数据包括初始语音数据或者初始文本数据中的至少一种;对初始语音数据进行语音识别处理,得到初始语音数据对应的文本数据,将初始语音数据对应的文本数据确定为目标文本数据;和/或,对至少一条初始文本数据进行文本拼接处理,得到目标文本数据;和/或,对初始文本数据进行文本筛选处理,得到与目标用户关联的文本数据,将目标用户关联的文本数据确定为目标文本数据。
77.也就是说,若初始数据为语音数据时,计算机设备可以基于图1中的语音识别模块对初始语音数据进行语音识别处理,将初始语音数据转换为文本数据,从而将得到的文本数据确定为目标文本数据。可选的,计算机设备可以采用自动语音识别(automatic speech recognition,asr)技术对语音数据进行语音识别处理,得到语音数据对应的文本数据。或者,计算机设备也可以采用其他技术对语音数据进行语音识别处理,本技术实施例中不做限定。可选的,初始数据为语音数据时,可以包括通话录音数据、社交程序中的聊天文本数据、社交程序中的聊天语音数据、社交程序中的聊天录音数据、以及社交程序中的聊天视频数据,等等。
78.若初始数据为文本数据时,可以对至少一条初始文本数据进行文本拼接处理,得到目标文本数据。例如,初始文本数据为目标用户的聊天文本数据时,可以获取目标用户的至少一条初始文本数据,对该至少一条初始文本数据进行文本拼接处理,得到该目标用户的聊天文本数据,将该目标用户的聊天文本数据确定为目标文本数据。其中,目标用户例如可以是指各种类型的销售坐席场景的工作人员、或者各种服务类型的工作人员,等等。也就是说,目标文本数据可以是指在此次聊天中工作人员使用的终端发送的聊天文本数据。
79.若初始数据为文本数据时,可以对初始文本数据进行文本筛选处理,得到与目标用户关联的文本数据,将目标用户关联的文本数据确定为目标文本数据。例如,初始数据为工作人员和客户之间的聊天文本数据,则可以对初始文本数据进行文本筛选处理,将其中与客户关联的文本数据筛选丢弃,并将剩下的与目标用户关联的文本数据确定为目标文本数据。其中,客户关联的文本数据可以是指在此次聊天中客户使用的终端发送的聊天文本数据。
80.可选的,若初始数据为语音数据时,计算机设备对初始语音数据进行语音识别处
理,得到初始语音数据对应的文本数据时,若初始文本数据的数量为至少一条,则可以对该至少一条初始文本数据进行文本拼接处理,得到目标文本数据。或者,计算机设备可以对该初始文本数据进行文本筛选处理,得到与目标用户关联的文本数据,将目标用户关联的文本数据确定为目标文本数据。例如,初始文本数据中包括目标用户和客户之间的聊天文本数据,则可以对该初始文本数据进行文本筛选处理,得到与目标用户关联的文本数据,将目标用户关联的文本数据确定为目标文本数据。进而在后续对目标文本数据进行违规检测的过程中,可以只对目标用户(如工作人员)的聊天文本数据进行检测,从而提高数据检测效率。
81.可选的,计算机设备确定目标文本数据对应的目标场景标识的方法可以包括:计算机设备接收数据提供终端发送的数据获取响应,其中,数据获取响应中包括目标文本数据和目标场景标识。具体的,数据提供终端可以预先对目标文本数据进行场景标记,得到目标文本数据对应的目标场景标识,将该目标文本数据和目标场景标识发送给计算机设备,因此,计算机设备可以接收数据提供终端发送的数据获取响应(即目标文本数据和目标场景标识),从而确定目标文本数据对应的目标场景标识。
82.可选的,计算机设备还可以获取数据提供终端的接口信息,将接口信息对应的场景标识确定为目标文本数据对应的目标场景标识。具体的,由于数据提供终端可以通过接口与计算机设备进行数据交互,因此,计算机设备可以获取数据提供终端的接口信息,通过该接口信息确定数据提供终端对应的场景标识,从而得到目标文本数据对应的目标场景标识。例如,数据提供终端对应的场景标识可以包括基金销售坐席场景标识、服务场景标识、保险销售坐席场景标识或者其他场景标识中的任意一种,即数据提供终端是该任意一种场景中的终端,则目标用户使用该数据提供终端进行业务处理时,得到的目标文本数据也属于该场景关联的目标文本数据。因此,计算机设备可以通过获取数据提供终端的接口信息,确定数据提供终端对应的场景标识,将该数据提供终端对应的场景标识确定为目标文本数据对应的目标场景标识。也就是说,通过确定数据提供终端属于哪种场景中的终端,在后续从该数据提供终端获取到目标文本数据时,可以将数据提供终端对应的场景确定为目标文本数据对应的目标场景,从而确定该目标文本数据对应的目标场景标识。
83.s102,提取目标文本数据中与目标场景关联的目标对象标识,对目标文本数据进行检测,提取目标文本数据中与目标场景关联的第一关键信息。
84.本技术实施例中,计算机设备可以通过提取关键词的方式提取目标文本数据中与目标场景关联的目标对象标识。具体的,计算机设备可以通过识别目标文本数据中与目标场景关联的目标对象标识,确定目标文本数据中的对象关键词,从而提取目标文本数据中的对象关键词,作为与目标场景关联的目标对象标识。其中,目标对象标识可以包括目标对象的名称、目标对象的编号等。举例来说,若计算机设备确定目标场景为基金销售坐席场景,则目标对象可以是指具体的基金,目标对象标识可以是指基金的名称、基金的编号等。或者,若计算机设备确定目标场景为保险销售坐席场景,则目标对象可以是指具体的保险,目标对象标识可以是指保险的名称、保险的编号等。也就是说,计算机设备通过确定目标文本数据对应的目标场景标识,则可以对目标文本数据中与目标场景关联的目标对象标识进行识别并提取,从而确定目标文本数据中的目标对象标识。
85.进一步的,计算机设备可以对目标文本数据进行检测,提取目标文本数据中与目
标场景关联的第一关键信息。其中,目标场景标识用于标识目标场景。可选的,第一关键信息可以包括多个第一关键词,计算机设备可以获取目标场景关联的目标识别模型,基于目标识别模型对目标文本数据进行识别,提取目标文本数据中与目标场景关联的多个第一关键词。
86.具体实现中,目标识别模型可以是自然语言处理(natural language processing,nlp)模型,或者,目标识别模型也可以是其他模型。第一关键词可以是指目标文本数据中与目标场景关联的关键词,例如可以是指对目标对象的风险、收益、本金或者其他信息进行描述的关键词,具体可以包括无风险、没有风险、低风险、高风险、高收益、低收益、保本金,等等。计算机设备通过识别目标文本数据中与目标场景关联的多个第一关键词,确定第一关键信息。通过使用nlp模型对目标文本数据进行识别,不仅可以识别目标文本数据中的第一关键词,还可以对目标文本数据进行语义理解,识别出目标文本数据中的隐含意思,从而提取到的第一关键信息可以更准确的反映目标文本数据的内容。
87.可选的,在利用目标场景关联的目标识别模型对目标文本数据进行识别之前,可以预先训练各种场景对应的初始识别模型,每种场景可以对应一个初始识别模型,通过获取每种场景下的样本关键信息,每种场景的样本关键信息可以不相同,对每种场景对应的样本关键信息进行标注,利用标注好的样本关键信息对该场景中的初始识别模型进行训练,待模型收敛并达到一定精度(指模型中的损失函数值小于损失阈值且精度大于精度阈值)时保存模型,该保存下来的模型就是识别检测模型。例如,基金销售坐席场景对应的样本关键信息可以包括风险、收益、本金等关键信息;保险销售坐席场景对应的样本关键信息可以包括保险年限、每年需缴纳的保险费用、可保类别、可赔付金额等关键信息;服务场景对应的样本关键信息可以包括侮辱、辱骂等类别的关键信息;信用卡办理场景对应的样本关键信息可以包括信用卡额度、年费等关键信息。可以看出,每种场景的样本关键信息不同,因此每种场景中的识别模型对相应文本数据识别得到的第一关键信息也不同,本技术实施例中通过分别对每种场景对应的识别模型进行训练,从而得到每种场景对应的识别模型,进而在对目标文本数据进行识别时,可以获取目标场景关联的目标识别模型,基于该目标识别模型对目标文本数据进行识别,提取目标文本数据中的第一关键信息。由于针对每种场景训练了对应的识别模型,使用识别模型对相应的文本数据进行识别,可以提高模型识别准确度。
88.可选的,计算机设备在提取目标文本数据中与目标场景关联的目标对象标识时,由于确定了目标文本数据对应的目标场景标识,则可以获取目标场景关联的目标对象标识,对于目标场景不关联的目标对象标识可以不进行获取。例如,目标场景为基金坐席销售场景时,则提取到的目标文本数据中与目标场景关联的目标对象标识为基金标识,例如基金名称,若检测到目标文本数据中包含其他场景标识,例如保险标识,则可以不提取,可以节省数据检测效率。
89.可选的,计算机设备在提取目标场景关联的目标对象标识时,若目标文本数据中与目标场景关联的对象标识的数量为至少一个,则计算机设备可以确定该至少一个对象标识,从该至少一个对象标识中确定目标对象标识,从而提取至少一个对象标识中的目标对象标识,则后续在对目标文本数据进行违规检测时,可以提高数据检测的效率。具体实现中,计算机设备可以提取目标文本数据中的文本信息,确定目标文本数据是针对某一个对
象标识的文本数据,从而将该对象标识确定为目标对象标识。
90.举例来说,例如目标场景标识为基金坐席销售场景标识,确定目标文本数据中与该基金坐席销售场景关联的对象标识包括基金a标识和基金b标识,则计算机设备可以从基金a标识和基金b标识中确定目标对象标识,例如确定目标对象标识为基金a标识,则提取基金a标识。进一步的,计算机设备对目标文本数据进行检测,确定目标文本数据中与基金坐席销售场景关联的第一关键信息。其中,由于目标文本数据中包含基金a标识与基金b标识,对应的,目标文本数据中与基金坐席销售场景关联的第一关键信息包括基金a对应的第一关键信息与基金b的第一关键信息,由于前述步骤是提取的基金a标识,则此处提取的第一关键信息为基金a对应的第一关键信息。进一步的,计算机设备可以获取基金a的属性信息,根据基金a的属性信息确定基金a对应的第二关键信息,基于基金a对应的第二关键信息与基金a对应的第一关键信息确定目标文本数据的违规结果,即确定目标用户在此次基金a的销售过程中是否存在违规操作。
91.也就是说,在目标场景关联的对象标识的数量为多个的情况下,计算机设备可以从多个对象标识中确定目标对象标识,从而提取该目标对象标识,对于目标场景关联的其他对象标识不进行提取,可以减少后续数据检测效率。例如,在实际应用场景中,销售人员对产品a进行销售时,通常会使用其他类别产品(如产品b)与该销售产品进行对比,从而提升用户对产品a的购买欲望,在该种情况下,可以确定具体销售的产品标识,如产品a,对该产品标识进行提取以及处理,对于其他类别产品,可以不提取对应的产品标识,也无需对该类别产品进行处理,可以提高数据检测效率。
92.s103,获取目标对象标识对应的第二关键信息,基于第一关键信息与第二关键信息确定目标文本数据的违规结果。
93.本技术实施例中,计算机设备通过获取目标对象标识对应的第二关键信息,可以基于第一关键信息与第二关键信息确定目标文本数据的违规结果,目标文本数据的违规结果可以包括违规或者不违规。可选的,计算机设备可以确定第一关键信息与第二关键信息是否匹配;若第一关键信息与第二关键信息匹配,则确定目标文本数据的违规结果为不违规。若第一关键信息与第二关键信息不匹配,则确定目标文本数据的违规结果为违规。
94.其中,第一关键信息与第二关键信息匹配可以是指第一关键信息与第二关键信息的含义相同,第一关键信息与第二关键信息不匹配可以是指第一关键信息与第二关键信息的含义相反。举例来说,在基金坐席销售场景中,若第一关键信息为无风险、保本金;第二关键信息为无风险、保本金,则表示第一关键信息与第二关键信息的含义相同,第一关键信息与第二关键信息匹配,则确定目标文本数据的违规结果为不违规。即目标用户(如工作人员)正确告知客户该基金产品的风险,该次销售合法。相反的,若第一关键信息为无风险、保本金,第二关键信息为中高风险、不保本金,则表示第一关键信息与第二关键信息的含义相反,第一关键信息与第二关键信息不匹配,则确定目标文本数据的违规结果为违规。即目标用户没有正确告知客户该目标对象的风险,该次销售不合法。
95.举例来说,在保险坐席销售场景中,若第一关键信息为可保类别为a类别、可赔付金额为大于十万,第二关键信息为可保类别为a类别、可赔付金额为大于十万,则表示第一关键信息与第二关键信息的含义相同,第一关键信息与第二关键信息匹配,则确定目标文本数据的违规结果为不违规。即目标用户正确告知客户该目标对象的可保类别和可赔付金
额,该次销售合法。相反的,若第一关键信息为可保类别为a类别、可赔付金额为大于十万,第二关键信息为可保类别为b类别、可赔付金额小于十万,则表示第一关键信息与第二关键信息的含义不相同,第一关键信息与第二关键信息不匹配,则确定目标文本数据的违规结果为违规。即目标用户没有正确告知客户该目标对象的可保类别和可赔付金额,该次销售不合法。
96.举例来说,在信用卡办理场景中,若第一关键信息包括信用卡额度大于2万、年费小于500元,第二关键信息包括信用卡额度大于2万、年费小于500元,则表示第一关键信息与第二关键信息的含义相同,第一关键信息与第二关键信息匹配,则确定目标文本数据的违规结果为不违规。即目标用户正确告知客户该信用卡的可保类别和可赔付金额,该次销售合法。相反的,若第一关键信息包括信用卡额度大于2万、年费小于500元,第二关键信息包括信用卡额度小于2万、年费大于500元,则表示第一关键信息与第二关键信息的含义不相同,第一关键信息与第二关键信息不匹配,则确定目标文本数据的违规结果为违规。即目标用户没有正确告知客户该信用卡的可保类别和可赔付金额,该次销售合法。
97.可选的,第二关键信息可以包括多个第二关键词,则计算机设备可以从数据存储库中获取目标对象标识所标识的目标对象的属性信息;从目标对象的属性信息中提取与多个第一关键词属于同一类别的多个第二关键词。其中,数据存储库用于存储至少一个对象的属性信息,一个第一关键词对应一个第二关键词,第一关键词与第二关键词可以是指针对目标对象的同一属性进行描述的关键词。例如,第一关键词与第二关键词可以是指描述目标对象的收益的关键词,例如低收益、总收益、高收益等等;描述目标对象的风险的关键词,例如低风险、中风险、中低风险、中高风险、高风险,等等;或者描述目标对象的本金的关键词,例如保本金、不保本金,等等。数据存储库可以存储一个或多个对象中每个对象的名称、对象编号以及详情信息,详情信息可以包括对每个对象的风险、收益以及本金等信息的描述。则目标对象的属性信息可以包括目标对象的名称、目标对象的编号以及详情信息,目标对象的详情信息可以包括对目标对象的风险、收益以及本金等信息的描述。
98.也就是说,数据存储库中预先存储了多个对象的属性信息,当计算机设备从目标文本数据中获取到目标对象标识时,可以从数据存储库中存储的多个对象的属性信息中获取目标对象的属性信息,从目标对象的属性信息中提取与第一关键词属于同一类别的第二关键词,从而在后续确定第一关键信息与第二关键信息是否匹配时,根据第一关键词与第二关键词的含义是否相同或者相近似,进而确定第一关键信息与第二关键信息是否匹配。可选的,若多个第一关键词与多个第二关键词中的对应关键词的含义均相同或者相近似,则表示第一关键信息与第二关键信息匹配。若多个第一关键词中的任意一个第一关键词与多个第二关键词中的对应关键词的含义不相同,则表示第一关键信息与第二关键信息不匹配。
99.举例来说,计算机设备从目标文本数据中获取到目标对象标识为基金a,对目标文本数据进行检测,提取到的第一关键词例如包括低风险、保本金,则计算机设备从数据存储库中获取基金a的属性信息,从基金a的属性信息中提取与第一关键信息属于同一类别的第二关键词包括中高风险、不保本金;即第一关键词与第二关键词为针对基金a的风险和本金的描述,由于第一关键词与第二关键词的含义相反,表示第一关键信息与第二关键信息不匹配,则确定目标文本数据的违规结果为违规。
100.本技术实施例中,通过确定目标文本数据对应的目标场景,使用目标场景对应的目标识别模型对目标文本数据进行检测,可以确定目标文本数据中是否包含违规内容。例如,在基金坐席销售场景中,可以检测出目标用户(工作人员)是否有告知客户该基金的风险、收益等,在确定目标用户未正确告知客户该基金的风险、收益时,确定目标文本数据中包含违规内容。或者,在保险坐席销售场景中,可以检测出目标用户是否有告知客户该保险的可保类别、可赔付金额等,在确定目标用户未正确告知客户该保险的可保类别、可赔付金额等时,确定目标文本数据中包含违规内容。或者,在信用卡办理场景中,可以检测出目标用户是否有告知客户该信用卡的额度、年费等,在确定目标用户未正确告知客户该信用卡的额度、年费等时,确定目标文本数据中包含违规内容。或者,例如在服务场景中,可以检测出目标用户是否有使用侮辱、辱骂等词汇,若确定目标文本数据中包含侮辱、辱骂等关键词时,则确定目标文本数据中包含违规内容。通过自动对目标文本数据进行检测,可以节省成本。
101.可选的,计算机设备还可以获取针对数据存储库中的目标对象属性信息的调整操作,基于该调整操作对目标对象的属性信息进行调整,结合调整后的目标对象的属性信息对目标文本数据中的第一关键信息进行判断,确定目标文本数据中是否包含违规操作。例如,在目标时间之前,该目标对象的属性信息为高风险、不保本金,在目标时间之后,该目标对象的属性信息调整为低风险、保本金,则计算机设备可以对数据存储库中的目标对象的属性信息进行更新,在后续确定目标文本数据中是否包含违规操作时,可以结合最新的目标产品的属性信息判断目标文本数据中是否包含违规操作,从而提高违规检测的准确性。
102.本技术实施例中,获取目标文本数据,确定目标文本数据对应的目标场景标识;提取目标文本数据中与目标场景关联的目标对象标识,对目标文本数据进行检测,提取目标文本数据中与目标场景关联的第一关键信息,目标场景标识用于标识目标场景;获取目标对象标识对应的第二关键信息,基于第一关键信息与第二关键信息确定目标文本数据的违规结果。通过确定目标文本数据所对应的目标场景以及目标对象标识,对目标文本数据进行检测,可以提取目标文本数据中与目标场景关联的第一关键信息,再结合目标对象的第二关键信息(例如目标对象的属性信息)来二次判断目标文本数据的违规结果,确定目标文本数据是否违规,可以提高违规检测的准确性。例如,在对产品进行销售的过程中,通过获取销售人员对应的目标文本数据,结合上述过程对目标文本数据进行检测确定目标文本数据中的关键信息,再结合产品的属性信息对该目标文本数据中的关键信息进行二次判断,以确定目标文本数据中是否包含违规操作,从而确定销售人员是否违规,可以提高违规检测的准确性。
103.进一步地,请参见图3,图3是本技术实施例提供的另一种数据检测方法的流程示意图;如图3所示,该方法包括但不限于以下步骤:
104.s201,获取目标文本数据,确定目标文本数据对应的目标场景标识。
105.s202,提取目标文本数据中与目标场景关联的目标对象标识,对目标文本数据进行检测,提取目标文本数据中与目标场景关联的第一关键信息。
106.s203,获取目标对象标识对应的第二关键信息,基于第一关键信息与第二关键信息确定目标文本数据的违规结果。
107.本技术实施例中,步骤s201~步骤s203的具体实现方式可参考前述图2中步骤
s101~步骤s103的实现方式,此处不再赘述。
108.s204,若目标文本数据的违规结果为违规,则获取目标文本数据中包含的违规关键词。
109.本技术实施例中,若目标文本数据的违规结果为违规,则计算机设备可以获取目标文本数据中包含的违规关键词。其中,违规关键词可以是指第一关键信息包含的关键词中的一个或者多个。由上述实施例可知,第一关键信息可以包括一个或者多个第一关键词,则违规关键词可以是指一个或者多个第一关键词中与第二关键词的含义相反的关键词,也就是说,若检测到目标文本数据的违规结果为违规,则计算机设备可以获取目标文本数据中包含的具体违规的关键词,便于后续相关管理人员确定目标用户的违规内容,也便于对目标用户进行管理。
110.s205,获取目标文本数据对应的数据提供终端的标识,确定数据提供终端关联的目标用户的违规信息。
111.本技术实施例中,计算机设备可以获取目标文本数据对应的数据提供终端的标识,确定数据提供终端关联的目标用户的违规信息。也就是说,计算机设备获取目标文本数据对应的数据提供终端的标识后,可以确定使用该数据提供终端的目标用户,从而可以获取该目标用户的历史违规信息,进而快速了解目标用户的历史违规情况,便于对目标用户进行相关处理。
112.其中,目标用户的违规信息中可以包括目标用户的标识、目标用户的历史违规数据以及目标用户的违规等级中的至少一种,数据提供终端的标识用于标识数据提供终端。目标用户的标识可以用于唯一地指示目标用户,例如可以包括目标用户的名称、目标用户的工号、目标用户的所属部门、以及目标用户使用的数据提供终端的标识,等等。目标用户的历史违规数据可以包括目标用户的历史违规结果,例如目标用户有无历史违规记录、历史违规次数、历史违规关键词、历史周期中的违规次数对比,等等。目标用户的违规等级可以用于指示目标用户的历史违规次数,例如目标用户的违规等级越高,表示目标用户违规的次数越多;目标用户的违规等级越高低,表示目标用户违规的次数越少。
113.s206,输出目标文本数据中包含的违规关键词与目标用户的违规信息。
114.本技术实施例中,计算机设备可以通过文本的方式输出目标文本数据中包含的违规关键词与目标用户的违规信息,或者,计算机设备也可以通过语音的方式输出目标文本数据中包含的违规关键词与目标用户的违规信息,本技术实施例中不做限定。通过输出目标文本数据中包含的违规关键词与目标用户的违规信息,可以使得目标用户以及相关管理用户了解到该违规关键词和目标用户的违规信息,便于对目标用户进行相关管理,并且,其他用户也可以了解到该违规信息,可以起到警示作用,进而提高监管力度。
115.本技术实施例中,在确定目标文本数据的违规结果为违规时,可以输出该违规结果,还可以输出相应的目标用户的违规信息,即违规用户的违规信息,使得相关管理用户了解到目标用户的违规情况,便于对相关用户进行管理,进而提高目标场景中的监管力度。
116.上面介绍了本技术实施例的方法,下面介绍本技术实施例的装置。
117.参见图4,图4是本技术实施例提供的一种数据检测装置的组成结构示意图。该数据检测装置可以是运行于计算机设备中的一个计算机程序(包括程序代码),例如该数据检测装置为一个应用软件;该数据检测装置可以用于执行本技术实施例提供的方法中的相应
步骤。该数据检测装置40包括:
118.数据获取模块41,用于获取目标文本数据,确定该目标文本数据对应的目标场景标识;
119.数据提取模块42,用于提取该目标文本数据中与目标场景关联的目标对象标识,对该目标文本数据进行检测,提取该目标文本数据中与该目标场景关联的第一关键信息,该目标场景标识用于标识该目标场景;
120.违规确定模块43,用于获取该目标对象标识对应的第二关键信息,基于该第一关键信息与该第二关键信息确定该目标文本数据的违规结果。
121.可选的,该数据获取模块41,包括:
122.数据响应单元411,用于接收数据提供终端发送的数据获取响应,该数据获取响应中包括该目标文本数据和该目标场景标识;或者,
123.接口确定单元412,用于获取数据提供终端的接口信息,将该接口信息对应的场景标识确定为该目标文本数据对应的目标场景标识。
124.可选的,该第一关键信息包括多个第一关键词;该数据提取模块42,具体用于:
125.获取该目标场景关联的目标识别模型,基于该目标识别模型对该目标文本数据进行识别,提取该目标文本数据中与该目标场景关联的多个第一关键词。
126.可选的,该第二关键信息包括多个第二关键词;该违规确定模块43,包括:
127.属性获取单元431,用于从数据存储库中获取该目标对象标识所标识的目标对象的属性信息,该数据存储库用于存储至少一个对象的属性信息;
128.词语提取单元432,用于从该目标对象的属性信息中提取与该多个第一关键词属于同一类别的多个第二关键词,一个第一关键词对应一个第二关键词。
129.可选的,该违规确定模块43,包括:
130.信息匹配单元433,用于确定该第一关键信息与该第二关键信息是否匹配;
131.结果确定单元434,用于若该第一关键信息与该第二关键信息匹配,则确定该目标文本数据的违规结果为不违规;
132.该结果确定单元434,还用于若该第一关键信息与该第二关键信息不匹配,则确定该目标文本数据的违规结果为违规。
133.可选的,该数据检测装置40还包括:
134.结果输出模块44,用于若该目标文本数据的违规结果为违规,则获取该目标文本数据中包含的违规关键词,该违规关键词属于该第一关键信息包含的关键词;
135.该结果输出模块44,用于获取该目标文本数据对应的数据提供终端的标识,确定数据提供终端关联的目标用户的违规信息,该目标用户的违规信息中包括该目标用户的标识、该目标用户的历史违规数据以及该目标用户的违规等级中的至少一种,该数据提供终端的标识用于标识该数据提供终端;
136.该结果输出模块44,用于输出该目标文本数据中包含的违规关键词与该目标用户的违规信息。
137.可选的,该数据获取模块41,具体用于:
138.从数据提供终端获取初始数据,该初始数据包括初始语音数据或者初始文本数据中的至少一种;
139.对该初始语音数据进行语音识别处理,得到该初始语音数据对应的文本数据,将该初始语音数据对应的文本数据确定为该目标文本数据;和/或,
140.对至少一条初始文本数据进行文本拼接处理,得到该目标文本数据;和/或,
141.对该初始文本数据进行文本筛选处理,得到与目标用户关联的文本数据,将该目标用户关联的文本数据确定为该目标文本数据。
142.应理解,图4所示数据检测装置可对应执行任一方法实施例,并且该数据检测装置中的各个单元/模块的上述操作或功能分别为了实现前述任一方法实施例中的相应操作,为了简洁,在此不再赘述。
143.本技术实施例中,获取目标文本数据,确定目标文本数据对应的目标场景标识;提取目标文本数据中与目标场景关联的目标对象标识,对目标文本数据进行检测,提取目标文本数据中与目标场景关联的第一关键信息,目标场景标识用于标识目标场景;获取目标对象标识对应的第二关键信息,基于第一关键信息与第二关键信息确定目标文本数据的违规结果。通过确定目标文本数据所对应的目标场景以及目标对象标识,对目标文本数据进行检测,可以提取目标文本数据中与目标场景关联的第一关键信息,再结合目标对象的第二关键信息(例如目标对象的属性信息)来二次判断目标文本数据的违规结果,确定目标文本数据是否违规,可以提高违规检测的准确性。例如,在对产品进行销售的过程中,通过获取销售人员对应的目标文本数据,结合上述过程对目标文本数据进行检测确定目标文本数据中的关键信息,再结合产品的属性信息对该目标文本数据中的关键信息进行二次判断,以确定目标文本数据中是否包含违规操作,从而确定销售人员是否违规,可以提高违规检测的准确性。
144.参见图5,图5是本技术实施例提供的一种计算机设备的组成结构示意图。如图5所示,上述计算机设备50可以包括:处理器501,网络接口504和存储器505,此外,上述计算机设备50还可以包括:用户接口503,和至少一个通信总线502。其中,通信总线502用于实现这些组件之间的连接通信。其中,用户接口503可以包括显示屏(display)、键盘(keyboard),可选用户接口503还可以包括标准的有线接口、无线接口。网络接口504可选的可以包括标准的有线接口、无线接口(如wi

fi接口)。存储器505可以是高速ram存储器,也可以是非易失性的存储器(non

volatile memory),例如至少一个磁盘存储器。存储器505可选的还可以是至少一个位于远离前述处理器501的存储装置。如图5所示,作为一种计算机可读存储介质的存储器505中可以包括操作系统、网络通信模块、用户接口模块以及设备控制应用程序。
145.在图5所示的计算机设备50中,网络接口504可提供网络通讯功能;而用户接口503主要用于为用户提供输入的接口;而处理器501可以用于调用存储器505中存储的设备控制应用程序,以实现:
146.获取目标文本数据,确定该目标文本数据对应的目标场景标识;
147.提取该目标文本数据中与目标场景关联的目标对象标识,对该目标文本数据进行检测,提取该目标文本数据中与该目标场景关联的第一关键信息,该目标场景标识用于标识该目标场景;
148.获取该目标对象标识对应的第二关键信息,基于该第一关键信息与该第二关键信息确定该目标文本数据的违规结果。
149.应当理解,本技术实施例中所描述的计算机设备50可执行前文图2和图3所对应实施例中对上述一种数据检测方法的描述,也可执行前文图4所对应实施例中对上述一种数据检测装置的描述,在此不再赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。
150.本技术实施例中,获取目标文本数据,确定目标文本数据对应的目标场景标识;提取目标文本数据中与目标场景关联的目标对象标识,对目标文本数据进行检测,提取目标文本数据中与目标场景关联的第一关键信息,目标场景标识用于标识目标场景;获取目标对象标识对应的第二关键信息,基于第一关键信息与第二关键信息确定目标文本数据的违规结果。通过确定目标文本数据所对应的目标场景以及目标对象标识,对目标文本数据进行检测,可以提取目标文本数据中与目标场景关联的第一关键信息,再结合目标对象的第二关键信息(例如目标对象的属性信息)来二次判断目标文本数据的违规结果,确定目标文本数据是否违规,可以提高违规检测的准确性。例如,在对产品进行销售的过程中,通过获取销售人员对应的目标文本数据,结合上述过程对目标文本数据进行检测确定目标文本数据中的关键信息,再结合产品的属性信息对该目标文本数据中的关键信息进行二次判断,以确定目标文本数据中是否包含违规操作,从而确定销售人员是否违规,可以提高违规检测的准确性。
151.本技术实施例还提供一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,该计算机程序包括程序指令,该程序指令当被计算机执行时使该计算机执行如前述实施例该的方法,该计算机可以为上述提到的计算机设备的一部分。例如为上述的处理器501。作为示例,程序指令可被部署在一个计算机设备上执行,或者被部署位于一个地点的多个计算机设备上执行,又或者,在分布在多个地点且通过通信网络互连的多个计算机设备上执行,分布在多个地点且通过通信网络互连的多个计算机设备可以组成区块链网络。
152.本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,该的程序可存储于计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,该的存储介质可为磁碟、光盘、只读存储记忆体(read

only memory,rom)或随机存储记忆体(random access memory,ram)等。
153.以上所揭露的仅为本技术较佳实施例而已,当然不能以此来限定本技术之权利范围,因此依本技术权利要求所作的等同变化,仍属本技术所涵盖的范围。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1