数据处理方法、装置及电子设备与流程

文档序号:30946347发布日期:2022-07-30 05:24阅读:59来源:国知局
数据处理方法、装置及电子设备与流程

1.本技术涉及数据挖掘技术领域,尤其涉及一种数据处理方法、装置及电子设备。


背景技术:

2.随着计算机技术的快速发展,电子化办公已经成为了政府、医院、企业等机构的主流办公方式,它降低了保存文档的成本,也方便了文档的管理与分析。面对长期积累的大量文档,如何以较高的挖掘效率对文档中的有效信息进行挖掘显得尤为重要。其中,因果挖掘是文本挖掘领域中的重要原子能力,它是对文本信息进行有效地提取、分析和导航的重要手段。文本因果挖掘旨在通过对文本语义进行理解,分析得到文本中所包含的因果元素,并构建因果元素之间的因果关系。因果挖掘所得到的不同因果关系,可以有效地支撑诸如流水线问题分析等业务。


技术实现要素:

3.本技术实施例提供了一种数据处理方法、装置及电子设备,能够在对文档样本的因果关系挖掘过程中与用户进行实时交互,提升了挖掘效率。
4.第一方面,本技术实施例提供了一种数据处理方法,应用于具有显示屏的电子设备,该方法包括:在显示屏上显示处理至少一个文档样本得到的目标结果,目标结果包括聚类结果和因果分析结果的至少一项,其中,聚类结果为对至少一个文档样本进行聚类的结果,因果分析结果为基于聚类结果对至少一个文档样本进行因果关系挖掘的结果;确定用户对目标结果中至少一个第一类目的修正操作,第一类目中包括多个文本片段,其中,多个文本片段之间具有相似关系,或者,多个文本片段之间具有因果关系;基于修正操作,实时更新目标结果中的第二类目,第二类目为目标结果中除第一类目之外的类目;在显示屏上显示更新后的目标结果。
5.由此,在对文档样本进行因果关系挖掘时,将挖掘过程中产生的聚类结果和因果分析结果呈现给用户,使得用户可以基于自身需求对相应的结果进行实时修正;之后,可以基于用户的修正操作,对其他的结果进行实时更新,并将更新后的结果呈现给用户,提升了挖掘效率。
6.在一种可能的实现方式中,在显示屏上显示处理至少一个文档样本得到的目标结果之前,包括:确定至少一个文档样本;对至少一个文档样本进行聚类,得到聚类结果;基于聚类结果,对至少一个文档样本进行因果关系挖掘,得到因果分析结果。由此得到聚类结果和因果分析结果。
7.在一种可能的实现方式中,方法还包括:基于修正操作,实时调整聚类算法的聚类参数或实时调整因果关系挖掘算法的因果关系挖掘参数中的至少一项,其中,聚类算法用于对至少一个文档样本聚类,以得到聚类结果,因果关系挖掘算法用于基于聚类结果对至少一个文档样本进行因果关系挖掘,以得到因果分析结果。由此更新聚类算法和因果关系挖掘算法,以提升后续对文档样本进行处理时的聚类结果和因果分析结果的准确度。
8.在一种可能的实现方式中,基于修正操作,实时更新目标结果中的第二类目,包括:将修正操作转换为目标值,目标值包括相似度值、权重值、因果关联置信度值和本文为因或果的置信度值中的至少一项;基于目标值,更新第二类目。由此,对聚类结果和因果分析结果中的各个类目进行更新,以使得聚类结果和因果分析结果符合用户预期。
9.在一种可能的实现方式中,修订操作包括以下一项或多项:设置用于切分文档样本的切分细粒度和切分方式,标注文档样本中与起因或者结果相关的第一关键信息,构建文本片段之间的关联性,构建聚类结果中聚类类目之间的关联性,标注与因果无关的信息,或,标注与因果分析结果中因果类目相关的第二关键信息。
10.在一种可能的实现方式中,第一关键信息包括以下一项或多项:关键词,关键短语,或,关键句;第二关键信息包括以下一项或多项:关键词,或,中心句。
11.第二方面,本技术实施例提供了一种数据处理装置,部署于具有显示屏的电子设备,该装置包括:显示模块,用于在显示屏上显示处理至少一个文档样本得到的目标结果,目标结果包括聚类结果和因果分析结果的至少一项,其中,聚类结果为对至少一个文档样本进行聚类的结果,因果分析结果为基于聚类结果对至少一个文档样本进行因果关系挖掘的结果;通信模块,用于确定用户对目标结果中至少一个第一类目的修正操作,第一类目中包括多个文本片段,其中,多个文本片段之间具有相似关系,或者,多个文本片段之间具有因果关系;处理模块,用于基于修正操作,实时更新目标结果中的第二类目,第二类目为目标结果中除第一类目之外的类目;显示模块,还用于在显示屏上显示更新后的目标结果。
12.在一种可能的实现方式中,处理模块,还用于:确定至少一个文档样本;对至少一个文档样本进行聚类,得到聚类结果;基于聚类结果,对至少一个文档样本进行因果关系挖掘,得到因果分析结果。
13.在一种可能的实现方式中,处理模块,还用于:基于修正操作,实时调整聚类算法的聚类参数或实时调整因果关系挖掘算法的因果关系挖掘参数中的至少一项,其中,聚类算法用于对至少一个文档样本聚类,以得到聚类结果,因果关系挖掘算法用于基于聚类结果对至少一个文档样本进行因果关系挖掘,以得到因果分析结果。
14.在一种可能的实现方式中,处理模块,还用于:将修正操作转换为目标值,目标值包括相似度值、权重值、因果关联置信度值和本文为因或果的置信度值中的至少一项;基于目标值,更新第二类目。
15.在一种可能的实现方式中,修订操作包括以下一项或多项:设置用于切分文档样本的切分细粒度和切分方式,标注文档样本中与起因或者结果相关的第一关键信息,构建文本片段之间的关联性,构建聚类结果中聚类类目之间的关联性,标注与因果无关的信息,或,标注与因果分析结果中因果类目相关的第二关键信息。
16.在一种可能的实现方式中,第一关键信息包括以下一项或多项:关键词,关键短语,或,关键句;第二关键信息包括以下一项或多项:关键词,或,中心句。
17.第三方面,本技术实施例提供了一种电子设备,包括:
18.至少一个存储器,用于存储程序;
19.至少一个处理器,用于调用存储器存储的程序,以执行第一方面中提供的方法。
20.第四方面,本技术实施例提供了一种计算机存储介质,计算机存储介质中存储有指令,当指令在计算机上运行时,使得计算机执行第一方面中提供的方法。
21.第五方面,本技术实施例提供了一种包含指令的计算机程序产品,当指令在计算机上运行时,使得计算机执行第一方面中提供的方法。
22.第六方面,本技术实施例提供了一种芯片,包括至少一个处理器和接口;
23.至少一个处理器通过接口获取程序指令或者数据;
24.至少一个处理器用于执行程序行指令,以实现第一方面中提供的方法。
附图说明
25.图1是本技术实施例提供的一种因果关系挖掘系统的系统架构示意图;
26.图2a是图1中的因果关系挖掘系统中实时交互模块呈现给用户的界面示意图;
27.图2b是图1中的因果关系挖掘系统中实时交互模块呈现给用户的界面示意图;
28.图3是本技术实施例提供的一种因果关系挖掘方法的挖掘过程示意图;
29.图4是本技术实施例提供的一种用户与因果关系挖掘系统的交互的过程示意图;
30.图5a是本技术实施例提供的一种因果关系挖掘系统的显示界面示意图;
31.图5b是本技术实施例提供的一种因果关系挖掘系统的显示界面示意图;
32.图5c是本技术实施例提供的一种因果关系挖掘系统的显示界面示意图;
33.图6是本技术实施例提供的一种电子设备的硬件结构示意图;
34.图7是本技术实施例提供的一种数据处理方法的流程示意图;
35.图8是本技术实施例提供的一种数据处理装置的结构示意图;
36.图9是本技术实施例提供的一种芯片的结构示意图。
具体实施方式
37.为了使本技术实施例的目的、技术方案和优点更加清楚,下面将结合附图,对本技术实施例中的技术方案进行描述。
38.在本技术实施例的描述中,“示例性的”、“例如”或者“举例来说”等词用于表示作例子、例证或说明。本技术实施例中被描述为“示例性的”、“例如”或者“举例来说”的任何实施例或设计方案不应被解释为比其它实施例或设计方案更优选或更具优势。确切而言,使用“示例性的”、“例如”或者“举例来说”等词旨在以具体方式呈现相关概念。
39.在本技术实施例的描述中,术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,a和/或b,可以表示:单独存在a,单独存在b,同时存在a和b这三种情况。另外,除非另有说明,术语“多个”的含义是指两个或两个以上。例如,多个系统是指两个或两个以上的系统,多个终端是指两个或两个以上的终端,多路视频流是指两路或两路以上的视频流。
40.此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”,除非是以其他方式另外特别强调。
41.请参阅图1,图1是本技术实施例提供的一种因果关系挖掘系统的系统架构示意图。该因果关系挖掘系统,可以包括:文本预处理模块11、文本聚类模块12、因果关系挖掘模块13、实时交互模块14和数据存储模块15。其中,文本预处理模块11、文本聚类模块12和因
果关系挖掘模块13依次连接,文本聚类模块12和因果关系挖掘模块13均与实时交互模块14连接,文本聚类模块12和因果关系挖掘模块13也均与数据存储模块15连接。下面对因果关系挖掘系统中的各个模块分别进行介绍。
42.本方案中,文本预处理模块11可以对用户给定的文档样本集合中的文档样本进行预处理,例如,进行分词、清洗等操作,并可以将文档样本按照标定符合划分为不同细粒度的文本片段。示例性的,文档集合中的文档样本可以为工单,如客服工单、政务工单等。在一个例子中,预处理时分词操作所用的算法可以包括最大匹配算法,汉语语言模型n-gram,或者最短路径分词算法等等;清洗操作可以包括清洗以下数据:大小转小写,无用的标签,特殊的符号,停用词,拆分黏在一起的词,查找俚语,或者解码数据等等。
43.文本聚类模块12可以对经文本预处理模块11处理所得到的文本片段进行聚类。其中,文本聚类模块12进行聚类操作时,所采用的聚类方法可以实时进行聚类。举例来说,当前的聚类结果中包括多个类目,如类目1,类目2,类目3,当用户修改类目1后,文本聚类模块12可以实时更新类目2和类目3。可以理解的是,本方案中“实时聚类”可以为在小于预设时间内完成聚类,例如小于2秒等;“实时更新”可以为在小于预设时间内完成更新,例如小于2秒等。
44.因果关系挖掘模块13可以对经文本聚类模块12聚类后的文本进行挖掘,以构建文档中元素之间的因果关系。其中,因果关系挖掘模块13可以对文本聚类模块12聚类后的文本,进行语义理解,分析得到文本中所包含的因果元素,进而构建因果元素之间的因果关系。可以理解的是,因果关系挖掘模块13也可以实时进行因果关系挖掘。例如,当用户修改其中一个因果关系时,则因果关系挖掘模块13可以实时更新其他的因果关系。
45.在一个例子中,因果关系挖掘模块13可以利用语义匹配模型,从文档样本中对预设的因果关键词进行扩充,并定位包含这些关键词的因果聚类类目;然后,对因果聚类类目以及类目中所包含的文本片段进行组合,并在原始文档样本中进行检索,找到包含因果文本片段的样本,进而挖掘到原始文档样本中的因果关系。
46.在一个例子中,因果关系挖掘模块13可以利用频繁项集挖掘算法进行挖掘。其中,频繁项集挖掘算法可以为apriori算法,fp—growth算法等等。
47.实时交互模块14可以将文本聚类模块12聚类后的文本呈现给用户。此外,实时交互模块14也可以将因果关系挖掘模块13挖掘的因果关系呈现给用户。本方案中,实时交互模块14还可以接收用户下发的操作指令;然后再根据操作指令对文本聚类模块12聚类的信息进行调整,和/或,根据操作指令对因果关系挖掘模块13挖掘的因果关系信息进行调整;最后,再将调整结果反馈给文本聚类模块12和因果关系挖掘模块13中的至少一个,以使文本聚类模块12或者因果关系挖掘模块13基于调整结果更新聚类数据或者更新因果关系数据。在一个例子中,操作指令可以为调整文本聚类模块12聚类的结果的指令,也可以为调整因果关系挖掘模块13挖掘的因果关系的指令。
48.在一个例子中,用户可以通过实时交互模块14进行如下操作:
49.1、设置文档样本切分细粒度和切分方式等。
50.2、标注样本中与起因或者结果相关的关键信息,如关键词、关键短语、关键句等。
51.3、构建文本片段之间的关联性,如标注两个或多个单独文本片段之间的因果关系。
52.4、构建聚类类目之间的关联性,如指定一个或者多个聚类类目的因果关系。
53.5、噪音标注,如标注与因果无关样本、类目等。
54.6、构建类目描述,如标注因果类目的关键词、中心句等。
55.举例来说,如图2a所示,实时交互模块14将聚类信息和因果关系信息同时呈现给用户。此时,用户可以调整聚类信息和/或因果关系信息。当用户调整因果关系信息时,将原因中的类目1和类目2合二为一,并删除结果中的类目2,此时,实时交互模块14呈现给用户的信息更新为图2b中所示的信息。
56.数据存储模块15可以存储文本聚类模块12聚类过程中的中间结果,以及最终的聚类结果。此外,数据存储模块15也可以存储因果关系挖掘模块13挖掘因果关系过程中的中间结果,以及最终的挖掘的因果关系。
57.可以理解的是,本方案中,用户可以通过因果关系挖掘系统中的实时交互模块实时查看到文本聚类模块的聚类结果和/或因果关系挖掘模块的因果分析结果,以及通过实时交互模块对聚类结果和/或因果分析结果进行手动修正,进而实时更新聚类结果和/或因果分析结果,提升了因果关系挖掘的准确度和效率。
58.此外,文本聚类模块12在接收到实时交互模块14反馈的调整信息后,可以确定调整前的聚类结果与调整后的聚类结果之间的偏差度,例如两个单词的语义相似度、单词重要性权重等。然后再基于该偏差度对相应的聚类算法中的参数进行自适应调整,同时调整聚类结果,以使得后续的聚类结果符合用户的预期。例如,调整前的聚类结果中,两个单词的语义相似度为0.25;调整后的聚类结果中,这两个单词的相似度由0.25变为0.5;此时,文本聚类模块12可以基于调整前后的相似度差值,自适应调整其聚类算法中的参数,同时重新确定其他的聚类结果(如重新对文档样本进行聚类等),即调整聚类结果。
59.因果关系挖掘模块13在接收到实时交互模块14反馈的调整信息后,可以确定调整前的因果分析结果与调整后的因果分析结果之间的偏差度,例如因果关联置信度、文本为因/果的置信度等。然后再基于该偏差度对相应的因果关系挖掘算法中的参数进行自适应调整,同时调整因果分析结果,以使得后续的因果分析结果符合用户的预期。可以理解的是,当用户未对因果分析结果进行修正,而是对聚类结果修正时,因果关系挖掘模块13可以基于修正后的聚类结果重新进行因果关系挖掘,以更新因果分析结果。
60.接下来基于上述图1中所示的系统架构,结合图3对本方案中的提供的因果关系挖掘方法进行介绍。
61.(1)用户提供文档数据集
62.用户可以将待挖掘因果关系的文档的集合输入至上述的因果关系挖掘系统。例如,用户可以将多个客服工单构成的文档数据集输入至因果关系挖掘系统。
63.(2)对文档数据集中的文档进行预处理
64.因果关系挖掘系统接收到用户提供的文档数据集后,可以对文档数据集中的文档进行分词、清洗等预处理操作,进而对文档进行划分,以将文档样本划分为文本片段。
65.(3)聚类
66.因果关系挖掘系统对文档数据集中的文档进行预处理后,可以使用文本聚类算法对划分后的文档进行聚类,得到聚类结果。
67.(4)因果关系挖掘
68.因果关系挖掘系统进行文本聚类后,可以根据聚类结果进行因果关系挖掘。例如,利用语义匹配模型,从文档样本中对预设的因果关键词进行扩充,并定位包含这些关键词的因果聚类类目;然后,对因果聚类类目以及类目中所包含的文本片段进行组合,并在原始文档样本中进行检索,找到包含因果文本片段的样本,进而挖掘到原始文档样本中的因果关系。
69.(5)存储聚类结果和/或因果分析结果
70.因果关系挖掘系统在得到聚类结果和/或因果分析结果后,可以将聚类结果和/或因果分析结果进行存储。例如,将聚类结果和/或因果分析结果持久化到文件中,或者上传至服务器中等等。
71.(6)呈现聚类结果和/或因果分析结果
72.因果关系挖掘系统在得到聚类结果和/或因果分析结果后,可以将聚类结果和/或因果分析结果展示给用户。
73.(7)用户修正聚类结果和/或因果分析结果
74.因果关系挖掘系统在将聚类结果和/或因果分析结果展示给用户后,用户可以基于其主观判断对聚类结果和/或因果分析结果进行调整(即图3中的纠错)。然后,因果关系挖掘系统可以将用户调整后的聚类结果和/或因果分析结果进行展示,即将修正结果返回给用户;以及,将用户的调整结果(即图3中的纠错信息)反馈至因果关系挖掘系统中的文本聚类模块和/或因果关系挖掘模块。
75.在一个例子中,用户在修正聚类结果和/或因果分析结果时,可以标注样本中与起因或者结果相关的关键信息,如关键词、关键短语、关键句等;也可以构建文本片段之间的关联性,如标注两个或多个单独文本片段之间的因果关系;亦可以构建聚类类目之间的关联性,如指定一个或者多个聚类类目的因果关系。此外,也可以进行噪音标注,如标注与因果无关样本、类目等;构建类目描述,如标注因果类目的关键词、中心句等。
76.可以理解的是,用户在修正聚类结果和/或因果分析结果时,可以进行多次修正,直至修正聚类结果和/或因果分析结果得到用户满意为止。
77.(8)更新存储数据
78.因果关系挖掘系统将用户的调整结果反馈至因果关系挖掘系统中的文本聚类模块和/或因果关系挖掘模块后,文本聚类模块和/或因果关系挖掘模块可以将用户的调整信息发送至因果关系系统中的数据存储模块,数据存储模块进而更新其存储的聚类结果和/或因果分析结果等数据。
79.可以理解的是,当用户仅对聚类结果调整时,因果关系挖掘系统中的因果关系挖掘模块也可以基于调整后的聚类结果,重新进行因果关系挖掘,以重新确定因果分析结果。当因果关系挖掘模块重新确定出因果分析结果后,因果关系挖掘系统则可以更新其呈现给用户的因果分析结果。在一个例子中,因果关系挖掘系统中的因果关系挖掘模块可以从数据存储模块中读取到用户对聚类结果的调整信息。
80.为便于理解上文所描述的过程,下面举例说明用户与因果关系挖掘系统的交互过程。
81.如图4所示,因果关系挖掘系统将因果分析结果和聚类结果在挖掘界面上呈现给用户后,用户可以在挖掘界面上对因果关系和/或距离结果进行调整。用户操作过程中,各
种操作即可以形成一个实时交互操作集合。之后,该实时交互操作集合可以返回至因果关系挖掘模块和/或聚类算法(即文本聚类模块)。然后,因果关系挖掘模块和/或聚类算法将用户的调整结果返回至信息存储单元(即数据存储模块)。接着,信息存储单元对其存储的数据进行更新,并存储用户调整后的数据。之后,信息存储单元将更新后的信息返回至因果关系挖掘模块和/或聚类算法。然后,因果关系挖掘模块可以基于调整后的聚类结果重新进行因果关系挖掘,聚类算法则可以对其聚类参数进行调整。最后,因果关系挖掘模块可以将其最新挖掘的因果关系传送至挖掘界面,由挖掘界面呈现给用户。
82.为便于理解上文所描述的过程,下面以客服质检场景举例进行解释说明。
83.如图5a所示,用户可以将若干条客服工单样本输入至因果关系挖掘系统;之后,用户点击“因果挖掘”按键51,因果关系挖掘系统即可以开始因果关系挖掘工作。详细的挖掘过程,详见上文有关描述,在此就不再一一赘述。
84.接着,如图5b所示,在因果挖掘系统得到聚类结果和因果分析结果后,将聚类结果和因果分析结果呈现给用户。用户在浏览聚类结果和因果分析结果后,可以与因果关系挖掘系统进行特定的实时交互操作,以调整聚类结果和因果分析结果。用户在对图5b中的聚类结果和因果分析结果调整后,因果挖掘系统则向用户呈现调整后的聚类结果和因果分析结果调整,即图5c所示的界面。
85.需要说明的是,本方案中提供的因果关系挖掘系统可以配置于电子设备上。该电子设备可以具备显示屏,该显示屏可以用于展示因果关系挖掘系统中实时交互模块呈现给用户的数据。该电子设备可以为手机,平板电脑,数码相机,个人数字助理(personal digitalassistant,pda),可穿戴设备,智能电视,华为智慧屏等。电子设备的示例性实施例包括但不限于搭载ios、android、windows、鸿蒙系统(harmony os)或者其他操作系统的电子设备。上述电子设备也可以是其他电子设备,诸如具有触敏表面(例如触控面板)的膝上型计算机(laptop)等。本方案中对电子设备的类型不做具体限定。下面介绍本方案提供的一种电子设备的硬件结构。
86.图6是本技术实施例提供的一种电子设备的硬件结构示意图。如图6所示,该电子设备200可以包括处理器201,存储器202和显示屏203。
87.其中,处理器201可以是通用处理器或者专用处理器。例如,处理器201可以包括中央处理器(central processing unit,cpu)和/或基带处理器。其中,基带处理器可以用于处理通信数据,cpu可以用于实现相应的控制和处理功能,执行软件程序,处理软件程序的数据。示例性的,处理器201可以对至少一个文档样本进行处理,例如聚类处理,因果关系挖掘处理等,以得到聚类结果或因果分析结果中的至少一项。此外,处理器201也可以基于用户的修订操作,实时更新聚类结果或因果分析结果中的至少一项。
88.存储器202上可以存有程序(也可以是指令或者代码),程序可被处理器201运行,使得处理器201执行本方案中描述的方法。可选地,存储器202中还可以存储有数据。可选地,处理器201还可以读取存储器202中存储的数据(例如,聚类结果,因果分析结果等等),该数据可以与程序存储在相同的存储地址,该数据也可以与程序存储在不同的存储地址。
89.处理器201和存储器202可以单独设置,也可以集成在一起,例如,集成在单板或者系统级芯片(system on chip,soc)上。
90.显示屏203可以显示对至少一个文档样本进行处理,得到的聚类结果和因果分析
结果中的至少一项。示例性的,显示屏203可以用于显示因果关系挖掘系统的显示界面。其中,显示屏203包括可以显示面板。显示面板可以采用液晶显示屏(liquid crystal display,lcd),有机发光二极管(organic light-emitting diode,oled),有源矩阵有机发光二极体或主动矩阵有机发光二极体(active-matrix organic light emitting diode,amoled),柔性发光二极管(flex light-emitting diode,fled),miniled,microled,micro-oled,量子点发光二极管(quantum dot light emitting diodes,qled)等。
91.关于电子设备在上述各种可能的设计中执行的操作的详细描述可以参照本方案提供的方法的实施例中的描述,在此就不再一一赘述。
92.接下来,基于上文所描述的因果关系挖掘系统以及电子设备,对本技术实施例提供的一种数据处理方法进行介绍。可以理解的是,该方法是上文所描述的因果关系挖掘系统中部分或全部操作的另一种表达方式,两者是相结合的。该方法是基于上文所描述的因果关系挖掘系统提出,该方法中的部分或全部内容可以参见上文对因果关系挖掘系统的描述。
93.请参阅图7,图7是本技术实施例提供的一种数据处理方法的流程示意图。可以理解,该方法可以通过任何具有计算、处理能力的装置、设备、平台、设备集群来执行。其中,该方法可以应用于具有显示屏的电子设备,如图7所示,该数据处理方法包括:
94.步骤s101、在显示屏上显示处理至少一个文档样本得到的目标结果,目标结果包括聚类结果和因果分析结果的至少一项。
95.本方案中,聚类结果可以为对至少一个文档样本进行聚类的结果,因果分析结果可以为基于聚类结果对至少一个文档样本进行因果关系挖掘的结果。
96.其中,在对至少一个文档样本进行聚类和因果关系挖掘后,可以在显示屏上向用户呈现聚类结果和因果分析结果的至少一项。在一个例子中,对至少一个文档样本进行聚类可以由图1所示的文本聚类模块12执行;对至少一个文档样本进行因果关系挖掘,可以由图1所示的因果关系挖掘模块13基于文本聚类模块12聚类后的文本进行挖掘。在一个例子中,该步骤可以由图1所示的实时交互模块14执行,详见上文有关描述。
97.可以理解的的,在步骤s101之前,可以先确定出至少一个文档样本。然后,再对至少一个文档样本进行聚类,得到聚类结果。最后,再基于聚类结果,对至少一个文档样本进行因果关系挖掘,得到因果分析结果,从而获得聚类结果和因果分析结果。其中在步骤s101之前的步骤可以由图1所示的文本预处理模块11,文本聚类模块12和因果关系挖掘模块13执行,详见上文有关描述。
98.步骤s102、确定用户对目标结果中至少一个第一类目的修正操作,第一类目中包括多个文本片段,其中,多个文本片段之间具有相似关系,或者,多个文本片段之间具有因果关系。
99.本方案中,用户可以基于自身需求对显示屏上所显示的聚类结果和/或因果分析结果中所包含的类目进行修正。其中,聚类结果与因果分析结果所包含的类目中均可以包括多个文本片段。聚类结果中处于同一类目中的文本片段之间具有相似性;因果分析结果中处于同一类目中的文本片段之间具有因果关系。在一个例子中,该步骤可以由图1所示的实时交互模块14执行,详见上文有关描述。
100.在一个例子中,修正操作可以包括设置用于切分文档样本的切分细粒度和切分方
式,标注文档样本中与起因或者结果相关的第一关键信息,构建文本片段之间的关联性,构建聚类结果中聚类类目之间的关联性,标注与因果无关的信息,或,标注与因果分析结果中因果类目相关的第二关键信息等等。其中,第一关键信息包括关键词,关键短语,或,关键句等;第二关键信息包括关键词,或,中心句等。
101.接收到用户的修正操作后,即可以执行步骤s103。
102.步骤s103、基于修正操作,实时更新目标结果中的第二类目,第二类目为目标结果中除第一类目之外的类目。
103.本方案中,用户对聚类结果和/或因果分析结果进行修正后,可以修正操作,实时更新目标结果中的第二类目,第二类目为目标结果中除第一类目之外的类目。在一个例子中,该步骤可以由图1所示的实时交互模块14执行,详见上文有关描述。
104.作为一种可能的实现方式,可以将用户的修正操作转换为目标值,目标值可以包括相似度值、权重值、因果关联置信度值和本文为因或果的置信度值中的至少一项。之后,再基于目标值,更新第二类目。其中,更新第二类目可以由图1所示的文本聚类模块12或者因果关系挖掘模块13执行,详见上文有关描述。
105.在一个例子中,接收到用户的修正操作后,也可以基于修正操作,实时调整聚类算法的聚类参数或实时调整因果关系挖掘算法的因果关系挖掘参数中的至少一项,其中,聚类算法用于对至少一个文档样本聚类,以得到聚类结果,因果关系挖掘算法用于基于聚类结果对至少一个文档样本进行因果关系挖掘,以得到因果分析结果。其中,调整聚类参数可以由图1所示的文本聚类模块12执行,调整因果关系挖掘参数可以由因果关系挖掘模块13执行,详见上文有关描述。
106.实时更新目标结果中的第二类目后,即可以执行步骤s104。
107.步骤s104、在显示屏上显示更新后的目标结果。
108.本方案中,在更新聚类结果和/或因果分析结果后,可以将更新后的聚类结果和/或因果分析结果在显示屏上进行显示。在一个例子中,该步骤可以由图1所示的实时交互模块14执行,详见上文有关描述。
109.由此,本方案中,在对文档样本进行因果关系挖掘时,可以将挖掘过程中产生的聚类结果和因果分析结果呈现给用户,使得用户可以基于自身需求对相应的结果进行实时修正;之后,可以基于用户的修正操作,对其他的结果进行实时更新,并将更新后的结果呈现给用户,提升了挖掘效率。
110.基于上述实施例中的方法,本技术实施例提供了一种数据处理装置。请参阅图8,图8是本技术实施例提供的一种数据处理装置的结构示意图。如图8所示,该数据处理装置800可以包括:显示模块81和处理模块82。
111.其中,显示模块81,可以用于在显示屏上显示处理至少一个文档样本得到的目标结果,目标结果包括聚类结果和因果分析结果的至少一项,其中,聚类结果为对至少一个文档样本进行聚类的结果,因果分析结果为基于聚类结果对至少一个文档样本进行因果关系挖掘的结果。
112.处理模块82,可以用于确定用户对目标结果中至少一个第一类目的修正操作,第一类目中包括多个文本片段,其中,多个文本片段之间具有相似关系,或者,多个文本片段之间具有因果关系。
113.处理模块82,还可以用于基于修正操作,实时更新目标结果中的第二类目,第二类目为目标结果中除第一类目之外的类目。
114.显示模块81,还可以用于在显示屏上显示更新后的目标结果。
115.在一个例子中,显示模块81可以为图6所示的显示屏203。处理模块82可以为图6所示的处理器201。
116.在一个例子中,处理模块82,还可以用于:确定至少一个文档样本;对至少一个文档样本进行聚类,得到聚类结果;基于聚类结果,对至少一个文档样本进行因果关系挖掘,得到因果分析结果。
117.在一个例子中,处理模块82,还可以用于:基于修正操作,实时调整聚类算法的聚类参数或实时调整因果关系挖掘算法的因果关系挖掘参数中的至少一项,其中,聚类算法用于对至少一个文档样本聚类,以得到聚类结果,因果关系挖掘算法用于基于聚类结果对至少一个文档样本进行因果关系挖掘,以得到因果分析结果。
118.在一个例子中,处理模块82,还可以用于:将修正操作转换为目标值,目标值包括相似度值、权重值、因果关联置信度值和本文为因或果的置信度值中的至少一项;基于目标值,更新第二类目。
119.在一个例子中,修订操作包括以下一项或多项:设置用于切分文档样本的切分细粒度和切分方式,标注文档样本中与起因或者结果相关的第一关键信息,构建文本片段之间的关联性,构建聚类结果中聚类类目之间的关联性,标注与因果无关的信息,或,标注与因果分析结果中因果类目相关的第二关键信息。
120.在一个例子中,第一关键信息包括以下一项或多项:关键词,关键短语,或,关键句;第二关键信息包括以下一项或多项:关键词,或,中心句。
121.应当理解的是,上述装置用于执行上述实施例中的方法,装置中相应的程序模块,其实现原理和技术效果与上述方法中的描述类似,该装置的工作过程可参考上述方法中的对应过程,此处不再赘述。
122.基于上述实施例中的方法,本技术实施例还提供了一种芯片。请参阅图9,图9为本技术实施例提供的一种芯片的结构示意图。如图9所示,芯片900包括一个或多个处理器901以及接口电路902。可选的,芯片900还可以包含总线903。其中:
123.处理器901可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器901中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器901可以是通用处理器、数字通信器(dsp)、专用集成电路(asic)、现场可编程门阵列(fpga)或者其它可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本技术实施例中的公开的各方法、步骤。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
124.接口电路902可以用于数据、指令或者信息的发送或者接收,处理器901可以利用接口电路902接收的数据、指令或者其它信息,进行加工,可以将加工完成信息通过接口电路902发送出去。
125.可选的,芯片900还包括存储器,存储器可以包括只读存储器和随机存取存储器,并向处理器提供操作指令和数据。存储器的一部分还可以包括非易失性随机存取存储器(nvram)。
126.可选的,存储器存储了可执行软件模块或者数据结构,处理器可以通过调用存储器存储的操作指令(该操作指令可存储在操作系统中),执行相应的操作。
127.可选的,接口电路902可用于输出处理器901的执行结果。
128.需要说明的,处理器901、接口电路902各自对应的功能既可以通过硬件设计实现,也可以通过软件设计来实现,还可以通过软硬件结合的方式来实现,这里不作限制。
129.应理解,上述方法实施例的各步骤可以通过处理器中的硬件形式的逻辑电路或者软件形式的指令完成。其中,该芯片可以应用于图2所示的终端中。
130.可以理解的是,本技术的实施例中的处理器可以是中央处理单元(central processing unit,cpu),还可以是其他通用处理器、数字信号处理器(digital signal processor,dsp)、专用集成电路(application specific integrated circuit,asic)、现场可编程门阵列(field programmable gate array,fpga)或者其他可编程逻辑器件、晶体管逻辑器件,硬件部件或者其任意组合。通用处理器可以是微处理器,也可以是任何常规的处理器。
131.本技术的实施例中的方法步骤可以通过硬件的方式来实现,也可以由处理器执行软件指令的方式来实现。软件指令可以由相应的软件模块组成,软件模块可以被存放于随机存取存储器(random access memory,ram)、闪存、只读存储器(read-only memory,rom)、可编程只读存储器(programmable rom,prom)、可擦除可编程只读存储器(erasable prom,eprom)、电可擦除可编程只读存储器(electrically eprom,eeprom)、寄存器、硬盘、移动硬盘、cd-rom或者本领域熟知的任何其它形式的存储介质中。一种示例性的存储介质耦合至处理器,从而使处理器能够从该存储介质读取信息,且可向该存储介质写入信息。当然,存储介质也可以是处理器的组成部分。处理器和存储介质可以位于asic中。
132.在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本技术实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者通过所述计算机可读存储介质进行传输。所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(dsl))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,dvd)、或者半导体介质(例如固态硬盘(solid state disk,ssd))等。
133.可以理解的是,在本技术的实施例中涉及的各种数字编号仅为描述方便进行的区分,并不用来限制本技术的实施例的范围。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1