文本的去重方法及装置、计算机存储介质、电子设备与流程

文档序号:29042151发布日期:2022-02-25 21:01阅读:95来源:国知局
文本的去重方法及装置、计算机存储介质、电子设备与流程

1.本技术涉及数据处理技术领域,具体涉及一种文本的去重方法及装置、计算机存储介质、电子设备。


背景技术:

2.基于大数据解决方案,通过对收集的企业数据进行清洗分析、整理等一系列深度挖掘,进而提供数据综合查询或分类查询服务,比如查询企业相关的信息,包括司法数据等。基于司法数据可以为企业后续的合作伙伴遴选中规避风险,分析对方企业信用以判断是否进一步合作等等。然而,由于互联网数据源众多,导致能分析出司法数据的数据存在大量重复的情况。


技术实现要素:

3.本技术实施例提供一种文本的去重方法及装置、计算机存储介质、电子设备,用以克服或者缓解现有技术中存在的上述技术问题。
4.本技术采用的技术方案为:
5.一种文本的去重方法,其包括:
6.确定关联于同一司法公告案号的多个待处理文本,所述待处理文本包括司法事件的特征描述数据;
7.从所述特征描述数据中提取描述司法事件的时间特征;
8.基于提取到的所述时间特征,确定重复的待处理文本并对其进行去重处理。
9.可选地,一实施例中,所述从所述特征描述数据中提取描述司法事件的时间特征,包括:基于用于提取所述时间特征的正则表达式,在所述特征描述数据进行正则匹配,以从中提取描述司法事件的时间特征。
10.可选地,一实施例中,所述基于提取到的所述时间特征,确定重复的待处理文本并对其进行去重处理,包括:
11.基于提取到的所述时间特征,确定重复的待处理文本,并对重复的待处理文本添加第一标注;
12.基于添加的所述第一标注,对重复的待处理文本进行去重处理。
13.可选地,一实施例中,所述基于提取到的所述时间特征,确定重复的待处理文本并对其进行去重处理,包括:
14.确定从不同特征描述数据提取到的时间特征之间的相似度;
15.响应于相似度小于设定相似度阈值的判定结果,将对应的至少两个待处理文本判定为重复的待处理文本,并对其进行去重处理。
16.可选地,一实施例中,所述确定从不同特征描述数据提取到的时间特征之间的相似度,包括:基于设定的特征描述周期,统计确定从不同特征描述数据提取到的在同一特征描述周期内的时间特征之间的相似度。
17.可选地,一实施例中,所述方法还包括:
18.针对基于提取到的所述时间特征,初步判定为非重复的待处理文本,从非重复的待处理文本的特征描述数据中提取描述司法事件的人员特征;
19.基于提取到的所述人员特征,确定所述非重复的待处理文本中实际重复的待处理文本,并对其进行去重处理。
20.可选地,一实施例中,基于提取到的所述人员特征,确定所述非重复的待处理文本中实际重复的待处理文本,并对其进行去重处理,包括:
21.基于提取到的所述人员特征,确定所述非重复的待处理文本中实际重复的待处理文本,并对实际重复的待处理文本添加第二标注;
22.基于添加的所述第二标注,对实际重复的待处理文本进行去重处理。
23.可选地,一实施例中,所述基于添加的所述第二标注,对实际重复的待处理文本进行去重处理,包括:
24.若两个待处理文本的第二标注相同,则判定所述两个待处理文本为重复的待处理文本第二标注相同,则判定所述两个待处理文本为实际重复的待处理文本,并保留评价值大于设定评价阈值的待处理文本,所述评价值包括时效性评价值、权威性评价值、信息量评价值中的至少其一。
25.可选地,一实施例中,所述从对应的特征描述数据中提取描述司法事件的人员特征,包括:基于用于提取所述人员特征的正则表达式,在非重复的待处理文本的特征描述数据进行正则匹配,以从中提取描述司法事件的人员特征。
26.可选地,一实施例中,所述确定关联于同一司法公告案号的多个待处理文本,所述待处理文本包括司法事件的特征描述数据,之前包括:
27.对获取到的司法公告案号进行归一化处理,使得所述司法公告案号的表达符合归一化表达规则;
28.使用归一化处理后的司法公告案号,遍历司法事件公告库,以检索关联于同一司法公告案号的多个待处理文本。
29.可选地,一实施例中,所述时间特征为法定时间,则所述人员特征为法定当事人:或者,所述时间特征为法定当事人,则所述人员特征为法定时间。
30.可选地,一实施例中,所述待处理文本为开庭公告、裁判文书对应的文本,或者,包括有所述开庭公告或者裁判文书中特征描述数据的文本。
31.一种文本的去重装置,其包括:
32.文本获取单元,用于确定关联于同一司法公告案号的多个待处理文本,所述待处理文本包括司法事件的特征描述数据;
33.关键特征提取单元,用于从所述特征描述数据中提取描述司法事件的时间特征;
34.重复文本确定单元,用于基于提取到的所述时间特征,确定重复的待处理文本并对其进行去重处理。
35.一种计算机存储介质,所述计算机存储介质上存储有计算机可执行程序,所述计算机可执行程序被运行以实施本技术实施例任一项所述的方法。
36.一种电子设备,所述电子设备包括存储器以及处理器,所述存储器上用于存储计算机可执行程序,所述处理器用于运行所述计算机可执行程序以实施本技术实施例任一项
所述的方法。
37.本技术实施例,确定关联于同一司法公告案号的多个待处理文本,所述待处理文本包括司法事件的特征描述数据;从所述特征描述数据中提取描述司法事件的时间特征;基于提取到的所述时间特征,确定重复的待处理文本并对其进行去重处理,从而实现了对能分析出司法数据的待处理文本进行了去重处理。
附图说明
38.图1为本技术实施例用户使用应用程序的场景示意图;
39.图2为本技术实施例一种文本的去重方法流程示意图;
40.图3为本技术实施例中一种文本的去重方法流程示意图;
41.图4为本技术实施例一种文本的去重装置的结构示意图;
42.图5为本技术实施例电子设备的结构示意图。
具体实施方式
43.为使本技术要解决的技术问题、技术方案和优点更加清楚,下面将结合附图及具体实施例进行详细描述。
44.图1为本技术实施例用户使用应用程序的场景示意图;如图1所示,该应用场景针对一数据查询系统,该数据查询系统包括终端101、应用服务器102,应用服务器102可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、cdn、以及大数据和人工智能平台等基础云计算服务的云服务器。终端101可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等,但并不局限于此。终端101以及上述应用服务器102可以通过无线通信方式(如网络)进行直接或间接地连接,本技术在此不做限制。
45.为了确保查询的响应速度和效率,所述应用服务器102上设置有基准数据库、es数据库、详情数据库,所述基准数据库中存储基准es数据和详情数据,所述es数据库从存储有es数据,所述详情数据库中存储有es数据对应的详情数据,而所述es数据库存储的es数据和所述详情数据库存储的详情数据从所述基准数据库同步而来。用户使用终端上安装的待测应用程序进行数据查询时,检索的结果数据是直接来自于所述es数据库、所述述详情数据库。
46.此处需要说明的是,设置所述es数据库、所述述详情数据库、所述基准数据库,所述数据正确性的验证装置的服务器不做特别限定,比如可以在同一台物理服务上但在逻辑上分开,也可以在不同的物理服务器上。
47.下述实施例中基于去重后的待处理文本,进一步基于数据生产系统生产出关联于司法数据的es数据以及对应的详情数据。
48.下述实施例中,方法的执行主体可以数据生产系统,比如具体为数据生产系统中的数据处理服务器。
49.下述实施例中,所述待处理文本为开庭公告、裁判文书对应的文本,或者,包括有所述开庭公告或者裁判文书中特征描述数据的文本。开庭公告、裁判文书由司法机关发布,
而包括有所述开庭公告或者裁判文书中特征描述数据的文本比如是对开庭公告、裁判文书进行进一步数据挖掘形成第三方文本,当然包括相关的新闻报道等。或者,所述待处理文本还以是立案信息、送达公告等。
50.图2为本技术实施例一种文本的去重方法流程示意图;如图2所示,其包括:
51.s201、确定关联于同一司法公告案号的多个待处理文本,所述待处理文本包括司法事件的特征描述数据;
52.本实施例中,如果收集了所有的待处理文本并形成待处理文本库的话,则可以使用司法公告案号去待处理文本库中检索,从而确定出同一司法公告案号的多个待处理文本。
53.本实施例中,所述司法事件的特征描述数据包括任意可以表征司法事件的数据,使得司法事件有别于其他非司法事件即可。
54.s202、从所述特征描述数据中提取描述司法事件的时间特征;
55.可选地,所述从所述特征描述数据中提取描述司法事件的时间特征,包括:基于用于提取所述时间特征的提取模型,从所述特征描述数据中提取描述司法事件的时间特征。
56.本实施例中,时间特征可以为上述表征司法事件的数据中的部分数据。
57.进一步地,所述基于用于提取所述时间特征的提取模型,从所述特征描述数据中提取描述司法事件的时间特征,包括:基于用于提取所述时间特征的正则表达式,在所述特征描述数据进行正则匹配,以从中提取描述司法事件的时间特征,所述正则表达式作为所述提取模型。
58.具体地,可以基于时间特征的格式或者表述方式建立正则表达式。不同的时间特征配置不同的正则表达式。
59.当然在其他实施例中,所述提取模型也可以为神经网络模型、专家系统模型或者文本识别模型等,具体可以应用场景的需求灵活选取。
60.s203、基于提取到的所述时间特征,确定重复的待处理文本并对其进行去重处理。
61.可选地,本实施例中,所述基于提取到的所述时间特征,确定重复的待处理文本并对其进行去重处理,包括:
62.基于提取到的所述时间特征,确定重复的待处理文本,并对重复的待处理文本添加第一标注;
63.基于添加的所述第一标注,对重复的待处理文本进行去重处理。
64.通过添加所述第一标注的方式,从而便于快速地实现所述去重处理。优选地,对于重复的待处理文本添加的第一标注相同。当然,在其他实施例中,对于重复的待处理文本添加的第一标注也可以相同,为此建立这些第一标注之间的映射关系,以表征这些待处理文本是重复的文本即可。
65.具体地,所述基于提取到的所述时间特征,确定重复的待处理文本并对其进行去重处理,可以包括:
66.确定从不同特征描述数据提取到的时间特征之间的相似度;
67.响应于相似度小于设定相似度阈值的判定结果,将对应的至少两个待处理文本判定为重复的待处理文本,并对其进行去重处理。
68.通过上述基于时间特征之间的相似度的方式,快速且简单地实现了重复待处理文
本的判定,提高了数据处理的效率,同时保证了准确率。
69.与上述添加第一标注的方式结合的话,则所述基于提取到的所述时间特征,确定重复的待处理文本并对其进行去重处理,可以包括:
70.确定从不同特征描述数据提取到的时间特征之间的相似度;
71.响应于相似度小于设定相似度阈值的判定结果,将对应的至少两个待处理文本判定为重复的待处理文本,并对重复的待处理文本添加第一标注;
72.基于添加的所述第一标注,对重复的待处理文本进行去重处理。
73.通过上述这种添加第一标注和基于相似度的方式,进一步提高了数据处理的效率,同时保证了准确率。
74.可选地,一实施例中,所述基于添加的所述第一标注,对重复的待处理文本进行去重处理,包括:若两个待处理文本的第一标注相同,则判定所述两个待处理文本为重复的待处理文本,并保留第一评价值大于设定第一评价阈值的待处理文本,所述第一评价值包括时效性评价值、权威性评价值、信息量评价值中的至少其一。
75.可选地,一实施例中,所述确定从不同特征描述数据提取到的时间特征之间的相似度,包括:基于设定的特征描述周期,统计确定从不同特征描述数据提取到的在同一特征描述周期内的时间特征之间的相似度,从而减少了统计相似度针对的特征数据,提高了数据处理的效率。
76.示例性地,在一具体应用场景,所述待处理文本为开庭公告文本,所述时间特征为所述开庭公告文本中记录的开庭时间,所述相似度为不同开庭公告文本中记录的开庭时间之间的开庭时间差值,即在重复判定时,考虑如果待处理文本重复的话,则开庭时间会尽可能相同,为此,考虑到在同一自然天可能开庭多次,因此,上述特征描述周期为自然日,即统计同一天内开庭时间的差值来表征开庭时间的相似度,上述相似度阈值为时间差值阈值,一般地,该时间差值阈值比如为1小时,如果两个开庭时间的差值小于等于1小时,则可判定对应的两个开庭公告是重复的。
77.综上可见,通过上述时间特征实现了待处理文本的重复判定以进行去重,去重时比如,只保留一份待处理文本即可,比如只保留第一评价值最高的一份待处理文本,比如来自于权威机构的待处理文本。
78.图3为本技术实施例中一种文本的去重方法流程示意图;与上述实施例2不同的是,为了进一步针对经过上述图2实施例得到的非重复的待处理文本可能还会存在实质上重复的待处理文本,增加了基于人员特征进行判定的处理步骤,具体地,如图3所示,其包括:
79.s301、确定关联于同一司法公告案号的多个待处理文本,所述待处理文本包括司法事件的特征描述数据;
80.s302、从所述特征描述数据中提取描述司法事件的时间特征;
81.s303、基于提取到的所述时间特征,确定重复的待处理文本并对其进行去重处理。
82.本实施例中,步骤s301-s302类似上述步骤s201-s203,详细不再赘述。当然,在本技术的启发下,本领域普通技术人员也可以在不偏离本技术思想的前提下,采用不同于上述步骤s201-s203来实现。
83.s304、针对基于提取到的所述时间特征,初步判定为非重复的待处理文本,从非重
复的待处理文本的特征描述数据中提取描述司法事件的人员特征;
84.本实施例中,如前所述,由于基于上述时间特征去重后,得到的非重复的待处理文本中,可能还存在实际上属于重复的待处理文本的情形,因此,通过步骤s304提取人员特征,以进一步进行实际重复的判断。
85.本实施例中,所述从非重复的待处理文本的特征描述数据中提取描述司法事件的人员特征,包括:基于用于提取所述人员特征的提取模型,从非重复的待处理文本的特征描述数据中提取描述司法事件的人员特征。
86.进一步地,所述从非重复的待处理文本的特征描述数据中提取描述司法事件的人员特征,包括:基于用于提取所述人员特征的正则表达式,在非重复的待处理文本的特征描述数据进行正则匹配,以从中提取描述司法事件的人员特征。
87.此处,具体地,可以基于人员特征的格式或者表述方式建立正则表达式。不同的人员特征配置不同的正则表达式。
88.当然在其他实施例中,所述提取模型也可以为神经网络模型、专家系统模型或者文本识别模型等,具体可以应用场景的需求灵活选取。
89.s305、基于提取到的所述人员特征,确定所述非重复的待处理文本中实际重复的待处理文本,并对其进行去重处理。
90.本实施例中,基于时间特征相当实现了初步去重,而基于人员特征相当于实现了再次去重,从而起高了去重的效率,以将可能重复的待处理文本都进行去重。
91.本实施例中,基于提取到的所述人员特征,确定所述非重复的待处理文本中实际重复的待处理文本,并对其进行去重处理,包括:
92.基于提取到的所述人员特征,确定所述非重复的待处理文本中实际重复的待处理文本,并对实际重复的待处理文本添加第二标注;
93.基于添加的所述第二标注,对实际重复的待处理文本进行去重处理。
94.通过上述这种添加第二标注的方式,以类似于上述添加第一标注的方式,从而便于快速地实现所述去重处理。
95.具体地,所述基于提取到的所述时间特征,确定重复的待处理文本并对其进行去重处理,可以包括:
96.确定从不同特征描述数据提取到的人员特征之间的相似度;
97.响应于相似度小于设定相似度阈值的判定结果,将对应的至少两个所述非重复的待处理文本判定为重复的待处理文本,并对其进行去重处理。
98.通过上述基于人员特征之间的相似度的方式,快速且简单地实现了重复待处理文本的判定,提高了数据处理的效率,同时保证了准确率。
99.与上述添加第二标注的方式结合的话,则所述基于提取到的所述人员特征,确定所述重复的待处理文本并对其进行去重处理,可以包括:
100.确定从不同特征描述数据提取到的人员特征之间的相似度;
101.响应于相似度小于设定相似度阈值的判定结果,将对应的至少两个所述非重复的待处理文本判定为重复的待处理文本,并对重复的待处理文本添加第二标注;
102.基于添加的所述第二标注,对重复的待处理文本进行去重处理。
103.通过上述这种添加第二标注和基于相似度的方式,进一步提高了数据处理的效
率,同时保证了准确率。
104.可选地,本实施例中,所述基于添加的所述第二标注,对实际重复的待处理文本进行去重处理,包括:
105.若两个待处理文本的第二标注相同,则判定所述两个待处理文本为实际重复的待处理文本,并保留评价值大于设定评价阈值的待处理文本,所述评价值包括时效性评价值、权威性评价值、信息量评价值中的至少其一。
106.示例性地,在一具体应用场景,如果所述待处理文本为开庭公告,在上述时间特征可以为开庭时间,而人员特征为当事人,即在重复判定时,考虑如果待处理文本重复的话,则开庭时间首先会尽可能相同,为此,考虑到在同一自然天可能开庭多次,因此,上述特征描述周期为自然日,即统计同一天内开庭时间的差值来表征开庭时间的相似度,上述相似度阈值为时间差值阈值,一般地,该时间差值阈值比如为1小时,如果两个开庭时间的差值小于等于1小时,则可判定对应的两个开庭公告是重复的。否则,如果通过开庭时间初步判定存在非重复的待处理文本,但是实质上是重复的待处理文本,为此,进一步基于当事人进行重复判定,如果当事人名称相似度大于设定的名称相似度阈值,则判定对应的两个待处理文本重复,否则判定为不重复。
107.进一步地,考虑到司法公告案号的多源性,不同渠道来源的司法公告案号表述方式存在差异,因此,在上述实施例中,在所述确定关联于同一司法公告案号的多个待处理文本,所述待处理文本包括司法事件的特征描述数据,之前包括:
108.对获取到的司法公告案号进行归一化处理,使得所述司法公告案号的表达符合归一化表达规则;
109.使用归一化处理后的司法公告案号,遍历司法事件公告库,以检索关联于同一司法公告案号的多个待处理文本。
110.通过归一化处理后的司法公告案号,从而实现了尽可能地全地检索到对应的多个待处理文本。当然,如果不存在司法公告案号表述方式存在差异的情况,也可以不需要执行上述归一化处理的过程。
111.图4为本技术实施例一种文本的去重装置的结构示意图;如图4所示,其包括:
112.文本获取单元401,用于确定关联于同一司法公告案号的多个待处理文本,所述待处理文本包括司法事件的特征描述数据;
113.关键特征提取单元402,用于从所述特征描述数据中提取描述司法事件的时间特征;
114.重复文本确定单元403,用于基于提取到的所述时间特征,确定重复的待处理文本并对其进行去重处理。
115.可选地,一实施例中,所述关键特征提取单元402用于:基于用于提取所述时间特征的正则表达式,在所述特征描述数据进行正则匹配,以从中提取描述司法事件的时间特征,所述正则表达式作为所述提取模型。
116.可选地,一实施例中,所述重复文本确定单元403具体用于:
117.基于提取到的所述时间特征,确定重复的待处理文本,并对重复的待处理文本添加第一标注;
118.基于添加的所述第一标注,对重复的待处理文本进行去重处理。
119.可选地,一实施例中,所述重复文本确定单元403具体用于:若两个待处理文本的第一标注相同,则判定所述两个待处理文本为重复的待处理文本,并保留第一评价值大于设定第一评价阈值的待处理文本,所述第一评价值包括时效性评价值、权威性评价值、信息量评价值中的至少其一。
120.可选地,一实施例中,所述重复文本确定单元403具体用于:
121.确定从不同特征描述数据提取到的时间特征之间的相似度;
122.响应于相似度小于设定相似度阈值的判定结果,将对应的至少两个待处理文本判定为重复的待处理文本,并对其进行去重处理。
123.可选地,一实施例中,所述重复文本确定单元403具体用于:基于设定的特征描述周期,统计确定从不同特征描述数据提取到的在同一特征描述周期内的时间特征之间的相似度。
124.可选地,一实施例中,所述关键特征提取单元402还用于:
125.针对基于提取到的所述时间特征,初步判定为非重复的待处理文本,则从对应的特征描述数据中提取描述司法事件的人员特征;
126.所述重复文本确定单元403还用于:基于提取到的所述人员特征,确定所述非重复的待处理文本中实际重复的待处理文本,并对其进行去重处理。
127.可选地,一实施例中,所述重复文本确定单元403还具体用于:
128.基于提取到的所述人员特征,确定所述非重复的待处理文本中实际重复的待处理文本,并对实际重复的待处理文本添加第二标注;
129.基于添加的所述第二标注,对实际重复的待处理文本进行去重处理。
130.可选地,一实施例中,所述重复文本确定单元403还具体用于:
131.若两个待处理文本的第二标注相同,则判定所述两个待处理文本为实际重复的待处理文本,并保留评价值大于设定评价阈值的待处理文本,所述评价值包括时效性评价值、权威性评价值、信息量评价值中的至少其一。
132.可选地,一实施例中,所述关键特征提取单元402还具体用于:基于用于提取所述人员特征的正则表达式,在非重复的待处理文本对应的特征描述数据进行正则匹配,以从中提取描述司法事件的人员特征。
133.可选地,一实施例中,所述装置还包括归一化处理单元,用于:
134.对获取到的司法公告案号进行归一化处理,使得所述司法公告案号的表达符合归一化表达规则;
135.使用归一化处理后的司法公告案号,遍历司法事件公告库,以检索关联于同一司法公告案号的多个待处理文本。
136.本技术实施例还提供一种计算机存储介质,所述计算机存储介质上存储有计算机可执行程序,所述计算机可执行程序被运行以实施本技术实施例任一项所述的方法。
137.图5为本技术实施例电子设备的结构示意图;如图5所示,所述电子设备包括存储器501以及处理器502,所述存储器501上用于存储计算机可执行程序,所述处理器502用于运行所述计算机可执行程序以实施上述实施例的任一项所述的方法。
138.以上所述实施例,仅为本技术的具体实施方式,用以说明本技术的技术方案,而非对其限制,本技术的保护范围并不局限于此,尽管参照前述实施例对本技术进行了详细的
说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本技术揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本技术实施例技术方案的精神和范围,都应涵盖在本技术的保护范围之内。因此,本技术的保护范围应所述以权利要求的保护范围为准。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1