文本推送方法及系统与流程

文档序号:33506250发布日期:2023-03-18 01:17阅读:45来源:国知局
文本推送方法及系统与流程

1.本发明涉及数据处理技术领域,尤其涉及一种文本推送方法及系统。


背景技术:

2.在大规模协作翻译流程中,一个大型翻译项目,其中的分块文本会按照聚类结果被分配到不同的用户进行翻译,但这无法保证其中的高度相似的语料一定能分到一个聚类中,也就无法保证在短时间内将这些高度相似的语料准确推送给同一个用户进行文本翻译。


技术实现要素:

3.本发明提供的文本推送方法及系统,用于解决现有技术中存在的上述问题,将目标对象集合的聚合结果中的每个相似子图所对应的文本单元对象作为一个高相似集合,能够实现在短时间内将目标文本推送给同一个用户,保证了文本推送的时效性和准确性。
4.本发明提供的一种文本推送方法,包括:
5.获得目标对象集合的聚合结果,所述目标对象集合包括多个文本单元对象,所述文本单元对象为目标对象的向量表达,所述目标对象为将目标文本进行分割后得到的,所述聚合结果用于表征所述目标集合中的各目标对象的相似程度;
6.获取所述聚合结果中每一个相似子图分别对应的高相似集合,所述相似子图对应的高相似集合包括所述相似子图对应的文本单元对象;
7.基于所述高相似集合中的文本单元对象对所述目标文本进行推送。
8.根据本发明提供的一种文本推送方法,所述目标对象集合的聚合结果的获取方式,包括:
9.执行至少一次聚合过程,直到第一目标差集中不存在任何元素为止;
10.基于至少一次所述聚合过程中获取的所有相似子图,获取所述聚合结果;
11.其中,所述聚合过程包括:获取目标无向图对应的相似子图,基于所述第一目标差集和第二目标差集,更新无向图,并根据更新后的无向图更新所述目标无向图,所述更新后的无向图作为下一次聚合过程的所述无向图,更新后的目标无向图作为下一次聚合过程中的所述目标无向图,第一次聚合过程中目标无向图是基于第一次聚合过程中的无向图得到的,第一次聚合过程中的无向图是根据所述目标对象集合构建的;
12.所述第一目标差集为第一目标集合与第二目标集合的差集,所述第一目标集合是根据每一次聚合过程中获取的相似子图中的所有顶点组成的集合确定的,所述第二目标集合是根据每一次聚合过程中的所述目标无向图中的所有顶点组成的集合确定的;
13.所述第二目标差集为第三目标集合与第四目标集合的差集,所述第三目标集合是根据每一次聚合过程中获取的相似子图中的所有边组成的集合确定的,所述第四目标集合是根据每一次聚合过程中的所述目标无向图中的所有边组成的集合确定的。
14.根据本发明提供的一种文本推送方法,所述目标无向图的获取方式,包括:
15.根据各个所述目标对象,确定无向图的顶点;
16.根据任意两个所述目标对象之间的相对距离,确定无向图的边;
17.根据所述无向图的顶点和所述无向图的边,构建所述无向图;
18.删除所述无向图中大于预设阈值的边,并删除所述无向图中孤立的顶点,得到所述目标无向图。
19.根据本发明提供的一种文本推送方法,所述获取目标无向图对应的相似子图,包括:
20.将所述目标无向图中的相对距离最小的第一边组成的集合作为第五目标集合;
21.将构成所述第一边的目标顶点组成的集合作为目标顶点集合;
22.执行至少一次第一处理过程,直到第六目标集合中不存在任何元素或第三目标差集中不存在相对距离最小的第二边为止,获取所述相似子图;
23.其中,所述第一处理过程包括:在所述第三目标差集中存在所述第二边的情况下,若满足预设条件,则执行至少一次第二处理过程,直到不满足所述预设条件为止,将所述第二边从所述第六目标集合中删除,以更新所述第六目标集合,直到所述第六目标集合中不存在任何元素为止;
24.所述第三目标差集为每一次第一处理过程中,所述第五目标集合与所述第六目标集合的差集;
25.所述预设条件,包括:每一次第一处理过程中,所述构成所述第二边的非目标顶点与所述目标顶点集合中的至少预设数量个所述目标顶点连接;
26.所述第二处理过程包括:将所述第二边中的非目标顶点作为所述目标顶点添加到所述目标顶点集合,以更新所述目标顶点集合,将第三边添加到最新的第五目标集合,以更新所述第五目标集合,并根据更新后的所述目标顶点集合,更新所述第六目标集合,所述第三边为每一次第二处理过程中,连接所述非目标顶点与所述目标顶点的边,更新后的第五目标集合作为下一次第一处理过程中的第五目标集合,更新后的第六目标集合作为下一次第一处理过程中的第六目标集合;
27.所述第六目标集合是根据每一次第一处理过程中,所述目标无向图中的所有与所述目标顶点集合中的至少一个目标顶点连接的边组成的集合确定的。
28.根据本发明提供的一种文本推送方法,所述获取所述相似子图,包括:
29.在所述第六目标集合中不存在任何元素的情况下,根据更新后的所述目标顶点集合和更新后的所述第五目标集合,获取所述相似子图;
30.在所述第三目标差集中不存在所述第二边的情况下,基于所述第一边和所述第一边对应的目标顶点,得到所述相似子图。
31.根据本发明提供的一种文本推送方法,所述相对距离的获取方式,包括:
32.获取任意两个所述目标对象与每个质心之间的距离,所述质心是对所述目标对象集合进行一次初始聚类后得到的;
33.基于任意两个所述目标对象与每个质心之间的距离,得到所述相对距离。
34.根据本发明提供的一种文本推送方法,所述获取任意两个所述目标对象与每个质心之间的距离,包括:
35.基于任意两个所述目标对象与每个质心之间的欧式距离或曼哈顿距离或余弦相
似度,确定所述距离。
36.本发明还提供一种文本推送系统,包括:第一获取模块、第二获取模块以及文本推送模块;
37.所述第一获取模块,用于获得目标对象集合的聚合结果,所述目标对象集合包括多个文本单元对象,所述文本单元对象为目标对象的向量表达,所述目标对象为将目标文本进行分割后得到的,所述聚合结果用于表征所述目标集合中的各目标对象的相似程度;
38.所述第二获取模块,用于获取所述聚合结果中每一个相似子图分别对应的高相似集合,所述相似子图对应的高相似集合包括所述相似子图对应的文本单元对象;
39.所述文本推送模块,用于基于所述高相似集合中的文本单元对象对所述目标文本进行推送。
40.本发明还提供一种电子设备,包括处理器和存储有计算机程序的存储器,所述处理器执行所述程序时实现如上述任一种所述文本推送方法。
41.本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述文本推送方法。
42.本发明还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述文本推送方法。
43.本发明提供的文本推送方法及系统,将目标对象集合的聚合结果中的每个相似子图所对应的文本单元对象作为一个高相似集合,能够实现在短时间内将目标文本推送给同一个用户,保证了文本推送的时效性和准确性。
附图说明
44.为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
45.图1是本发明提供的文本推送方法的流程示意图;
46.图2是本发明提供的文本推送系统的结构示意图;
47.图3是本发明提供的电子设备的实体结构示意图。
具体实施方式
48.为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
49.图1是本发明提供的文本推送方法的流程示意图,如图1所示,方法包括:
50.步骤100,获得目标对象集合的聚合结果,所述目标对象集合包括多个文本单元对象,所述文本单元对象为目标对象的向量表达,所述目标对象为将目标文本进行分割后得到的,所述聚合结果用于表征所述目标集合中的各目标对象的相似程度;
51.步骤110,获取所述聚合结果中每一个相似子图分别对应的高相似集合,所述相似
子图对应的高相似集合包括所述相似子图对应的文本单元对象;
52.步骤120,基于所述高相似集合中的文本单元对象对所述目标文本进行推送。
53.需要说明的是,上述方法的执行主体可以是计算机设备。
54.本发明实施例中,目标对象集合可以具体为目标对象组成的集合,目标对象集合中的每个元素对应一个文本单元对象的向量表达,目标对象集合中包含至少两个目标对象或至少两个文本对象单元的向量表达。该文本单元对象可以具体为对待推送的目标文本进行分割后得到的,更具体为按照一定的粒度对该目标文本进行分割后得到的,例如按照句子或者段落对目标文本进行分割后得到文本单元对象,并将所有文本单元对象目标对象表示为向量形式以得到目标对象,将各个目标对象组成的集合作为目标对象集合。其中,文本单元对象的向量表达通常有两种,一种是无监督方法:通过深度神经网络得到其一种语义表达的稠密向量,一种是通过有监督的方法获取文本的独立特征,建立一种稀疏向量表达。
55.本发明实施例中,该聚合结果可以具体为对上述目标对象集合执行至少一次聚合过程后得到的,该聚合结果可以具体为目标集合中的各目标对象的相似程度,可以具体包括每次聚合过程中得到的相似子图。
56.本发明实施例中,将聚合结果中的每个相似子图对应的文本单元对象作为一个高相似集合,并基于该高相似集合中的各个文本单元对象进行目标文本的推送,该目标文本的推送可以具体为将该目标文本推送给同一个译员,或对该目标文本统一进行处理,以保证译员对目标文本翻译的一致和统一。
57.本发明提供的文本推送方法,将目标对象集合的聚合结果中的每个相似子图所对应的文本单元对象作为一个高相似集合,能够实现在短时间内将目标文本推送给同一个用户,保证了文本推送的时效性和准确性。
58.进一步地,在一个实施例中,所述目标对象集合的聚合结果的获取方式,包括:
59.执行至少一次聚合过程,直到第一目标差集中不存在任何元素为止;
60.基于至少一次所述聚合过程中获取的所有相似子图,获取所述聚合结果;
61.其中,所述聚合过程包括:获取目标无向图对应的相似子图,基于所述第一目标差集和第二目标差集,更新无向图,并根据更新后的无向图更新所述目标无向图,所述更新后的无向图作为下一次聚合过程的所述无向图,更新后的目标无向图作为下一次聚合过程中的所述目标无向图,第一次聚合过程中目标无向图是基于第一次聚合过程中的无向图得到的,第一次聚合过程中的无向图是根据所述目标对象集合构建的;
62.所述第一目标差集为第一目标集合与第二目标集合的差集,所述第一目标集合是根据每一次聚合过程中获取的相似子图中的所有顶点组成的集合确定的,所述第二目标集合是根据每一次聚合过程中的所述目标无向图中的所有顶点组成的集合确定的;
63.所述第二目标差集为第三目标集合与第四目标集合的差集,所述第三目标集合是根据每一次聚合过程中获取的相似子图中的所有边组成的集合确定的,所述第四目标集合是根据每一次聚合过程中的所述目标无向图中的所有边组成的集合确定的。
64.本发明实施例中,该聚合过程可以具体为获取目标无向图对应的相似子图,根据所述第一目标差集和第二目标差集,对无向图进行更新,并根据更新后的无向图对所述目标无向图进行更新。更新后的无向图作为下一次聚合过程的所述无向图,更新后的目标无向图作为下一次聚合过程中的所述目标无向图。
65.本发明实施例中,目标无向图可以具体为对无向图进行预处理后得到的,对于第一次聚合过程中的无向图可以具体为根据目标对象集合中各个目标对象构建的,对于除第一次聚合过程外的无向图可以具体为将第一目标差集作为无向图的顶点,并将第二目标差集作为无向图的边得到的。
66.本发明实施例中,第一目标差集中不存在任何元素可以具体为第一目标差集为空集,该第一目标差集可以具体为每一次聚合过程中,第二目标集合减去第一目标集合得到的差集,该第一目标集合可以具体为每一次聚合过程中的相似子图中的所有顶点组成的集合,该相似子图可以具体为目标无向图中的属于同一类的各个目标对象构建而成的,该第二目标集合可以具体为每一次聚合过程中的目标无向图中的所有顶点组成的集合。
67.本发明实施例中,该第二目标差集可以具体为每一次聚合过程中,第四目标集合减去第三目标集合之后得到的差集,该第三目标集合可以具体为每一次聚合过程中的相似子图中的所有边组成的集合,该第四目标集合可以具体为每一次聚合过程中的目标无向图中的所有边组成的集合。
68.本发明实施例中,聚类是按照某个特定标准(如距离)把目标对象集合分割成不同的类,使得同一个类内的目标对象的相似性尽可能大,同时不在同一个类中的目标对象的差异性也尽可能地大。也即聚类后同一类的目标对象尽可能聚集到一起,不同类的目标对象尽量分离。具体划分的时候并不关心这一类的标签,目标就是把相似的目标对象集合到一起。
69.本发明实施例中,执行至少一次聚合过程,直到第一目标差集中不存在任何元素时,停止执行上述聚合过程。
70.本发明实施例中,基于更新后的无向图更新目标无向图可以具体为对更新后的无向图进行预处理,得到更新后的目标无向图。
71.本发明实施例中,在第一目标差集中不存在任何元素后,将经过上述聚合过程得到的所有相似子图,作为对目标对象集合中的各个目标对象的聚合结果。
72.本发明提供的文本推送方法,通过构建各个目标对象的无向图,并将该无向图拆分为一个个相似子图,能够实现将相似的目标对象集合到一起,提高了聚合结果的准确性,为后续基于该聚合结果保证文本推送的时效性和准确性奠定了基础。
73.进一步地,在一个实施例中,所述目标无向图的获取方式,可以具体包括:
74.根据各个所述目标对象,确定无向图的顶点;
75.根据任意两个所述目标对象之间的相对距离,确定无向图的边;
76.根据所述无向图的顶点和所述无向图的边,构建所述无向图;
77.删除所述无向图中大于预设阈值的边,并删除所述无向图中孤立的顶点,得到所述目标无向图。
78.本发明实施例中,将各个目标对象作为无向图的顶点,将该相对距离作为无向图的边,并从该无向图中删除所有相对距离大于预设阈值的边以及孤立的顶点,得到目标无向图。
79.本发明实施例中,该孤立的顶点可以具体为从该无向图中删除所有相对距离大于预设阈值的边后,落在无向图外的顶点。
80.进一步地,在一个实施例中,所述相对距离的获取方式,可以具体包括:
81.获取任意两个所述目标对象与每个质心之间的距离,所述质心是对所述目标对象集合进行一次初始聚类后得到的;
82.基于任意两个所述目标对象与每个质心之间的距离,得到所述相对距离。
83.本发明实施例中,该质心可以具体为目标对象集合进行一次初始聚类后得到的k个聚类中心,每个聚类中心对应一个质心。该初始聚类可以具体采用通用的聚类算法,比如k-means、dbscan等。
84.本发明实施例中,该相对距离可以具体为将每个目标对象到每个质心的距离,两两对应相减取绝对值,并将这得到的各个绝对值求和取平均值后得到的。
85.进一步地,在一个实施例中,所述获取任意两个所述目标对象与每个质心之间的距离,可以具体包括:
86.根据任意两个所述目标对象与每个质心之间的欧式距离或曼哈顿距离或余弦相似度,确定所述距离。
87.本发明实施例中,该距离可以具体为向量间的距离,可以具体采用任意两个所述目标对象与每个质心之间的欧式距离或曼哈顿距离或余弦相似度得到。
88.本发明提供的文本推送方法,基于目标对象集合,构建无向图,并对该无向图进行处理后得到目标无向图,为后续基于该目标无向图得到其对应的一个个相似子图,实现将相似的目标对象集合到一起,提高了聚类结果的准确性奠定了基础。
89.进一步地,在一个实施例中,所述获取目标无向图对应的相似子图,可以具体包括:
90.将所述目标无向图中的相对距离最小的第一边组成的集合作为第五目标集合;
91.将构成所述第一边的目标顶点组成的集合作为目标顶点集合;
92.执行至少一次第一处理过程,直到第六目标集合中不存在任何元素或第三目标差集中不存在相对距离最小的第二边为止,获取所述相似子图;
93.其中,所述第一处理过程包括:在所述第三目标差集中存在所述第二边的情况下,若满足预设条件,则执行至少一次第二处理过程,直到不满足所述预设条件为止,将所述第二边从所述第六目标集合中删除,以更新所述第六目标集合,直到所述第六目标集合中不存在任何元素为止;
94.所述第三目标差集为每一次第一处理过程中,所述第五目标集合与所述第六目标集合的差集;
95.所述预设条件,包括:每一次第一处理过程中,所述构成所述第二边的非目标顶点与所述目标顶点集合中的至少预设数量个所述目标顶点连接;
96.所述第二处理过程包括:将所述第二边中的非目标顶点作为所述目标顶点添加到所述目标顶点集合,以更新所述目标顶点集合,将第三边添加到最新的第五目标集合,以更新所述第五目标集合,并根据更新后的所述目标顶点集合,更新所述第六目标集合,所述第三边为每一次第二处理过程中,连接所述非目标顶点与所述目标顶点的边,更新后的第五目标集合作为下一次第一处理过程中的第五目标集合,更新后的第六目标集合作为下一次第一处理过程中的第六目标集合;
97.所述第六目标集合是根据每一次第一处理过程中,所述目标无向图中的所有与所述目标顶点集合中的至少一个目标顶点连接的边组成的集合确定的。
98.进一步地,在一个实施例中,所述获取所述相似子图,包括:
99.在所述第六目标集合中不存在任何元素的情况下,根据更新后的所述目标顶点集合和更新后的所述第五目标集合,获取所述相似子图;
100.在所述第三目标差集中不存在所述第二边的情况下,基于所述第一边和所述第一边对应的目标顶点,得到所述相似子图。
101.本发明实施例中,该第五目标集合可以具体为由第一边组成的集合,该第一边可以具体为构成目标无向图中的所有边中相对距离最小的边。
102.本发明实施例中,根据第一边组成的集合构建第五目标集合。
103.本发明实施例中,该目标顶点集合为连接第一边的目标顶点组成的集合。
104.在第一次聚合过程时,第一边仅有一条,连接第一边的目标顶点有两个。
105.本发明实施例中,重复执行如下第一处理过程,直到执行到第六目标集合中不存在任何元素或第三目标差集中不存在相对距离最小的第二边,停止执行该第一处理过程,并得到每一次第一处理过程中的相似子图。该第六目标集合中不存在任何元素可以具体指第六目标集合为空集,该第三目标差集可以具体为每一次第一处理过程中,第六目标集合减去第五目标集合后得到的差集。
106.本发明实施例中,该第一处理过程可以具体为在第三目标差集中存在第二边的情况下,重复执行如下第二处理过程,直到执行到不满足预设条件时,停止执行该第二处理过程。该预设条件可以具体为每一次第一处理过程中,构成第二边的非目标顶点与目标顶点集合中的至少预设数量个所述目标顶点连接,更具体为每一次第一处理过程中,构成第二边的非目标顶点与目标顶点集合中的至少一半以上的目标顶点连接。
107.本发明实施例中,第二处理过程可以具体为在满足预设条件的情况下,将第二边中的非目标顶点作为目标顶点添加到目标顶点集合,以更新目标顶点集合,将第三边添加到第五目标集合,以更新第五目标集合,并根据更新后的目标顶点集合,更新第六目标集合;在不满足预设条件的情况下,将第二边从第六目标集合中删除,以更新第六目标集合,直到第六目标集合中不存在任何元素后,停止该第二处理过程。该第三边可以具体为每一次第二处理过程中,连接非目标顶点与目标顶点的边。更新后的第五目标集合作为下一次第一处理过程中的第五目标集合,更新后的第六目标集合作为下一次第一处理过程中的第六目标集合。
108.本发明实施例中,该第六目标集合可以具体为每一次第一处理过程中,目标无向图中的所有与目标顶点集合中的至少一个目标顶点连接的边组成的集合。
109.本发明实施例中,停止第一处理过程的条件包括两种,第一种:第六目标集合不存在任何元素;第二种:第三目标差集中不存在第二边。
110.本发明实施例中,在第六目标集合不存在任何元素的情况下,将更新后的目标顶点集合作为相似子图的顶点,并将更新后的第五目标集合作为相似子图的边,构建相似子图。
111.本发明实施例中,在第三目标差集中不存在第二边的情况下,将第一边作为相似子图的边,并将连接该第一边对应的目标顶点作为相似子图的顶点,构建相似子图。
112.举例说明,步骤1,对于目标文本(例如翻译文档),将其按一定的粒度进行分割,得到目标文本对应的n个文本单元对象;
113.步骤2,对于n个文本单元对象,通过文本向量模型,将n个文本单元对象表示为一种向量表达得到n个目标对象;其中,文本单元对象的向量表达通常有两种,一种是无监督方法:通过深度神经网络得到其一种语义表达的稠密向量,一种是通过有监督的方法获取文本的独立特征,建立一种稀疏向量表达;
114.步骤3,对于n个文本单元对象,建立包含n个目标对象的集合s,集合的每个目标对象为这每个文本单元对象的向量表达;
115.步骤4,对这n个目标对象构成的目标对象集合s进行聚类,得到k个聚类中心,每个聚类中心对应一个质心。该初始聚类可以具体采用通用的聚类算法,比如k-means、dbscan等;
116.步骤5,n个目标对象之间进行两两距离计算:
117.步骤5.1,计算目标对象集合s中每个目标对象到这k个质心的距离。具体可以用欧氏距离、曼哈顿距离、余弦相似度等距离计算方法计算该距离;
118.步骤5.2,将每个目标对象到k个质心的距离,两两对应相减并取绝对值,将这k个绝对值求和取平均值,作为两个目标对象之间的相对距离;
119.步骤6,将所有目标对象构成的集合s作为无向图g的顶点集合记为v,任意两个目标对象之间的相对距离所构成的集合作为无向无向图g的边的集合记为e,从而得到无向图g=(v,e);
120.步骤7,在无向图g中,删除所有相对距离大于预设阈值的边,然后删除掉孤立的顶点,得到目标无向图g_sim=(v_sim,e_sim),v_sim为目标无向图g_sim的所有顶点组成的集合,e_sim为目标无向图g_sim的所有边组成的集合;
121.步骤8,构建聚类集合:
122.步骤8.1,在e_sim中取相对距离最小的第一边,将该第一边加入到集合e1,将该第一边对应的顶点加入到集合v1;
123.步骤8.2,从目标无向图g_sim中找到v1中顶点有连接的所有边的集合记为e_tp;
124.步骤8.3,计算集合e_tp与集合e1的差集,即(e_tp

e1),并在边的集合(e_tp

e1)中寻找相对距离最小的第二边;
125.步骤8.3.1,若存在该第二边:
126.步骤8.3.1.1,若该第二边对应的另外一个顶点(即非集合v1中的顶点)与集合v1中半数以上的顶点都有连接,则将该非集合v1中的顶点加入v1,同时将该非集合v1中的顶点与集合v1中所有顶点连接的第三边加入集合e1,转步骤8.2;
127.步骤8.3.1.2,否则,将该第二边从集合e_tp中删除;
128.步骤8.3.1.3,若集合e_tp中不存在任何元素,则集合v1构建完成,转步骤9,否则转步骤8.3;
129.步骤8.3.2,若该第二边不存在,则集合v1构建完成,转步骤9;
130.步骤9,相似子图g1=(v1,e1),为所得到的目标无向图的第一个最大相似子图,其顶点集合v1为同一类的目标对象的集合;
131.步骤10,若集合v_sim与集合v1的差集(v_sim

v1)中不存在任何元素,则算法结束,否则将(v_sim

v1,e_sim

e1)作为新的无向图g,转步骤7。
132.步骤11,得到的每个最大相似子图所对应的文本单元对象即为一个高相似集合,
将属于同一高相似集合的文本单元对象推送给同一个译员,或对这些文本统一进行处理,可以保证该集合类的文本翻译的一致和统一。
133.本发明提供的文本推送方法,通过将经过预处理后的无向图的目标无向图拆分为一个个相似子图,能够实现将同一类的目标对象集合到一起,避免了聚类结果偏离问题的出现,提高了聚类结果的准确性。
134.下面对本发明提供的文本推送系统进行描述,下文描述的文本推送系统与上文描述的文本推送方法可相互对应参照。
135.图2是本发明提供的文本推送系统的结构示意图,如图2所示,包括:
136.第一获取模块200、第二获取模块210以及文本推送模块220;
137.所述第一获取模块200,用于获得目标对象集合的聚合结果,所述目标对象集合包括多个文本单元对象,所述文本单元对象为目标对象的向量表达,所述目标对象为将目标文本进行分割后得到的,所述聚合结果用于表征所述目标集合中的各目标对象的相似程度;
138.所述第二获取模块210,用于获取所述聚合结果中每一个相似子图分别对应的高相似集合,所述相似子图对应的高相似集合包括所述相似子图对应的文本单元对象;
139.所述文本推送模块220,用于基于所述高相似集合中的文本单元对象对所述目标文本进行推送。
140.本发明提供的文本推送系统,将目标对象集合的聚合结果中的每个相似子图所对应的文本单元对象作为一个高相似集合,能够实现在短时间内将目标文本推送给同一个用户,保证了文本推送的时效性和准确性。
141.图3是本发明提供的一种电子设备的实体结构示意图,如图3所示,该电子设备可以包括:处理器(processor)310、通信接口(communication interface)311、存储器(memory)312和总线(bus)313,其中,处理器310,通信接口311,存储器312通过总线313完成相互间的通信。处理器310可以调用存储器312中的逻辑指令,以执行如下方法:
142.获得目标对象集合的聚合结果,所述目标对象集合包括多个文本单元对象,所述文本单元对象为目标对象的向量表达,所述目标对象为将目标文本进行分割后得到的,所述聚合结果用于表征所述目标集合中的各目标对象的相似程度;
143.获取所述聚合结果中每一个相似子图分别对应的高相似集合,所述相似子图对应的高相似集合包括所述相似子图对应的文本单元对象;
144.基于所述高相似集合中的文本单元对象对所述目标文本进行推送。
145.此外,上述的存储器中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机电源屏(可以是个人计算机,服务器,或者网络电源屏等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-only memory)、随机存取存储器(ram,random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
146.进一步地,本发明公开一种计算机程序产品,所述计算机程序产品包括存储在非
暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法实施例所提供的文本推送方法,例如包括:
147.获得目标对象集合的聚合结果,所述目标对象集合包括多个文本单元对象,所述文本单元对象为目标对象的向量表达,所述目标对象为将目标文本进行分割后得到的,所述聚合结果用于表征所述目标集合中的各目标对象的相似程度;
148.获取所述聚合结果中每一个相似子图分别对应的高相似集合,所述相似子图对应的高相似集合包括所述相似子图对应的文本单元对象;
149.基于所述高相似集合中的文本单元对象对所述目标文本进行推送。
150.另一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各实施例提供的文本推送方法,例如包括:
151.获得目标对象集合的聚合结果,所述目标对象集合包括多个文本单元对象,所述文本单元对象为目标对象的向量表达,所述目标对象为将目标文本进行分割后得到的,所述聚合结果用于表征所述目标集合中的各目标对象的相似程度;
152.获取所述聚合结果中每一个相似子图分别对应的高相似集合,所述相似子图对应的高相似集合包括所述相似子图对应的文本单元对象;
153.基于所述高相似集合中的文本单元对象对所述目标文本进行推送。
154.以上所描述的系统实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
155.通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如rom/ram、磁碟、光盘等,包括若干指令用以使得一台计算机电源屏(可以是个人计算机,服务器,或者网络电源屏等)执行各个实施例或者实施例的某些部分所述的方法。
156.最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1