本技术涉及计算机,尤其涉及一种信息聚合方法、装置、电子设备及存储介质。
背景技术:
1、实践中,一些信息的含义存在歧义性。例如,在视频领域,以视频标题《父母亲情》为例,标题既可以表示“父母的亲情”一种陈述句表达,也可以表示一种特殊字符,也即视频标题。假如有一句话为“这部剧父母亲情演的很不错”,那么,将难以区分这句话表达的是“父母的亲情演的很好”还是“《父母亲情》这部剧很好”。
2、由于语言文字等信息存在歧义性,导致信息语义存在偏差,进而导致对信息进行挑选、分析、归类等聚合处理,所得到的聚合结果的准确度较低。
技术实现思路
1、鉴于此,为解决上述部分或全部技术问题,本技术实施例提供一种信息聚合方法、装置、电子设备及存储介质。
2、第一方面,本技术实施例提供一种信息聚合方法,所述方法包括:
3、确定预设信息集合中的信息包含的专有名词,得到专有名词集合;
4、针对所述专有名词集合中的每个专有名词,基于该专有名词所属的类别,确定该专有名词对应的字符,得到该专有名词对应的第一字符,其中,专有名词所属的类别与专有名词对应的字符一一对应;
5、基于获取到的目标词中的专有名词所属的类别,确定该专有名词对应的字符,得到该专有名词对应的第二字符;
6、基于所确定的第一字符和第二字符,从所述预设信息集合中的信息表示的聚合对象中,确定所获取到的目标词的聚合结果。
7、在一个可能的实施方式中,所述基于所确定的第一字符和第二字符,从所述预设信息集合中的信息表示的聚合对象中,确定所获取到的目标词的聚合结果,包括:
8、针对所述预设信息集合中的每个信息,基于该信息包含的专有名词和该专有名词对应的第一字符,生成新信息;
9、基于所获取到的目标词中的专有名词和该专有名词对应的第二字符,生成新目标词;
10、基于所得到的新信息和所述新目标词,从所述预设信息集合中的信息表示的聚合对象中,确定所获取到的目标词的聚合结果。
11、在一个可能的实施方式中,所述基于该信息包含的专有名词和该专有名词对应的第一字符,生成新信息,包括:
12、将该信息包含的专有名词替换为该专有名词对应的第一字符,得到新信息;以及
13、所述基于所获取到的目标词中的专有名词和该专有名词对应的第二字符,生成新目标词,包括:
14、将所获取到的目标词中的专有名词替换为该专有名词对应的第二字符,得到新目标词。
15、在一个可能的实施方式中,所述基于所得到的新信息和所述新目标词,从所述预设信息集合中的信息表示的聚合对象中,确定所获取到的目标词的聚合结果,包括:
16、确定替换后的所述预设信息集合中的信息的特征,得到第一特征;
17、确定所述新目标词的特征,得到第二特征;
18、针对所得到的每个第一特征,确定该第一特征和所述第二特征之间的相似度,得到该第一特征对应的相似度;
19、基于所得到的相似度,从替换后的预设信息集合中的信息表示的聚合对象中,确定所获取到的目标词的聚合结果。
20、在一个可能的实施方式中,所述确定替换后的所述预设信息集合中的信息的特征,包括:
21、将替换后的预设信息集合中的信息输入至预先训练的目标模型,得到嵌入向量,以及替换后的所述预设信息集合中的信息的特征;以及
22、所述确定所述新目标词的特征,包括:
23、将所述新目标词输入至所述目标模型,得到所述新目标词的嵌入向量,以及将所得到的嵌入向量作为所述新目标词的特征;
24、其中,所述目标模型用于确定输入其中的信息的嵌入向量。
25、在一个可能的实施方式中,所述目标模型采用如下方式训练得到:
26、获取文本集合;
27、确定所述文本集合中的文本是否包含专有名词;
28、在所述文本集合中的文本包含专有名词的情况下,基于该专有名词所属的类别,确定该专有名词对应的字符,得到该专有名词对应的第三字符,采用该专有名词对应的第三字符替代该专有名词,得到新文本;
29、基于所得到的各个新文本,生成训练样本集;
30、采用自监督学习算法,基于所述训练样本集训练目标模型。
31、在一个可能的实施方式中,聚合对象表示视频,专有名词所属的类别包括视频标题、角色名、演员名、职业名。
32、第二方面,本技术实施例提供一种信息聚合装置,所述装置包括:
33、第一确定单元,用于确定预设信息集合中的信息包含的专有名词,得到专有名词集合;
34、第二确定单元,用于针对所述专有名词集合中的每个专有名词,基于该专有名词所属的类别,确定该专有名词对应的字符,得到该专有名词对应的第一字符,其中,专有名词所属的类别与专有名词对应的字符一一对应;
35、第三确定单元,用于基于获取到的目标词中的专有名词所属的类别,确定该专有名词对应的字符,得到该专有名词对应的第二字符;
36、第四确定单元,用于基于所确定的第一字符和第二字符,从所述预设信息集合中的信息表示的聚合对象中,确定所获取到的目标词的聚合结果。
37、在一个可能的实施方式中,所述基于所确定的第一字符和第二字符,从所述预设信息集合中的信息表示的聚合对象中,确定所获取到的目标词的聚合结果,包括:
38、针对所述预设信息集合中的每个信息,基于该信息包含的专有名词和该专有名词对应的第一字符,生成新信息;
39、基于所获取到的目标词中的专有名词和该专有名词对应的第二字符,生成新目标词;
40、基于所得到的新信息和所述新目标词,从所述预设信息集合中的信息表示的聚合对象中,确定所获取到的目标词的聚合结果。
41、在一个可能的实施方式中,所述基于该信息包含的专有名词和该专有名词对应的第一字符,生成新信息,包括:
42、将该信息包含的专有名词替换为该专有名词对应的第一字符,得到新信息;以及
43、所述基于所获取到的目标词中的专有名词和该专有名词对应的第二字符,生成新目标词,包括:
44、将所获取到的目标词中的专有名词替换为该专有名词对应的第二字符,得到新目标词。
45、在一个可能的实施方式中,所述基于所得到的新信息和所述新目标词,从所述预设信息集合中的信息表示的聚合对象中,确定所获取到的目标词的聚合结果,包括:
46、确定替换后的所述预设信息集合中的信息的特征,得到第一特征;
47、确定所述新目标词的特征,得到第二特征;
48、针对所得到的每个第一特征,确定该第一特征和所述第二特征之间的相似度,得到该第一特征对应的相似度;
49、基于所得到的相似度,从替换后的预设信息集合中的信息表示的聚合对象中,确定所获取到的目标词的聚合结果。
50、在一个可能的实施方式中,所述确定替换后的所述预设信息集合中的信息的特征,包括:
51、将替换后的预设信息集合中的信息输入至预先训练的目标模型,得到嵌入向量,以及替换后的所述预设信息集合中的信息的特征;以及
52、所述确定所述新目标词的特征,包括:
53、将所述新目标词输入至所述目标模型,得到所述新目标词的嵌入向量,以及将所得到的嵌入向量作为所述新目标词的特征;
54、其中,所述目标模型用于确定输入其中的信息的嵌入向量。
55、在一个可能的实施方式中,所述目标模型采用如下方式训练得到:
56、获取文本集合;
57、确定所述文本集合中的文本是否包含专有名词;
58、在所述文本集合中的文本包含专有名词的情况下,基于该专有名词所属的类别,确定该专有名词对应的字符,得到该专有名词对应的第三字符,采用该专有名词对应的第三字符替代该专有名词,得到新文本;
59、基于所得到的各个新文本,生成训练样本集;
60、采用自监督学习算法,基于所述训练样本集训练目标模型。
61、在一个可能的实施方式中,聚合对象表示视频,专有名词所属的类别包括视频标题、角色名、演员名、职业名。
62、第三方面,本技术实施例提供一种电子设备,包括:
63、存储器,用于存储计算机程序;
64、处理器,用于执行所述存储器中存储的计算机程序,且所述计算机程序被执行时,实现本技术上述第一方面的信息聚合方法中任一实施例的方法。
65、第四方面,本技术实施例提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时,实现如上述第一方面的信息聚合方法中任一实施例的方法。
66、第五方面,本技术实施例提供一种计算机程序,所述计算机程序包括计算机可读代码,当所述计算机可读代码在设备上运行时,使得该设备中的处理器实现如上述第一方面的信息聚合方法中任一实施例的方法。
67、本技术实施例提供的信息聚合方法,可以确定预设信息集合中的信息包含的专有名词,得到专有名词集合,之后,针对所述专有名词集合中的每个专有名词,基于该专有名词所属的类别,确定该专有名词对应的字符,得到该专有名词对应的第一字符,其中,专有名词所属的类别与专有名词对应的字符一一对应,然后,基于获取到的目标词中的专有名词所属的类别,确定该专有名词对应的字符,得到该专有名词对应的第二字符,随后,基于所确定的第一字符和第二字符,从所述预设信息集合中的信息表示的聚合对象中,确定所获取到的目标词的聚合结果。由此,可以基于预设信息集合中的信息包含的专有名词所属的类别对应的字符,以及获取到的目标词中的专有名词所属的类别对应的字符,来确定目标词的聚合结果,可以减少甚至消除获取到的目标词中存在的歧义,这样可以提高确定聚合结果的准确度。