一种标识文本确定方法及相关设备与流程

文档序号:28276746发布日期:2021-12-31 20:54阅读:82来源:国知局
一种标识文本确定方法及相关设备与流程

1.本公开涉及计算机技术领域,尤其涉及一种标识文本确定方法及相关设备。


背景技术:

2.随着互联网技术的快速发展,为了便于用户检索到需求的目标对象和向用户推荐感兴趣的目标对象,常常需要为目标对象设置相关的标识文本。例如:在目标对象为视频时,为该视频设置“动作”、“科幻”以及“冒险”等标识文本。在目标对象为书籍时,为该书籍设置“历史”、“出版时间2017年”以及“字数约29080”等标识文本。在目标对象为人物时,为该人物设置“汉族”、“天秤座”、“奥斯卡最佳男主角”以及“演员”等标识文本。
3.为了使得目标对象可以被精准地检索和推荐,如何为目标对象设置高质量以及匹配度高的标识文本,成为本领域技术人员重点关注的问题之一。


技术实现要素:

4.鉴于上述问题,本公开提供一种克服上述问题或者至少部分地解决上述问题的一种标识文本确定方法及相关设备,技术方案如下:
5.一种标识文本确定方法,包括:
6.获得目标对象对应的待确定标识文本,所述待确定标识文本包括至少一个词汇;
7.确定所述待确定标识文本是否同时满足第一条件和第二条件,如果同时满足,则确定所述待确定标识文本为所述目标对象的标识文本,如果不同时满足,则确定所述待确定标识文本不为所述目标对象的标识文本;
8.所述第一条件为:所述待确定标识文本中的各所述词汇均位于所述目标对象的描述文本中;
9.所述第二条件为:所述待确定标识文本中的各所述词汇在所述描述文本中的至少一个位置组满足目标位置要求,其中,所述位置组由所述待确定标识文本中每一个所述词汇在所述描述文本中的一个位置组成。
10.可选的,所述目标位置要求为所述位置组中各所述词汇的位置的先后关系与在所述待确定标识文本中的排列先后关系一致,和/或,所述位置组中各所述词汇的位置之间间隔的其他字符数量不超过预设数量。
11.可选的,所述位置组中各所述词汇的位置之间间隔的其他字符数量不超过预设数量,包括:
12.在预设数量为0的情况下,所述位置组中各所述词汇的位置之间间隔的其他字符数量为0,或,在所述预设数量为大于0的整数的情况下,所述位置组中各所述词汇的位置之间间隔的其他字符数量为大于0的整数。
13.可选的,确定所述待确定标识文本是否满足所述第一条件的过程包括:
14.依次对所述待确定标识文本中各所述词汇中的任一所述词汇:在所述描述文本中查找该词汇,若查找到,则获得该词汇在所述描述文本中各个位置,若未查找到,则确定所
述待确定标识文本不满足所述第一条件;
15.当获得所述待确定标识文本中各所述词汇在所述描述文本中各个位置时,确定所述待确定标识文本满足所述第一条件。
16.可选的,确定所述待确定标识文本是否满足所述第二条件的过程包括:
17.依次对所述待确定标识文本中各所述词汇中的任一所述词汇:将该词汇在所述描述文本中的各个位置组合为一个与该词汇对应的位置序列;
18.利用各所述词汇对应的所述位置序列,确定所述待确定标识文本中的各所述词汇在所述描述文本中的至少一个位置组满足所述目标位置要求。
19.可选的,若所述目标位置要求为所述位置组中各所述词汇的位置的先后关系与在所述待确定标识文本中的排列先后关系一致且所述位置组中各所述词汇的位置之间间隔的其他字符数量为0,所述第一标识文本包括n+1个词汇,则所述利用各所述词汇对应的所述位置序列,确定所述待确定标识文本中的各所述词汇在所述描述文本中的至少一个位置组满足所述目标位置要求,包括:
20.将所述待确定标识文本的第一个词汇确定为当前词汇;
21.将所述当前词汇对应的所述位置序列中的一个未进行过判断处理的位置确定为当前位置;
22.所述判断处理包括:确定所述当前位置之后的n个位置是否分别依次存储在所述当前词汇之后的n个词汇对应的所述位置序列中,所述n个词汇为所述待确定标识文本中位于所述当前词汇之后的所有词汇;
23.如果是,则确定所述待确定标识文本中的各所述词汇在所述描述文本中的至少一个位置组满足所述目标位置要求。
24.可选的,若所述目标位置要求为所述位置组中各所述词汇的位置的先后关系与在所述待确定标识文本中的排列先后关系一致且所述位置组中各所述词汇的位置之间间隔的其他字符数量为0,则所述确定所述待确定标识文本是否同时满足第一条件和第二条件的过程包括:
25.在所述描述文本中查找所述待确定标识文本的第一个词汇,如果查找到,则获得所述第一个词汇在所述描述文本中各个第一位置并将该各个第一位置组合为一个与所述第一个词汇对应的第一位置序列;
26.将所述待确定标识文本的第二个词汇确定为当前词汇,其中所述第二个词汇在所述待确定标识文本中与所述第一个词汇连续排列且在所述第一个词汇之后;
27.在所述描述文本中查找所述当前词汇,如果查找到,则获得所述当前词汇在所述描述文本中各个第二位置并将该各个第二位置组合为一个与所述当前词汇对应的第二位置序列;根据所述第一位置序列和所述第二位置序列,确定所述第二位置序列中是否存在至少一个有效位置,其中,所述有效位置为在所述描述文本中与所述第一位置序列中任一第一位置连续排列且在该第一位置之后的第二位置;
28.如果在所述第二位置序列中存在至少一个所述有效位置,则将该至少一个所述有效位置确定为有效位置序列;
29.将所述待确定标识文本中与所述第二个词汇连续排列且在所述第二个词汇之后的词汇作为当前词汇、将所述有效位置序列作为第一位置序列以及将所述有效位置序列中
的第二位置作为第一位置,返回执行所述在所述描述文本中查找所述当前词汇的步骤,直至在确定所述待确定标识文本的最后一个词汇的位置序列中存在至少一个有效位置的情况下,确定所述第一标识文本同时满足第一条件和第二条件。
30.一种标识文本确定装置,包括:待确定标识文本获得单元和标识文本确定单元,
31.所述待确定标识文本获得单元,用于获得目标对象对应的待确定标识文本,所述待确定标识文本包括至少一个词汇;
32.所述标识文本确定单元,用于确定所述待确定标识文本是否同时满足第一条件和第二条件,如果同时满足,则确定所述待确定标识文本为所述目标对象的标识文本,如果不同时满足,则确定所述待确定标识文本不为所述目标对象的标识文本;
33.所述第一条件为:所述待确定标识文本中的各所述词汇均位于所述目标对象的描述文本中;
34.所述第二条件为:所述待确定标识文本中的各所述词汇在所述描述文本中的至少一个位置组满足目标位置要求,其中,所述位置组由所述待确定标识文本中每一个所述词汇在所述描述文本中的一个位置组成。
35.一种计算机可读存储介质,其上存储有程序,所述程序被处理器执行时实现如上述任一项所述的标识文本确定方法。
36.一种电子设备,所述电子设备包括至少一个处理器、以及与处理器连接的至少一个存储器、总线;其中,所述处理器、所述存储器通过所述总线完成相互间的通信;所述处理器用于调用所述存储器中的程序指令,以执行如上述任一项所述的标识文本确定方法。
37.借由上述技术方案,本公开提供的一种标识文本确定方法及相关设备,可以获得目标对象对应的待确定标识文本,待确定标识文本包括至少一个词汇;确定待确定标识文本是否同时满足第一条件和第二条件,如果同时满足,则确定待确定标识文本为目标对象的标识文本,如果不同时满足,则确定待确定标识文本不为目标对象的标识文本;第一条件为:待确定标识文本中的各词汇均位于目标对象的描述文本中;第二条件为:待确定标识文本中的各词汇在描述文本中的至少一个位置组满足目标位置要求,其中,位置组由待确定标识文本中每一个词汇在描述文本中的一个位置组成。本公开通过待确定标识文本中的各词汇在描述文本中的位置,在满足第一条件和第二条件的情况下确定该待确定标识文本为目标对象的标识文本,准确地判断出与目标对象的匹配度高的标识文本。
38.上述说明仅是本公开技术方案的概述,为了能够更清楚了解本公开的技术手段,而可依照说明书的内容予以实施,并且为了让本公开的上述和其它目的、特征和优点能够更明显易懂,以下特举本公开的具体实施方式。
附图说明
39.通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本公开的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
40.图1示出了本公开提供的标识文本确定方法的一种实施方式的示意图;
41.图2示出了本公开提供的确定待确定标识文本是否满足第一条件的过程的示意图;
42.图3示出了本公开提供的确定待确定标识文本是否满足第二条件的过程的示意图;
43.图4示出了本公开提供的确定待确定标识文本是否满足第二条件的过程中步骤s21的具体实施方式的示意图;
44.图5示出了本公开提供的标识文本确定方法的步骤s200的一种具体实施方式的示意图;
45.图6示出了本公开提供的标识文本确定装置的结构示意图;
46.图7示出了本公开提供的电子设备的结构示意图。
具体实施方式
47.下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
48.如图1所示,本公开提供的标识文本确定方法的一种实施方式,该标识文本确定方法可以包括:
49.s100、获得目标对象对应的待确定标识文本,待确定标识文本包括至少一个词汇。
50.其中,目标对象可以为被作为目标的事物。例如:目标对象可以是人物、物品、图像、音频和视频。待确定标识文本可以是与目标对象有关的文本。
51.可选的,本公开实施例可以通过网络爬虫技术爬取与目标对象有关的待确定标识文本组,其中该待确定标识文本组包括至少一个待确定标识文本。具体的,本公开实施例可以对待确定标识文本组中的各待确定标识文本进行分词,并获得各待确定标识文本的词性。其中,待确定标识文本中包括的各词汇为不能进一步分词的最小单位。本公开实施例可以确定待确定标识文本组中各待确定标识文本的出现频率。例如:将待确定标识文本组中出现次数不小于12次的待确定标识文本确定为高频文本,将待确定标识文本组中出现次数小于12次且大于2的待确定标识文本确定为中频文本,将待确定标识文本组中出现次数不大于2的待确定标识文本确定为低频文本。
52.进一步地,本公开实施例可以至少根据待确定标识文本的词性和在待确定标识文本组中的出现频率,对待确定标识文本组中的部分待确定标识文本进行过滤。具体的,本公开实施例可以过滤掉待确定标识文本组中出现次数等于1的低频文本。本公开实施例可以过滤掉标识文本组中词性为“人名”和“地名”的中频文本。本公开实施例可以过滤掉中频文本和低频文本中标签长度大于5个字符的待确定标识文本。可以理解的是,本公开实施例可以在过滤后的待确定标识文本组中获得目标对象对应的待确定标识文本。本公开实施例通过对待确定标识文本组进行过滤,可以提高从过滤后的待确定标识文本组中确定与目标对象对应的标识文本的效率和准确性。
53.s200、确定待确定标识文本是否同时满足第一条件和第二条件,如果同时满足,则执行步骤s210,如果不同时满足,则执行步骤s220。
54.s210、确定待确定标识文本为目标对象的标识文本。
55.s220、确定待确定标识文本不为目标对象的标识文本。
56.第一条件为:待确定标识文本中的各词汇均位于目标对象的描述文本中。
57.目标对象的描述文本可以是对目标对象进行概括描述的文本。可选的,目标对象的描述文本可以是目标对象对应的百科描述文本。例如:当目标对应为电影时,该目标对象的描述文本可以是该电影的剧情介绍。
58.可选的,本公开实施例可以预先对目标对象构建对应的知识图谱,其中,该知识图谱中目标对象对应的节点与该目标对象的描述文本对应的节点通过边连接。可以理解的是,本公开实施例可以根据该目标对象对应的知识图谱,获得该目标对应的描述文本。
59.可以理解的是,本公开实施例可以对目标对象对应的描述文本进行分词。可选的,本公开实施例对目标对象对应的描述文本进行分词的分词方法,可以与对待确定标识文本组中的各待确定标识文本进行分词的分词方法相同。本公开实施例通过相同的分词方法对描述文本和待确定标识文本进行分词,可以更加准确地在描述文本上确定待确定标识文本中的词汇的位置,有利于后续确定目标对象的标识文本。
60.可选的,如图2所示,本公开提供的确定待确定标识文本是否满足第一条件的过程,可以包括:
61.s10、依次对待确定标识文本中各词汇中的任一词汇:在描述文本中查找该词汇,若查找到,则执行步骤s11,若未查找到,则执行步骤s12。
62.s11、获得该词汇在描述文本中各个位置。
63.s12、确定待确定标识文本不满足第一条件。
64.s13、当获得待确定标识文本中各词汇在描述文本中各个位置时,确定待确定标识文本满足第一条件。
65.本公开实施例通过查找待确定标识文本中的各个词汇在描述文本中的各个位置,以能否获得待确定标识文本中的各个词汇在描述文本中的位置为判定依据,准确判定待确定标识文本是否满足第一条件。
66.第二条件为:待确定标识文本中的各词汇在描述文本中的至少一个位置组满足目标位置要求,其中,位置组由待确定标识文本中每一个词汇在描述文本中的一个位置组成。
67.为了便于理解位置组,此处通过举例进行说明:假设待确定标识文本为“根据小说改编”,则待确定标识文本中可以包括“根据”、“小说”和“改编”三个词汇。假设对目标对象的描述文本分词后的结果为“/abc/影片/根据/同名/小说/改编/,/改编/后/的/abc/影片/在/2010/年/获得/了/efg奖/。/”,其中,斜杠表示进行分词的位置。以连续数字从小至大分别表示对描述文本中各词汇的位置,则词汇“abc”的位置可以表示为0,词汇“影片”的位置可以表示为1,词汇“根据”的位置可以表示为2,以此类推。由此可知,待确定标识文本中的“根据”在描述文本中的位置为2,待确定标识文本中的“小说”在描述文本中的位置为4,待确定标识文本中的“改编”在描述文本中的位置为5和7,则待确定标识文本在描述文本中的位置组可以包括“2
‑4‑
5”和“2
‑4‑
7”在内的16种排列组合。
68.可选的,目标位置要求可以为位置组中各词汇的位置的先后关系与在待确定标识文本中的排列先后关系一致,和/或,位置组中各词汇的位置之间间隔的其他字符数量不超过预设数量。
69.可选的,在预设数量为0的情况下,位置组中各词汇的位置之间间隔的其他字符数量为0,或,在预设数量为大于0的整数的情况下,位置组中各词汇的位置之间间隔的其他字
符数量为大于0的整数。
70.可以理解的是,在位置组中各词汇的位置之间间隔的其他字符数量为0的情况下,该位置组中各词汇的位置连续排列。
71.本公开实施例通过对目标位置要求进行具体设置,使得依据目标位置要求确定的目标对象的标识文本更加准确地满足实际需要。
72.可选的,如图3所示,本公开实施例提供的确定待确定标识文本是否满足第二条件的过程,可以包括:
73.s20、依次对待确定标识文本中各词汇中的任一词汇:将该词汇在描述文本中的各个位置组合为一个与该词汇对应的位置序列。
74.s21、利用各词汇对应的位置序列,确定待确定标识文本中的各词汇在描述文本中的至少一个位置组满足目标位置要求。
75.为了便于理解,此处通过举例进行示意性说明:若待确定标识文本为“超级英雄”,待确定标识文本中包括词汇“超级”和词汇“英雄”。假设“超级”在描述文本中的位置为1和7,则词汇“超级”对应的位置序列可以为“1;7”。假设“英雄”在描述文本中的位置为2和9,则词汇“英雄”对应的位置序列可以为“2;9”。由词汇“超级”对应的位置序列中的“1”与词汇“英雄”对应的位置序列中的“2”可知,待确定标识文本存在一个位置组中各词汇的位置之间间隔的其他字符数量为0,且该位置组中“超级”与“英雄”两个词汇在待确定标识文本和描述文本中的排列先后关系一致。由词汇“超级”对应的位置序列中的“7”与词汇“英雄”对应的位置序列中的“9”可知,待确定标识文本存在一个位置组中“超级”与“英雄”两个词汇在待确定标识文本和描述文本中的排列先后关系一致,且该位置组中“超级”与“英雄”两个词汇之间间隔的其他字符数量为1。
76.本公开实施例通过分别将待确定标识文本中的各词汇在描述文本中的各个位置组合为各个位置序列,再以各词汇分别对应的位置序列之间的各个位置的位置关系排列组合得到至少一个位置组,使得以位置组为单位对各位置关系进行表达,有助于快速确定各位置组是否满足目标位置要求,以及提升确定出标识文本的准确性。
77.可选的,若目标位置要求为位置组中各词汇的位置的先后关系与在待确定标识文本中的排列先后关系一致且位置组中各词汇的位置之间间隔的其他字符数量为0,待确定标识文本包括n+1个词汇,基于图3所示的过程,如图4所示,本公开提供的确定待确定标识文本是否满足第二条件的过程中步骤s21的具体实施方式,可以包括:
78.s21a、将待确定标识文本的第一个词汇确定为当前词汇。
79.可以理解的是,待确定标识文本的第一个词汇可以为位于文本头部的词汇。例如:假设待确定标识文本为“/根据/小说/改编/”,则词汇“根据”为该待确定标识文本的第一个词汇。假设待确定标识文本为“/超级/英雄/”,则词汇“超级”为该待确定标识文本的第一个词汇。
80.s21b、将当前词汇对应的位置序列中的一个未进行过判断处理的位置确定为当前位置,其中,判断处理包括:确定当前位置之后的n个位置是否分别依次存储在当前词汇之后的n个词汇对应的位置序列中,n个词汇为待确定标识文本中位于当前词汇之后的所有词汇;如果是,则执行步骤s21c。
81.s21c、确定待确定标识文本中的各词汇在描述文本中的至少一个位置组满足目标
位置要求。
82.为了便于理解,此处通过举例进行说明:若目标位置要求为位置组中各词汇的位置的先后关系与在待确定标识文本中的排列先后关系一致且位置组中各词汇的位置之间间隔的其他字符数量为0,假设待确定标识文本为“/根据/小说/改编/”,若描述文本为“/根据/小说/改编/的/abc/影片/获得/了/efg奖/”,将词汇“根据”作为当前词汇,将该当前词汇对应的位置序列中未进行判断处理的位置“0”确定为当前位置,则确定位置“1”和“2”是否分别依次存储在词汇“小说”对应的位置序列和词汇“改编”对应的位置序列中,由于词汇“小说”对应的位置序列包括位置“1”以及词汇“改编”对应的位置序列包括位置“2”,可知待确定标识文本中的各词汇在描述文本中存在一个位置组满足该目标位置要求。
83.可以理解的是,如果确定当前位置之后的n个位置未分别依次存储在当前词汇之后的n个词汇对应的位置序列中,则确定待确定标识文本中的各词汇在描述文本中不存在满足目标位置要求的位置组。
84.为了便于理解,此处通过举例进行说明:若目标位置要求为位置组中各词汇的位置的先后关系与在待确定标识文本中的排列先后关系一致且位置组中各词汇的位置之间间隔的其他字符数量为0,假设待确定标识文本为“/根据/小说/改编/”,若描述文本为“/abc/影片/根据/同名/小说/改编/,/改编/后/的/abc/影片/在/2010/年/获得/了/efg奖/。/”,将词汇“根据”作为当前词汇,将该当前词汇对应的位置序列中未进行判断处理的位置“2”确定为当前位置,则确定位置“3”和“4”是否分别依次存储在词汇“小说”对应的位置序列和词汇“改编”对应的位置序列中,由于词汇“小说”对应的位置序列包括“4”但不包括“3”以及词汇“改编”对应的位置序列为“5;7”但不包括“4”,可知待确定标识文本中的各词汇在描述文本中不存在满足该目标位置要求的位置组。
85.本公开实施例通过分别将待确定标识文本的第一个词汇对应的位置序列中的各位置进行判断处理,确定在描述文本中的该位置之后连续的位置是否分别依次在该第一个词汇之后的所有词汇对应的位置序列中存在,能够快速确定待确定标识文本中的各词汇在描述文本中满足该目标位置要求的位置组,提升确定目标对象的标识文本的处理效率。
86.可选的,若目标位置要求为位置组中各词汇的位置的先后关系与在待确定标识文本中的排列先后关系一致且位置组中各词汇的位置之间间隔的其他字符数量为0,基于图1所示的标识文本确定方法,如图5所示,本公开提供的标识文本确定方法的步骤s200的一种具体实施方式,可以包括:
87.s201、在描述文本中查找待确定标识文本的第一个词汇,如果查找到,则执行步骤s202。
88.可以理解的是,如果未查找到该第一个词汇,则确定待确定标识文本不同时满足第一条件和第二条件,结束对该待确定标识文本是否同时满足第一条件和第二条件的过程。
89.s202、获得第一个词汇在描述文本中各个第一位置并将该各个第一位置组合为一个与第一个词汇对应的第一位置序列。
90.s203、将待确定标识文本的第二个词汇确定为当前词汇,其中第二个词汇在待确定标识文本中与第一个词汇连续排列且在第一个词汇之后。
91.s204、在描述文本中查找当前词汇,如果查找到,则执行步骤s205。
92.可以理解的是,如果未查找到当前词汇,则确定待确定标识文本不同时满足第一条件和第二条件,结束对该待确定标识文本是否同时满足第一条件和第二条件的过程。
93.s205、获得当前词汇在描述文本中各个第二位置并将该各个第二位置组合为一个与当前词汇对应的第二位置序列。
94.s206、根据第一位置序列和第二位置序列,确定第二位置序列中是否存在至少一个有效位置,其中,有效位置为在描述文本中与第一位置序列中任一第一位置连续排列且在该第一位置之后的第二位置。
95.s207、如果在第二位置序列中存在至少一个有效位置,则将该至少一个有效位置确定为有效位置序列。
96.s208、将待确定标识文本中与第二个词汇连续排列且在第二个词汇之后的词汇作为当前词汇、将有效位置序列作为第一位置序列以及将有效位置序列中的第二位置作为第一位置,返回执行步骤s204。
97.s209、在确定待确定标识文本的最后一个词汇的位置序列中存在至少一个有效位置的情况下,确定待确定标识文本同时满足第一条件和第二条件。
98.为了便于理解,此处通过举例进行说明:若目标位置要求为位置组中各词汇的位置的先后关系与在待确定标识文本中的排列先后关系一致且位置组中各词汇的位置之间间隔的其他字符数量为0,假设待确定标识文本为“/传统/武侠/小说/”,在描述文本中查找到第一个词汇“传统”的情况下,获得词汇“传统”在描述文本中各位置组合的位置序列“1;8;15;21”。接着确定在待确定标识文本中与词汇“传统”连续排列且在词汇“传统”之后的词汇“武侠”为当前词汇,在描述文本中查找词汇“武侠”。在描述文本中查找到词汇“武侠”的情况下,获得词汇“武侠”在描述文本中各位置组合的位置序列“2;16;38”,由于“武侠”对应的位置序列中的“2”与“传统”对应的位置序列中的“1”连续排列且在“1”之后,因此,“2”为有效位置,同理可知“武侠”对应的位置序列中的“16”也为有效位置,则有效位置序列为“2;16”。再在描述文本中查找词汇“小说”。在描述文本中查找到词汇“小说”的情况下,获得词汇“小说”在描述文本中的各位置组合的位置序列为“3;25;38;64”,由于“小说”对应的位置序列中的“3”与有效位置序列中的“2”连续排列且在“2”之后,则确定词汇“小说”对应的位置序列中的“3”为有效位置,由于词汇“小说”为待确定标识文本的最后一个词汇且存在有效位置“3”,则确定待确定标识文本在该目标位置要求的情况下同时满足第一条件和第二条件。
99.本公开实施例通过位置组中各词汇的位置的先后关系与在待确定标识文本中的排列先后关系一致且位置组中各词汇的位置之间间隔的其他字符数量为0,确定待确定标识文本是否为目标对象的标识文本,以待确定标识文本的各词汇在描述文本中的位置是否连续排列且排列先后关系一致为依据,可以准确地判断出待确定标识文本是否与目标对象具有较高的匹配度。
100.本公开提供的一种标识文本确定方法,可以获得目标对象对应的待确定标识文本,待确定标识文本包括至少一个词汇;确定待确定标识文本是否同时满足第一条件和第二条件,如果同时满足,则确定待确定标识文本为目标对象的标识文本,如果不同时满足,则确定待确定标识文本不为目标对象的标识文本;第一条件为:待确定标识文本中的各词汇均位于目标对象的描述文本中;第二条件为:待确定标识文本中的各词汇在描述文本中
的至少一个位置组满足目标位置要求,其中,位置组由待确定标识文本中每一个词汇在描述文本中的一个位置组成。本公开通过待确定标识文本中的各词汇在描述文本中的位置,在满足第一条件和第二条件的情况下确定该待确定标识文本为目标对象的标识文本,准确地判断出与目标对象的匹配度高的标识文本。
101.本公开实施例可以在目标对象对应的一个待确定标识文本中的至少一个词汇不位于目标对象的描述文本中的情况下,获得目标对象对应的另一个待确定标识文本,判断该另一个待确定标识文本是否同时满足第一条件和第二条件。
102.可以理解的是,本公开实施例可以在待确定标识文本同时满足第一条件和第二条件的情况下,在过滤后的标识文本组中任意选择一个未被选择过的待确定标识文本,确定该待确定标识文本是否同时满足第一条件和第二条件,直至过滤后的待确定标识文本组中不存在未被选择过的待确定标识文本,从而在过滤后的待确定标识文本组中确定目标对象的标识文本。
103.本公开实施例通过对多个待确定标识文本确定是否为目标对象的标识文本,可以筛选出目标对象的多个标识文本,为后续对目标对象的相关处理或操作提供便利。
104.与上述方法实施例相对应,本公开实施例还提供一种有效标签确定装置,其结构如图6所示,可以包括:确定标识文本获得单元100和标识文本确定单元200。
105.所述待确定标识文本获得单元100,用于获得目标对象对应的待确定标识文本,所述待确定标识文本包括至少一个词汇。
106.其中,目标对象可以为被作为目标的事物。例如:目标对象可以是人物、物品、图像、音频和视频。待确定标识文本可以是与目标对象有关的文本。
107.所述标识文本确定单元200,用于确定所述待确定标识文本是否同时满足第一条件和第二条件,如果同时满足,则确定所述待确定标识文本为所述目标对象的标识文本,如果不同时满足,则确定所述待确定标识文本不为所述目标对象的标识文本。
108.所述第一条件为:所述待确定标识文本中的各所述词汇均位于所述目标对象的描述文本中。
109.目标对象的描述文本可以是对目标对象进行概括描述的文本。可选的,目标对象的描述文本可以是目标对象对应的百科描述文本。
110.可选的,标识文本确定单元200可以包括:第一词汇查找子单元、词汇位置获得子单元、第一确定子单元以及第二确定子单元。
111.第一词汇查找子单元,用于依次对所述待确定标识文本中各所述词汇中的任一所述词汇:在所述描述文本中查找该词汇,若查找到,则触发词汇位置获得子单元,若未查找到,则触发第一确定子单元。
112.词汇位置获得子单元,用于获得该词汇在所述描述文本中各个位置。
113.第一确定子单元,用于确定所述待确定标识文本不满足所述第一条件。
114.第二确定子单元,用于当获得所述待确定标识文本中各所述词汇在所述描述文本中各个位置时,确定所述待确定标识文本满足所述第一条件。
115.本公开实施例通过查找待确定标识文本中的各个词汇在描述文本中的各个位置,以能否获得待确定标识文本中的各个词汇在描述文本中的位置为判定依据,准确判定待确定标识文本是否满足第一条件。
116.所述第二条件为:所述待确定标识文本中的各所述词汇在所述描述文本中的至少一个位置组满足目标位置要求,其中,所述位置组由所述待确定标识文本中每一个所述词汇在所述描述文本中的一个位置组成。
117.可选的,所述目标位置要求为所述位置组中各所述词汇的位置的先后关系与在所述待确定标识文本中的排列先后关系一致,和/或,所述位置组中各所述词汇的位置之间间隔的其他字符数量不超过预设数量。
118.可选的,在预设数量为0的情况下,所述位置组中各所述词汇的位置之间间隔的其他字符数量为0,或,在所述预设数量为大于0的整数的情况下,所述位置组中各所述词汇的位置之间间隔的其他字符数量为大于0的整数。
119.可以理解的是,在位置组中各词汇的位置之间间隔的其他字符数量为0的情况下,该位置组中各词汇的位置连续排列。
120.本公开实施例通过对目标位置要求进行具体设置,使得依据目标位置要求确定的目标对象的标识文本更加准确地满足实际需要。
121.可选的,标识文本确定单元200可以包括:位置序列组合子单元以及目标位置要求满足确定子单元。
122.位置序列组合子单元,用于依次对所述待确定标识文本中各所述词汇中的任一所述词汇:将该词汇在所述描述文本中的各个位置组合为一个与该词汇对应的位置序列。
123.目标位置要求满足确定子单元,用于利用各所述词汇对应的所述位置序列,确定所述待确定标识文本中的各所述词汇在所述描述文本中的至少一个位置组满足所述目标位置要求。
124.本公开实施例通过分别将待确定标识文本中的各词汇在描述文本中的各个位置组合为各个位置序列,再以各词汇分别对应的位置序列之间的各个位置的位置关系排列组合得到至少一个位置组,使得以位置组为单位对各位置关系进行表达,有助于快速确定各位置组是否满足目标位置要求,以及提升确定出标识文本的准确性。
125.可选的,目标位置要求满足确定子单元可以包括:第一当前词汇确定子单元、当前位置确定子单元以及第三确定子单元。若所述目标位置要求为所述位置组中各所述词汇的位置的先后关系与在所述待确定标识文本中的排列先后关系一致且所述位置组中各所述词汇的位置之间间隔的其他字符数量为0,所述第一标识文本包括n+1个词汇。
126.第一当前词汇确定子单元,用于将所述待确定标识文本的第一个词汇确定为当前词汇。
127.当前位置确定子单元,用于将所述当前词汇对应的所述位置序列中的一个未进行过判断处理的位置确定为当前位置,其中,所述判断处理包括:确定所述当前位置之后的n个位置是否分别依次存储在所述当前词汇之后的n个词汇对应的所述位置序列中,所述n个词汇为所述待确定标识文本中位于所述当前词汇之后的所有词汇;如果是,则触发第三确定子单元。
128.第三确定子单元,用于确定所述待确定标识文本中的各所述词汇在所述描述文本中的至少一个位置组满足所述目标位置要求。
129.本公开实施例通过分别将待确定标识文本的第一个词汇对应的位置序列中的各位置进行判断处理,确定在描述文本中的该位置之后连续的位置是否分别依次在该第一个
词汇之后的所有词汇对应的位置序列中存在,能够快速确定待确定标识文本中的各词汇在描述文本中满足该目标位置要求的位置组,提升确定目标对象的标识文本的处理效率。
130.可选的,本公开实施例提供的标识文本确定单元200,可以包括:第二词汇查找子单元、第一位置序列获得子单元、第二当前词汇确定子单元、第三词汇查找子单元、第二位置序列获得子单元、有效位置确定子单元、有效位置序列确定子单元、第四确定子单元以及第五确定子单元。若所述目标位置要求为所述位置组中各所述词汇的位置的先后关系与在所述待确定标识文本中的排列先后关系一致且所述位置组中各所述词汇的位置之间间隔的其他字符数量为0。
131.第二词汇查找子单元,用于在所述描述文本中查找所述待确定标识文本的第一个词汇,如果查找到,则触发第一位置序列获得子单元。
132.第一位置序列获得子单元,用于获得所述第一个词汇在所述描述文本中各个第一位置并将该各个第一位置组合为一个与所述第一个词汇对应的第一位置序列。
133.第二当前词汇确定子单元,用于将所述待确定标识文本的第二个词汇确定为当前词汇,其中所述第二个词汇在所述待确定标识文本中与所述第一个词汇连续排列且在所述第一个词汇之后。
134.第三词汇查找子单元,用于在所述描述文本中查找所述当前词汇,如果查找到,则触发第二位置序列获得子单元。
135.第二位置序列获得子单元,用于得所述当前词汇在所述描述文本中各个第二位置并将该各个第二位置组合为一个与所述当前词汇对应的第二位置序列。
136.有效位置确定子单元,用于根据所述第一位置序列和所述第二位置序列,确定所述第二位置序列中是否存在至少一个有效位置,其中,所述有效位置为在所述描述文本中与所述第一位置序列中任一第一位置连续排列且在该第一位置之后的第二位置。
137.有效位置序列确定子单元,用于如果在所述第二位置序列中存在至少一个所述有效位置,则将该至少一个所述有效位置确定为有效位置序列。
138.第四确定子单元,用于将所述待确定标识文本中与所述第二个词汇连续排列且在所述第二个词汇之后的词汇作为当前词汇、将所述有效位置序列作为第一位置序列以及将所述有效位置序列中的第二位置作为第一位置,触发第三词汇查找子单元。
139.第五确定子单元,用于在确定所述待确定标识文本的最后一个词汇的位置序列中存在至少一个有效位置的情况下,确定所述第一标识文本同时满足第一条件和第二条件。
140.本公开实施例通过位置组中各词汇的位置的先后关系与在待确定标识文本中的排列先后关系一致且位置组中各词汇的位置之间间隔的其他字符数量为0,确定待确定标识文本是否为目标对象的标识文本,以待确定标识文本的各词汇在描述文本中的位置是否连续排列且排列先后关系一致为依据,可以准确地判断出待确定标识文本是否与目标对象具有较高的匹配度。
141.本公开提供的一种标识文本确定装置,可以获得目标对象对应的待确定标识文本,待确定标识文本包括至少一个词汇;确定待确定标识文本是否同时满足第一条件和第二条件,如果同时满足,则确定待确定标识文本为目标对象的标识文本,如果不同时满足,则确定待确定标识文本不为目标对象的标识文本;第一条件为:待确定标识文本中的各词汇均位于目标对象的描述文本中;第二条件为:待确定标识文本中的各词汇在描述文本中
的至少一个位置组满足目标位置要求,其中,位置组由待确定标识文本中每一个词汇在描述文本中的一个位置组成。本公开通过待确定标识文本中的各词汇在描述文本中的位置,在满足第一条件和第二条件的情况下确定该待确定标识文本为目标对象的标识文本,准确地判断出与目标对象的匹配度高的标识文本。
142.所述有效标签确定装置包括处理器和存储器,上述确定标识文本获得单元100和标识文本确定单元200等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元来实现相应的功能。
143.处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数来通过待确定标识文本中的各词汇在描述文本中的位置,在满足第一条件和第二条件的情况下确定该待确定标识文本为目标对象的标识文本,准确地判断出与目标对象的匹配度高的标识文本。
144.本公开实施例提供了一种计算机可读存储介质,其上存储有程序,该程序被处理器执行时实现所述标识文本确定方法。
145.本公开实施例提供了一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行所述标识文本确定方法。
146.如图7所示,本公开实施例提供了一种电子设备300,电子设备300包括至少一个处理器301、以及与处理器301连接的至少一个存储器302、总线303;其中,处理器301、存储器302通过总线303完成相互间的通信;处理器301用于调用存储器302中的程序指令,以执行上述的标识文本确定方法。本文中的电子设备300可以是服务器、pc、pad、手机等。
147.本公开还提供了一种计算机程序产品,当在电子设备上执行时,适于执行初始化有上述标识文本确定方法步骤的程序。
148.本公开是参照根据本公开实施例的方法、装置、电子设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程设备的处理器以产生一个机器,使得通过计算机或其他可编程设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
149.在一个典型的配置中,电子设备包括一个或多个处理器(cpu)、存储器和总线。电子设备还可以包括输入/输出接口、网络接口等。
150.存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(ram)和/或非易失性内存等形式,如只读存储器(rom)或闪存(flash ram),存储器包括至少一个存储芯片。存储器是计算机可读介质的示例。
151.计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(pram)、静态随机存取存储器(sram)、动态随机存取存储器(dram)、其他类型的随机存取存储器(ram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、快闪记忆体或其他内存技术、只读光盘只读存储器(cd

rom)、数字多功能光盘(dvd)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算
机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
152.需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
153.本领域技术人员应明白,本公开的实施例可提供为方法、系统或计算机程序产品。因此,本公开可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本公开可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd

rom、光学存储器等)上实施的计算机程序产品的形式。
154.以上仅为本公开的实施例而已,并不用于限制本公开。对于本领域技术人员来说,本公开可以有各种更改和变化。凡在本公开的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本公开的权利要求范围之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1