一种兴趣点信息的获取方法及装置、推送方法及装置制造方法

文档序号:6623686阅读:222来源:国知局
一种兴趣点信息的获取方法及装置、推送方法及装置制造方法
【专利摘要】本发明实施例提供了一种兴趣点信息的获取方法,包括:利用兴趣点词表,对语料库中文档中的文本信息进行识别,以获得第一兴趣点序列,所述第一兴趣点序列包含所述文档所包含的至少两个候选兴趣点;对所述至少两个候选兴趣点进行数目调整,和/或,对所述至少两个候选兴趣点进行顺序调整,以获得第二兴趣点序列,将所述第二兴趣点序列作为与所述文档相匹配的兴趣点序列;本发明实施例还提供一种兴趣点信息的获取装置、推送方法及装置。根据本发明实施例提供的技术方案,可以实现提高兴趣点信息的获取效率。
【专利说明】一种兴趣点信息的获取方法及装置、推送方法及装置
【【技术领域】】
[0001]本发明涉及互联网应用技术,尤其涉及一种兴趣点信息的获取方法及装置、推送方法及装置。
【【背景技术】】
[0002]目前,网页中的文档,如游记,很多都包含长篇的文本信息,且内容丰富,使得用户需要花费大量的阅读时间才能获取到有用信息,因此获取成本较高。
[0003]针对上述问题,有些服务器可以通过设置用户生成内容(User GeneratedContent, UGC)模板,让用户依据该UGC模板输入文档的摘要信息,例如,对于用户上传的游记,就可以让用户输入该游记对应的兴趣点信息,如用户先后到达过哪些景点、餐馆等兴趣点,这样就可以获取到游记对应的兴趣点信息,在显示游记时可以同时显示兴趣点信息。然而,这种获取方式依赖于用户的行为,如果用户不主动输入兴趣点信息,服务器将无法获取兴趣点信息,导致目前兴趣点信息的获取效率比较低。

【发明内容】

[0004]有鉴于此,本发明实施例提供了一种兴趣点信息的获取方法及装置、推送方法及装置,可以实现提高兴趣点信息的获取效率。
[0005]本发明实施例提供了一种兴趣点信息的获取方法,包括:
[0006]利用兴趣点词表,对语料库中文档中的文本信息进行识别,以获得第一兴趣点序列,所述第一兴趣点序列包含所述文档所包含的至少两个候选兴趣点;
[0007]对所述至少两个候选兴趣点进行数目调整,和/或,对所述至少两个候选兴趣点进行顺序调整,以获得第二兴趣点序列,将所述第二兴趣点序列作为与所述文档相匹配的兴趣点序列。
[0008]上述方法中,所述利用兴趣点词表,对语料库中文档中的文本信息进行识别,以获得第一兴趣点序列,包括:
[0009]获得语料库中的文档;
[0010]对所述文档中的文本信息进行切词,以获得至少两个分词;
[0011]利用所述兴趣点词表对所述至少两个分词进行兴趣点识别处理,以获得所述文档所包含的至少两个候选兴趣点。
[0012]上述方法中,所述对所述至少两个候选兴趣点进行数目调整,以获得第二兴趣点序列,包括:
[0013]获得每个所述候选兴趣点在所述文本信息中的出现次数;
[0014]获得出现次数小于预设的第一次数阈值的候选兴趣点,以作为干扰兴趣点;
[0015]在所述第一兴趣点序列中去除所述干扰兴趣点,以获得所述第二兴趣点序列。
[0016]上述方法中,所述对所述至少两个候选兴趣点进行数目调整,以获得第二兴趣点序列,包括:
[0017]获得每个所述候选兴趣点的归属地信息;
[0018]获得每个所述归属地信息的出现次数;
[0019]获得出现次数小于预设的第二次数阈值的归属地信息;
[0020]在所述第一兴趣点序列中去除所述出现次数小于预设的第二次数阈值的归属地信息对应的候选兴趣点,以获得所述第二兴趣点序列。
[0021]上述方法中,所述对所述至少两个候选兴趣点进行数目调整,以获得第二兴趣点序列,包括:
[0022]利用图像识别技术对所述文档中的至少一个图片信息进行识别,以获得每个所述图片信息所对应的兴趣点;
[0023]利用每个所述图片信息所对应的兴趣点,对所述至少两个候选兴趣点进行数目调整,以获得第二兴趣点序列。
[0024]上述方法中,所述至少两个候选兴趣点为M个候选兴趣点,M为大于或者等于3的整数;所述对所述至少两个候选兴趣点进行数目调整,以获得第二兴趣点序列,包括:
[0025]获得所述M个候选兴趣点中,第i个候选兴趣点与第i_l个候选兴趣点之间的距离、第i个候选兴趣点与第i+Ι个候选兴趣点之间的距离以及第i_l个候选兴趣点与第i+1个候选兴趣点之间的距离的取值为4至M-1中的整数;
[0026]若所述第1-Ι个候选兴趣点与第i+Ι个候选兴趣点之间的距离小于预设的第一距离阈值,且第i个候选兴趣点与第i_l个候选兴趣点之间的距离和第i个候选兴趣点与第i+Ι个候选兴趣点之间的距离都大于预设的第二距离阈值,在所述M个候选兴趣点中去除所述第i个候选兴趣点,以获得所述第二兴趣点序列。
[0027]上述方法中,所述对所述至少两个候选兴趣点进行顺序调整,以获得第二兴趣点序列,包括:
[0028]获得每个所述候选兴趣点的位置信息;
[0029]依据每个所述候选兴趣点的位置信息,获得每两个所述候选兴趣点之间的距离;
[0030]依据每两个所述候选兴趣点之间的距离,获得所述至少两个候选兴趣点组成的至少一个第三兴趣点序列中每个所述第三兴趣点序列的长度,将长度最小的第三兴趣点序列作为所述第二兴趣点序列。
[0031]上述方法中,所述方法还包括:对应存储所述文档和所述第二兴趣点序列。
[0032]本发明实施例还提供一种兴趣点信息的推送方法,包括:
[0033]依据使用客户端的用户的历史记录,获得与所述客户端相匹配的兴趣点序列;或者,接收所述客户端发送的检索词,依据所述检索词进行检索,以获得与所述检索词相匹配的兴趣点序列;所述兴趣点序列为利用权利要求1至8中任一权利要求所述的兴趣点信息的获取方法获取的;
[0034]向所述客户端推送所述兴趣点序列。
[0035]上述方法中,所述方法还包括:
[0036]获得与所述兴趣点序列相匹配的文档;
[0037]向所述客户端推送所述文档。
[0038]本发明实施例还提供了一种兴趣点信息的获取装置,包括:
[0039]获取单元,用于利用兴趣点词表,对语料库中文档中的文本信息进行识别,以获得第一兴趣点序列,所述第一兴趣点序列包含所述文档所包含的至少两个候选兴趣点;
[0040]调整单元,用于对所述至少两个候选兴趣点进行数目调整,和/或,对所述至少两个候选兴趣点进行顺序调整,以获得第二兴趣点序列,将所述第二兴趣点序列作为与所述文档相匹配的兴趣点序列。
[0041]上述装置中,所述获取单元,具体用于:
[0042]获得语料库中的文档;
[0043]对所述文档中的文本信息进行切词,以获得至少两个分词;
[0044]利用所述兴趣点词表对所述至少两个分词进行兴趣点识别处理,以获得所述文档所包含的至少两个候选兴趣点。
[0045]上述装置中,所述调整单元,具体用于:
[0046]获得每个所述候选兴趣点在所述文本信息中的出现次数;
[0047]获得出现次数小于预设的第一次数阈值的候选兴趣点,以作为干扰兴趣点;
[0048]在所述第一兴趣点序列中去除所述干扰兴趣点,以获得所述第二兴趣点序列。
[0049]上述装置中,所述调整单元,具体用于:
[0050]获得每个所述候选兴趣点的归属地信息;
[0051]获得每个所述归属地信息的出现次数;
[0052]获得出现次数小于预设的第二次数阈值的归属地信息;
[0053]在所述第一兴趣点序列中去除所述出现次数小于预设的第二次数阈值的归属地信息对应的候选兴趣点,以获得所述第二兴趣点序列。
[0054]上述装置中,所述调整单元,具体用于:
[0055]利用图像识别技术对所述文档中的至少一个图片信息进行识别,以获得每个所述图片信息所对应的兴趣点;
[0056]利用每个所述图片信息所对应的兴趣点,对所述至少两个候选兴趣点进行数目调整,以获得第二兴趣点序列。
[0057]上述装置中,所述至少两个候选兴趣点为M个候选兴趣点,M为大于或者等于3的整数;所述调整单元,具体用于:
[0058]获得所述M个候选兴趣点中,第i个候选兴趣点与第i_l个候选兴趣点之间的距离、第i个候选兴趣点与第i+Ι个候选兴趣点之间的距离以及第i_l个候选兴趣点与第i+1个候选兴趣点之间的距离的取值为4至M-1中的整数;
[0059]若所述第1-Ι个候选兴趣点与第i+Ι个候选兴趣点之间的距离小于预设的第一距离阈值,且第i个候选兴趣点与第i_l个候选兴趣点之间的距离和第i个候选兴趣点与第i+Ι个候选兴趣点之间的距离都大于预设的第二距离阈值,在所述M个候选兴趣点中去除所述第i个候选兴趣点,以获得所述第二兴趣点序列。
[0060]上述装置中,所述调整单元,具体用于:
[0061 ] 获得每个所述候选兴趣点的位置信息;
[0062]依据每个所述候选兴趣点的位置信息,获得每两个所述候选兴趣点之间的距离;
[0063]依据每两个所述候选兴趣点之间的距离,获得所述至少两个候选兴趣点组成的至少一个第三兴趣点序列中每个所述第三兴趣点序列的长度,将长度最小的第三兴趣点序列作为所述第二兴趣点序列。
[0064]上述装置中,所述装置还包括:
[0065]存储单元,用于对应存储所述文档和所述第二兴趣点序列。
[0066]本发明实施例还提供了一种兴趣点信息的推送装置,包括:
[0067]匹配单元,用于依据使用客户端的用户的历史记录,获得与所述客户端相匹配的兴趣点序列;或者,接收所述客户端发送的检索词,依据所述检索词进行检索,以获得与所述检索词相匹配的兴趣点序列;所述兴趣点序列为利用权利要求1至8中任一权利要求所述的兴趣点信息的获取方法获取的;
[0068]推送单元,用于向所述客户端推送所述兴趣点序列。
[0069]上述装置中,所述匹配单元,还用于获得与所述兴趣点序列相匹配的文档;
[0070]所述推送单元,还用于向所述客户端推送所述文档。
[0071]由以上技术方案可以看出,本发明实施例具有以下有益效果:
[0072]本发明实施例能够利用兴趣点词表,对语料库中文档中的文本信息进行识别,获得兴趣点序列,以及对兴趣点序列进行调整,与现有技术中依赖用户主动输入兴趣点信息的方式相比,本发明实施例提供的技术方案可以摆脱对用户的依赖,能够自动获得兴趣点序列,快速收集到大量的兴趣点序列,能够提高兴趣点信息的获取效率。
【【专利附图】

【附图说明】】
[0073]为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。
[0074]图1是本发明实施例所提供的技术方案使用的系统示意图;
[0075]图2是本发明实施例所提供的兴趣点信息的获取方法的流程示意图;
[0076]图3是本发明实施例所提供的第二兴趣点序列的示例图;
[0077]图4是本发明实施例所提供的文档中图片信息的示例图;
[0078]图5是本发明实施例所提供的兴趣点信息的推送方法的流程示意图;
[0079]图6是本发明实施例所提供的兴趣点信息的获取装置的功能方块图;
[0080]图7是本发明实施例所提供的兴趣点信息的推送装置的功能方块图。
【【具体实施方式】】
[0081]为了更好的理解本发明的技术方案,下面结合附图对本发明实施例进行详细描述。
[0082]应当明确,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
[0083]在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。
[0084]应当理解,本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
[0085]应当理解,尽管在本发明实施例中可能采用术语第一、第二等来描述次数阈值,但这些关键词不应限于这些术语。这些术语仅用来将次数阈值彼此区分开。例如,在不脱离本发明实施例范围的情况下,第一次数阈值也可以被称为第二次数阈值,类似地,第二次数阈值也可以被称为第一次数阈值。
[0086]取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似地,取决于语境,短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。
[0087]本发明实施例所提供的技术方案使用的系统如图1所示,主要由客户端和服务器组成,本发明实施例所提供的方法和装置在服务器侧实现。
[0088]可以理解的是,所述客户端可以包括所有终端上安装的客户端,所述终端可以包括个人计算机(Personal Computer, PC)、笔记本电脑、手机或平板电脑。
[0089]本发明实施例给出一种兴趣点信息的获取方法,请参考图2,其为本发明实施例所提供的兴趣点信息的获取方法的流程示意图,如图所示,该方法包括以下步骤:
[0090]S201,利用兴趣点词表,对语料库中文档中的文本信息进行识别,以获得第一兴趣点序列,所述第一兴趣点序列包含所述文档所包含的至少两个候选兴趣点。
[0091]具体的,首先,服务器从语料库中获得该语料库中的文档。该文档可以包括文本信息,还可以包括图片信息。例如,所述文档可以是网页中的游记,游记可以包含用户上传的文本信息以及图片信息。
[0092]然后,服务器利用切词词典对获得的文档中的文本信息进行切词,以获得至少两个分词。
[0093]最后,服务器利用兴趣点词表对获得的至少两个分词进行兴趣点识别处理,以获得文档所包含的至少两个候选兴趣点,所述至少两个候选兴趣点组成所述第一兴趣点序列。
[0094]本发明实施例中,候选兴趣点可以包括景点、商场、酒店、餐馆等类型的兴趣点。
[0095]例如,服务器利用兴趣点词表对获得的至少两个分词进行兴趣点识别处理的方法可以是:服务器依据兴趣点词表,利用命名实体识别和/或多模匹配技术获得每个分词与兴趣点词表中每个兴趣点的相似度,如果某分词与某兴趣点的相似度大于或者等于预设的相似阈值,则可以认为该分词命中该兴趣点,将该兴趣点作为候选兴趣点,这样,服务器就实现将文本信息中的兴趣点提取出来。
[0096]可以理解的,由于服务器是按照分词的先后顺序对分词进行兴趣点识别处理的,所以获得的至少两个候选兴趣点是具有顺序的,该具有顺序的至少两个候选兴趣点就组成了第一兴趣点序列。例如,第一兴趣点序列可以为:故宫一北海一长城一景山,该第一兴趣点序列包含了四个候选兴趣点,以及每个所述候选兴趣点之间的先后顺序。
[0097]S202,对所述至少两个候选兴趣点进行数目调整,和/或,对所述至少两个候选兴趣点进行顺序调整,以获得第二兴趣点序列,将所述第二兴趣点序列作为与所述文档相匹配的兴趣点序列。
[0098]具体的,从文档的文本信息中提取出的第一兴趣点序列中会存在干扰兴趣点以及候选兴趣点的顺序不合理的情况,因此服务器需要对获得的至少两个候选兴趣点进行调整,该调整可以包括:数目调整,和/或,顺序调整。对第一兴趣点序列进行调整后可以获得第二兴趣点序列,服务器将获得的第二兴趣点序列作为与上述文档相匹配的兴趣点序列。
[0099]举例说明,服务器对所述至少两个候选兴趣点进行数目调整,以获得第二兴趣点序列的方法可以包括以下四种中至少一种:
[0100]第一种:首先,服务器获得每个所述候选兴趣点在所述文本信息中的出现次数。然后,服务器将每个候选兴趣点在文本信息中的出现次数分别与预设的第一次数阈值进行比较,获得出现次数小于第一次数阈值的候选兴趣点,将出现次数小于第一次数阈值的候选兴趣点作为干扰兴趣点。最后,服务器在所述第一兴趣点序列中去除该干扰兴趣点,以获得第二兴趣点序列,获得的第二兴趣点序列中就不包含干扰兴趣点。例如,第一次数阈值可以等于2。
[0101]例如,若某游记中只是提到某些景点,与用户真实的行程无关,但是会在上一步骤中将这些景点作为候选兴趣点,如果对第一兴趣点序列不进行调整,该候选兴趣点将会干扰第一兴趣点序列,因此,基于这些景点在游记中的出现次数比较少的特点,利用这种对至少两个候选兴趣点进行数目调整的方法,可以将出现次数较少的候选兴趣点在第一兴趣点序列中去除,从而可以排除这些候选兴趣点的干扰。
[0102]第二种:首先,服务器可以依据数据库中存储的兴趣点与归属地的对应关系,获得每个候选兴趣点的归属地信息。然后,服务器依据每个候选兴趣点的归属地信息,获得每个归属地信息的出现次数,并将每个归属地信息的出现次数与预设的第二次数阈值进行比较,获得出现次数小于第二次数阈值的归属地信息。最后,服务器在第一兴趣点序列中去除出现次数小于预设的第二次数阈值的归属地信息所对应的候选兴趣点,以获得第二兴趣点序列。
[0103]例如,服务器从游记中识别出的10个景点,然后服务器获得每个景点的归属地信息,其中有8个景点的归属地是北京,有2个景点的归属地是西安,若第二次数阈值等于3,则服务器可以确定用户的真实行程是北京,且西安的出线次数小于第二次数阈值,因此服务器将归属地是西安的2个景点在10个景点组成的兴趣点序列中去除。
[0104]第三种:首先,服务器利用图像识别技术对所述文档中的至少一个图片信息进行识别,以获得每个所述图片信息所对应的兴趣点。然后,服务器利用每个所述图片信息所对应的兴趣点,对所述至少两个候选兴趣点进行数目调整,以获得第二兴趣点序列。
[0105]例如,若服务器获得的图片信息所对应的兴趣点中有不属于第一兴趣点序列的兴趣点,可以获得该不属于第一兴趣点序列的兴趣点的置信度,若该置信度大于或者等于预设的置信度阈值,则将该不属于第一兴趣点序列的兴趣点添加到第一兴趣点序列,以获得第二兴趣点序列。反之,若该置信度小于预设的置信度阈值,则不调整第一兴趣点序列,相当于对第一兴趣点序列进行零调整,第二兴趣点序列等于第一兴趣点序列。
[0106]再例如,若第一兴趣点序列中的候选兴趣点不属于获得的图片信息所对应的兴趣点,则表示该候选兴趣点有可能是干扰兴趣点,即用户只是在文本信息中提到该候选兴趣点,但并没有真实到达该候选兴趣点,则可以利用上述第一种和/或第二种方式判断该候选兴趣点是否是干扰兴趣点,如果是干扰兴趣点,则在第一兴趣点序列中去除该候选兴趣点,如果不是干扰兴趣点,则不调整第一兴趣点序列。
[0107]需要说明的是,用户在上传游记到服务器时,一般会在游记中同时上传大量的图片到游记中,而且用户在游记中添加的图片往往是用户真实到达的景点的图片,因此通过对文档中的图片信息进行识别,可以获得该图片信息所对应的兴趣点,如果依据该兴趣点对第一兴趣点序列进行调整,就可以实现依据文档中的图片信息对第一兴趣点序列进行验证和干扰兴趣点的排除,能够保证获得兴趣点序列的准确度和覆盖度。
[0108]第四种:当所述至少两个候选兴趣点为M个候选兴趣点,M为大于或者等于3的整数时,服务器可以获得该M个候选兴趣点中第1-Ι个候选兴趣点的位置信息、第i个候选兴趣点的位置信息和第i+Ι个候选兴趣点的位置信息。然后,服务器依据获得的位置信息,获得第i个候选兴趣点与第i_l个候选兴趣点之间的距离、第i个候选兴趣点与第i+Ι个候选兴趣点之间的距离以及第i_l个候选兴趣点与第i+Ι个候选兴趣点之间的距离;其中,i的取值为4至M-1中的整数。
[0109]服务器判断第1-Ι个候选兴趣点与第i+Ι个候选兴趣点之间的距离与预设的第一距离阈值的大小,判断第i个候选兴趣点与第i_l个候选兴趣点之间的距离与预设的第二距离阈值的大小,以及判断第i个候选兴趣点与第i+Ι个候选兴趣点之间的距离与预设的第二距离阈值的大小。
[0110]若服务器判断出所述第1-1个候选兴趣点与第i+Ι个候选兴趣点之间的距离小于预设的第一距离阈值,且第i个候选兴趣点与第1-Ι个候选兴趣点之间的距离和第i个候选兴趣点与第i+Ι个候选兴趣点之间的距离都大于预设的第二距离阈值,说明第i_l个候选兴趣点与第i+Ι个候选兴趣点之间的距离比较近,而第i_l个候选兴趣点与第i个候选兴趣点之间的距离比较远,且第i个候选兴趣点与第i+Ι个候选兴趣点之间的距离也比较远,因此可以判断出第i个候选兴趣点是干扰兴趣点,用户并没有真实到达该第i个候选兴趣点,则服务器在所述M个候选兴趣点中去除该第i个候选兴趣点,以获得所述第二兴趣点序列。
[0111]例如,若第一兴趣点序列为故宫一北海一长城一景山,通过计算该第一兴趣点序列中每两个候选兴趣点之间的距离,发现故宫、北海和景山之间的距离都比较近,且故宫、北海和景山分别与长城之间的距离都比较远,则可以确定长城属于干扰兴趣点,可以在该第一兴趣点序列中去除长城,获得的第二兴趣点序列为故宫一北海一景山。
[0112]可以理解的,如果一个兴趣点序列中某候选兴趣点与位于兴趣点序列的中间位置,且与其他候选兴趣点的距离都比较远,则说明该候选兴趣点出现在用户行程中的可能性比较低,因此可以将这样的候选兴趣点作为干扰兴趣点,在兴趣点序列中去除,以排除其带来的干扰。
[0113]需要说明的是,对于上述四种对第一兴趣点序列进行数目调整的方法可以只利用其中任意一种方法,也可以利用其中任意至少两种方法;其中,当利用其中任意至少两种方法时,至少两种方法的先后顺序不限定是上述顺序。另外,上述四种方法仅为举例,不限于一定使用上述方法实现数目调整。
[0114]举例说明,服务器可以利用最短路径算法对所述至少两个候选兴趣点进行顺序调整,以获得第二兴趣点序列,其方法可以包括:首先,服务器获得每个所述候选兴趣点的位置信息。然后,服务器依据每个所述候选兴趣点的位置信息,获得每两个所述候选兴趣点之间的距离。最后,服务器依据每两个所述候选兴趣点之间的距离,获得所述至少两个候选兴趣点组成的至少一个第三兴趣点序列中每个所述第三兴趣点序列的长度,将长度最小的第三兴趣点序列作为所述第二兴趣点序列,这样就可以对第一兴趣点序列中候选兴趣点的先后顺序进行调整,获得合理的先后顺序,可以提高兴趣点序列的可靠性。
[0115]例如,第一兴趣点序列为故宫一北海一景山,计算故宫与北海之间的距离、故宫与景山之间的距离、北海与景山之间的距离,然后获得以下兴趣点序列的长度:故宫一北海一景山、故宫一景山一北海、北海一景山一故宫、北海一故宫一景山、景山一北海一故宫、景山—故宫一北海,比较这些兴趣点序列的长度,将其中长度最小的兴趣点序列作为第二兴趣点序列。如果长度最小的兴趣点序列有至少两个,则可以将其中任一个兴趣点序列作为第二兴趣点序列。
[0116]另外,服务器还可以对获得的第二兴趣点序列进行拆分。例如,请参考图3,其为本发明实施例所提供的第二兴趣点序列的示例图,可以对获得的第二兴趣点序列以天为单位进行拆分,这样可以获得每天对应的兴趣点序列。
[0117]可选的,上述方法中,S202之后,还可以包括:
[0118]对应存储所述文档和所述第二兴趣点序列。
[0119]具体的,服务器在依据语料库中的文档,获得第二兴趣点序列后,由于该第二兴趣点序列是与文档相匹配,所以可以在服务器本地对应存储该文档以及该第二兴趣点序列,也可以在数据库中对应存储该文档和第二兴趣点序列。
[0120]另外,服务器可以对语料库中大量的文档进行上述处理,获得与每个文档相匹配的第二兴趣点序列,这样就可以获得大量第二兴趣点序列。服务器还可以对获得的大量第二兴趣点序列进行每两个第二兴趣点序列的相似度计算,然后将相似度大于预设的相似度阈值的两个第二兴趣点序列归为一类,从而实现对大量第二兴趣点序列进行聚类,这样,可以实现第二兴趣点序列之间的相互验证,进一步提高兴趣点序列的准确性。对于不能与其他第二兴趣点序列归为一类的第二兴趣点序列,由于该第二兴趣点序列比较冷门,可以不向用户推送该第二兴趣点序列相匹配的文档,或者,将该第二兴趣点序列相匹配的文档的排在检索结果的靠后位置,或者,在向用户推送该第二兴趣点序列相匹配的文档时显示提示信息,用以提示用户该文档和/或第二兴趣点序列的置信度较低,以使得用户可以慎重参考该第二兴趣点序列所指示的行程。
[0121]实施例
[0122]下面以文档中部分的文本信息为例进行举例说明。
[0123]该部分的文本信息包括:
[0124]大水法一这就是教科书上见到的圆明园的标志性景点。它是当年西洋楼最壮观的喷泉。建筑造型为石龛式,酷似门洞。西面有一大型狮子头喷头,形成七层水帘。前下方为椭圆菊花式喷水池,池中心有一只铜梅花鹿,从鹿角喷水八道;两侧有十只铜狗,从口中喷出水柱,直射鹿身,溅起层层浪花。俗称“猎狗逐鹿”。
[0125]大水法的左右前方各有一座巨大的喷水塔,塔形为方形,塔高共十三层,顶端喷出水柱,塔四周有八十八根铜管,可以一齐喷水。当年,皇帝是坐在对面的观水法,观赏这一组喷泉的。
[0126]上述文本信息所述文档中还可以包括图片信息如图4所示。
[0127]利用兴趣点词表,对上述文档中的文本信息进行识别,可以依次将候选兴趣点“大水法”、“圆明园”和“西洋楼”抽取出来,获得兴趣点序列“大水法一圆明园一西洋楼”。然后依据候选兴趣点的归属地信息和每两个候选兴趣点之间的距离,确定这三个候选兴趣点之间的距离都比较近,但是这三个候选兴趣点中,“圆明园”包含“大水法”和“西洋楼”,因此可以将“圆明园”作为干扰兴趣点,在第一兴趣点序列“大水法一圆明园一西洋楼”中去除干扰兴趣点“圆明园”,得到兴趣点序列“大水法一西洋楼”。
[0128]另外,可以利用图像识别技术对上述文档中的图片信息(如图4所示)进行图像识别,可以识别出图4所示的图片信息所对应的兴趣点是大水法,该兴趣点已经在兴趣点序列中存在,因此依据图片信息可以不对兴趣点序列进行数目调整,并且验证了兴趣点序列中候选兴趣点“大水法”的真实性。
[0129]通过对文档中的所有文本信息进行上述处理后,可以获得完整的兴趣点序列,然后对完整的兴趣点序列以天为单位进行划分,可以获得如下兴趣点序列:
[0130]第一天:大水法一西洋楼一清华大学一西门烤翅(清华西门总店)一汉庭酒店(中关村店);
[0131]第二天:故宫一天安门一后海一全聚德(前门店)一汉庭海友客栈(前门店)。
[0132]本发明实施例给出一种兴趣点信息的推送方法,该推送方法是利用上述方法获得的兴趣点序列实现的。请参考图5,其为本发明实施例所提供的兴趣点信息的推送方法的流程示意图,如图所示,该方法包括以下步骤:
[0133]S501,依据使用客户端的用户的历史记录,获得与所述客户端相匹配的兴趣点序列;或者,接收所述客户端发送的检索词,依据所述检索词进行检索,以获得与所述检索词相匹配的兴趣点序列;所述兴趣点序列为上述兴趣点信息的获取方法获取的。
[0134]具体的,服务器可以获得使用客户端的用户的历史记录,然后依据该历史记录获得使用客户端的用户的兴趣类型,依据兴趣类型,在利用上述兴趣点信息的获取方法获得的兴趣点序列中进行检索,以获得与该兴趣类型相匹配的兴趣点序列,从而服务器获得与该客户端相匹配的兴趣点序列。
[0135]可以理解的,获得的与该客户端相匹配的兴趣点序列将作为向用户推荐的兴趣点序列。
[0136]或者,服务器接收客户端发送的检索词,该检索词可以由用户在客户端中输入;然后服务器依据从客户端收到的检索词在利用上述兴趣点信息的获取方法获得的兴趣点序列中进行检索,以获得与该检索词相匹配的兴趣点序列。
[0137]可以理解的,获得的与该客户端相匹配的兴趣点序列将作为检索结果向用户推送。
[0138]S502,向所述客户端推送所述兴趣点序列。
[0139]具体的,服务器在获得与所述客户端相匹配的兴趣点序列或者在获得与所述检索词相匹配的兴趣点序列之后,可以向客户端推送获得的兴趣点序列,客户端在接收到兴趣点序列后,可以向用户显示该兴趣点序列,这样,服务器就可以实现兴趣点序列的主动推荐,或者实现兴趣点序列的检索结果的推送。
[0140]可选的,上述方法还可以包括:
[0141]获得与所述兴趣点序列相匹配的文档,以及向所述客户端推送所述文档。
[0142]具体的,服务器在获得兴趣点序列后,还可以获得与该兴趣点序列相匹配的文档,然后向客户端推送该文档,以使得客户端可以向用户显示该文档。
[0143]服务器向客户端推送文档可以包括:将文档与兴趣点序列一起推送给客户端,客户端可以在显示文档的同时,也显示与该文档相匹配的兴趣点序列,这样用户就可以通过显示的兴趣点序列获知推荐的行程,在不浏览整个文档的情况下就可以方便简单的获取到有用信息,降低获取成本。
[0144]或者,服务器向客户端推送文档可以包括:服务器可以先向客户端推送兴趣点序列,客户端显示获得的兴趣点序列,若用户对该兴趣点序列表示的行程有兴趣,还可以进一步触发客户端从服务器获得与该兴趣点序列相匹配的文档,这样,用户可以通过显示的兴趣点序列获知感兴趣的文档,并且只浏览感兴趣的文档,因此可以提高获取效率,降低获取成本。
[0145]本发明实施例进一步给出实现上述方法实施例中各步骤及方法的装置实施例。
[0146]请参考图6,其为本发明实施例所提供的兴趣点信息的获取装置的功能方块图。如图所示,该装置包括:
[0147]获取单元601,用于利用兴趣点词表,对语料库中文档中的文本信息进行识别,以获得第一兴趣点序列,所述第一兴趣点序列包含所述文档所包含的至少两个候选兴趣点;
[0148]调整单元602,用于对所述至少两个候选兴趣点进行数目调整,和/或,对所述至少两个候选兴趣点进行顺序调整,以获得第二兴趣点序列,将所述第二兴趣点序列作为与所述文档相匹配的兴趣点序列。
[0149]优选的,所述获取单元601,具体用于:
[0150]获得语料库中的文档;
[0151]对所述文档中的文本信息进行切词,以获得至少两个分词;
[0152]利用所述兴趣点词表对所述至少两个分词进行兴趣点识别处理,以获得所述文档所包含的至少两个候选兴趣点。
[0153]优选的,所述调整单元602,具体用于:
[0154]获得每个所述候选兴趣点在所述文本信息中的出现次数;
[0155]获得出现次数小于预设的第一次数阈值的候选兴趣点,以作为干扰兴趣点;
[0156]在所述第一兴趣点序列中去除所述干扰兴趣点,以获得所述第二兴趣点序列。
[0157]优选的,所述调整单元602,具体用于:
[0158]获得每个所述候选兴趣点的归属地信息;
[0159]获得每个所述归属地信息的出现次数;
[0160]获得出现次数小于预设的第二次数阈值的归属地信息;
[0161]在所述第一兴趣点序列中去除所述出现次数小于预设的第二次数阈值的归属地信息对应的候选兴趣点,以获得所述第二兴趣点序列。
[0162]优选的,所述调整单元602,具体用于:
[0163]利用图像识别技术对所述文档中的至少一个图片信息进行识别,以获得每个所述图片信息所对应的兴趣点;
[0164]利用每个所述图片信息所对应的兴趣点,对所述至少两个候选兴趣点进行数目调整,以获得第二兴趣点序列。
[0165]优选的,所述至少两个候选兴趣点为M个候选兴趣点,M为大于或者等于3的整数;所述调整单元602,具体用于:
[0166]获得所述M个候选兴趣点中,第i个候选兴趣点与第i_l个候选兴趣点之间的距离、第i个候选兴趣点与第i+Ι个候选兴趣点之间的距离以及第i_l个候选兴趣点与第i+1个候选兴趣点之间的距离的取值为4至M-1中的整数;
[0167]若所述第1-Ι个候选兴趣点与第i+Ι个候选兴趣点之间的距离小于预设的第一距离阈值,且第i个候选兴趣点与第i_l个候选兴趣点之间的距离和第i个候选兴趣点与第i+Ι个候选兴趣点之间的距离都大于预设的第二距离阈值,在所述M个候选兴趣点中去除所述第i个候选兴趣点,以获得所述第二兴趣点序列。
[0168]优选的,所述调整单元602,具体用于:
[0169]获得每个所述候选兴趣点的位置信息;
[0170]依据每个所述候选兴趣点的位置信息,获得每两个所述候选兴趣点之间的距离;
[0171]依据每两个所述候选兴趣点之间的距离,获得所述至少两个候选兴趣点组成的至少一个第三兴趣点序列中每个所述第三兴趣点序列的长度,将长度最小的第三兴趣点序列作为所述第二兴趣点序列。
[0172]可选的,所述装置还可以包括:
[0173]存储单元603,用于对应存储所述文档和所述第二兴趣点序列。
[0174]由于本实施例中的各单元能够执行图2所示的方法,本实施例未详细描述的部分,可参考对图2的相关说明。
[0175]请参考图7,其为本发明实施例所提供的兴趣点信息的推送装置的功能方块图。如图所示,该装置包括:
[0176]匹配单元701,用于依据使用客户端的用户的历史记录,获得与所述客户端相匹配的兴趣点序列;或者,接收所述客户端发送的检索词,依据所述检索词进行检索,以获得与所述检索词相匹配的兴趣点序列;所述兴趣点序列为利用权利要求1至8中任一权利要求所述的兴趣点信息的获取方法获取的;
[0177]推送单元702,用于向所述客户端推送所述兴趣点序列。
[0178]可选的,所述匹配单元701,还用于获得与所述兴趣点序列相匹配的文档;
[0179]所述推送单元702,还用于向所述客户端推送所述文档。
[0180]由于本实施例中的各单元能够执行图5所示的方法,本实施例未详细描述的部分,可参考对图5的相关说明。
[0181]本发明实施例的技术方案具有以下有益效果:
[0182]1、本发明实施例能够利用兴趣点词表,对语料库中文档中的文本信息进行识别,获得兴趣点序列,以及对兴趣点序列进行调整,与现有技术中依赖用户主动输入兴趣点信息的方式相比,本发明实施例提供的技术方案可以摆脱对用户的依赖,能够自动获得兴趣点序列,快速收集到大量的兴趣点序列,能够提高兴趣点信息的获取效率,解决用户从长篇文档中获取有效信息困难的问题,降低获取成本,给用户带来极大便利。
[0183]2、本发明实施例提供的技术方案中,还可以对获得的兴趣点序列进行自动调整,以提高兴趣点序列的准确性和可靠性。
[0184]所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
[0185]在本发明所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
[0186]所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
[0187]另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
[0188]上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机装置(可以是个人计算机,服务器,或者网络装置等)或处理器(Processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory, ROM)、随机存取存储器(Random Access Memory, RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
[0189]以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。
【权利要求】
1.一种兴趣点信息的获取方法,其特征在于,所述方法包括: 利用兴趣点词表,对语料库中文档中的文本信息进行识别,以获得第一兴趣点序列,所述第一兴趣点序列包含所述文档所包含的至少两个候选兴趣点; 对所述至少两个候选兴趣点进行数目调整,和/或,对所述至少两个候选兴趣点进行顺序调整,以获得第二兴趣点序列,将所述第二兴趣点序列作为与所述文档相匹配的兴趣点序列。
2.根据权利要求1所述的方法,其特征在于,所述利用兴趣点词表,对语料库中文档中的文本信息进行识别,以获得第一兴趣点序列,包括: 获得语料库中的文档; 对所述文档中的文本信息进行切词,以获得至少两个分词; 利用所述兴趣点词表对所述至少两个分词进行兴趣点识别处理,以获得所述文档所包含的至少两个候选兴趣点。
3.根据权利要求1所述的方法,其特征在于,所述对所述至少两个候选兴趣点进行数目调整,以获得第二兴趣点序列,包括: 获得每个所述候选兴趣点在所述文本信息中的出现次数; 获得出现次数小于预设的第一次数阈值的候选兴趣点,以作为干扰兴趣点; 在所述第一兴趣点序列中去除所述干扰兴趣点,以获得所述第二兴趣点序列。
4.根据权利要求1或3所述的方法,其特征在于,所述对所述至少两个候选兴趣点进行数目调整,以获得第二兴趣点序列,包括: 获得每个所述候选兴趣点的归属地信息; 获得每个所述归属地信息的出现次数; 获得出现次数小于预设的第二次数阈值的归属地信息; 在所述第一兴趣点序列中去除所述出现次数小于预设的第二次数阈值的归属地信息对应的候选兴趣点,以获得所述第二兴趣点序列。
5.根据权利要求1、3或4所述的方法,其特征在于,所述对所述至少两个候选兴趣点进行数目调整,以获得第二兴趣点序列,包括: 利用图像识别技术对所述文档中的至少一个图片信息进行识别,以获得每个所述图片信息所对应的兴趣点; 利用每个所述图片信息所对应的兴趣点,对所述至少两个候选兴趣点进行数目调整,以获得第二兴趣点序列。
6.根据权利要求1、3、4或5所述的方法,其特征在于,所述至少两个候选兴趣点为M个候选兴趣点,M为大于或者等于3的整数;所述对所述至少两个候选兴趣点进行数目调整,以获得第二兴趣点序列,包括: 获得所述M个候选兴趣点中,第i个候选兴趣点与第1-Ι个候选兴趣点之间的距离、第i个候选兴趣点与第i+Ι个候选兴趣点之间的距离以及第i_l个候选兴趣点与第i+Ι个候选兴趣点之间的距离的取值为4至M-1中的整数; 若所述第i_l个候选兴趣点与第i+Ι个候选兴趣点之间的距离小于预设的第一距离阈值,且第i个候选兴趣点与第i_l个候选兴趣点之间的距离和第i个候选兴趣点与第i+1个候选兴趣点之间的距离都大于预设的第二距离阈值,在所述M个候选兴趣点中去除所述第i个候选兴趣点,以获得所述第二兴趣点序列。
7.根据权利要求1所述的方法,其特征在于,所述对所述至少两个候选兴趣点进行顺序调整,以获得第二兴趣点序列,包括: 获得每个所述候选兴趣点的位置信息; 依据每个所述候选兴趣点的位置信息,获得每两个所述候选兴趣点之间的距离; 依据每两个所述候选兴趣点之间的距离,获得所述至少两个候选兴趣点组成的至少一个第三兴趣点序列中每个所述第三兴趣点序列的长度,将长度最小的第三兴趣点序列作为所述第二兴趣点序列。
8.根据权利要求1至7中任一项所述的方法,其特征在于,所述方法还包括:对应存储所述文档和所述第二兴趣点序列。
9.一种兴趣点信息的推送方法,其特征在于,所述方法包括: 依据使用客户端的用户的历史记录,获得与所述客户端相匹配的兴趣点序列;或者,接收所述客户端发送的检索词,依据所述检索词进行检索,以获得与所述检索词相匹配的兴趣点序列;所述兴趣点序列为利用权利要求1至8中任一权利要求所述的兴趣点信息的获取方法获取的; 向所述客户端推送所述兴趣点序列。
10.根据权利要求9所述的方法,其特征在于,所述方法还包括: 获得与所述兴趣点序列相匹配的文档; 向所述客户端推送所述文档。
11.一种兴趣点信息的获取装置,其特征在于,所述装置包括: 获取单元,用于利用兴趣点词表,对语料库中文档中的文本信息进行识别,以获得第一兴趣点序列,所述第一兴趣点序列包含所述文档所包含的至少两个候选兴趣点; 调整单元,用于对所述至少两个候选兴趣点进行数目调整,和/或,对所述至少两个候选兴趣点进行顺序调整,以获得第二兴趣点序列,将所述第二兴趣点序列作为与所述文档相匹配的兴趣点序列。
12.根据权利要求11所述的装置,其特征在于,所述获取单元,具体用于: 获得语料库中的文档; 对所述文档中的文本信息进行切词,以获得至少两个分词; 利用所述兴趣点词表对所述至少两个分词进行兴趣点识别处理,以获得所述文档所包含的至少两个候选兴趣点。
13.根据权利要求11所述的装置,其特征在于,所述调整单元,具体用于: 获得每个所述候选兴趣点在所述文本信息中的出现次数; 获得出现次数小于预设的第一次数阈值的候选兴趣点,以作为干扰兴趣点; 在所述第一兴趣点序列中去除所述干扰兴趣点,以获得所述第二兴趣点序列。
14.根据权利要求11或13所述的装置,其特征在于,所述调整单元,具体用于: 获得每个所述候选兴趣点的归属地信息; 获得每个所述归属地信息的出现次数; 获得出现次数小于预设的第二次数阈值的归属地信息; 在所述第一兴趣点序列中去除所述出现次数小于预设的第二次数阈值的归属地信息对应的候选兴趣点,以获得所述第二兴趣点序列。
15.根据权利要求11、13或14所述的装置,其特征在于,所述调整单元,具体用于: 利用图像识别技术对所述文档中的至少一个图片信息进行识别,以获得每个所述图片信息所对应的兴趣点; 利用每个所述图片信息所对应的兴趣点,对所述至少两个候选兴趣点进行数目调整,以获得第二兴趣点序列。
16.根据权利要求11、13、14或15所述的装置,其特征在于,所述至少两个候选兴趣点为M个候选兴趣点,M为大于或者等于3的整数;所述调整单元,具体用于: 获得所述M个候选兴趣点中,第i个候选兴趣点与第1-Ι个候选兴趣点之间的距离、第i个候选兴趣点与第i+Ι个候选兴趣点之间的距离以及第i_l个候选兴趣点与第i+Ι个候选兴趣点之间的距离的取值为4至M-1中的整数; 若所述第i_l个候选兴趣点与第i+Ι个候选兴趣点之间的距离小于预设的第一距离阈值,且第i个候选兴趣点与第i_l个候选兴趣点之间的距离和第i个候选兴趣点与第i+1个候选兴趣点之间的距离都大于预设的第二距离阈值,在所述M个候选兴趣点中去除所述第i个候选兴趣点,以获得所述第二兴趣点序列。
17.根据权利要求11所述的装置,其特征在于,所述调整单元,具体用于: 获得每个所述候选兴趣点的位置信息; 依据每个所述候选兴趣点的位置信息,获得每两个所述候选兴趣点之间的距离; 依据每两个所述候选兴趣点之间的距离,获得所述至少两个候选兴趣点组成的至少一个第三兴趣点序列中每个所述第三兴趣点序列的长度,将长度最小的第三兴趣点序列作为所述第二兴趣点序列。
18.根据权利要求11至17中任一项所述的装置,其特征在于,所述装置还包括: 存储单元,用于对应存储所述文档和所述第二兴趣点序列。
19.一种兴趣点信息的推送装置,其特征在于,所述装置包括: 匹配单元,用于依据使用客户端的用户的历史记录,获得与所述客户端相匹配的兴趣点序列;或者,接收所述客户端发送的检索词,依据所述检索词进行检索,以获得与所述检索词相匹配的兴趣点序列;所述兴趣点序列为利用权利要求1至8中任一权利要求所述的兴趣点信息的获取方法获取的; 推送单元,用于向所述客户端推送所述兴趣点序列。
20.根据权利要求19所述的装置,其特征在于, 所述匹配单元,还用于获得与所述兴趣点序列相匹配的文档; 所述推送单元,还用于向所述客户端推送所述文档。
【文档编号】G06F17/27GK104133918SQ201410404790
【公开日】2014年11月5日 申请日期:2014年8月15日 优先权日:2014年8月15日
【发明者】崔代锐, 徐明泉, 邝卓聪, 黄绍建, 秦敏, 王玉瑶, 王岳 申请人:百度在线网络技术(北京)有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1