一种关键词标记方法和装置与流程

文档序号:18302160发布日期:2019-07-31 10:18阅读:185来源:国知局
一种关键词标记方法和装置与流程

本申请涉及数据处理领域,特别是涉及一种关键词标记方法和装置。



背景技术:

随着网络的普及,用户可以通过搜索引擎在网络上通过关键词搜索所需信息。通过关键词可以搜索到与该关键词相关的网页,用户可以从这些网页中选择所需的文本打开浏览。

为了能够在搜索时向用户展示符合用户所输入关键词的搜索意图的搜索结果,需要对关键词进行分类,通过分类对关键词标记对应其搜索意图的标记。当为关键词确定了标记后,搜索引擎可以根据该标记为该关键词提供更能符合该关键词所体现搜索意图的搜索结果,提高用户的搜索体验。

传统方式中,一般采用人工标记的方式确定关键词的标记。然而,人工标记效率很低,而且准确性非常依赖人为经验。



技术实现要素:

为了解决上述技术问题,本申请提供了一种关键词标记方法和装置,不需要人工标记,高效且标记更为准确。

本申请实施例公开了如下技术方案:

第一方面,本申请实施例提供了一种关键词标记方法,所述方法包括:

获取待标记关键词;

根据所述待标记关键词与根据所述待标记关键词所打开搜索页面间的对应关系,将所述待标记关键词添加到二部图中,所述二部图包括关键词与根据关键词所打开搜索页面间的对应关系,所述二部图中包括的关键词已标记了标记分布;

将目标关键词的标记分布向量在所述二部图中进行传播,得到所述待标记关键词的标记分布向量;所述目标关键词为所述二部图中与根据所述待标记关键词所打开搜索页面具有对应关系的关键词,所述目标关键词的标记分布向量为根据所述目标关键词已标记的标记分布构建的;

根据所述待标记关键词的标记分布向量确定所述待标记关键词的标记。

可选的,在所述获取待标记关键词之后,所述方法还包括:

判断所述待标记关键词是否具有与根据所述待标记关键词所打开搜索页面间的对应关系;

若没有,对所述待标记关键词进行分词处理,得到多个分词;

若所述多个分词中具有与所述二部图中关键词相同的分词,根据所述二部图中与所述多个分词部分或全部相同的关键词的标记分布确定所述待标记关键词的标记分布。

可选的,在所述二部图的关键词与根据关键词所打开搜索页面间的对应关系中,还包括根据关键词所打开搜索页面的打开次数,所述将目标关键词的标记分布向量在所述二部图中进行传播,得到所述待标记关键词的标记分布向量,包括:

在所述目标关键词的标记分布向量进行传播时,将根据关键词所打开搜索页面的打开次数作为计算权重计算所述待标记关键词的标记分布向量。

可选的,所述方法还包括:

对所述二部图中的关键词进行分词,其中,任一个关键词的分词具有与根据这个关键词所打开搜索页面间的对应关系,以及具有这个关键词的标记分布;

在分词后的所述二部图进行关键词的标记分布向量的传播。

可选的,所述根据所述待标记关键词的标记分布向量确定所述待标记关键词的标记,包括:

判断所述待标记关键词的标记分布向量中各维度标记的分布概率;

将分布概率满足预设条件的标记作为所述待标记关键词的标记。

第二方面,本申请实施例提供了一种关键词标记装置,所述装置包括获取单元、添加单元、传播单元和确定单元:

所述获取单元,用于获取待标记关键词;

所述添加单元,用于根据所述待标记关键词与根据所述待标记关键词所打开搜索页面间的对应关系,将所述待标记关键词添加到二部图中,所述二部图包括关键词与根据关键词所打开搜索页面间的对应关系,所述二部图中包括的关键词已标记了标记分布;

所述传播单元,用于将目标关键词的标记分布向量在所述二部图中进行传播,得到所述待标记关键词的标记分布向量;所述目标关键词为所述二部图中与根据所述待标记关键词所打开搜索页面具有对应关系的关键词,所述目标关键词的标记分布向量为根据所述目标关键词已标记的标记分布构建的;

所述确定单元,用于根据所述待标记关键词的标记分布向量确定所述待标记关键词的标记。

可选的,所述装置还包括判断单元:

所述判断单元,用于判断所述待标记关键词是否具有与根据所述待标记关键词所打开搜索页面间的对应关系;

若没有,对所述待标记关键词进行分词处理,得到多个分词;

若所述多个分词中具有与所述二部图中关键词相同的分词,触发所述确定单元,所述确定单元还用于根据所述二部图中与所述多个分词部分或全部相同的关键词的标记分布确定所述待标记关键词的标记分布。

可选的,在所述二部图的关键词与根据关键词所打开搜索页面间的对应关系中,还包括根据关键词所打开搜索页面的打开次数,所述传播单元还用于在所述目标关键词的标记分布向量进行传播时,将根据关键词所打开搜索页面的打开次数作为计算权重计算所述待标记关键词的标记分布向量。

可选的,所述装置还包括分词单元:

所述分词单元,用于对所述二部图中的关键词进行分词,其中,任一个关键词的分词具有与根据这个关键词所打开搜索页面间的对应关系,以及具有这个关键词的标记分布;

所述传播单元还用于在分词后的所述二部图进行关键词的标记分布向量的传播。

可选的,所述确定单元包括判断子单元和确定子单元:

所述判断子单元,用于判断所述待标记关键词的标记分布向量中各维度标记的分布概率;

所述确定子单元,用于将分布概率满足预设条件的标记作为所述待标记关键词的标记。

第三方面,本申请实施例提供了一种用于关键词标记的处理设备,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:

获取待标记关键词;

根据所述待标记关键词与根据所述待标记关键词所打开搜索页面间的对应关系,将所述待标记关键词添加到二部图中,所述二部图包括关键词与根据关键词所打开搜索页面间的对应关系,所述二部图中包括的关键词已标记了标记分布;

将目标关键词的标记分布向量在所述二部图中进行传播,得到所述待标记关键词的标记分布向量;所述目标关键词为所述二部图中与根据所述待标记关键词所打开搜索页面具有对应关系的关键词,所述目标关键词的标记分布向量为根据所述目标关键词已标记的标记分布构建的;

根据所述待标记关键词的标记分布向量确定所述待标记关键词的标记。

第四方面,本申请实施例提供了一种机器可读介质,其上存储有指令,当由一个或多个处理器执行时,使得装置执行第一方面中的一个或多个所述的关键词标记方法。

由上述技术方案可以看出,在获取到待标记的关键词时,可以将该待标记关键词添加到二部图中,该二部图中包括关键词与根据关键词所打开搜索页面间的对应关系,该二部图中包括了已标记了标记分布的关键词。由于待标记关键词在添加到二部图中时并不具有标记分布,故可以在二部图中确定出目标关键词,该目标关键词为二部图中与根据待标记关键词所打开搜索页面具有对应关系的关键词,并将目标关键词的标记分布向量在二部图中进行传播,传播的过程中,待标记关键词可以根据预定的规则计算传播到自身的标记分布向量,从而得到待标记关键词的标记分布向量,并根据该标记分布向量确定出该待标记关键词的标记。由于在确定待标记关键词标记的过程中,参考到了目标关键词的标记分布,而根据目标关键词所打开的搜索页面中部分或全部与根据待标记关键词所打开的搜索页面相同,所以目标关键词的标记分布与待标记关键词的标记分布具有一定的相关性,故以此确定出待标记关键词的标记更为准确,更能够与待标记关键词体现的搜索意图相符,可见,本申请在确定关键词的标记时,不需要人工标记,高效且标记更为准确。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种二部图示例图;

图2为本申请实施例提供的一种关键词标记方法的方法流程图;

图3为本申请实施例提供的一种通过二部图确定待标记关键词的标记的示意图;

图4a为本申请实施例提供的一种分词前的二部图示意图;

图4b为本申请实施例提供的一种分词后的二部图示意图;

图5为本申请实施例提供的一种关键词标记装置的装置结构图;

图6为本申请实施例提供的一种用于关键词标记的装置的框图;

图7为本申请实施例提供的一种用于关键词标记的服务器的框图。

具体实施方式

下面结合附图,对本申请的实施例进行描述。

随着基于网络的搜索行为的普及,如何更好的展示搜索结果是各大搜索引擎提供方需要解决的问题。

更好展示搜索结果的一个方式是能够将用于搜索的关键词准确的分类,在与分类相关的内容中能够找到更为符合用户搜索意图的搜索结果。而对关键词的分类可以对关键词标记相应的标记分布,该标记分布可以体现出用户输入该关键词进行想要搜索的意图。

传统的对关键词的标记方式是采用人工,通过标记者的个人经验来确定关键词的标记分布。人工方式一是效率低下,二是严重依赖人员经验。而由于越来越多的搜索行为,新的关键词产生数量是非常可观的,显然人工方式不足以应付目前的关键词标记需求。

为此,本申请实施例提供了一种关键词标记方法,在获取到待标记的关键词时,可以将该待标记关键词添加到二部图中,该二部图中包括关键词与根据关键词所打开搜索页面间的对应关系,该二部图中包括了已标记了标记分布的关键词。由于待标记关键词在添加到二部图中时并不具有标记分布,故可以在二部图中确定出目标关键词,该目标关键词为二部图中与根据待标记关键词所打开搜索页面具有对应关系的关键词,并将目标关键词的标记分布向量在二部图中进行传播,传播的过程中,待标记关键词可以根据预定的规则计算传播到自身的标记分布向量,从而得到待标记关键词的标记分布向量,并根据该标记分布向量确定出该待标记关键词的标记分布。由于在确定待标记关键词标记分布的过程中,参考到了目标关键词的标记分布,而根据目标关键词所打开的搜索页面中有部分或全部与根据待标记关键词所打开的搜索页面相同,所以目标关键词的标记分布与待标记关键词的标记分布具有一定的相关性,故以此确定出待标记关键词的标记分布更为准确,更能够与待标记关键词体现的搜索意图相符,可见,本申请在确定关键词的标记分布时,不需要人工标记,高效且标记更为准确。

本申请实施例主要应用于二部图中,该二部图是根据历史搜索数据构建的,能够体现出通过关键词搜索得到包括了搜索页面的搜索结果,以及在搜索结果中打开搜索页面的关系。也就是说,该二部图包括关键词与根据关键词所打开搜索页面间的对应关系。

例如图1所示,该二部图可以包括节点、节点间的边以及边上的数字。其中,二部图中的节点可以表示关键词和根据关键词所打开搜索页面。二部图左侧的节点q可以为关键词,右侧的节点d可以为打开的搜索页面;二部图中节点间的一条边可以是一个q与一个d之间连线,节点间的边可以表示关键词和根据关键词所打开搜索页面间的对应关系,只有通过搜索一个关键词q得到搜索结果,并在搜索结果中打开一个搜索页面d,才会在这个q和d之间存在边,例如,q1和d1之间的边,表示在历史搜索数据中,有用户通过搜索q1的搜索结果打开了d1。

本申请实施例中,二部图中的关键词可以包括已经标记了标记分布的关键词,这些关键词的标记分布可以是根据历史搜索数据确定的,也可以是根据预设规则确定的。而一个关键词的标记分布可以体现出这个关键词可能体现的搜索需求在不同维度标记下的分布概率。标记的维度数量可以是预先设定的,一个维度下的标记范围或内容也可以是预先设定的,例如可以包括生活服务、搬家、信息、天气预报、生活常识、加盟、农林牧渔、娱乐、视频、音频等任意一项或多项的组合。而一个关键词的标记分布体现了在预先设定的多个维度标记下,这个关键词可能属于哪个维度标记的概率,例如标记有四个维度,分别为信息、生活服务/搬家、视频、音频时,一个关键词的标记分布可以为信息:0.25、生活服务/搬家:0.65、视频:0.05、音频:0.05,从该标记分布可以明确这个关键词的搜索意图有65%概率是生活服务/搬家,有25%的概率是信息等。一个关键词的标记分布可以为信息:0、生活服务/搬家:0、视频:1、音频:0,从该标记分布可以明确这个关键词的搜索意图就是视频。

而一个关键词的标记分布向量是通过向量的形式来表示这个关键词的标记分布,以便计算机可以根据向量对关键词的标记分布进行识别、计算等相关处理。在本申请实施例中,一个关键词的标记分布向量可以是根据向量空间构建的,即标记分布向量中数值的数量可以与预先设置的标记维度的数量相同。以前述例子为例,若一个关键词的标记分布为,信息:0.25、生活服务/搬家:0.65、视频:0.05、音频:0.05,那么这个关键词的标记分布向量可以为(0.25,0.65,0.05,0.05),标记分布向量中各个位置的含义可以是预先设定好的,故计算机可以根据该标记分布向量明确该向量中各个位置的数值表示的是哪个维度的标记。

标记分布向量在二部图中的传播可以是指将标记分布向量根据节点间的线从二部图中的一个节点转移到另一个节点,当该标记分布向量传播到该另一个节点上时,该另一个节点可以对该标记分布向量进行计算处理得到该另一个节点对应的一个新的标记分布向量,一次从一个节点将标记分布向量传播到另一个节点并生成新的标记分布向量的操作可以视为在二部图中的一次传播。该新的标记分布向量可以继续沿着节点间的线进行传播,直到达到预设次数或者各节点的标记分布向量趋于稳定为止。

接下来结合附图说明本申请实施例所提供的关键词标记方法,图2为本申请实施例提供的一种关键词标记方法的方法流程图,所述方法包括:

s201:获取待标记关键词。

该待标记关键词可以为被搜索引擎所标记的关键词,即该待标记关键词尚未被分类,尚不能体现出用户输入该待标记关键词的搜索意图,故若不对该待标记关键词进行标记,用户根据该待标记关键词进行搜索所得到的搜索结果将有可能不是很能满足用户的搜索意图。所以,该待标记关键词是需要被标记的关键词。

由于该待标记关键词尚未被标记,故该待标记关键词可以是新出现在网络中的用于搜索的关键词。

s202:根据所述待标记关键词与根据所述待标记关键词所打开搜索页面间的对应关系,将所述待标记关键词添加到二部图中。

在获取待标记关键词后,为了对其进行标记,可以将该待标记关键词添加到二部图中,如何添加到二部图中和该待标记关键词的与根据该待标记关键词所打开搜索页面间的对应关系相关。

以图1为例,待标记关键词为q2,在未添加到二部图中前,二部图中包括了q1、q3、d1、d2和,其中,d1为根据q1打开的搜索页面,d2为根据q3打开的搜索页面。由于根据q2打开的搜索页面为d1和d2,故可以将q2添加到二部图中,并在q2和d1之间连线,在q2和d2之间连线。

s203:将目标关键词的标记分布向量在二部图中进行传播,得到待标记关键词的标记分布向量。

在本申请实施例中,目标关键词为二部图中与根据待标记关键词所打开搜索页面具有对应关系的关键词。也就是说,对于待标记关键词来说,若二部图中根据一个关键词所打开搜索页面中有部分或全部和根据待标记关键词所打开搜索页面的部分或全部相同,那么这个关键词就是相对于待标记关键词的目标关键词。例如在二部图中包括了关键词a和关键词b,根据关键词a所打开搜索页面有页面1和页面2,根据关键词b所打开搜索页面有页面3和页面4,若根据待标记关键词所打开搜索页面为页面1、页面3和页面4,由于根据关键词a所打开搜索页面中有部分(页面1)与根据待标记关键词所打开搜索页面的部分(页面1)相同,根据关键词b所打开搜索页面的全部(页面3和页面4)与根据待标记关键词所打开搜索页面的部分(页面3和页面4)相同,那么可以确定关键词a和关键词b为相对于该待标记关键词的目标关键词。

目标关键词的标记分布向量为根据目标关键词已标记的标记分布构建的。由于在二部图中,目标关键词和待标记关键词之间通过相同的搜索页面相连,故当目标关键词的标记分布向量在二部图中传播时,可以传播到该待标记关键词,从而可以生成该待标记关键词的标记分布向量。需要说明的是,当完成一次传播后,所生成的新的标记分布向量可以继续沿着节点间的线进行传播,直到达到预设次数或者各关键词节点的特征分布向量趋于稳定或者待标记关键词的标记分布向量趋于稳定为止。

以图1所示的二部图为例,其中q2为待标记关键词,q1和q3为已标记关键词。由于与q1具有对应关系的d1也是与q2具有对应关系的搜索页面,与q3具有对应关系的d2也是与q2具有对应关系的搜索页面,故q1和q3可以确定为相对于q2的目标关键词。在将目标关键词的标记分布向量在二部图中进行传播时,q1的标记分布向量可以从q1传播到d1,由于d1并不具有标记,故d1可以将该标记分布向量继续传播到q2,或者可以根据d1与q1间的打开次数处理该标记分布向量后再继续传播到q2。而q3的标记分布向量可以从q3传播到d2,由于d2并不具有标记,故d2可以将该标记分布向量继续传播到q2,或者可以根据d2与q3间的打开次数处理该标记分布向量后再继续传播到q2。

当q2获取到从d1传播来的标记分布向量和从d2传播来的标记分布向量时,q2可以根据这两个标记分布向量确定出自身的标记分布向量。

需要注意的是,在二部图的关键词与根据关键词所打开搜索页面间的对应关系中,还可以包括根据关键词所打开搜索页面的打开次数。也就是说,在二部图中,节点间的边上的数字可以表示历史搜索数据中,通过一个q搜索并打开一个d的打开次数,通过打开次数可以表示一个q和根据该q打开的搜索页面d的对应关系在与该q具有对应关系的所有d中的权重。例如图1中,有用户通过搜索关键词q2这一行为,打开过5次d1,则q2和d1之间的边上标记5,有用户通过搜索关键词q2这一行为,打开过1次d2,则q2和d2之间的边上标记1。那么这个5和1可以体现出q2分别在d1和d2的对应关系中的权重。显然在图1中,从d1传播来的标记分布向量对确定q2标记分布的影响会比从d2传播来的标记分布向量对确定q2标记分布的影响要大。

由于不同的打开次数可以影响到确定待标记关键词的标记分布向量,故本步骤还可以在目标关键词的标记分布向量进行传播时,将根据关键词所打开搜索页面的打开次数作为计算权重计算待标记关键词的标记分布向量。

继续以上述例子为例,当q2获取到从d1传播来的标记分布向量和从d2传播来的标记分布向量时,在根据这两个标记分布向量确定q2的标记分布向量时,可以将根据q2打开d1的次数作为从d1传播来的标记分布向量的权重,将根据q2打开d2的次数作为从d2传播来的标记分布向量的权重进行计算。由于根据q2打开d1的次数要大于根据q2打开d2的次数,故在计算q2的标记分布向量时,从d1传播来的标记分布向量(例如可以为q1的标记分布向量)对计算影响会较大,从d2传播来的标记分布向量(例如可以为q3的标记分布向量)对计算影响会较小。原因在于,由于根据q2打开d1的次数比根据q2打开d2的次数多,也就是说用户在输入q2时,较大部分的搜索意图是为了查看d1的页面内容,所以对于q1来说,由于输入q1也会打开d1,故q1所体现的搜索意图与q2应该体现的搜索意图相似的可能性较高。

s204:根据待标记关键词的标记分布向量确定待标记关键词的标记。

由于前述已经明确,标记分布向量中各位置的数值所表示的标记可以是预先设定的,故根据该标记分布向量可以明确待标记关键词在不同维度标记下的分布概率,从而可以以此确定出待标记关键词的标记。一个关键词的标记数量可以有一个或多个,本申请对此不做限定。当一个关键词的标记具有多个时,该多个标记还可以具有对应的概率分布,通过概率分布标识这个关键词所体现的搜索意图更倾向于哪一个标记。例如一个关键词的标记可以包括视频和音频,对于视频这个标记,其概率分布为52%,对于音频这个标记,其概率分布为40%,当有用户根据该关键词进行搜索时,搜索引擎通过该关键词的标记,可以明确用户的搜索意图可能是搜索视频或者搜索音频,而且通过概率分布可以进一步明确该用户的搜索意图更倾向于搜索视频。故搜索引擎在针对该关键词进行搜索时,可以在搜索结果中展示与视频或音频相关的搜索页面,其中,可以相对更多的展示与视频相关的搜索页面。

可选的,本申请实施例可以根据预设条件作为判断依据,以此从标记分布向量中各维度标记的分布概率中选择出满足该预设条件的标记作为该待标记关键词的标记。在根据待标记关键词的标记分布向量确定待标记关键词的标记时,可以先确定出待标记关键词的标记分布,该标记分布可以体现待标记关键词在各个维度的标记中的概率分布,再基于预设条件从标记分布中确定出待标记关键词的标记。

该预设条件可以是分布概率较高的几个或最高的标记作为待标记关键词的标记,也可以是将分布概率高于预设值的标记作为待标记关键词的标记。通过预设条件确定待标记关键词的标记的过程可以视为置信度判定的过程,即确定概率分布是否可信。

例如图3所示,待标记关键词为“1月去香港穿什么衣服”,在历史数据中用户已经根据该待标记关键词打开过搜索页面url1和url2,故将该待标记关键词添加到二部图中可以如图3所示,在二部图中,还包括已标记的关键词1和关键词2,根据关键词1打开的是url1,根据关键词2打开的是url2。假设标记维度为2,分别为信息/天气预报和日常消费/服装,其中,关键词1的标记分布可以是信息/天气预报:1和日常消费/服装:0,关键词2的标记分布可以是信息/天气预报:0和日常消费/服装:1,当关键词1的标记分布向量和关键词2的标记分布向量在二部图中传播到该待标记关键词时,通过相关运算,确定该待标记关键词的标记分布为信息/天气预报:0.75和日常消费/服装:0.22,若预设条件为大于60%,那么根据该预设条件可以进行置信度判断,从而确定出信息/天气预报这一标记的概率分布是可信的,可以作为待标记关键词的标记。

可见,在获取到待标记的关键词时,可以将该待标记关键词添加到二部图中,该二部图中包括关键词与根据关键词所打开搜索页面间的对应关系,该二部图中包括已标记了标记分布的关键词。由于待标记关键词在添加到二部图中时并不具有标记分布,故可以在二部图中确定出目标关键词,该目标关键词为二部图中与根据待标记关键词所打开搜索页面具有对应关系的关键词,并将目标关键词的标记分布向量在二部图中进行传播,传播的过程中,待标记关键词可以根据预定的规则计算传播到自身的标记分布向量,从而得到待标记关键词的标记分布向量,并根据该标记分布向量确定出该待标记关键词的标记。由于在确定待标记关键词标记的过程中,参考到了目标关键词的标记分布,而根据目标关键词所打开的搜索页面中部分或全部与根据待标记关键词所打开的搜索页面相同,所以目标关键词的标记分布与待标记关键词的标记分布具有一定的相关性,故以此确定出待标记关键词的标记更为准确,更能够与待标记关键词体现的搜索意图相符,可见,本申请在确定关键词的标记时,不需要人工标记,高效且标记更为准确。

在前述提到,待标记关键词可以是新出现在网络中的用于搜索的关键词。这里所谓的新出现可以理解为被用户使用搜索过几次或者还未被搜索过。

针对搜索过几次的情况,有可能用户在看到搜索结果后并未选择打开其中的搜索页面,在这种情况下,有可能并不能确认出根据该待标记关键词打开的搜索页面。针对还未被搜索过的情况,可以为用户刚刚在搜索引擎中输入待标记关键词,尚未根据该待标记关键词得到搜索结果的情况,在这种情况下,尚不能确认出根据该待标记关键词打开的搜索页面。

若不能确定出根据待标记关键词所打开的搜索页面,可能难以准确的将该待标记关键词添加到二部图中,即难以确定将用于表示待标记关键词的节点与二部图中的哪些节点进行连线。

故可选的,在获取待标记关键词之后,还可以判断待标记关键词是否具有与根据待标记关键词所打开搜索页面间的对应关系。若没有,对待标记关键词进行分词处理,得到多个分词。通过分词,可以将待标记关键词分为多个部分,由于待标记关键词的分词也可以一定程度上体现出该待标记关键词所携带的搜索意图,故针对上述情况,可以通过分析分词得到的多个分词来判断待标记关键词的搜索意图。

在分词后,可以确定二部图中是否有与这些分词中部分或全部相同的关键词。若多个分词中具有与二部图中关键词相同的分词,根据二部图中与多个分词部分或全部相同的关键词的标记分布确定待标记关键词的标记分布。

例如待标记关键词为“1月去香港穿什么衣服”,通过分词得到三个分词,分别为“1月”、“去香港”和“穿什么衣服”,若二部图的关键词中具有“1月”和“去香港”这两个关键词,可以根据这两个关键词自身的标记分布作为确定待标记关键词“1月去香港穿什么衣服”的标记分布。具体的确定方式本申请实施例不做限定,例如可以求平均等。

由此,即使当待标记关键词是刚出现在网络上用于搜索,通过本申请实施例的上述方案,也能一定程度上快速确定出该待标记关键词的标记,提高了用户的搜索体验。

在本申请实施例所应用的二部图中包括的关键词主要是历史搜索数据中用户用于搜索的关键词,而用户输入的关键词数量一般是较为有限的,若仅用用户曾输入的关键词作为构建二部图的基础,二部图的数据量是较为有限的,若能够有效扩充二部图中包含的数量,可以进一步的提高通过二部图对关键词进行分类标记的精度。

发明人发现,有些情况下,用户输入的关键词可能比较长,故可以通过对用户输入的关键词进行分词来提高二部图所包括的数据量。

故此,在前述实施例的基础上,本申请实施例提供了一种扩充二部图的方式,对二部图中的关键词进行分词。

其中,任一个关键词的分词具有与根据这个关键词所打开搜索页面间的对应关系,以及具有这个关键词的标记分布。通过上述规则将分词添加到二部图中,不仅可以让这些分词保留了原关键词所体现的用户搜索意图特点,而且还能起到扩充二部图数据量的作用。

在将分词添加到二部图后,可以将这些分词作为二部图中新的关键词。对分词后的二部图进行关键词的标记分布向量的传播。传播的次数不限,可以是预定次数或者当关键词的标记分布趋于稳定为止。

例如在分词前,二部图的结构如图4a所示。其中关键词“1月去香港穿什么衣服”可以进行分词,通过分词得到三个分词,分别为“1月”、“去香港”和“穿什么衣服”,将这三个分词遵循关键词“1月去香港穿什么衣服”原本在二部图中与搜索页面的对应关系将这三个分词添加到二部图中,并将这三个分词作为二部图中新的关键词。添加了这三个分词的二部图可以如图4b所示。

基于前述实施例提供的一种关键词标记方法,本实施例提供了一种关键词标记装置,图5为本申请实施例提供的一种关键词标记装置的装置结构图,所述装置包括获取单元501、添加单元502、传播单元503和确定单元504:

所述获取单元501,用于获取待标记关键词;

所述添加单元502,用于根据所述待标记关键词与根据所述待标记关键词所打开搜索页面间的对应关系,将所述待标记关键词添加到二部图中,所述二部图包括关键词与根据关键词所打开搜索页面间的对应关系,所述二部图中包括的关键词已标记了标记分布;

所述传播单元503,用于将目标关键词的标记分布向量在所述二部图中进行传播,得到所述待标记关键词的标记分布向量;所述目标关键词为所述二部图中与根据所述待标记关键词所打开搜索页面具有对应关系的关键词,所述目标关键词的标记分布向量为根据所述目标关键词已标记的标记分布构建的;

所述确定单元504,用于根据所述待标记关键词的标记分布向量确定所述待标记关键词的标记。

可选的,所述装置还包括判断单元:

所述判断单元,用于判断所述待标记关键词是否具有与根据所述待标记关键词所打开搜索页面间的对应关系;

若没有,对所述待标记关键词进行分词处理,得到多个分词;

若所述多个分词中具有与所述二部图中关键词相同的分词,触发所述确定单元,所述确定单元还用于根据所述二部图中与所述多个分词部分或全部相同的关键词的标记分布确定所述待标记关键词的标记分布。

可选的,在所述二部图的关键词与根据关键词所打开搜索页面间的对应关系中,还包括根据关键词所打开搜索页面的打开次数,所述传播单元还用于在所述目标关键词的标记分布向量进行传播时,将根据关键词所打开搜索页面的打开次数作为计算权重计算所述待标记关键词的标记分布向量。

可选的,所述装置还包括分词单元:

所述分词单元,用于对所述二部图中的关键词进行分词,其中,任一个关键词的分词具有与根据这个关键词所打开搜索页面间的对应关系,以及具有这个关键词的标记分布;

所述传播单元还用于在分词后的所述二部图进行关键词的标记分布向量的传播。

可选的,所述确定单元包括判断子单元和确定子单元:

所述判断子单元,用于判断所述待标记关键词的标记分布向量中各维度标记的分布概率;

所述确定子单元,用于将分布概率满足预设条件的标记作为所述待标记关键词的标记。

可见,在获取到待标记的关键词时,可以将该待标记关键词添加到二部图中,该二部图中包括关键词与根据关键词所打开搜索页面间的对应关系,该二部图中包括了已标记了标记分布的关键词。由于待标记关键词在添加到二部图中时并不具有标记分布,故可以在二部图中确定出目标关键词,该目标关键词为二部图中与根据待标记关键词所打开搜索页面具有对应关系的关键词,并将目标关键词的标记分布向量在二部图中进行传播,传播的过程中,待标记关键词可以根据预定的规则计算传播到自身的标记分布向量,从而得到待标记关键词的标记分布向量,并根据该标记分布向量确定出该待标记关键词的标记。由于在确定待标记关键词标记的过程中,参考到了目标关键词的标记分布,而根据目标关键词所打开的搜索页面中部分或全部与根据待标记关键词所打开的搜索页面相同,所以目标关键词的标记分布与待标记关键词的标记分布具有一定的相关性,故以此确定出待标记关键词的标记更为准确,更能够与待标记关键词体现的搜索意图相符,可见,本申请在确定关键词的标记时,不需要人工标记,高效且标记更为准确。

图6是根据一示例性实施例示出的一种用于关键词标记的装置600的框图。例如,装置600可以是机器人,移动电话,计算机,数字广播终端,消息收发设备,游戏控制台,平板设备,医疗设备,健身设备,个人数字助理等。

参照图6,装置600可以包括以下一个或多个组件:处理组件602,存储器604,电源组件606,多媒体组件608,音频组件610,输入/输出(i/o)的接口612,传感器组件614,以及通信组件616。

处理组件602通常控制装置600的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。处理元件602可以包括一个或多个处理器620来执行指令,以完成上述的方法的全部或部分步骤。此外,处理组件602可以包括一个或多个模块,便于处理组件602和其他组件之间的交互。例如,处理部件602可以包括多媒体模块,以方便多媒体组件608和处理组件602之间的交互。

存储器604被配置为存储各种类型的数据以支持在装置600的操作。这些数据的示例包括用于在装置600上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。存储器604可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(sram),电可擦除可编程只读存储器(eeprom),可擦除可编程只读存储器(eprom),可编程只读存储器(prom),只读存储器(rom),磁存储器,快闪存储器,磁盘或光盘。

电源组件606为装置600的各种组件提供电力。电源组件606可以包括电源管理系统,一个或多个电源,及其他与为装置600生成、管理和分配电力相关联的组件。

多媒体组件608包括在所述装置600和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(lcd)和触摸面板(tp)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件608包括一个前置摄像头和/或后置摄像头。当装置600处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件610被配置为输出和/或输入音频信号。例如,音频组件610包括一个麦克风(mic),当装置600处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器604或经由通信组件616发送。在一些实施例中,音频组件610还包括一个扬声器,用于输出音频信号。

i/o接口612为处理组件602和外围接口模块之间提供接口,上述外围接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件614包括一个或多个传感器,用于为装置600提供各个方面的状态评估。例如,传感器组件614可以检测到装置600的打开/关闭状态,组件的相对定位,例如所述组件为装置600的显示器和小键盘,传感器组件614还可以检测装置600或装置600一个组件的位置改变,用户与装置600接触的存在或不存在,装置600方位或加速/减速和装置600的温度变化。传感器组件614可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件614还可以包括光传感器,如cmos或ccd图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件614还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器或温度传感器。

通信组件616被配置为便于装置600和其他设备之间有线或无线方式的通信。装置600可以接入基于通信标准的无线网络,如wifi,2g或8g,或它们的组合。在一个示例性实施例中,通信部件616经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,所述通信部件616还包括近场通信(nfc)模块,以促进短程通信。例如,在nfc模块可基于射频识别(rfid)技术,红外数据协会(irda)技术,超宽带(uwb)技术,蓝牙(bt)技术和其他技术来实现。

在示例性实施例中,装置600可以被一个或多个应用专用集成电路(asic)、数字信号处理器(dsp)、数字信号处理设备(dspd)、可编程逻辑器件(pld)、现场可编程门阵列(fpga)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述方法。

在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器604,上述指令可由装置600的处理器620执行以完成上述方法。例如,所述非临时性计算机可读存储介质可以是rom、随机存取存储器(ram)、cd-rom、磁带、软盘和光数据存储设备等。

一种非临时性计算机可读存储介质,当所述存储介质中的指令由移动终端的处理器执行时,使得移动终端能够执行一种用于文本相关性的确定方法,所述方法包括:

获取待标记关键词;

根据所述待标记关键词与根据所述待标记关键词所打开搜索页面间的对应关系,将所述待标记关键词添加到二部图中,所述二部图包括关键词与根据关键词所打开搜索页面间的对应关系,所述二部图中包括的关键词已标记了标记分布;

将目标关键词的标记分布向量在所述二部图中进行传播,得到所述待标记关键词的标记分布向量;所述目标关键词为所述二部图中与根据所述待标记关键词所打开搜索页面具有对应关系的关键词,所述目标关键词的标记分布向量为根据所述目标关键词已标记的标记分布构建的;

根据所述待标记关键词的标记分布向量确定所述待标记关键词的标记。

图7是本发明实施例中服务器的结构示意图。该服务器700可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(centralprocessingunits,cpu)722(例如,一个或一个以上处理器)和存储器732,一个或一个以上存储应用程序742或数据744的存储介质730(例如一个或一个以上海量存储设备)。其中,存储器732和存储介质730可以是短暂存储或持久存储。存储在存储介质730的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器722可以设置为与存储介质730通信,在服务器700上执行存储介质730中的一系列指令操作。

服务器700还可以包括一个或一个以上电源724,一个或一个以上有线或无线网络接口750,一个或一个以上输入输出接口758,一个或一个以上键盘754,和/或,一个或一个以上操作系统741,例如windowsservertm,macosxtm,unixtm,linuxtm,freebsdtm等等。

需要说明的是,本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于设备及系统实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的设备及系统实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。

以上所述,仅为本申请的一种具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应该以权利要求的保护范围为准。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1