搜索关键词聚类方法及装置与流程

文档序号：11063512阅读：502来源：国知局

本发明涉及数据分析技术领域，特别是涉及一种搜索关键词聚类方法及装置。

背景技术：

网络用户通常会使用网站内的站内搜索功能来获取所需信息，用户在搜索的过程中，会产生很多搜索关键词。网站站主通常通过对产生的搜索关键词进行聚类获取有关所述关键词聚类的信息，进而更好的为用户服务。

目前一般采用标签传播方法对产生的搜索关键词进行聚类，该方案具体为：首先获取多个对话产生的搜索关键词，其中，将用户从进入一个网站到离开的过程称为一次对话，在一个对话当中会产生多个搜索关键词；其次根据每个会话中产生的搜索关键词创建图结构，该图结构中每个搜索关键词对应一个节点，每个节点中包含有对应的权重属性和标签，这里的权重属性为每个对话中搜索关键词的搜索次数，标签默认为该搜索关键词的名称；最后遍历上述图结构中的每个节点进行标签更改，直至每个节点的标签不再改变为止，完成对搜索关键词的聚类。

虽然采用标签传播算法执行的时间短，复杂度低且分类效果好，能够达到聚类效果。但在互联网大数据背景下，每天网站都会产生大量的搜索关键词，并且标签传播方法对搜索关键词进行聚类的执行时间是随着网站内搜索关键词递增的，因此，理论上使用标签传播方法对大量的搜索关键词进行聚类是不可行的。

技术实现要素：

鉴于上述问题，提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的搜索关键词聚类方法及装置，使得标签传播方法对大量的搜索关键词聚类可行，同时缩短了聚类的执行时间，进而减小聚类的计算量。

依据本发明一方面，提供了一种搜索关键词增量聚类方法，包括：

获取网站新增的搜索关键词；

判断所述网站搜索关键词的历史聚类结果中是否存在与所述新增的搜索关键词相同的关联关键词；

若存在，则根据所述关联关键词，采用标签传播方法将所述历史聚类结果与所述新增的搜索关键词进行聚类。

依据本发明另一方面，提一种搜索关键词增量聚类供置，包括：

获取单元，用于获取网站新增的搜索关键词；

判断单元，用于判断所述网站搜索关键词的历史聚类结果中是否存在与所述新增的搜索关键词相同的关联关键词；

第一聚类单元，用于若所述网站搜索关键词的历史聚类结果中存在与所述新增的搜索关键词相同的关联关键词，则根据所述关联关键词，采用标签传播方法将所述历史聚类结果与所述新增的搜索关键词进行聚类。

借由上述技术方案，本发明提供的一种搜索关键词聚类方法及装置，首先获取网站新增的搜索关键词；然后在判断所述网站搜索关键词的历史聚类结果中存在与所述新增的搜索关键词相同的关联关键词时，根据所述关联关键词采用标签传播方法将所述历史聚类结果与所述新增的搜索关键词聚类，该种方式通过将述关联关键词作为所述新增的搜素关键词与历史搜索关键词的纽带，针对这两部分搜索关键词进行聚类，与目前对搜索关键词聚类采用的标签传播方法相比，大大缩短了聚类计算量，进而缩短了聚类的执行时间。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1示出了本发明实施例提供的一种搜索关键词聚类方法的流程示意图；

图2示出了本发明实施例提供的另一种搜索关键词聚类方法的流程示意图；

图3示出了本发明实施例提供的一种搜索关键词聚类装置的结构示意图；

图4示出了本发明实施例提供的另一种搜索关键词聚类装置的结构示意图；

图5示出了本发明实施例提供的一个会话的图结构；

图6示出了本发明实施例提供的另一个会话的图结构；

图7示出了本发明实施例提供的两个会话搜索关键词组合的图结构；

图8示出了本发明实施例提供的添加标签后的图结构；

图9示出了本发明实施例提供的一会话建立子图后的初始状态结构图；

图10示出了本发明实施例提供的一会话标签更改后的聚类结果结构图；

图11示出了本发明实施例提供的历史搜索关键词聚类结果中的两个子聚类结构图；

图12示出了本发明实施例提供的关联词分布在历史聚类结果中的一个子聚类的结构图；

图13示出了本发明实施例提供的关联词分布在历史聚类结果中的多个子聚类中的结构图；

图14示出了本发明实施例提供的新增的搜索关键词与历史聚类结果无关的结构图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

本发明实施例提供了一种搜索关键词增量聚类方法，如图1所示，所述方法包括：

101、获取网站新增的搜索关键词。

当用户以关键词查找信息时，搜索引擎会在数据库中进行搜寻，如果找到与用户要求内容符合的网站，通常会根据网页中关键词的匹配程度等显示网站链接，并按顺序返回显示给用户，上述用户输入的关键词即为搜索关键词。

其中，每天用户都会在网站上有新的搜索，随之网站也会产生许多新增的搜索关键词，通常用户这些搜索关键词进入的页面都是用户想要的东西，因此这些搜索关键词对于网站站主是很有价值的，他们可以根据用户的搜索关键词对用户进行引导，进而提高用户体验。

进一步地，所述获取网站新增的搜索关键词的方法可以通过在网站终端编写获取新增搜索关键词的代码，通过所述代码获取网站新增的搜索关键词，应说明的是，本实施例对获取新增的搜索关键词的方法不做限定，具体可根据实际情况进行选择。

102、判断所述网站搜索关键词的历史聚类结果中是否存在与所述新增的搜索关键词相同的关联关键词。

其中，所述历史聚类结果为该网站对历史搜索关键词聚类的结果，所述历史聚类结果当中包含有对用户历史搜索关键词的多个子聚类，每个子聚类可以用一个子图来表示，每个子图当中包含各个搜索关键词的搜索次数、标签等等。

可理解的是，所述新增的关键词为新获取的用户搜素关键词，这些新增的搜索关键词中也有可能为历史搜索关键词中未出现的关键词，也有可能与历史关键词相同或有联系，举例来说，当用户在今年的10月在网站上搜索了“国庆”和“阅兵”两个关键词，为网站的新增关键词，同时该用户曾于今年的7月在网站上搜索了“德国”和“阅兵”两个关键词，为网站的历史搜索关键词，则关键词“阅兵”就是与网站搜索关键词的历史聚类结果中与新增的搜索关键词相同的关联关键词。这样在进行聚类的过程中就可根据这些与历史关键词相同或有联系的关联关键词，对历史聚类结果和新增的搜索关键词进行聚类，可以达到缩短聚类时间的效果。

103、若所述网站搜索关键词的历史聚类结果中存在与所述新增的搜索关键词相同的关联关键词，则根据所述关联关键词，采用标签传播方法将所述历史聚类结果与所述新增的搜索关键词进行聚类。

由于标签传播方法执行时间短，复杂度低且分类效果好，是进行聚类的一种很好的方法。其中所述标签传播方法是一种基于图的半监督学习方法，其基本思路是用已标记节点的标签信息去预测未标记节点的标签信息。

上述标签传播方法具体的流程为：首先通过搜索关键词建立子图，所述聚类子图中包含有节点，其中，每个搜索关键词对应一个节点，每个节点包含一个权重属性，这里的权重属性代表一次会话中搜索关键词的搜索次数，如图5和图6所示，例如一个会话中包含三个搜索关键词，分别为animal、pig和tiger，逗号后面为他们各自的权重。另一个会话中也包含三个搜索关键词，分别为pig、dog和cat，同样逗号后面表示他们各自的权重。图7表示两个会话的搜索关键词组合，其中搜索关键词为pig的权重为两个会话中该搜索关键词的权重之和；其次为每个搜索关键词添加标签，拥有相同标签的节点属于同一类，初始状态下每个节点的标签均为自己的搜索关键词名称，图8为上述关键词组合后添加标签后的子图结构，其中每个节点最后一个名称即为这个节点的标签；最后遍历每个节点，更改节点标签，并且对搜索关键词进行聚类。其中，更改节点标签的规则为：根据统计与当前节点相连的所有节点(包括当前节点)的标签与权重，将权重最大的标签更改为当前节点的标签，举例来说如图8所示的子图结构中与节点“animal”相连的节点标签和权重统计为pig-3，animal-2，tiger-1，其中pig-3表示节点“pig”的权重为3，为权重最大的节点，所以上述节点“animal”的标签应更改为pig，依次遍历每个节点结束后，重新进行遍历，直到每个节点的标签都不改变为止。举例来说，图9为一会话建立子图后的初始状态结构图，在经过标签更改后的聚类结果如图10所示，图10中得到了两个聚类“pig”和“pet”。

其中，若存在所述关联关键词，则根据所述关联关键词在所述历史聚类结果中子聚类的分布情况，采用上述标签传播方法对所述历史聚类结果与所述新增的搜索关键词聚类，得到聚类结果，其中，所述分布情况为所述关联关键词分布在所述历史聚类结果中的一个子聚类中或者多个子聚类中，例如图11为历史搜索关键词聚类结果中的两个子聚类结构图，图12为所述关联词分布在历史聚类结果中的一个子聚类中，其中，搜索关键词red与图11中右边的子聚类相同，为关联关键词，图13为所述关联词分布在历史聚类结果中的多个子聚类中，其中，搜索关键词red与图11中右边的子聚类相同，搜索关键词pig与图11中左边的子聚类相同，这两个搜索关键词均为关联关键词。

本发明实施例提供的一种搜索关键词聚类方法，首先获取网站新增的搜索关键词；然后判断所述网站搜索关键词的历史聚类结果中是否存在与所述新增的搜索关键词相同的关联关键词；若所述网站搜索关键词的历史聚类结果中存在与所述新增的搜索关键词相同的关联关键词，则根据所述关联关键词，采用标签传播方法将所述历史聚类结果与所述新增的搜索关键词聚类，得到聚类结果；由此，使得通过标签传播方法对大量的搜索关键词聚类可行，同时缩短了聚类的执行时间，进而减小聚类的计算量。

本发明实施例提供了另一种搜索关键词增量聚类方法，如图2所示，所述方法包括：

201、获取网站新增的搜索关键词。

其中，所述新增的搜索关键词为网站上每天更新的搜索关键词，随着时间的积累，可将网站的搜索关键词分为历史搜索关键词和新增的搜索关键词，需要说明的是，所述历史搜索关键词同样也是通过每天新增的搜索关键词与之前历史搜索关键词进行聚类而得到的。

202、判断所述网站搜索关键词的历史聚类结果中是否存在与所述新增的搜索关键词相同的关联关键词，若存在，则执行步骤204，若不存在，则执行步骤203。

203、采用标签传播方法对所述新增的搜索关键词聚类，得到新增搜索关键词聚类结果，并将所述新增搜索关键词聚类结果添加至所述历史聚类结果中。

由于不存在步骤202中所述的关联关键词，则说明新增的搜索关键词与所述历史搜索关键词并不关联，则可直接将新增搜索关键词聚类的结果添加至历史聚类结果中，得到新的搜索关键词聚类结果。例如，图10中的搜索关键词为历史聚类结果，图14为新增的搜索关键词与历史聚类结果无关，则说明不存在所述关联关键词。

204、确定所述关联关键词在所述历史聚类结果子聚类中的分布情况。

需要说明的是，上述的分布情况为所述关联关键词分布在所述历史聚类结果中的一个子聚类中或多个子聚类中，由于所述关联关键词为新增的搜索关键词与所述历史搜索关键词的共有的搜索关键词，所以根据所述关联关键词分布情况的不同分为步骤205和步骤206两种情况进行聚类。

205、若所述关联关键词分布和在所述历史聚类结果中的一个子聚类中，则采用标签传播方法将所述新增的搜索关键词聚类至所述历史聚类结果中的所述一个子聚类中。

其中，所述历史聚类结果当中有多个子聚类，每个子聚类可以用一个子图来代表自己的类别，本步骤中的所述关联关键词分布在所述历史聚类结果中的一个子聚类当中，则说明所述关联关键词与该子聚类中的搜索关键词有相同的搜索关键词，根据相同的搜索关键词，采用标签传播方法将所述新增的搜索关键词聚类至所述历史聚类结果中的所述一个子聚类中。

进一步地，所述采用标签传播方法将所述新增的搜索关键词聚类至所述历史聚类结果中的所述子聚类中，首先采用标签传播方法将所述新增的搜索关键词聚类，得到新增搜索关键词聚类结果，其中所述新增搜索关键词聚类结果当中含有所述关联关键词，根据所述关联关键词，将所述新增搜索关键词词聚类结果聚类至所述历史聚类结果中的所述子聚类中。

需要说明的是，在聚类的过程中，所述关联关键词的权重为新增搜索关键词聚类结果中所述关联关键词权重与历史聚类结果中所述关联关键词权重之和。

206、若所述关联关键词分布在所述历史聚类结果中的多个子聚类中，则采用标签传播方法将所述新增的搜索关键词与所述历史聚类结果中多个子聚类进行聚类。

本步骤中的所述关联关键词分布在所述历史聚类结果中的多个子聚类当中，则说明所述关联关键词与该多个子聚类中的搜索关键词有相同的搜索关键词，根据相同的搜索关键词，采用标签传播方法将所述新增的搜索关键词与所述历史聚类结果中多个子聚类进行聚类。

进一步地，所述采用标签传播方法将所述新增的搜索关键词与所述历史聚类结果中多个子聚类进行聚类，首先采用标签传播方法将所述新增的搜索关键词聚类，得到新增搜索关键词聚类结果，其中所述新增搜索关键词聚类结果当中含有所述关联关键词，然后根据所述关联关键词，将所述新增搜索关键词聚类结果与所述历史聚类结果中多个子聚类进行聚类。

需要说明的是，多个子聚类可以在聚类的过程中可能聚类为一个更大的子聚类，所述关联关键词的权重为新增搜索关键词聚类结果中所述关联关键词权重与历史聚类结果多个子聚类中所述关联关键词权重之和。

本发明实施例提供的另一种搜索关键词聚类方法，首先获取网站新增的搜索关键词；然后判断所述网站搜索关键词的历史聚类结果中是否存在与所述新增的搜索关键词相同的关联关键词；若所述网站搜索关键词的历史聚类结果中存在与所述新增的搜索关键词相同的关联关键词，则根据所述关联关键词，采用标签传播方法将所述历史聚类结果与所述新增的搜索关键词聚类，得到聚类结果；由此，使得通过标签传播方法对大量的搜索关键词聚类可行，同时缩短了聚类的执行时间，进而减小聚类的计算量。

另外，本实施例使用标签传播方法在处理搜索关键词数据上做出了有效的筛选，通过获取新增的搜索关键词及历史搜索关键词数据，使得标签传播方法对大量的搜索关键词聚类可行。

需要说明的是，上述的标签传播方法在处理大量数据的同时，对所处理的数据类型不做限制，并不局限于上述方法提到的搜索关键词数据，还可以是其他的海量数据。

进一步地，作为图1所示方法的具体实现，本发明实施例提供一种搜索关键词聚类装置，该装置实施例与前述方法实施例对应，为便于阅读，本装置不在对前述方法实施例中的细节内容进行逐一赘述，但应当明确，本实施例中的装置能够对应实现前述方法实施例中的全部内容，如图3所示，所述装置包括：获取单元31、判断单元32、第一聚类单元33。

所述获取单元31，用于获取网站新增的搜索关键词；

所述判断单元32，用于判断所述网站搜索关键词的历史聚类结果中是否存在与所述新增的搜索关键词相同的关联关键词；

所述第一聚类单元33，用于若所述网站搜索关键词的历史聚类结果中存在与所述新增的搜索关键词相同的关联关键词，则根据所述关联关键词，采用标签传播方法将所述历史聚类结果与所述新增的搜索关键词进行聚类。

本发明实施例提供的一种搜索关键词聚类装置，首先获取网站新增的搜索关键词；然后判断所述网站搜索关键词的历史聚类结果中是否存在与所述新增的搜索关键词相同的关联关键词；若所述网站搜索关键词的历史聚类结果中存在与所述新增的搜索关键词相同的关联关键词，则根据所述关联关键词，采用标签传播方法将所述历史聚类结果与所述新增的搜索关键词聚类，得到聚类结果；由此，使得通过标签传播方法对大量的搜索关键词聚类可行，同时缩短了聚类的执行时间，进而减小聚类的计算量。

进一步地，作为图2所示方法的具体实现，本发明实施例提供另一种搜索关键词聚类，该装置实施例与前述方法实施例对应，为便于阅读，本装置不在对前述方法实施例中的细节内容进行逐一赘述，但应当明确，本实施例中的装置能够对应实现前述方法实施例中的全部内容，如图4所示，所述装置还包括第二聚类单元34；

所述第二聚类单元34，用于若所述网站搜索关键词的历史聚类结果中不存在与所述新增的搜索关键词相同的关联关键词，则采用标签传播方法对所述新增的搜索关键词聚类，得到新增搜索关键词聚类结果，并将所述新增搜索关键词聚类结果添加至所述历史聚类结果中。

所述第一聚类单元具体包括：

确定模块，用于确定所述关联关键词在所述历史聚类结果子聚类中的分布情况，所述分布情况为所述关联关键词分布在所述历史聚类结果中的一个子聚类中或多个子聚类中；

第一聚类模块，用于若所述关联关键词分布在所述历史聚类结果中的一个子聚类中，则采用标签传播方法将所述新增的搜索关键词聚类至所述历史聚类结果中的所述一个子聚类中；

所述第一聚类模块，具体用于：

采用标签传播方法将所述新增的搜索关键词聚类，得到新增搜索关键词聚类结果；

将所述新增搜索关键词词聚类结果聚类至所述历史聚类结果中的所述子聚类中。

第二聚类模块，用于若所述关联关键词分布在所述历史聚类结果中的多个子聚类中，则采用标签传播方法将所述新增的搜索关键词与所述历史聚类结果中多个子聚类进行聚类。

所述第二聚类模块，具体用于：

采用标签传播方法将所述新增的搜索关键词聚类，得到新增搜索关键词聚类结果；

根据所述关联关键词所在历史聚类结果中的多个子聚类，将所述新增搜索关键词聚类结果与所述历史聚类结果中的多个子聚类进行聚类。

其中，本实施例使用标签传播方法在处理搜索关键词数据上做出了有效的筛选，通获取新增的搜索关键词及历史搜索关键词数据，使得标签传播方法对大量的搜索关键词聚类可行。

所述搜索关键词聚类装置包括处理器和存储器，上述获取单元31、判断单元32和第一聚类单元33等均作为程序单元存储在存储器中，由处理器执行存储在存储器中的上述程序单元来实现相应的功能。

处理器中包含内核，由内核去存储器中调取相应的程序单元。内核可以设置一个或以上，通过调整内核参数来使得标签传播方法对大量的搜索关键词聚类可行，同时缩短了聚类的执行时间，进而减小聚类的计算量。

存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)，存储器包括至少一个存储芯片。

本申请还提供了一种计算机程序产品，当在数据处理设备上执行时，适于执行初始化有如下方法步骤的程序代码：获取网站新增的搜索关键词；判断所述网站搜索关键词的历史聚类结果中是否存在与所述新增的搜索关键词相同的关联关键词；若存在，则根据所述关联关键词，采用标签传播方法将所述历史聚类结果与所述新增的搜索关键词聚类，得到聚类结果。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

以上仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：曹志明;何鑫;
技术所有人：北京国双科技有限公司;
我是此专利的发明人

上一篇：情感倾向性分析的方法及装置与制造工艺
上一篇：网页推荐方法以及推荐装置与制造工艺

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。