一种文档共享平台的关键词推荐方法及系统的制作方法

文档序号:6336669阅读:144来源:国知局
专利名称:一种文档共享平台的关键词推荐方法及系统的制作方法
一种文档共享平台的关键词推荐方法及系统
技术领域
本发明涉及一种互联网领域,特别涉及一种文档共享平台的关键词推荐方法及系统。
背景技术
随着互联网的普及,搜索引擎的使用次数愈发频繁。目前的搜索引擎的关键词 推荐仅限于用户输入检索词条时使用,并且只是将用户输入的关键词信息作为前缀去查 找匹配的关键词集合,再根据关键词的历史查询次数排序。对于文档共享平台,在文档 的提交过程中并没有相应的关键词推荐机制。此外,用户在提交文档过程中输入的更多 信息在关键词推荐方面没有得到利用。

发明内容本发明提供了一种文档共享平台的关键词推荐方法及系统,能够有效的利用用 户所提供的信息,为用户推荐更加适用的关键词。本发明提供了一种文档共享平台的关键词推荐方法,包括a.获取用户针对待 提交文档所输入的描述信息;b.获取关键词库;C.将待提交文档的描述信息与关键词库 进行匹配,获取对应的关键词列表;d.输出关键词列表。根据本发明一优选实施例,步骤b包括bl.搜集文档共享平台中已经标记有关 键词的多个已提交文档;b2.获取已提交文档的描述信息,组成已提交文档的描述向量; b3.根据已提交文档的描述向量对多个已提交文档进行聚类,获取每一聚类的聚类参数; b4.将对应于同一聚类参数的已提交文档的关键词聚合成一个关键词集合;b5.存储聚类 参数与其所对应的关键词集合,以形成关键词库。根据本发明一优选实施例,在步骤b3中,根据已提交文档的描述向量之间的距 离关系对多个已提交文档进行聚类。根据本发明一优选实施例,步骤C包括Cl.根据待提交文档的描述信息组成待 提交文档的描述向量;C2.根据待提交文档的描述向量确定与待提交文档匹配的聚类参 数;C3.根据与待提交文档匹配的聚类参数所对应的关键词集合形成关键词列表。根据本发明一优选实施例,在步骤C2中,根据待提交文档的描述向量与各聚类 参数之间的距离关系确定与待提交文档匹配的聚类参数。根据本发明一优选实施例,步骤C进一步包括C4.根据与待提交文档的描述信 息的相似度对关键词列表中的关键词进行排序。根据本发明一优选实施例,已提交文档的描述信息包括已提交文档的标题、摘 要以及分类信息或者其中一或多个的组合。根据本发明一优选实施例,待提交文档的描述信息包括待提交文档的标题、摘 要以及分类信息或者其中一或多个的组合。根据本发明一优选实施例,待提交文档的描述信息进一步包括关键词信息。
根据本发明一优选实施例,关键词推荐方法进一步包括e.将用户从关键词列 表中选择的关键词与待提交文档进行关联。本发明实施例进一步提供了一种文档共享平台的关键词推荐系统,包括用于 获取用户针对待提交文档所输入的描述信息的第一描述信息获取模块;用于获取关键词 库的关键词库获取模块;用于将待提交文档的描述信息与关键词库进行匹配,获取对应 的关键词列表的匹配模块;用于输出关键词列表的输出模块。根据本发明一优选实施例,关键词库获取模块包括用于搜集文档共享平台中 已经标记有关键词的多个已提交文档的关键词搜集模块;用于获取已提交文档的描述信 息,组成已提交文档的描述向量的第二描述信息获取模块;用于根据已提交文档的描述 向量对多个已提交文档进行聚类,获取每一聚类的聚类参数的聚类模块;用于将对应于 同一聚类参数的已提交文档的关键词聚合成一个关键词集合的关键词聚合模块;用于存 储聚类参数与其所对应的关键词集合以形成关键词库的存储模块。根据本发明一优选实施例,聚类模块根据已提交文档的描述向量之间的距离关 系对多个已提交文档进行聚类。根据本发明一优选实施例,第一描述信息获取模块根据所述待提交文档的描述 信息组成所述待提交文档的描述向量,匹配模块包括用于根据待提交文档的描述向量 确定与待提交文档匹配的聚类参数的聚类参数匹配模块;用于根据与所述待提交文档匹 配的聚类参数所对应的关键词集合形成所述关键词列表的列表形成模块。根据本发明一优选实施例,聚类参数匹配模块根据待提交文档的描述向量与各 聚类参数之间的距离关系确定与待提交文档匹配的聚类参数。根据本发明一优选实施例,匹配模块进一步包括排序模块,用于根据与待提 交文档的描述信息的相似度对关键词列表中的关键词进行排序。根据本发明一优选实施例,已提交文档的描述信息包括已提交文档的标题、摘 要以及分类信息或者其中一或多个的组合。根据本发明一优选实施例,待提交文档的描述信息包括待提交文档的标题、摘 要以及分类信息或者其中一或多个的组合。根据本发明一优选实施例,待提交文档的描述信息进一步包括关键词信息。根据本发明一优选实施例,关键词推荐系统进一步包括用于将用户从关键词 列表中选择的关键词与待提交文档进行关联的关联模块。通过上述方式,可以有效的利用用户所提供的信息,为用户推荐更加适用的关 键词。

图1是根据本发明一实施例的文档共享平台的关键词推荐方法的流程图。图2是根据本发明一实施例的信息输入页面的示意图。图3是根据本发明一实施例的关键词库生成过程的流程图。图4是根据本发明一实施例的关键词匹配过程的流程图。图5是根据本发明一实施例的文档共享平台的关键词推荐系统的示意框图。图6是根据本发明一实施例的关键词库获取模块的示意框图。
图7是根据本发明一实施例的匹配模块的示意框图。
具体实施方式下面结合附图和实施例对本发明进行详细说明。如图1所示,图1是根据本发明一实施例的文档共享平台的关键词推荐方法的流程图。在步骤100中,获取用户针对待提交文档所输入的描述信息。在本实施例中, 待提交文档的描述信息包括待提交文档的标题、摘要以及分类信息或者其中一或多个的 组合。例如,用户在向文档共享平台提交文档的过程中,文档共享平台会在浏览器上显 示如图2所示的信息输入页面,以供用户输入与其待提交文档相关的描述信息。在本实施例中,用户需要通过标题输入框21输入待提交文档的标题,通过摘要 输入框22输入待提交文档的摘要,并通过分类选择框23选择待提交文档的对应分类。例如,待提交文档为《专利法》,则用户可在标题输入框21输入“专利法”, 在摘要输入框22输入“专利法是确认发明人对其发明享有专有权,规定专利权人的权利 和义务的法律规范的总称”,而在分类选择框23选择法律文献或法律资料。浏览器会将 用户输入的上述描述信息发送到文档共享平台。在本实施例中,用户还可以通过关键词输入框24输入关键词信息。浏览器可将 关键词信息作为描述信息发送至文档共享平台。在步骤200中,获取关键词库。其中,在下文将参照图3详细描述关键词库的 生成过程。在优选实施例中,关键词库可以通过图3描述的步骤实时生成。在另一优选 实施例中,关键词库也可以通过图3描述的步骤预先生成并进行存储。此时,在步骤200 中,只需调用在先生成的关键词库。也就是说,步骤200中的获取关键词库包括生成关 键词库以及直接调用已生成关键词库两种形式。在步骤300中,将待提交文档的描述信息与关键词库进行匹配,并进一步获取 对应的关键词列表。其中,在下文将参照图4详细描述具体匹配过程。在步骤400中,输出该关键词列表。具体来说,将该关键词列表输入到图2所 示的信息输入页面的关键词推荐框25,以供用户进行选择。在步骤500中,将用户从关键词列表中选择的关键词与待提交文档进行关联, 并存储关联之后的关键词与待提交文档。此时,当用户以上述关键词进行检索时,文档 共享平台可通过该关键词检索到对应的文档,并将该文档作为检索结果呈现给用户。如图3所示,图3是根据本发明一实施例的关键词库生成过程的流程图。在步骤301中,搜集多个已提交文档。该多个已提交文档是文档共享平台中已 经标记有关键词的多个已提交文档。在步骤302中,获取已提交文档的描述信息,并组成已提交文档的描述向量。 该已提交文档的描述信息包括已提交文档的标题、摘要和/或分类信息或者其中一或多 个的组合。在优选实施例中,首先对已提交文档的标题、摘要以及分类信息进行分词及 过滤。分词的作用是将描述信息中的汉字序列切分成有意义的字词,以便后续处理。在 本实施例中,分词采用基于条件随机场(CRF)的方法进行,即将一个输入的句子序列, 通过模型,切分为多个词语的序列。其他的分词方法还包括正向匹配分词、反向匹配分词、正向反向匹配分词、基于全切分词图的分词、最大熵马尔科夫模型分词或最大 熵分词等,上述分词方法均为本领域公知技术,在此不再赘述。过滤的作用是去除标点 符号、助词等无用信息。由于句子中并不是每个词都有很强的表意能力,因此在进行筛 选时,需要考虑到该词的词性特征、在全局中出现的频率特征(Term Frequency/Inverse Document Frequency, TF/IDF)以及该词的表意能力。在分词之后,综合上述三个因素 对词进行过滤,筛选出合适的词作为文档的表征。随后,计算经分词及过滤后的字词的 权重值,并由各权重值形成描述向量。在本实施例中,权重值可以是词频/逆文档频率 (TF/IDF)权重。在步骤303中,根据已提交文档的描述向量对多个已提交文档进行聚类,并获 取每一聚类的聚类参数。在本步骤中,可采用各种公知方式对已提交文档进行聚类。具 体聚类算法可以包括划分法(Partitioning Methods)、层次法(Hierarchical Methods)、基于 密度的方法(Density-Based methods)、基于网格的方法(Grid-Based methods)、基于模型 的方法(Model-BasedMethods)。在本实施例中,所使用的聚类算法是CURE (Clustering UsingRepresentatives)算 法。CURE算法属于上述层次法的一种。CURE算法利用余弦定理计算上述各描述向量 之间的距离,并根据各描述向量之间的距离关系进行聚类。也就是说,将描述向量之间 的距离小于预定值的已提交文档作为同一聚类。在完成聚类后,从同一聚类的多个描述 向量中选择一最佳描述向量作为该聚类的聚类参数。当然,该聚类参数也可以是由若干 描述向量形成的一中间向量。CURE算法对每个类使用多个点进行表征,这些点能够有 效地描述当前聚类的形状,从而提高了聚类算法的性能。在步骤304中,将对应于同一聚类参数的已提交文档的关键词聚合成一个关键 词集合。也就是说,将同一聚类的已提交文档的关键词聚合成一个关键词集合。在步骤305中,存储该聚类参数以及与其所对应的关键词集合,由此形成关键 词库。如图4所示,图4是根据本发明一优选实施例的关键词匹配过程的流程图。在步骤401中,根据待提交文档的描述信息组成待提交文档的描述向量。描述 向量的具体组成方法与上文描述类似,在此不再赘述。在本步骤中,待提交文档的描述 信息除了标题、摘要以及分类信息外,还可以进一步包括用户输入的关键词信息。在步骤402中,根据待提交文档的描述向量确定与待提交文档匹配的聚类参 数。在此步骤中,可利用CURE算法确定待提交文档的描述向量与各聚类参数之间的距 离关系,并选择距离最近的聚类参数作为与待提交文档匹配的聚类参数。在步骤403中,根据与待提交文档匹配的聚类参数所对应的关键词集合形成关 键词列表。在步骤404中,根据与待提交文档的描述信息的相似度对关键词列表中的关键 词进行排序。对关键词列表中的关键词排序的目的是为了将与待提交文档关联性强的关 键词放在关键词列表的前面,将关联性弱的关键词放在后方。相似度判定可基于关键词 在待提交文档的描述信息中的出现频率或者关键词与待提交文档的描述向量的余弦相似 度等各种方式获得。相似度判定进一步可给予关键词与待提交文档描述信息中的词在全 局数据中的共现关系,根据语义相似度等特征进行相似度计算,并按照该相似度计算的结果进行排序。如图5所示,图5是根据本发明一实施例的文档共享平台的关键词推荐系统的示 意框图。本发明的文档共享平台的关键词推荐系统包括第一描述信息获取模块50、关 键词库获取模块51、匹配模块52、输出模块53以及关联模块54。第一描述信息获取模块50用于获取用户针对待提交文档所输入的描述信息。待 提交文档的描述信息包括待提交文档的标题、摘要以及分类信息。关键词库获取模块51则用于获取关键词库。在下文将参照图6详细描述关键词 库获取模块51。匹配模块52则用于将第一描述信息获取模块50获取的待提交文档的描述信息与 关键词库获取模块51获取的关键词库进行匹配,获取与用户所输入的待提交文档所对应 的关键词列表。在下文将参照图7详细描述匹配模块52。输出模块53则用于输出该关键词列表。关联模块54则用于将用户从关键词列表中选择的关键词与待提交文档进行关 联。该关键词推荐系统还可以进一步包括用于存储关联后的关键词与待提交文档的文档 存储模块(未图示)。如图6所示,图6是根据本发明一实施例的关键词库获取模块的示意框图。在本发明一实施例中,关键词库获取模块51进一步包括文档搜集模块511、第 二描述信息获取模块512、聚类模块513、关键词聚合模块514以及存储模块515。文档搜集模块511用于搜集文档共享平台中已经标记有关键词的多个已提交文 档。第二描述信息获取模块512用于获取已提交文档的描述信息,组成已提交文档 的描述向量。该已提交文档的描述信息包括已提交文档的标题、摘要和/或分类信息或 者其中一或多个的组合。在优选实施例中,首先对已提交文档的标题、摘要以及分类信 息进行分词及过滤。分词的作用是将描述信息中的汉字序列切分成有意义的字词,以便 后续处理。在本实施例中,分词采用基于条件随机场(CRF)的方法进行,即将一个输 入的句子序列,通过模型,切分为多个词语的序列。其他的分词方法还包括正向匹 配分词、反向匹配分词、正向反向匹配分词、基于全切分词图的分词、最大熵马尔科夫 模型分词或最大熵分词等,上述分词方法均为本领域公知技术,在此不再赘述。过滤的 作用是去除标点符号、助词等无用信息。由于句子中并不是每个词都有很强的表意能 力,因此在进行筛选时,需要考虑到该词的词性特征、在全局中出现的频率特征(Term Frequency/Inverse Document Frequency, TF/IDF)以及该词的表意能力。在分词之后,综 合上述三个因素对词进行过滤,筛选出合适的词作为文档的表征。随后,计算经分词及 过滤后的字词的权重值,并由各权重值形成描述向量。在本实施例中,权重值可以是词 频/逆文档频率(TF/IDF)权重。聚类模块513用于根据已提交文档的描述向量对多个已提交文档进行聚类,并 且获取每一聚类的聚类参数。聚类模块513可采用各种公知方式对已提交文档进行聚类。具体聚类算法可 以包括划分法(Partitioning Methods)、层次法(Hierarchical Methods)、基于密度的方法(Density-Based methods)、基于网格的方法(Grid-Basedmethods)、基于模型的方法 (Model-Based Methods)。在本发明的实施例中,聚类模块513所使用的聚类算法是CURE (Clustering UsingRepresentatives)算法。CURE算法属于上述层次法的一种。CURE算法利用余弦定
理计算上述各描述向量之间的距离,并根据各描述向量之间的距离关系进行聚类。也就 是说,将描述向量之间的距离小于预定值的已提交文档作为同一聚类。在完成聚类后, 从同一聚类的描述向量中选择一最佳描述向量作为该聚类的聚类参数。当然,该聚类参 数也可以是由锚述向量形成的一中间向量。CURE算法对每个类使用多个点进行表征, 这些点能够有效地描述当前聚类的形状,从而提高了聚类算法的性能。关键词聚合模块514用于将对应于同一聚类参数的已提交文档的关键词聚合成 一个关键词集合。存储模块515则用于存储聚类参数与其所对应的关键词集合。如图7所示,图7是根据本发明一实施例的匹配模块的示意框图。在本发明一实施例中,匹配模块52进一步包括聚类参数匹配模块521、列表形 成模块522以及排序模块523。在本实施例中,第二描述信息获取模块512进一步根据待提交文档的描述信息 组成待提交文档的描述向量。描述向量的具体组成方法与上文描述类似,在此不再赘 述。待提交文档的描述信息除了标题、摘要以及分类信息外,还可以进一步包括用户输 入的关键词信息。聚类参数匹配模块521则用于根据待提交文档的描述向量确定与待提交文档匹 配的聚类参数。聚类参数匹配模块521可利用CURE算法确定待提交文档的描述向量与 各聚类参数之间的距离关系,并选择距离最近的聚类参数作为与待提交文档匹配的聚类 参数。列表形成模块522用于根据与待提交文档匹配的聚类参数所对应的关键词集 合,并形成关键词列表。排序模块523用于根据与待提交文档的描述信息的相似度对关键词列表中的关 键词进行排序。对关键词列表中的关键词排序是为了将与待提交文档关联性强的关键词 放在关键词列表的前面,将关联性弱的关键词放在后方。相似度判定可基于关键词在待 提交文档的描述信息中的出现频率或者关键词与待提交文档的描述向量的余弦相似度等 各种方式获得。相似度判定进一步可给予关键词与待提交文档描述信息中的词在全局数 据中的共现关系,根据语义相似度等特征进行相似度计算,并按照该相似度计算的结果 进行排序。通过上述方式,可以有效的利用用户所提供的信息,推荐给用户更加适用的关 键词。在上述实施例中,仅对本发明进行了示范性描述,但是本领域技术人员在阅读 本专利申请后可以在不脱离本发明的精神和范围的情况下对本发明进行各种修改。
权利要求
1.一种文档共享平台的关键词推荐方法,其特征在于,包括a.获取用户针对待提交文档所输入的描述信息;b.获取关键词库;c.将所述待提交文档的描述信息与所述关键词库进行匹配,获取对应的关键词列表;d.输出所述关键词列表。
2.根据权利要求1所述的关键词推荐方法,其特征在于,所述步骤b包括 bl.搜集所述文档共享平台中已经标记有关键词的多个已提交文档;b2.获取所述已提交文档的描述信息,组成所述已提交文档的描述向量; b3.根据所述已提交文档的描述向量对所述多个已提交文档进行聚类,获取每一聚类 的聚类参数;b4.将对应于同一聚类参数的所述已提交文档的关键词聚合成一个关键词集合; b5.存储所述聚类参数与其所对应的所述关键词集合,以形成所述关键词库。
3.根据权利要求2所述的关键词推荐方法,其特征在于,在所述步骤b3中,根据所 述已提交文档的描述向量之间的距离关系对所述多个已提交文档进行聚类。
4.根据权利要求2所述的关键词推荐方法,其特征在于,所述步骤c包括 Cl.根据所述待提交文档的描述信息组成所述待提交文档的描述向量;c2.根据所述待提交文档的描述向量确定与所述待提交文档匹配的聚类参数;c3.根据与所述待提交文档匹配的聚类参数所对应的关键词集合形成所述关键词列表。
5.根据权利要求4所述的关键词推荐方法,其特征在于,在所述步骤c2中,根据所 述待提交文档的描述向量与各聚类参数之间的距离关系确定与所述待提交文档匹配的聚 类参数。
6.根据权利要求4所述的关键词推荐方法,其特征在于,所述步骤c进一步包括 c4.根据与所述待提交文档的描述信息的相似度对所述关键词列表中的关键词进行排序。
7.根据权利要求2所述的关键词推荐方法,其特征在于,所述已提交文档的描述信息 包括所述已提交文档的标题、摘要以及分类信息或者其中一或多个的组合。
8.根据权利要求1所述的关键词推荐方法,其特征在于,所述待提交文档的描述信息 包括所述待提交文档的标题、摘要以及分类信息或者其中一或多个的组合。
9.根据权利要求8所述的关键词推荐方法,其特征在于,所述待提交文档的描述信息 进一步包括关键词信息。
10.根据权利要求1所述的关键词推荐方法,其特征在于,所述关键词推荐方法进一 步包括e.将用户从所述关键词列表中选择的关键词与所述待提交文档进行关联。
11.一种文档共享平台的关键词推荐系统,其特征在于,包括第一描述信息获取模块,用于获取用户针对待提交文档所输入的描述信息; 关键词库获取模块,用于获取关键词库;匹配模块,用于将所述待提交文档的描述信息与所述关键词库进行匹配,获取对应 的关键词列表;输出模块,用于输出所述关键词列表。
12.根据权利要求11所述的关键词推荐系统,其特征在于,所述关键词库获取模块包括文档搜集模块,用于搜集所述文档共享平台中已经标记有关键词的多个已提交文档; 第二描述信息获取模块,用于获取所述已提交文档的描述信息,组成所述已提交文 档的描述向量;聚类模块,用于根据所述已提交文档的描述向量对所述多个已提交文档进行聚类, 获取每一聚类的聚类参数;关键词聚合模块,用于将对应于同一聚类参数的所述已提交文档的关键词聚合成一 个关键词集合;存储模块,用于存储所述聚类参数与其所对应的所述关键词集合,以形成的关键词库。
13.根据权利要求12所述的关键词推荐系统,其特征在于,所述聚类模块根据所述已 提交文档的描述向量之间的距离关系对所述多个已提交文档进行聚类。
14.根据权利要求12所述的关键词推荐系统,其特征在于,所述第一描述信息获取 模块根据所述待提交文档的描述信息组成所述待提交文档的描述向量,所述匹配模块包 括聚类参数匹配模块,用于根据所述待提交文档的描述向量确定与所述待提交文档匹 配的聚类参数;列表形成模块,用于根据与所述待提交文档匹配的聚类参数所对应的关键词集合形 成所述关键词列表。
15.根据权利要求14所述的关键词推荐系统,其特征在于,所述聚类参数匹配模块根 据所述待提交文档的描述向量与各聚类参数之间的距离关系确定与所述待提交文档匹配 的聚类参数。
16.根据权利要求14所述的关键词推荐系统,其特征在于,所述匹配模块进一步包 括排序模块,用于根据与所述待提交文档的描述信息的相似度对所述关键词列表中的 关键词进行排序。
17.根据权利要求12所述的关键词推荐系统,其特征在于,所述已提交文档的描述信 息包括所述已提交文档的标题、摘要以及分类信息或者其中一或多个的组合。
18.根据权利要求11所述的关键词推荐系统,其特征在于,所述待提交文档的描述信 息包括所述待提交文档的标题、摘要以及分类信息或者其中一或多个的组合。
19.根据权利要求18所述的关键词推荐系统,其特征在于,所述待提交文档的描述信 息进一步包括关键词信息。
20.根据权利要求11所述的关键词推荐系统,其特征在于,所述关键词推荐系统进一 步包括关联模块,用于将用户从所述关键词列表中选择的关键词与所述待提交文档进行关联。
全文摘要
本发明提供了一种文档共享平台的关键词推荐方法及系统。该文档共享平台的关键词推荐方法包括获取用户针对待提交文档所输入的描述信息;获取关键词库;将待提交文档的描述信息与关键词库进行匹配,获取对应的关键词列表;输出关键词列表。通过上述方式,可以有效的利用用户所提供的信息,为用户推荐更加适用的关键词。
文档编号G06F17/30GK102012915SQ201010557250
公开日2011年4月13日 申请日期2010年11月22日 优先权日2010年11月22日
发明者周德友, 孙鹤飞, 杨帆 申请人:百度在线网络技术(北京)有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1