一种文档资源建议词的挖掘方法和装置与流程

文档序号:12541644阅读:来源:国知局
一种文档资源建议词的挖掘方法和装置与流程

技术特征:
1.一种文档资源建议词的挖掘方法,其中,该方法包括以下步骤:a获取具有文档资源需求的第一文档需求信息;b计算所述第一文档需求信息与文档资源库中文档内容标识信息的相似度,以从所述第一文档需求信息中获得其对应相似度低于预定相似度阈值的第二文档需求信息;c对所述第二文档需求信息进行聚合处理,以获得与所述第二文档需求信息相对应的文档资源建议词;其中,所述步骤b具体包括:-根据所述第一文档需求信息在文档资源库中进行查询,以获得与所述第一文档需求信息相对应的候选文档资源;-计算所述第一文档需求信息与所述候选文档资源的文档内容标识信息的相似度,以获得其中相似度低于预定相似度阈值的第二文档需求信息。2.根据权利要求1所述的方法,其中,所述步骤a包括:-获取待处理的多个查询信息;-按照预定模板对所述查询信息进行匹配,以获得所述查询信息的文档资源需求值,进而按照预定文档资源需求阈值来筛选获得所述第一文档需求信息。3.根据权利要求1所述的方法,其中,所述步骤a包括:-通过预置的关键词表对现有词条进行过滤,以获得其中具有文档资源需求的第一文档需求信息。4.根据权利要求1所述的方法,其中,对所述相似度阈值设定上下限,其中所述第二文档需求信息所对应的相似度低于所述相似度阈值的上限。5.根据权利要求1至4中任一项所述的方法,其中,所述聚合处理包括分类处理;其中,所述步骤c包括:-对所述第二文档需求信息进行分类处理,以获得所述第二文档需求信息所属的类别,并将所述第二文档需求信息作为其所属类别所对应的文档资源建议词。6.根据权利要求1至4中任一项所述的方法,其中,所述聚合处理包括聚类处理;其中,所述步骤c包括:-对所述第二文档需求信息进行聚类处理,并将聚类后获得的聚类关键词作为所述文档资源建议词。7.根据权利要求6所述的方法,其中,所述步骤c还包括:-基于所述聚类关键词再次进行聚类处理,并将再次聚类后获得的二次聚类关键词作为所述文档资源建议词。8.根据权利要求1至4中任一项所述的方法,其中,所述聚合处理包括分类处理和聚类处理;其中,所述步骤c包括:-对所述第二文档需求信息进行分类处理,以获得属于预定类别的至少一个第二文档需求信息,并将所述至少一个第二文档需求信息作为其所属类别所对应的文档资源建议词;-对不属于预定类别的第二文档需求信息进行聚类处理,并将聚类后获得的聚类关键词作为所述文档资源建议词。9.根据权利要求1至4中任一项所述的方法,其中,所述聚合处理包括分类处理和聚类处理;其中,所述步骤c包括:-对所述第二文档需求信息进行分类处理,以获得所述第二文档需求信息所属的类别;-对所述第二文档需求信息进行聚类处理,以获得聚类后的至少一个第二文档需求信息组,并将每个第二文档需求信息组所对应的聚类关键词作为与相应第二文档需求信息组所属类别相对应的文档资源建议词。10.一种文档资源建议词的挖掘装置,其中,该装置包括:第一需求获取装置,用于获取具有文档资源需求的第一文档需求信息;第二需求获取装置,用于计算所述第一文档需求信息与文档资源库中文档内容标识信息的相似度,以从所述第一文档需求信息中获得其对应相似度低于预定相似度阈值的第二文档需求信息;建议词获取装置,用于对所述第二文档需求信息进行聚合处理,以获得与所述第二文档需求信息相对应的文档资源建议词;其中,所述第二需求获取装置具体用于:-根据所述第一文档需求信息在文档资源库中进行查询,以获得与所述第一文档需求信息相对应的候选文档资源;-计算所述第一文档需求信息与所述候选文档资源的文档内容标识信息的相似度,以获得其中相似度低于预定相似度阈值的第二文档需求信息。11.根据权利要求10所述的装置,其中,所述第一需求获取装置用于:-获取待处理的多个查询信息;-按照预定模板对所述查询信息进行匹配,以获得所述查询信息的文档资源需求值,进而按照预定文档资源需求阈值来筛选获得所述第一文档需求信息。12.根据权利要求10所述的装置,其中,所述第一需求获取装置用于:-通过预置的关键词表对现有词条进行过滤,以获得其中具有文档资源需求的第一文档需求信息。13.根据权利要求10所述的装置,其中,对所述相似度阈值设定上下限,其中所述第二文档需求信息所对应的相似度低于所述相似度阈值的上限。14.根据权利要求10至13中任一项所述的装置,其中,所述聚合处理包括分类处理;其中,所述建议词获取装置用于:-对所述第二文档需求信息进行分类处理,以获得所述第二文档需求信息所属的类别,并将所述第二文档需求信息作为其所属类别所对应的文档资源建议词。15.根据权利要求10至13中任一项所述的装置,其中,所述聚合处理包括聚类处理;其中,所述建议词获取装置用于:-对所述第二文档需求信息进行聚类处理,并将聚类后获得的聚类关键词作为所述文档资源建议词。16.根据权利要求15所述的装置,其中,所述建议词获取装置还用于:-基于所述聚类关键词再次进行聚类处理,并将再次聚类后获得的二次聚类关键词作为所述文档资源建议词。17.根据权利要求10至13中任一项所述的装置,其中,所述聚合处理包括分类处理和聚类处理;其中,所述建议词获取装置用于:-对所述第二文档需求信息进行分类处理,以获得属于预定类别的至少一个第二文档需求信息,并将所述至少一个第二文档需求信息作为其所属类别所对应的文档资源建议词;-对不属于预定类别的第二文档需求信息进行聚类处理,并将聚类后获得的聚类关键词作为所述文档资源建议词。18.根据权利要求10至13中任一项所述的装置,其中,所述聚合处理包括分类处理和聚类处理;其中,所述建议词获取装置用于:-对所述第二文档需求信息进行分类处理,以获得所述第二文档需求信息所属的类别;-对所述第二文档需求信息进行聚类处理,以获得聚类后的至少一个第二文档需求信息组,并将每个第二文档需求信息组所对应的聚类关键词作为与相应第二文档需求信息组所属类别相对应的文档资源建议词。
当前第2页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1