一种数字资源热点生成方法及装置的制造方法

文档序号:9766030阅读:481来源:国知局
一种数字资源热点生成方法及装置的制造方法
【技术领域】
[0001] 本发明设及数字资源处理领域,具体设及一种数字资源热点自动生成方法及装 置。
【背景技术】
[0002] 随着互联网的迅猛发展,数字资源成为人们获取信息的重要途径之一,数字报刊 的阅读也日益普及。同时,随着生活节奏的加快,用户对高效阅读的需求更加强烈,如何从 海量的数字资源中获取有价值的信息变得尤为重要。面对每日更新的新闻报道,快速自动 发现热点并推荐给用户成为实现高效阅读的可行途径。由于数字资源的信息量巨大,人工 干预进行热点推荐无疑需要花费大量的人力和时间,因此利用新闻报道自身信息实现热点 新闻的自动发现成为亟待解决的问题。
[0003] 传统的热点发现技术大多需要事先进行主题词提取、给定热点个数或设置各种经 验参数。该类方法对主题词的选择及新词发现具有很强的依赖性,从而导致处理新词频出 的报刊文本时效果欠佳,且参数的选择会严重影响热点发现的效果,对热点个数和经验参 数具有一定的依赖,需要预先设定聚类数目,对热点个数也没有很好的自适应性。

【发明内容】

[0004] 因此,本发明要解决的技术问题在于克服现有技术中热点发现技术效果差、需要 预先设置参数依赖性强的缺陷。
[0005] 本申请提供一种数字资源热点生成方法,包括如下步骤
[0006] 从数字资源中提取标题和正文;
[0007] 分别获取标题相似度矩阵和正文相似度矩阵;
[000引对所述标题相似度矩阵进行聚类,根据标题相似度聚类结果获得标题候选热点 集;
[0009] 对所述正文相似度矩阵进行聚类,根据正文相似度聚类结果获得正文候选热点 集;
[0010] 根据所述标题候选热点集和所述正文候选热点集获取候选热点集。
[0011] 优选地,获取候选热点集后,还包括根据候选热点集中的每个集合内数字资源的 数目W及数字资源的属性信息确定集合的排序,将排序在前的预设数量的集合作为热点。
[0012] 优选地,根据标题相似度聚类结果获得标题候选热点集的步骤包括:
[0013] 获取标题相似度聚类结果中每个集合中的数字资源的数量;
[0014] 若所述数量小于第一阔值,则删除该集合;
[0015] 若所述数量位于第一阔值和第二阔值之间,则将该集合加入所述标题候选热点集 中;
[0016] 若所述数量大于第二阔值,则进行二次聚类,得到二次聚类结果,获取二次聚类结 果中每个集合中的数字资源的数量,若该数量小于所述第一阔值,删除该集合,若该数量位 于第一阔值和第二阔值之间,则将该集合加入所述标题候选热点集,若该数量大于所述第 二阔值,则删除该集合。
[0017] 优选地,根据正文相似度聚类结果获得正文候选热点集的步骤包括:
[0018] 获取正文相似度聚类结果中每个集合中的数字资源的数量;
[0019] 若所述数量小于第一阔值,则删除该集合;
[0020] 若所述数量位于第一阔值和第二阔值之间,则将该集合加入所述正文候选热点集 中;
[0021] 若所述数量大于第二阔值,则进行二次聚类,得到二次聚类结果,获取二次聚类结 果中每个集合中的数字资源的数量,若该数量小于所述第一阔值,删除该集合,若该数量位 于第一阔值和第二阔值之间,则将该集合加入所述正文候选热点集,若该数量大于所述第 二阔值,则删除该集合。
[0022] 优选地,根据所述标题候选热点集和所述正文候选热点集获取候选热点集的步骤 包括:
[0023] 获取所述标题候选热点集和所述正文候选热点集中存在共有数字资源的集合;
[0024] 将正文候选热点集中存在共有数字资源的集合加入所述候选热点集,去掉所述标 题候选热点集中存在共有数字资源的集合;
[0025] 对所述标题候选热点集和所述正文候选热点集中不存在共有数字资源的集合,获 取每个集合中的正文的关键词向量,计算每两个集合之间的相似度,若大于预设相似度阔 值,则将该两个集合合并,将合并后的集合加入候选热点集;若不大于相似度阔值,则将该 两个集合分别加入所述候选热点集。
[0026] 优选地,获取候选热点集后,还包括对所述候选热点集进行去噪的步骤,包括:
[0027] 针对候选热点集中的每个集合,计算集合内每条数字资源与中屯、数字资源的相似 度,若该相似度小于预设阔值,则删除该数字资源。
[00%]优选地,获取标题相似度矩阵的步骤,包括:
[0029] 对每篇数字资源的标题进行分词,得到词语集合并计算相应词语权重;
[0030] 根据所述词语集合及权重计算任意两个标题之间的相似度;
[0031 ]根据所述相似度建立标题相似度矩阵。
[0032] 优选地,还包括:获取正文相似度矩阵的步骤,包括:
[0033] 对每篇数字资源的正文进行分词,分词后进行停用词及词性过滤,得到词语集合 并计算相应词语权重;
[0034] 在所述词语集合中获取所述词语权重较高的预设数量的特征词语;
[0035] 根据所述特征词语计算任意两篇正文之间的相似度;
[0036] 根据所述相似度建立正文相似度矩阵。
[0037] 本发明还提供一种数字资源热点生成装置,包括
[0038] 信息提取单元,用于从数字资源中提取标题和正文;
[0039] 相似矩阵获取单元,用于分别获取标题相似度矩阵和正文相似度矩阵;
[0040] 标题候选热点集提取单元,用于对所述标题相似度矩阵进行聚类,根据标题相似 度聚类结果获得标题候选热点集;
[0041] 正文候选热点集提取单元,用于对所述正文相似度矩阵进行聚类,根据正文相似 度聚类结果获得正文候选热点集;
[0042] 候选热点集提取单元,用于根据所述标题候选热点集和所述正文候选热点集获取 候选热点集。
[0043] 优选地,还包括热点生成单元,用于根据候选热点集中的每个集合内数字资源的 数目W及数字资源的属性信息确定集合的排序,将排序在前的预设数量的集合作为热点。
[0044] 本发明技术方案,具有如下优点:
[0045] 1.本发明提供的数字资源热点生成方法,首先,从数字资源中提取标题和正文;然 后分别获取标题相似度矩阵和正文相似度矩阵;通过分别聚类获得标题候选热点集和正文 候选热点集;最后,根据所述标题候选热点集和所述正文候选热点集获取候选热点集。该方 案中,使用正文信息和标题信息来进行热点推荐,正文信息和标题信息采用不同的方式处 理,相互作为补充和依据,使得获得的热点更加准确,避免了现有技术中对主题词表和新词 发现的需求,减弱热点发现对热点个数和经验参数的依赖,实现了面向数字报刊的热点新 闻自动发现。
[0046] 2.本发明提供的数字资源热点生成方法,通过对新闻标题及正文进行不同的预处 理操作,并基于无需事先设定聚类数目的聚类算法,通过簇间去噪、簇合并、簇内去噪等实 现热点新闻的自动发现,提高了热点生成效率,同时也提高了热点生成的精度。
[0047] 3.本发明提供的数字资源热点生成方法,输入为结构化数字新闻集合,不需要主 题词表和经验参数设定,无需人工干预,是面向数字报刊的热点新闻自动发现方法;在相似 度计算部分引入同义词词林,充分考虑了文本的语义信息,减弱了多义词和同义词给文本 相似度计算带来的干扰;对标题和正文设计不同的预处理方法,同时将两者分别聚类后合 并聚类结果,充分利用了新闻标题和正文的不同特点;无需事先设定聚类数目的聚类算法 的引入提高了方法对热点数目的适应性,使得热点新闻的发现真正自动化。
【附图说明】
[0048] 为了更清楚地说明本发明【具体实施方式】或现有技术中的技术方案,下面将对具体 实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的 附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前 提下,还可W根据运些附图获得其他的附图。
[0049] 图1为本发明实施例1中数字资源热点生成方法的一个流程图;
[0050] 图2为本发明实施例1中数字资源热点生成方法的另一个流程图;
[0051] 图3为本发明实施例2中数字资源热点生成装置的结构框图。
【具体实施方式】
[0052] 下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施 例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术 人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0053] 在本发明的描述中,需要说明的是,术语"中也'、"上"、"下"、"左"、"右"、"竖直"、 "水平"、"内"、"外"等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了 便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、 W特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语"第一"、"第二"、 "第立"仅用于描述目的,而不能理解为指示或暗示相对重要性。
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1