获取相关数字资源的方法及使用其生成专题的方法及装置的制造方法

文档序号:9597820阅读:1719来源:国知局
获取相关数字资源的方法及使用其生成专题的方法及装置的制造方法
【技术领域】
[0001] 本发明涉及数字资源处理领域,具体涉及一种获取相关数字资源的方法及使用其 的专题生成方法及装置。
【背景技术】
[0002] 随着互联网的迅猛发展,数字报刊日益普及,从而极大地增强了用户与报刊的交 互性,为个性化报刊专题组织与生成提供了可能。此外,全国每日新增大量新闻报道,多数 为新生事件并伴有大量新词。所谓"新词"主要指内容新、形式新,原来词汇系统中没有或 者虽有但词义是全新的词语。
[0003] 为了对这些数字资源进行更好的描述,便于后续相关专题的推荐、检索等处理,需 要对这些数字资源进行主题词的提取,现有技术中一般采用分词后提取数字资源中的词汇 的方式,通过合并的方式获得出现频次多的词汇作为主题词,但是由于每个词语可能具有 多种不同的语义信息,不同的词语表达的含义又可能相同,比如手机、移动电话,其表达的 含义相同,也为主题词的提取带来干扰。此外,现有的主题词提取方法中,一般需要特工编 辑特征词或主题候选词列表,采用命名实体技术确定主题词候选词,使用向量空间模型和 命名实体识别。该方案过程复杂,需要大量的数据运算量。
[0004] 上述提取的主题词,可以用于数字资源如新闻专题的组织与生成中。新闻专题的 组织与生成是指将相关的新闻组织在一起,形成一个专题。例如,当报刊用户面对自己感兴 趣的某一新闻事件时,希望能够方便快捷地从多家报刊的海量新闻报道中获取更多的相关 报道,提高信息获取的效率和阅读的个性化。例如,当用户读到某篇有关外国媒体对"3. 1 昆明火车站暴力恐怖案"看法的报道时,希望能够快速查看其它有关外国媒体对该事件看 法的报道时,首先,选择该篇用户阅读到的感兴趣的新闻,通过分析获取该新闻的主题词, 然后将其余新闻的关键词与上述主题词进行比较,将相关程度高的新闻相关组织到一起便 形成了一个专题。目前,主要利用向量空间模型、命名实体识别、文本聚类等技术事先在报 刊资源库上抽取专题,推送给用户供用户选择查阅。该类方法对特征词的选择及命名实体 识别具有很强的依赖性,从而导致处理新词频出的报刊文本时效果欠佳,且没有充分考虑 新闻的语义信息及多义词和同义词给主题词向量带来的干扰,不能根据用户当前感兴趣的 报道来组织、生成个性化专题。

【发明内容】

[0005] 因此,本发明要解决的技术问题在于克服现有技术中的专题生成时需要使用向量 空间模型和命名实体识别,鲁棒性差的缺陷,从而提供一种获取相关数字资源的方法及使 用其生成专题的方法和装置。
[0006] 本发明提供一种获取相关数字资源的方法,包括如下步骤:
[0007] 提取第一数字资源的主题词;
[0008] 获取第二数字资源的关键词及其权重;
[0009] 获取所述第一数字资源与所述第二数字资源的文本相似度;
[0010] 获取所述主题词在所述第二数字资源中的语义分布密度;
[0011] 判断所述文本相似度是否大于文本相似度阈值且语义分布密度是否大于语义分 布密度阈值时,若均为是则将第二数字资源作为第一数字资源的相关数字资源。
[0012] 此外,本发明还提供一种专题生成方法,其特征在于,包括如下步骤:
[0013] 选择第一数字资源;
[0014] 依次选取一篇候选数字资源作为第二数字资源;
[0015] 获取与第一数字资源相关的第二数字资源,遍历所有第二数字资源,将与第一数 字资源相关的第二数字资源作为所述专题中的数字资源。
[0016] 此外,本发明还提供一种获取相关数字资源的装置,包括
[0017] 主题词提取单元,提取第一数字资源的主题词;
[0018] 关键词确定单元,获取第二数字资源的关键词及其权重;
[0019] 文本相似度获取单元,获取所述第一数字资源与所述第二数字资源的文本相似 度;
[0020] 语义分布密度获取单元,获取所述主题词在所述第二数字资源中的语义分布密 度;
[0021] 相关资源确定单元,判断所述文本相似度是否大于文本相似度阈值且语义分布密 度是否大于语义分布密度阈值时,若均为是则将第二数字资源作为第一数字资源的相关数 字资源。
[0022] 此外,本申请还提供一种专题生成装置,其特征在于,包括:
[0023] 第一数字资源选择单元,选择第一数字资源;
[0024] 第二数字资源选择单元,依次选取一篇候选数字资源作为第二数字资源;
[0025] 专题生成单元,获取与第一数字资源相关的第二数字资源,遍历所有第二数字资 源,将与第一数字资源相关的第二数字资源作为所述专题中的数字资源。
[0026] 本发明技术方案,具有如下优点:
[0027] 1.本发明还提供一种获取相关数字资源的方法和装置,首先,提取第一数字资源 的主题词,然后获取第二数字资源的关键词及其权重,获取所述第一数字资源与所述第二 数字资源的文本相似度,获取所述主题词在所述第二数字资源中的语义分布密度,当所述 文本相似度大于文本相似度阈值,且语义分布密度大于语义分布密度阈值时,将第二数字 资源作为第一数字资源的相关数字资源。该方案中,通过两篇数字资源的文本相似度和语 义分布密度两个方面,来衡量两篇数字资源是否相关,文本相似度表示出了这两篇文本描 述同一主题的程度,语义分布密度表示第一数字资源主题词在第二数字资源中分布的均衡 程度,通过这两个值可以量化的表示出数字资源间的相关程度,从而获得准确的相关的数 字资源。
[0028] 2.本发明还提供一种专题生成方法和装置,预先选定第一数字资源,将候选数字 资源作为第二数字资源,遍历所述第二数字资源,获取与第一数字资源相关的第二数字资 源,作为所述专题中的数字资源。通过该方案可以扩展一个专题中的数字资源,也可以用于 根据用户当前的阅读内容,获取用户关注的数字资源,如根据新闻文本的语义提取用户感 兴趣报道的主题词向量,并利用主题相关性从数字报刊资源库中组织并生成个性化专题。 可以利用用户当前阅读的报道内容,通过文本处理,基于语义提取感兴趣报道的主题词向 量,进而在数字报刊资源库中根据主题词向量抽取相关报道,并利用相关性的强弱及主题 词的分布情况组织、生成个性化的报刊专题,方便该用户快速获取感兴趣报道。该方案可以 消除现有技术中对特征词的选择及命名实体识别的依赖,减弱多义词和同义词给主题词向 量带来的干扰,同时实现面向用户的个性化专题组织与生成。自定义的相似度计算方法,既 能统一不同专题的阈值,又无需建立全局向量空间模型,满足面向用户的报刊专题个性化 和多样化的需求
【附图说明】
[0029] 为了更清楚地说明本发明【具体实施方式】或现有技术中的技术方案,下面将对具体 实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的 附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前 提下,还可以根据这些附图获得其他的附图。
[0030] 图1为本发明实施例1中的获取相关数字资源的方法的流程图;
[0031] 图2为本发明实施例2中的主题词提取方法的流程图;
[0032] 图3为本发明实施例3中的专题生成方法的流程图;
[0033] 图4为本发明实施例4中的生成专题的主题词向量的流程图;
[0034] 图5为本发明实施例4中的生成专题的流程图;
[0035] 图6为本发明实施例4中的专题列表示意图;
[0036] 图7是本发明实施例5中的获取相关数字资源的装置的流程图;
[0037] 图8为本发明实施例6中的专题生成装置的流程图。
【具体实施方式】
[0038] 下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施 例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术 人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0039] 在本发明的描述中,需要说明的是,术语"第一"、"第二"、"第三"仅用于描述目的, 而不能理解为指示或暗示相对重要性。此外,下面所描述的本发明不同实施方式中所涉及 的技术特征只要彼此之间未构成冲突就可以相互结合。
[0040] 实施例1 :
[0041] 本实施例中提供一种获取相关数字资源的方法,用于在海量的数字资源中,获取 与选定的数字资源相关的数字资源,首先,选定第一数字资源,第一数字资源可以是一篇也 可以是多篇属于一个主题的数字资源,本实施例的目的就是找出与第一数字资源相关的其 他数字资源。该方法的流
当前第1页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1