一种追踪相似稿件和图片的方法及系统的制作方法

文档序号:6492412阅读:213来源:国知局
一种追踪相似稿件和图片的方法及系统的制作方法
【专利摘要】本发明公开了一种追踪相似稿件和图片的方法及系统,首先为需要组织的新闻事件命名一个专题,根据专题的追踪范围,将追踪开始时间到结束时间内的稿件追踪入库得到追踪样本;然后建立N个与所述需要组织的新闻事件有关的训练样本,并根据训练样本提取专题的关键词,设置关键词的分值;之后设置专题阈值;最后根据关键词对入库的追踪样本进行检索,根据检索到的稿件或图片的分值是否大于或者等于阈值来确定需要组织的新闻事件有关的稿件。通过该方法及系统,客户端能够自动追踪所需要组织的新闻事件的相似稿件,减少用户人工关联的工作量,大大提高了组织相似稿件和图片的效率。
【专利说明】一种追踪相似稿件和图片的方法及系统
【技术领域】
[0001]本发明涉及稿件、图片管理及检索领域,具体涉及一种追踪相似稿件和图片的方法及系统。
【背景技术】
[0002]在现在的稿件及图片存储管理系统中,对于重大的新闻事件会以专题形式进行管理,把和新闻事件有关的稿件和图片进行人工关联,这对于数据量很少的系统来说,工作量不是很大,如果系统的数据量比较庞大的话,把相似稿件和图片一个个找出来并进行人工关联,工作量比较大。本发明正是针对上述缺陷而提出的一种为了方便用户组织相似稿件和图片,减少用户人工关联的工作量的自动追踪相似稿件和图片的方法。

【发明内容】

[0003]针对现有技术中存在的缺陷,本发明的目的在于提供一种追踪相似稿件和图片的方法及系统,通过该方法及系统提高相似稿件组织的效率。
[0004]为实现上述目的,本发明采用的技术方案如下:
[0005]一种追踪相似稿件和图片的方法,包括以下步骤:
[0006](I)为需要组织的新闻事件命名一个专题,并设置专题的相关信息;所述相关信息包括专题的名称、追踪范围、追踪开始时间和追踪结束时间;所述追踪范围是指追踪稿件类型;
[0007](2)根据专题的追踪范围,将追踪开始时间到追踪结束时间内的文件追踪入库,得到追踪样本;所述文件包括稿件和图片;
[0008](3)建立N个与所述需要组织的新闻事件有关的训练样本,根据训练样本提取专题关键词,并设置关键词分值;N为大于等于2的正整数;
[0009](4)根据所提取的专题关键词确定训练样本的分值,并根据训练样本的分值设置专题阈值;
[0010](5)根据专题关键词对入库的追踪样本进行检索,并根据关键词的分值计算检索到的稿件或图片的分值;
[0011](6)查看检索到的稿件或图片的分值是否大于或者等于专题阈值,若是则认为检索到的稿件或图片是与所述需要组织的新闻事件有关的稿件或图片,提取稿件或图片并与专题建立关联;若否则追踪失败。
[0012]进一步,如上所述的一种追踪相似稿件和图片的方法,步骤(I)中,如果没有设置专题的追踪开始时间,则根据追踪范围内文件创建时间的最早时间确定开始时间。
[0013]进一步,如上所述的一种追踪相似稿件和图片的方法,步骤(I)中,如果没有设置专题的追踪结束时间,则以当天时间作为追踪结束时间。
[0014]进一步,如上所述的一种追踪相似稿件和图片的方法,步骤(3)中,由用户根据追踪需要建立N个与需要组织的新闻事件有关的训练样本。[0015]进一步,如上所述的一种追踪相似稿件和图片的方法,步骤(3)中,从追踪样本中选择N个追踪样本作为训练样本。
[0016]进一步,如上所述的一种追踪相似稿件和图片的方法,步骤(3)中,对训练样本内容进行训练得到每个训练样本的分值的具体方式为:
[0017](3-1)根据N个训练样本,提取专题关键词;
[0018](3-2)设置每个专题关键词的分值;
[0019](3-3)根据专题关键词的分值确定每个训练样本的分值。
[0020]再进一步,如上所述的一种追踪相似稿件和图片的方法,步骤(3)中,对训练样本进行分析,提取N个训练样本中的公用词得到专题关键词。
[0021]更进一步,如上所述的一种追踪相似稿件和图片的方法,由用户根据需要设置专题关键词的分值和专题阈值。
[0022]一种追踪相似稿件和图片的系统,包括:
[0023]专题设置模块:用于为需要组织的新闻事件命名一个专题,并设置专题的相关信息;所述相关信息包括专题的名称、追踪范围、追踪开始时间、追踪结束时间;
[0024]追踪样本获取模块:用于根据专题的追踪范围获取追踪开始时间到追踪结束时间内的文件,得到追踪样本;
[0025]关键词提取模块:用于建立N个与需要组织的新闻事件有关的训练样本,根据训练样本提取专题关键词,并设置关键词分值;N为大于等于2的正整数;
[0026]阈值设置模块:用于根据关键词分值确定训练样本的分值,并根据训练样本的分值设置专题阈值;
[0027]分值确定模块:用于根据专题关键词对入库的追踪样本进行检索,并根据关键词分值计算得到检索到的稿件或图片的分值;
[0028]相似稿件获取模块:用于根据稿件或图片的分值确定稿件或图片是否为与需要组织的新闻事件有关的稿件;获取的具体方式为:查看稿件或图片的分值是否大于或者等于专题阈值,若是则认为检索到的稿件或图片是与所述需要组织的新闻事件有关的稿件,提取稿件并与专题建立关联;若否则追踪失败。
[0029]进一步,如上所述的一种追踪相似稿件和图片的系统,由用户根据需要设置专题关键词的分值和专题阈值。
[0030]本发明的有益效果在于:本发明所述的方法通过专题关键词来进行稿件和图片的检索,并确定检索到的稿件或图片的分值,通过稿件或图片的分值与专题阈值的比较能够快速得到与所需组织的新闻事件相关的稿件或图片,通过该方法,客户端能够更好、更快的组织相似稿件和图片,减少用户人工关联的工作量,方便用户统一浏览和查看。
【专利附图】

【附图说明】
[0031]图1为本发明一种追踪相似稿件和图片系统的结构框图;
[0032]图2为本发明一种追踪相似稿件和图片方法的流程图。
【具体实施方式】
[0033]下面结合说明书附图与【具体实施方式】对本发明做进一步的详细说明。[0034]图1示出了本发明一种追踪相似稿件和图片系统的结构框图,该系统主要包括专题设置模块11、追踪样本获取模块12、关键词提取模块13、阈值设置模块14、分值确定模块15和相似稿件获取模块16。
[0035]其中,专题设置模块11用于为需要组织的新闻事件命名一个专题,并设置专题的相关?目息;所述相关彳目息包括专题的名称、专题说明、追踪范围、追踪开始时间、追踪结束时间;追踪范围是指追踪稿件类型;追踪样本获取|旲块12用于根据专题的追踪范围获取追踪开始时间到追踪结束时间内的文件,得到追踪样本;所述文件包括稿件和图片;关键词提取模块13用于建立N个与需要组织的新闻事件有关的训练样本,根据训练样本提取专题关键词,并根据训练样本的分值关键词分值;Ν为大于等于2的正整数;阈值设置模块14用于根据关键词分值确定训练样本的分值,并设置专题阈值;分值确定模块15用于根据专题关键词对入库的追踪样本进行检索,并根据关键词分值计算得到检索到的稿件或图片的分值;相似稿件获取模块16用于根据稿件或图片的分值确定稿件或图片是否为与需要组织的新闻事件有关的稿件;获取的具体方式为:查看稿件或图片的分值是否大于或者等于专题阈值,若是则认为检索到的稿件或图片是与所述需要组织的新闻事件有关的稿件,提取稿件并与专题建立关联;若否则说明追踪失败,稿件或图片与需要组织的新闻事件无关。
[0036]图2不出了基于图1中追踪相似稿件和图片系统的一种追踪相似稿件和图片方法的流程图,该方法主要包括以下步骤:
[0037]步骤S21:为需要组织的新闻事件命名专题,并设置相关信息;
[0038]首先为需要组织的重大事件命名一个专题,设置专题的名称、专题说明(对专题的一些说明或标注)、追踪范围、追踪开始时间和追踪结束时间等专题相关彳目息。其中,追踪范围即是追踪稿件类型。
[0039]步骤S22:根据专题的追踪范围犾取追踪样本;
[0040]根据步骤Sll中所设置的专题的追踪范围即追踪稿件类型,将追踪开始时间到结束时间内的文件(包括稿件和图片)追踪入库,得到追踪样本。如果步骤Sll中没有设置追踪开始时间,则根据追踪范围内稿件创建时间的最早时间确定(由程序来完成)。如果步骤Sll中没设置追踪结束时间,则默认一直进行追踪(此时客户端会取当天时间结束时间作为追踪结束时间),专题追踪客户端会持续追踪入库时间在这个时间段内的文件。
[0041]步骤S23:建立训练样本,提取专题关键词;
[0042]步骤S24:设置专题阈值;
[0043]建立N个与所述需要组织的新闻事件有关的训练样本,根据训练样本提取专题关键词,并设置关键词分值;Ν为大于等于2的正整数。根据所提取的专题关键词确定训练样本的分值,根据训练样本的分值设置专题阈值。根据训练样本提取的专题关键词为专题追踪的依据,训练样本的建立可以由用户根据追踪需要建立N个与需要组织的新闻事件有关的训练样本也可以从追踪样本中选择N个追踪样本作为训练样本。根据所提取的专题关键词确定训练样本的分值的具体方式为:
[0044]I)根据N个训练样本,提取专题关键词;
[0045]2)设置每个专题关键词的分值;
[0046]3)根据专题关键词的分值确定每个训练样本的分值。
[0047]步骤S25:根据关键词检索追踪样本,得到检索到的稿件或图片的分值;[0048]步骤S26:获取需要组织的新闻事件的相似稿件;
[0049]根据关键词对入库的追踪样本进行检索,得到检索到的稿件或图片的分值。查看稿件或图片的分值是否大于或者等于专题阈值,若是则认为检索到的稿件或图片是与所述需要组织的新闻事件有关的稿件,提取稿件并与专题建立关联;若否则说明追踪失败。追踪客户端会根据专题关键词进行检索稿件和图片,并根据所述设置的关键词的分值来确定所检索到的稿件或图片的分值,如果稿件或图片分值大于或者等于专题阈值,系统就认为是和该新闻事件有关的稿件,客户端就会把该稿件提取出来,并与专题建立关联。其中,由用户根据需要设置专题关键词分值和专题阈值,一般专题阈值要不小于训练样本的分值,这样用户最后追踪到的相似稿件或图片才能够很好的与需要组织的新闻事件有关,专题阈值一般在0.4?0.8之间。当然如果用户希望检测得到的稿件或图片与需要组织的新闻事件更接近,则可以根据专题阈值将关键词分值设置的相对小一些,例如专题阈值为0.8,每个关键词的分值设为0.2 (当然不同的关键词分值也可以设置成不同值),这样只有当稿件或图片中含有的4个以上关键词时,稿件或图片的分值才大于或等于专题阈值,含有的关键词越多说明稿件或图片与需要组织的新闻事件越接近;如果用户希望检测得到的稿件或图片与需要组织的新闻事件有关即可,可以根据专题阈值将关键词分值设置的相对大一些,这样只要稿件或图片中含有关键词即可追踪到。
[0050]显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其同等技术的范围之内,则本发明也意图包含这些改动和变型在内。
【权利要求】
1.一种追踪相似稿件和图片的方法,包括以下步骤: (1)为需要组织的新闻事件命名一个专题,并设置专题的相关信息;所述相关信息包括专题的名称、追踪范围、追踪开始时间和追踪结束时间;所述追踪范围是指追踪稿件类型; (2)根据专题的追踪范围,将追踪开始时间到追踪结束时间内的文件追踪入库,得到追踪样本;所述文件包括稿件和图片; (3)建立N个与所述需要组织的新闻事件有关的训练样本,根据训练样本提取专题关键词,并设置关键词分值;N为大于等于2的正整数; (4)根据所提取的专题关键词确定训练样本的分值,并根据训练样本的分值设置专题阈值; (5)根据专题关键词对入库的追踪样本进行检索,并根据关键词的分值计算检索到的稿件或图片的分值; (6)查看检索到的稿件或图片的分值是否大于或者等于专题阈值,若是则认为检索到的稿件或图片是与所述需要组织的新闻事件有关的稿件或图片,提取稿件或图片并与专题建立关联;若否则追踪失败。
2.如权利要求1所述的一种追踪相似稿件和图片的方法,其特征在于:步骤(1)中,如果没有设置专题的追踪开始时间,则根据追踪范围内文件创建时间的最早时间确定开始时间。
3.如权利要求1或2所述的一种追踪相似稿件和图片的方法,其特征在于:步骤(1)中,如果没有设置专题的追踪结束时间,则以当天时间作为追踪结束时间。
4.如权利要求1所述的一种追踪相似稿件和图片的方法,其特征在于:步骤(3)中,由用户根据追踪需要建立N个与需要 组织的新闻事件有关的训练样本。
5.如权利要求1所述的一种追踪相似稿件和图片的方法,其特征在于:步骤(3)中,从追踪样本中选择N个追踪样本作为训练样本。
6.如权利要求4或5所述的一种追踪相似稿件和图片的方法,其特征在于:步骤(3)中,对训练样本内容进行训练得到每个训练样本的分值的具体方式为: (3-1)根据N个训练样本,提取专题关键词; (3-2)设置每个专题关键词的分值; (3-3)根据专题关键词的分值确定每个训练样本的分值。
7.如权利要求6所述的一种追踪相似稿件和图片的方法,其特征在于:步骤(3)中,对训练样本进行分析,提取N个训练样本中的公用词得到专题关键词。
8.如权利要求7所述的一种追踪相似稿件和图片的方法,其特征在于:由用户根据需要设置专题关键词的分值和专题阈值。
9.一种追踪相似稿件和图片的系统,包括: 专题设置模块:用于为需要组织的新闻事件命名一个专题,并设置专题的相关信息;所述相关信息包括专题的名称、追踪范围、追踪开始时间、追踪结束时间; 追踪样本获取1?块:用于根据专题的追踪范围获取追踪开始时间到追踪结束时间内的文件,得到追踪样本; 关键词提取模块:用于建立N个与需要组织的新闻事件有关的训练样本,根据训练样本提取专题关键词,并设置关键词分值;N为大于等于2的正整数;阈值设置模块:用于根据关键词分值确定训练样本的分值,并根据训练样本的分值设置专题阈值; 分值确定模块:用于根据专题关键词对入库的追踪样本进行检索,并根据关键词分值计算得到检索到的稿件或图片的分值; 相似稿件获取模块:用于根据稿件或图片的分值确定稿件或图片是否为与需要组织的新闻事件有关的稿件;获取的具体方式为:查看稿件或图片的分值是否大于或者等于专题阈值,若是则认为检索到的稿件或图片是与所述需要组织的新闻事件有关的稿件,提取稿件并与专题建立关联;若否则追踪失败。
10.如权利要求9所述的一种追踪相似稿件和图片的系统,其特征在于:由用户根据需要设置专题关键词的分值和专题阈 值。
【文档编号】G06F17/30GK103853787SQ201210518652
【公开日】2014年6月11日 申请日期:2012年12月6日 优先权日:2012年12月6日
【发明者】张宇伟 申请人:北大方正集团有限公司, 北京北大方正电子有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1