基于文章特征的原创新闻评估方法和系统与流程

文档序号:16628701发布日期:2019-01-16 06:21阅读:189来源:国知局
基于文章特征的原创新闻评估方法和系统与流程

本发明涉及数字信息处理技术领域,尤其涉及一种基于文章特征的原创新闻评估方法和系统。



背景技术:

随着互联网的迅猛发展以及智能移动客户端的普及,传统媒体和新型媒体上均可以发布新闻文章。但是新型媒体依托互联网和移动客户端,可以通过多种途径上传或者转载新闻文章;而传统媒体也会从互联网中获取新闻文章来使用。使得各类新闻文章越来越多,更新越来越快,新闻文章的质量也参差不齐。但是新闻文章作为一种具有极强传播性与影响力的事物,在舆论中发挥着重要的作用。但是由于不易监管的特性,导致新闻文章原创性较差,更易出现抄袭行为。

目前,新闻文章原创性判定方法,将采集的新闻文章特征与新闻文章数据库做相似度计算,包括逐字比对、提取特征词条进行比对匹配等等,进而确定发布时间最早一篇为原创新闻文章。由于新闻文章数据库中相似度计算的复杂性及时效性,而且需要人工辅助手段作为判断依据,导致判定结果的可靠性较差。



技术实现要素:

本发明提供的基于文章特征的原创新闻评估方法和系统,其主要目的在于克服现有的原创性判定方法需要人工辅助手段作为判断依据,导致判定结果的可靠性较差的问题。

为解决上述技术问题,本发明采用如下技术方案:

一种基于文章特征的原创新闻评估方法,包括以下步骤;

获取新闻文章的特征信息,所述特征信息包括来源特征信息和关键词特征信息;

将所述来源特征信息与预设的来源关键词库进行匹配评估,得到第一评估报告;

根据预设的转载关键词库、原创关键词库以及媒体关键词库利用预设规则对关键词特征信息进行提取评估,得到第二评估报告;

根据所述第一评估报告和第二评估报告确定新闻文章原创性等级。

作为一种可实施方式,所述将所述来源特征信息与预设的来源关键词库进行匹配评估,得到第一评估报告,包括以下步骤;

将所述来源特征信息与预设的来源关键词库进行匹配,得到新闻文章的标注来源信息和实际来源信息;根据所述标注来源信息和实际来源信息判断新闻文章是否为转载;

若所述来源特征信息中的标注来源与实际来源不同,则将所述新闻文章标记为一级转载,并生成第一评估报告;

若所述来源特征信息中的标注来源与实际来源相同,则根据预设的转载关键词规则利用转载关键词库对所述关键词特征信息进行转载关键词提取。

作为一种可实施方式,所述根据预设的转载关键词库、原创关键词库以及媒体关键词库利用预设规则对关键词特征信息进行提取评估,得到第二评估报告,包括以下步骤;

根据预设的转载关键词规则利用转载关键词库对所述关键词特征信息进行转载关键词提取;

若所述关键词特征信息提取不到转载关键词,则根据预设的原创关键词规则利用原创关键词库对所述关键词特征信息进行原创关键词提取;若所述关键词特征信息提取到原创关键词,则将所述新闻文章标记为一级原创;若所述关键词特征信息提取不到原创关键词,则将所述新闻文章标记为三级原创;

若所述关键词特征信息提取到转载关键词,则将所述转载关键词与所述媒体关键词库进行匹配,将匹配得到的媒体名称关键词与该新闻文章中的所述实际来源信息进行判断,若所述媒体名称关键词与实际来源信息不一致,则将所述新闻文章标记为二级转载;

若所述媒体名称关键词与实际来源信息一致,则根据预设的原创关键词规则利用原创关键词库对所述关键词特征信息进行原创关键词提取;

若所述关键词特征信息提取到原创关键词,则将所述新闻文章标记为一级原创;

若所述关键词特征信息提取不到原创关键词,则将所述新闻文章标记为二级原创。

作为一种可实施方式,本发明提供的基于文章特征的原创新闻评估方法,还包括以下步骤;

在将所述新闻文章标记为三级原创之后,根据作者信息、发布时间以及数字报稿件信息对三级原创进行修正,根据修正结果确定新闻文章原创性等级。

作为一种可实施方式,本发明提供的基于文章特征的原创新闻评估方法,还包括以下步骤;

实时获取当前新闻文章,根据当前新闻文章对来源关键词库、转载关键词库、原创关键词库以及媒体关键词库进行补充。

相应的,本发明还提供一种基于文章特征的原创新闻评估系统,包括获取模块、第一评估模块、第二评估模块以及判定模块;

所述获取模块,用于获取新闻文章的特征信息,所述特征信息包括来源特征信息和关键词特征信息;

所述第一评估模块,用于将所述来源特征信息与预设的来源关键词库进行匹配评估,得到第一评估报告;

所述第二评估模块,用于根据预设的转载关键词库、原创关键词库以及媒体关键词库利用预设规则对关键词特征信息进行提取评估,得到第二评估报告;

所述判定模块,用于根据所述第一评估报告和第二评估报告确定新闻文章原创性等级。

作为一种可实施方式,所述第一评估模块包括判断单元、生成单元以及提取单元;

所述判断单元,用于将所述来源特征信息与预设的来源关键词库进行匹配,得到新闻文章的标注来源信息和实际来源信息;根据所述标注来源信息和实际来源信息判断新闻文章是否为转载;

所述生成单元,用于若所述来源特征信息中的标注来源与实际来源不同,则将所述新闻文章标记为一级转载,并生成第一评估报告;

所述提取单元,用于若所述来源特征信息中的标注来源与实际来源相同,则根据预设的转载关键词规则利用转载关键词库对所述关键词特征信息进行转载关键词提取。

作为一种可实施方式,所述第二评估模块包括第二评估单元;

所述第二评估单元,用于根据预设的转载关键词规则利用转载关键词库对所述关键词特征信息进行转载关键词提取;

若所述关键词特征信息提取不到转载关键词,则根据预设的原创关键词规则利用原创关键词库对所述关键词特征信息进行原创关键词提取;若所述关键词特征信息提取到原创关键词,则将所述新闻文章标记为一级原创;若所述关键词特征信息提取不到原创关键词,则将所述新闻文章标记为三级原创;

若所述关键词特征信息提取到转载关键词,则将所述转载关键词与所述媒体关键词库进行匹配,将匹配得到的媒体名称关键词与该新闻文章中的所述实际来源信息进行判断,若所述媒体名称关键词与实际来源信息不一致,则将所述新闻文章标记为二级转载;

若所述媒体名称关键词与实际来源信息一致,则根据预设的原创关键词规则利用原创关键词库对所述关键词特征信息进行原创关键词提取;

若所述关键词特征信息提取到原创关键词,则将所述新闻文章标记为一级原创;

若所述关键词特征信息提取不到原创关键词,则将所述新闻文章标记为二级原创。

作为一种可实施方式,所述第二评估模块包括修正单元;

所述修正单元,用于在将所述新闻文章标记为三级原创之后,根据作者信息、发布时间以及数字报稿件信息对三级原创进行修正,根据修正结果确定新闻文章原创性等级。

作为一种可实施方式,本发明提供的基于文章特征的原创新闻评估系统,还包括实时补充模块;

所述实时补充模块,用于实时获取当前新闻文章,根据当前新闻文章对来源关键词库、转载关键词库、原创关键词库以及媒体关键词库进行补充。

与现有技术相比,本技术方案具有以下优点:

本发明提供的基于文章特征的原创新闻评估方法和系统,通过新闻文章的特征信息中的来源特征信息和关键词特征信息;来与多个独立预设的词库进行评估,得到第一评估报告和第二评估报告,再由第一评估报告和第二评估报告确定新闻文章原创性等级。本发明直接利用多个词库进行评估得到的第一评估报告和第二评估报告能够确定新闻文章原创性等级,使得判定结果更加准确。

附图说明

图1为本发明实施例一提供的基于文章特征的原创新闻评估方法的流程示意图;

图2为本发明实施例一提供的基于文章特征的原创新闻评估方法的逻辑示意图;

图3为本发明实施例三提供的基于文章特征的原创新闻评估系统的结构示意图;

图4为图3中第一评估模块的结构示意图。

图中:100、获取模块;200、第一评估模块;210、判断单元;220、生成单元;230、提取单元;300、第二评估模块;310、第二评估单元;400、判定模块;500、实时补充模块。

具体实施方式

以下结合附图,对本发明上述的和另外的技术特征和优点进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明的部分实施例,而不是全部实施例。

请参阅图1,本发明实施例一提供的基于文章特征的原创新闻评估方法,包括以下步骤;

s100、获取新闻文章的特征信息,特征信息包括来源特征信息和关键词特征信息;

s200、将来源特征信息与预设的来源关键词库进行匹配评估,得到第一评估报告;

s300、根据预设的转载关键词库、原创关键词库以及媒体关键词库利用预设规则对关键词特征信息进行提取评估,得到第二评估报告;

s400、根据第一评估报告和第二评估报告确定新闻文章原创性等级。

需要说明的是,新闻文章可以是来自网络或者报纸,对于网络新闻文章的获取,可以是两种方式实现,分别为在指定新闻数据库中收集和/或利用爬虫技术从新闻网页中抓取。第一种方式,在指定新闻数据库中收集。例如,某些网站中会设置新闻数据库,即在该新闻数据库中会包括用户针对做过的新闻提交的新闻文章,在定向收集时,只需要到指定新闻数据库的位置,在相应的新闻数据库中收集新闻文章。第二种方式,爬虫技术是通过网页的链接地址来寻找网页,从网站某一个页面(通常是首页)开始,读取网页的内容,找到在网页中的其它链接地址,然后通过这些链接地址寻找下一个网页,这样一直循环下去,直到把这个网站所有的网页都抓取完为止。如果把整个互联网当成一个网站,那么利用爬虫技术就可以把互联网上所有的网页都抓取下来。可以设置一些该新闻的关键词,采用利用爬虫技术的搜索引擎,由搜索引擎基于爬虫技术的广度收集原理从网页中提取匹配的搜索结果,即抓取新闻的新闻文章。报纸新闻文章也可以通过定向抓取得到数据。在得到需要评估的新闻文章后,利用分词工具对新闻文章进行处理,再对处理结果进行一系列预处理,从而得到来源特征信息和关键词特征信息。

于本实施例中,来源特征信息不单是来源的信息还包括其来源的限定信息,比如,人民网发文、来自人民网、来源新华网以及据新浪报道等。利用来源特征信息与预设的来源关键词库进行匹配评估能够确定新闻文章的具体来源,来源的对象和限定信息可以确认新闻文章来着网络或者报纸。如果来自网络,其来源特征信息具有网址的字段来源。需要说明的是,第一评估报告只是初步的评估结果,是对来源进行区分后方便进行后续评估判断,以简化和提升原创性评估的准确度。如果判定新闻文章来源报纸,则直接进入步骤s300。

而第二评估报告是根据预设的转载关键词库、原创关键词库以及媒体关键词库利用预设规则对关键词特征信息进行提取评估得到的。具体的说,转载关键词库、原创关键词库以及媒体关键词库是根据现有发表过的新闻预先设置的,各个词库存储着当前新闻文章最新的相关词。可以是实时获取当前新闻文章,根据当前新闻文章对来源关键词库、转载关键词库、原创关键词库以及媒体关键词库进行补充;从而保证各词库的可靠性,进一步提高原创性判断的准确性。而预设规则即为设定的判断词性的规则,包括不限于转载关键词规则、原创关键词规则等。对于各个数据库的补充可以在任何阶段进行,但是涉及一片新闻文章的评估,都是基于当前的各个数据库进行,再评估完成后可以利用补充后的数据库进行二次评估。

在第一评估报告中,只会体现第一层级别的原创性判断。而在第二评估报告中会产生第二层、第三层的原创性判断。可以简单理解为每一层的原创性是由新闻文章中特征信息包含的完整性确定,即新闻文章中各类特征信息均有涉及评估,原创性级别越高。于本实施例中,一级原创、二级原创、三级原创等原创级别的原创性是逐步降低的。对于转载也是一样。那么第一评估报告和第二评估报告包括不限于评估的结果和评估的过程。而新闻文章原创性等级即为评估结果中具体确定的一种。使得用户能够更加直观的了解新闻文章的原创性。

本发明提供的基于文章特征的原创新闻评估方法和系统,通过新闻文章的特征信息中的来源特征信息和关键词特征信息;来与多个独立预设的词库进行评估,得到第一评估报告和第二评估报告,再由第一评估报告和第二评估报告确定新闻文章原创性等级。本发明直接利用多个词库进行评估得到的第一评估报告和第二评估报告能够确定新闻文章原创性等级,使得判定结果更加准确。

先对本申请涉及的原创性等级做个说明:在评估后。1、若新闻文章中有原创关键词无转载关键词,且对比的各个数据库中没有来自其他媒体的原创新闻文章,将新闻文章标记为一级原创;2、若新闻文章中标注来源与实际来源不同,或具有转载关键词,将新闻文章标记为一级转载;3、若新闻文章中没有原创关键字,但转载关键词中只匹配到了本身的来源特征信息,即匹配到了本身的媒体或文章作者,则将新闻文章标记为二级原创;4、若新闻文章中出现转载关键词,且转载关键词匹配到了不止本身的来源特征信息,将文章标记为二级转载;5、若新闻文章中无明显标识,则将新闻文章中暂时标记为三级原创。若在接下来的各个数据库中有相关的原创文章存在,则原创级别会相应进行修正为三级转载。

下面对具体的评估步骤进行详细说明,于本实施例中,主要是通过步骤200和步骤300实现。步骤200和步骤300具有先后顺序,步骤200在步骤300之前,步骤200具体的包括以下步骤;

s210、将来源特征信息与预设的来源关键词库进行匹配,得到新闻文章的标注来源信息和实际来源信息;根据标注来源信息和实际来源信息判断新闻文章是否为转载;

s220、若来源特征信息中的标注来源与实际来源不同,则将新闻文章标记为一级转载,并生成第一评估报告;

s230、若来源特征信息中的标注来源与实际来源相同,则根据预设的转载关键词规则利用转载关键词库对关键词特征信息进行转载关键词提取。

在来源关键词库中存储的文章中提取和实际来源的各类来源信息具有分类存储。标注来源信息是由与来源关键词库中的文章中提取来源关键词匹配得到的。而实际来源信息是由与来源关键词库中实际来源关键词匹配得到的,实际来源信息包括不限于作者、发布者以及转载则等。当然,与之对应的来源关键词库也包括作者或发布则的信息。实际来源信息指的是从发文链接、发文客户端以及发文管方等来源确定。在匹配后,如果来源特征信息中的标注来源与实际来源不同,则认定该新闻文章为一级转载。生成的第一评估报告包括评估过程和一级转载的评估结果。而来源特征信息中的标注来源与实际来源相同则需要进行后续补充判断,得到第二评估报告。当然,于本实施例中,第二评估报告也是包括了整个评估过程和涉及的评估结果。

进一步的,根据预设的转载关键词库、原创关键词库以及媒体关键词库利用预设规则对关键词特征信息进行提取评估,得到第二评估报告,包括以下步骤;

s310、根据预设的转载关键词规则利用转载关键词库对关键词特征信息进行转载关键词提取;

s320、若关键词特征信息提取不到转载关键词,则根据预设的原创关键词规则利用原创关键词库对关键词特征信息进行原创关键词提取;若关键词特征信息提取到原创关键词,则将新闻文章标记为一级原创;若关键词特征信息提取不到原创关键词,则将新闻文章标记为三级原创;

s330、若所述关键词特征信息提取到转载关键词,则将所述转载关键词与所述媒体关键词库进行匹配,将匹配得到的媒体名称关键词与该新闻文章中的所述实际来源信息进行判断,若所述媒体名称关键词与实际来源信息不一致,则将所述新闻文章标记为二级转载;

s340、若所述媒体名称关键词与实际来源信息一致,则根据预设的原创关键词规则利用原创关键词库对关键词特征信息进行原创关键词提取;

s350、若关键词特征信息提取到原创关键词,则将新闻文章标记为一级原创;

s360、若关键词特征信息提取不到原创关键词,则将新闻文章标记为二级原创。

在评估二级转载时,媒体关键词库中存在相同媒体的各类不同名称,那么在将转载关键词与媒体关键词库进行匹配后,即能得到该新闻文章明确的转载的媒体名称关键词。使得媒体名称关键词与该新闻文章的实际来源信息通过简单的比对既能判断是否来着同一媒体,来自不同媒体即为二级转载。而在上述步骤中,每个步骤的判断逻辑是从上往下顺序执行的,对于具体的新闻文章,其不一定会走完上述全部的步骤,只要判断到具有具体的原创性级别即可。因此,本申请的方案相对于现有计算相似度的方案来说,在评估效率上具有很大的优势。对数据处理复杂性的要求也会低很多。对于整个方案的判断逻辑可以参考图2所示,其为本发明基于文章特征的原创新闻评估方法的逻辑示意图。由图2可以清楚的确定本发明对原创性级别的判断过程,在此就不一一阐述。

本发明实施例二提供的基于文章特征的原创新闻评估方法,与实施例一相比,区别在于,还包括以下步骤;

在将新闻文章标记为三级原创之后,根据作者信息、发布时间以及数字报稿件信息对三级原创进行修正,根据修正结果确定新闻文章原创性等级。也就是说,在原创性的判断可以是动态调整的,在每次对数据库进行补充或者升级后,可以对先去评估的原创性进行动态的调整评估。在从小评估时,只需要将原新闻文章的特征信息与新入库的各类特征进行匹配评估集合,从而加快评估速度,通过评估流程,并通过不断的修正,提升原创性评估的准确度。

基于同一发明构思,本发明实施例还提供一种基于文章特征的原创新闻评估系统,该系统的实施可参照上述方法的过程实现,重复之处不再冗述。

如图3所示,是本发明实施例三提供的基于文章特征的原创新闻评估系统的结构示意图,包括获取模块100、第一评估模块200、第二评估模块300以及判定模块400;获取模块100用于获取新闻文章的特征信息,特征信息包括来源特征信息和关键词特征信息;第一评估模块200用于将来源特征信息与预设的来源关键词库进行匹配评估,得到第一评估报告;第二评估模块300用于根据预设的转载关键词库、原创关键词库以及媒体关键词库利用预设规则对关键词特征信息进行提取评估,得到第二评估报告;判定模块400用于根据第一评估报告和第二评估报告确定新闻文章原创性等级。

本发明直接利用多个词库进行评估得到的第一评估报告和第二评估报告能够确定新闻文章原创性等级,使得判定结果更加准确。

如图4所示,为第一评估模块200的结构示意图,包括判断单元210、生成单元220以及提取单元230;判断单元210用于将来源特征信息与预设的来源关键词库进行匹配,得到新闻文章的标注来源信息和实际来源信息;根据标注来源信息和实际来源信息判断新闻文章是否为转载;生成单元220用于若来源特征信息中的标注来源与实际来源不同,则将新闻文章标记为一级转载,并生成第一评估报告;提取单元230用于若来源特征信息中的标注来源与实际来源相同,则根据预设的转载关键词规则利用转载关键词库对关键词特征信息进行转载关键词提取。

为了使评估更加准确,第二评估模块300包括第二评估单元310;第二评估单元310用于根据预设的转载关键词规则利用转载关键词库对关键词特征信息进行转载关键词提取;

若关键词特征信息提取不到转载关键词,则根据预设的原创关键词规则利用原创关键词库对关键词特征信息进行原创关键词提取;若关键词特征信息提取到原创关键词,则将新闻文章标记为一级原创;若关键词特征信息提取不到原创关键词,则将新闻文章标记为三级原创;

若所述关键词特征信息提取到转载关键词,则将所述转载关键词与所述媒体关键词库进行匹配,将匹配得到的媒体名称关键词与该新闻文章中的所述实际来源信息进行判断,若所述媒体名称关键词与实际来源信息不一致,则将所述新闻文章标记为二级转载;

若所述媒体名称关键词与实际来源信息一致,则根据预设的原创关键词规则利用原创关键词库对关键词特征信息进行原创关键词提取;若关键词特征信息提取到原创关键词,则将新闻文章标记为一级原创;若关键词特征信息提取不到原创关键词,则将新闻文章标记为二级原创。

进一步的,第二评估模块300包括修正单元;修正单元用于在将新闻文章标记为三级原创之后,根据作者信息、发布时间以及数字报稿件信息对三级原创进行修正,根据修正结果确定新闻文章原创性等级。

本发明实施例四提供的基于文章特征的原创新闻评估系统,与实施例三相比,区别在于,还包括实时补充模块500;实时补充模块500用于实时获取当前新闻文章,根据当前新闻文章对来源关键词库、转载关键词库、原创关键词库以及媒体关键词库进行补充。

本发明虽然已以较佳实施例公开如上,但其并不是用来限定本发明,任何本领域技术人员在不脱离本发明的精神和范围内,都可以利用上述揭示的方法和技术内容对本发明技术方案做出可能的变动和修改,因此,凡是未脱离本发明技术方案的内容,依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化及修饰,均属于本发明技术方案的保护范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1