新闻筛选的方法、装置、计算机设备和存储介质与流程

文档序号:17080769发布日期:2019-03-09 00:14阅读:199来源:国知局
新闻筛选的方法、装置、计算机设备和存储介质与流程

本申请涉及计算机技术领域,特别是涉及一种新闻筛选的方法、装置、计算机设备和存储介质。



背景技术:

随着机器学习的发展,出现了基于机器学习的新闻筛选技术,目前的新闻筛选技术主要包括根据新闻中的公司或者项目的识别技术确定新闻的对象,根据新闻的对象筛选所需新闻。新闻中的公司或者项目的识别主要还是基于正则匹配原则,正则匹配指的是根据新闻中的公司或者项目的命名实体,匹配命名实体数据库,当命名实体数据库中存在对应的命名实体时,则认为已识别到新闻中的公司或者项目。

由于难以保证新闻中的公司或者项目是独一无二、可唯一定位的,采用目前的新闻筛选的方式,会出现将新闻关联到错误的公司或者项目上的情况,难以实现对新闻的准确筛选。



技术实现要素:

基于此,有必要针对上述技术问题,提供一种能够实现对新闻的准确筛选的新闻筛选的方法、装置、计算机设备和存储介质。

一种新闻筛选的方法,所述方法包括:

获取目标名称的命名实体;

根据命名实体查询预设的新闻数据库,获取与目标名称相应的历史新闻数据;

根据命名实体查询历史新闻数据,获取目标名称的共现词与主题;

根据命名实体、共现词以及主题,构建多个识别词组;

根据各识别词组构建新闻识别模型,基于新闻识别模型识别待处理新闻确定目标新闻。

在其中一个实施例中,根据命名实体查询历史新闻数据,获取目标名称的共现词与主题包括:

根据命名实体遍历历史新闻数据;

识别历史新闻数据中包含命名实体的段落;

提取段落中的词语;

统计段落中的各词语与命名实体共同出现的次数;

当段落中的词语与命名实体共同出现的次数大于预设的次数阈值时,确定段落中的词语为目标名称的共现词。

在其中一个实施例中,根据命名实体查询历史新闻数据,获取目标名称的共现词与主题包括:

获取预设的主题数据库中的主题词;

根据主题词查询历史新闻数据;

当历史新闻数据中存在与主题词对应的词语时,根据对应的主题词确定目标名称的主题。

在其中一个实施例中,根据各识别词组构建新闻识别模型,基于新闻识别模型识别待处理新闻确定目标新闻包括:

将待处理新闻拆分为多个新闻片段;

根据新闻识别模型中的各识别词组匹配各新闻片段,根据匹配结果确定目标新闻片段;

确定与目标新闻片段对应的待处理新闻为目标新闻。

在其中一个实施例中,根据新闻识别模型中的各识别词组匹配各新闻片段,根据匹配结果确定目标新闻片段包括:

获取新闻识别模型中的各识别词组的主题;

根据各识别词组的主题,获取在各新闻片段中与各识别词组的主题相同的第一新闻片段集合;

根据与各识别词组的主题对应的命名实体和共现词,遍历第一新闻片段集合中的第一新闻片段;

确定在第一新闻片段集合中包含命名实体和共现词的第二新闻片段,将第二新闻片段作为目标新闻片段。

在其中一个实施例中,在根据各识别词组构建新闻识别模型,基于新闻识别模型识别待处理新闻确定目标新闻之后,包括:

根据目标名称标识目标新闻;

将标识后的目标新闻存入预设的新闻数据库。

一种新闻筛选的装置,所述装置包括:

命名实体获取模块,用于获取目标名称的命名实体;

新闻获取模块,用于根据命名实体查询预设的新闻数据库,获取与目标名称相应的历史新闻数据;

数据获取模块,用于根据命名实体查询历史新闻数据,获取目标名称的共现词与主题;

构建模块,用于根据命名实体、共现词以及主题,构建多个识别词组;

识别模块,用于根据各识别词组构建新闻识别模型,基于新闻识别模型识别待处理新闻确定目标新闻。

在其中一个实施例中,数据获取模块还用于根据命名实体遍历历史新闻数据,识别历史新闻数据中包含命名实体的段落,提取段落中的词语,统计段落中的各词语与命名实体共同出现的次数,当段落中的词语与命名实体共同出现的次数大于预设的次数阈值时,确定段落中的词语为目标名称的共现词。

一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:

获取目标名称的命名实体;

根据命名实体查询预设的新闻数据库,获取与目标名称相应的历史新闻数据;

根据命名实体查询历史新闻数据,获取目标名称的共现词与主题;

根据命名实体、共现词以及主题,构建多个识别词组;

根据各识别词组构建新闻识别模型,基于新闻识别模型识别待处理新闻确定目标新闻。

一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:

获取目标名称的命名实体;

根据命名实体查询预设的新闻数据库,获取与目标名称相应的历史新闻数据;

根据命名实体查询历史新闻数据,获取目标名称的共现词与主题;

根据命名实体、共现词以及主题,构建多个识别词组;

根据各识别词组构建新闻识别模型,基于新闻识别模型识别待处理新闻确定目标新闻。

上述新闻筛选的方法、装置、计算机设备和存储介质,获取目标名称的命名实体,根据命名实体查询预设的新闻数据库,获取与目标名称相应的历史新闻数据,根据命名实体查询历史新闻数据,获取目标名称的共现词与主题,根据命名实体、共现词以及主题,构建多个识别词组,根据各识别词组构建新闻识别模型,基于新闻识别模型识别待处理新闻确定目标新闻,实现对目标新闻的准确获取,对待处理新闻的准确筛选。

附图说明

图1为一个实施例中新闻筛选的方法的应用场景图;

图2为一个实施例中新闻筛选的方法的流程示意图;

图3为一个实施例中图2中步骤s206的子流程示意图;

图4为另一个实施例中图2中步骤s206的子流程示意图;

图5为一个实施例中图2中步骤s210的子流程示意图;

图6为一个实施例中图5中步骤s504的子流程示意图;

图7为另一个实施例中新闻筛选的方法的流程示意图;

图8为一个实施例中新闻筛选的装置的结构框图;

图9为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。

本申请提供的新闻筛选的方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104通过网络进行通信。服务器104获取目标名称的命名实体,根据命名实体查询预设的新闻数据库,获取与目标名称相应的历史新闻数据,根据命名实体查询历史新闻数据,获取目标名称的共现词与主题,根据命名实体、共现词以及主题,构建多个识别词组,根据各识别词组构建新闻识别模型,基于新闻识别模型识别待处理新闻确定目标新闻,将目标新闻推送至终端102。其中,终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机和平板电脑,服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一个实施例中,如图2所示,提供了一种新闻筛选的方法,以该方法应用于图1中的服务器为例进行说明,包括以下步骤:

s202:获取目标名称的命名实体。

目标名称指的是新闻中的公司或者项目的名称。命名实体指的是人名、机构名、地名以及其他所有以名称为标识的实体。获取目标名称的命名实体采用的是实体识别技术,实体识别技术指的是识别文本中具有特定意义的实体。服务器获取预设的新闻文本作为训练集,使用bi-lstm+crf模型训练新闻文本,标注出新闻文本中出现的公司候选词,将公司候选词与目标名称进行匹配,根据匹配度确定目标名称的命名实体。

s204:根据命名实体查询预设的新闻数据库,获取与目标名称相应的历史新闻数据。

预设的新闻数据库中包括大量已归纳整理的历史新闻数据,归纳整理的依据为新闻中出现过的公司或者项目的名称。服务器设置命名实体为查询关键字,根据查询关键字查询预设的新闻数据库,当预设的新闻数据库中存在与查询关键字对应的历史新闻数据时,确定与查询关键字对应的历史新闻数据为与目标名称相应的历史新闻数据。其中,在新闻数据库中已归纳整理的历史新闻数据上设置有名称标识,在根据查询关键字查询预设的新闻数据库时,通过匹配查询关键字与各历史新闻数据上设置的名称标识即可,当查询关键字与历史新闻数据上设置的名称标识匹配时,获取与查询关键字匹配的历史新闻数据,作为与目标名称相应的历史新闻数据。

s206:根据命名实体查询历史新闻数据,获取目标名称的共现词与主题。

服务器根据命名实体遍历历史新闻数据,确定历史新闻数据中包含命名实体的段落,提取段落中的词语,统计段落中的各词语与命名实体共同出现的次数,当段落中的词语与命名实体共同出现的次数大于预设的次数阈值时,确定段落中的词语为目标名称的共现词。其中,共现词指的是与命名实体共同出现的词语,预设的次数阈值可根据需要自行设置。

服务器获取预设的主题数据库中的主题词,根据主题词查询历史新闻数据,当历史新闻数据中存在与主题词对应的词语时,根据对应的主题词确定目标名称的主题。其中,预设的主题数据库中的主题词指的是主题数据库中已按主题归纳整理的词语,根据主题词可确定对应的主题。常见的主题包括it、农业以及医学等。it主题的常见主题词包括手机、电脑以及平板等。

s208:根据命名实体、共现词以及主题,构建多个识别词组。

服务器根据命名实体、共现词以及主题,构建多个识别词组,识别词组指的是命名实体+共现词+主题的组合,因为共现词的数量可能不止一个,所以可以由命名实体、共现词以及主题,构建多个识别词组。

s210:根据各识别词组构建新闻识别模型,基于新闻识别模型识别待处理新闻确定目标新闻。

服务器根据识别词组构建新闻识别模型,将待处理新闻拆分为多个新闻片段,根据新闻识别模型中的识别词组匹配已拆分的新闻片段,当新闻片段与新闻识别模型中的任意识别词组匹配时,确定新闻片段为目标新闻片段,确定与目标新闻片段对应的待处理新闻为目标新闻。

上述新闻筛选的方法,获取目标名称的命名实体,根据命名实体查询预设的新闻数据库,获取与目标名称相应的历史新闻数据,根据命名实体查询历史新闻数据,获取目标名称的共现词与主题,根据命名实体、共现词以及主题,构建多个识别词组,根据各识别词组构建新闻识别模型,基于新闻识别模型识别待处理新闻确定目标新闻,实现对目标新闻的准确获取,对待处理新闻的准确筛选。

在其中一个实施例中,如图3所示,s206包括:

s302:根据命名实体遍历历史新闻数据;

s304:识别历史新闻数据中包含命名实体的段落;

s306:提取段落中的词语;

s308:统计段落中的各词语与命名实体共同出现的次数;

s310:当段落中的词语与命名实体共同出现的次数大于预设的次数阈值时,确定段落中的词语为目标名称的共现词。

服务器以命名实体为遍历关键字,将历史新闻数据拆分为多个新闻段落,根据遍历关键字遍历各新闻段落,识别各新闻段落中包含命名实体的段落,提取包含命名实体的段落中的词语,统计段落中各词语与命名实体共同出现的次数,当段落中的词语与命名实体共同出现的次数大于预设的次数阈值时,确定段落中的词语为目标名称的共现词。其中,预设的次数阈值可按照需要自行设置。进一步的,统计共现词与命名实体共同出现在同一个句子中的次数,根据共现词与命名实体共同出现在同一个句子中的次数对共现词进行排序,确定共现词的重要程度。设置共现词数量阈值,当共现词的数量超过预设的共现词数量阈值时,根据共现词的重要程度和共现词数量阈值对共现词进行筛选。

上述实施例,根据命名实体遍历历史新闻数据,识别历史新闻数据中包含命名实体的段落,提取段落中的词语,统计段落中的各词语与命名实体共同出现的次数,确定段落中与命名实体共同出现的次数大于预设的次数阈值的词语为目标名称的共现词,根据命名实体和历史新闻数据,实现了对目标名称的共现词的准确查找。

在其中一个实施例中,如图4所示,s206包括:

s402:获取预设的主题数据库中的主题词;

s404:根据主题词查询历史新闻数据;

s406:当历史新闻数据中存在与主题词对应的词语时,根据对应的主题词确定目标名称的主题。

预设的主题数据库中的主题词指的是主题数据库中已按主题归纳整理的词语,服务器获取预设的主题数据库中的主题词,根据主题词查询历史新闻数据,当历史新闻数据中存在与主题词对应的词语时,根据对应的主题词确定目标名称的主题。其中,常见的主题包括it、农业以及医学等。it主题的常见主题词包括手机、电脑以及平板等。其中,目标名称的主题可能为多个。

上述实施例,获取预设的主题数据库中的主题词,根据主题词查询历史新闻数据,当历史新闻数据中存在与主题词对应的词语时,根据对应的主题词确定目标名称的主题,通过预设的主题数据库中的主题词和历史新闻数据,实现了对目标名称的主题的确定。

在其中一个实施例中,如图5所示,s210包括:

s502:将待处理新闻拆分为多个新闻片段;

s504:根据新闻识别模型中的各识别词组匹配各新闻片段,根据匹配结果确定目标新闻片段;

s506:确定与目标新闻片段对应的待处理新闻为目标新闻。

服务器将待处理新闻拆分为多个新闻片段,根据新闻识别模型中的各识别词组匹配各新闻片段,当新闻片段与新闻识别模型中的任意识别词组匹配时,确定新闻片段为目标新闻片段,确定与目标新闻片段对应的待处理新闻为目标新闻。其中,新闻片段与识别模型中的任意识别词组匹配指的是,新闻片段的主题与识别词组的主题相同,新闻片段中同时出现了命名实体和共现词,新闻片段的主题可根据新闻片段的内容确定。

上述实施例,将待处理新闻拆分为多个新闻片段,根据新闻识别模型中的各识别词组匹配各新闻片段,根据匹配结果确定目标新闻片段,从而确定与目标新闻片段对应的待处理新闻为目标新闻,实现了对目标新闻的准确识别。

在其中一个实施例中,如图6所示,s504包括:

s602:获取新闻识别模型中的各识别词组的主题;

s604:根据各识别词组的主题,获取在各新闻片段中与各识别词组的主题相同的第一新闻片段集合;

s606:根据与各识别词组的主题对应的命名实体和共现词,遍历第一新闻片段集合中的第一新闻片段;

s608:确定在第一新闻片段集合中包含命名实体和共现词的第二新闻片段,将第二新闻片段作为目标新闻片段。

服务器获取新闻识别模型中的各识别词组的主题,根据各识别词组的主题,获取在各新闻片段中与各识别词组的主题相同的第一新闻片段集合,根据与各识别词组的主题对应的命名实体和共现词,遍历第一新闻片段集合中的第一新闻片段,确定在第一新闻片段集合中包含命名实体和共现词的第二新闻片段,将第二新闻片段作为目标新闻片段。其中,第一新闻片段集合由多个与各识别词组的主题相同的第一新闻片段组成。

上述实施例,通过各识别词组的主题、与各识别词组的主题对应的命名实体和共现词,实现了对多个新闻片段的筛选,从多个新闻片段中准确筛选出了目标新闻片段。

在其中一个实施例中,如图7所示,在s210之后,包括:

s702:根据目标名称标识目标新闻;

s704:将标识后的目标新闻存入预设的新闻数据库。

服务器根据目标名称标识目标新闻,将标识后的目标新闻作为与目标名称对应的历史新闻数据,存入预设的新闻数据库,更新与目标名称对应的历史新闻数据。

上述实施例,根据目标名称标识目标新闻,将标识后的目标新闻存入预设的新闻数据库,通过这种方式,不断及时更新与目标名称对应的历史新闻数据,使根据历史新闻数据获取的数据更为准确。

下面通过一个实施例来详细说明本申请的方案。

服务器首先获取目标名称的命名实体,根据命名实体查询预设的新闻数据库,获取与目标名称相应的历史新闻数据,根据命名实体遍历历史新闻数据,识别历史新闻数据中包含命名实体的段落,提取段落中的词语,统计段落中的各词语与命名实体共同出现的次数,当段落中的词语与命名实体共同出现的次数大于预设的次数阈值时,确定段落中的词语为目标名称的共现词。然后获取预设的主题数据库中的主题词,根据主题词查询历史新闻数据,当历史新闻数据中存在与主题词对应的词语时,根据对应的主题词确定目标名称的主题。然后根据命名实体、共现词以及主题,构建多个识别词组,将待处理新闻拆分为多个新闻片段,获取新闻识别模型中的各识别词组的主题,根据各识别词组的主题,获取在各新闻片段中与识别词组的主题相同的第一新闻片段集合,根据与各识别词组的主题对应的命名实体和共现词,遍历第一新闻片段集合中的第一新闻片段,确定在第一新闻片段集合中包含命名实体和共现词的第二新闻片段,将第二新闻片段作为目标新闻片段,确定与目标新闻片段对应的待处理新闻为目标新闻。最后根据目标名称标识目标新闻,将标识后的目标新闻存入预设的新闻数据库。

应该理解的是,虽然图2-7的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2-7中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中,如图8所示,提供了一种新闻筛选的装置,包括:命名实体获取模块802、新闻获取模块804、数据获取模块806、构建模块808以及识别模型810,其中:

命名实体获取模块802,用于获取目标名称的命名实体;

新闻获取模块804,用于根据命名实体查询预设的新闻数据库,获取与目标名称相应的历史新闻数据;

数据获取模块806,用于根据命名实体查询历史新闻数据,获取目标名称的共现词与主题;

构建模块808,用于根据命名实体、共现词以及主题,构建多个识别词组;

识别模块810,用于根据各识别词组构建新闻识别模型,基于新闻识别模型识别待处理新闻确定目标新闻。

上述新闻筛选的装置,获取目标名称的命名实体,根据命名实体查询预设的新闻数据库,获取与目标名称相应的历史新闻数据,根据命名实体查询历史新闻数据,获取目标名称的共现词与主题,根据命名实体、共现词以及主题,构建多个识别词组,根据各识别词组构建新闻识别模型,基于新闻识别模型识别待处理新闻确定目标新闻,实现对目标新闻的准确获取,对待处理新闻的准确筛选。

在其中一个实施例中,数据获取模块还用于根据命名实体遍历历史新闻数据,识别历史新闻数据中包含命名实体的段落,提取段落中的词语,统计段落中的各词语与命名实体共同出现的次数,当段落中的词语与命名实体共同出现的次数大于预设的次数阈值时,确定段落中的词语为目标名称的共现词。

在其中一个实施例中,数据获取模块还用于获取预设的主题数据库中的主题词,根据主题词查询历史新闻数据,当历史新闻数据中存在与主题词对应的词语时,根据对应的主题词确定目标名称的主题。

在其中一个实施例中,识别模块还用于将待处理新闻拆分为多个新闻片段,根据新闻识别模型中的各识别词组匹配各新闻片段,根据匹配结果确定目标新闻片段,确定与目标新闻片段对应的待处理新闻为目标新闻。

在其中一个实施例中,识别模块还用于获取新闻识别模型中的各识别词组的主题,根据各识别词组的主题,获取在各新闻片段中与各识别词组的主题相同的第一新闻片段集合,根据与各识别词组的主题对应的命名实体和共现词,遍历第一新闻片段集合中的第一新闻片段,确定在第一新闻片段集合中包含命名实体和共现词的第二新闻片段,将第二新闻片段作为目标新闻片段。

在其中一个实施例中,新闻筛选的装置还包括存储模块,存储模块用于根据目标名称标识目标新闻,将标识后的目标新闻存入预设的新闻数据库。

关于新闻筛选的装置的具体限定可以参见上文中对于新闻筛选的方法的限定,在此不再赘述。上述新闻筛选的装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图9所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储新闻数据、主题数据以及模型数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种新闻筛选的方法。

本领域技术人员可以理解,图9中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。

在一个实施例中,提供了一种计算机设备,包括存储器和处理器,该存储器存储有计算机程序,该处理器执行计算机程序时实现以下步骤:

获取目标名称的命名实体;

根据命名实体查询预设的新闻数据库,获取与目标名称相应的历史新闻数据;

根据命名实体查询历史新闻数据,获取目标名称的共现词与主题;

根据命名实体、共现词以及主题,构建多个识别词组;

根据各识别词组构建新闻识别模型,基于新闻识别模型识别待处理新闻确定目标新闻。

上述新闻筛选的计算机设备,获取目标名称的命名实体,根据命名实体查询预设的新闻数据库,获取与目标名称相应的历史新闻数据,根据命名实体查询历史新闻数据,获取目标名称的共现词与主题,根据命名实体、共现词以及主题,构建多个识别词组,根据各识别词组构建新闻识别模型,基于新闻识别模型识别待处理新闻确定目标新闻,实现对目标新闻的准确获取,对待处理新闻的准确筛选。

在一个实施例中,处理器执行计算机程序时还实现以下步骤:

根据命名实体遍历历史新闻数据;

识别历史新闻数据中包含命名实体的段落;

提取段落中的词语;

统计段落中的各词语与命名实体共同出现的次数;

当段落中的词语与命名实体共同出现的次数大于预设的次数阈值时,确定段落中的词语为目标名称的共现词。

在一个实施例中,处理器执行计算机程序时还实现以下步骤:

获取预设的主题数据库中的主题词;

根据主题词查询历史新闻数据;

当历史新闻数据中存在与主题词对应的词语时,根据对应的主题词确定目标名称的主题。

在一个实施例中,处理器执行计算机程序时还实现以下步骤:

将待处理新闻拆分为多个新闻片段;

根据新闻识别模型中的各识别词组匹配各新闻片段,根据匹配结果确定目标新闻片段;

确定与目标新闻片段对应的待处理新闻为目标新闻。

在一个实施例中,处理器执行计算机程序时还实现以下步骤:

获取新闻识别模型中的各识别词组的主题;

根据各识别词组的主题,获取在各新闻片段中与各识别词组的主题相同的第一新闻片段集合;

根据与各识别词组的主题对应的命名实体和共现词,遍历第一新闻片段集合中的第一新闻片段;

确定在第一新闻片段集合中包含命名实体和共现词的第二新闻片段,将第二新闻片段作为目标新闻片段。在一个实施例中,处理器执行计算机程序时还实现以下步骤:

根据目标名称标识目标新闻;

将标识后的目标新闻存入预设的新闻数据库。

在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:

获取目标名称的命名实体;

根据命名实体查询预设的新闻数据库,获取与目标名称相应的历史新闻数据;

根据命名实体查询历史新闻数据,获取目标名称的共现词与主题;

根据命名实体、共现词以及主题,构建多个识别词组;

根据各识别词组构建新闻识别模型,基于新闻识别模型识别待处理新闻确定目标新闻。

上述新闻筛选的存储介质,获取目标名称的命名实体,根据命名实体查询预设的新闻数据库,获取与目标名称相应的历史新闻数据,根据命名实体查询历史新闻数据,获取目标名称的共现词与主题,根据命名实体、共现词以及主题,构建多个识别词组,根据各识别词组构建新闻识别模型,基于新闻识别模型识别待处理新闻确定目标新闻,实现对目标新闻的准确获取,对待处理新闻的准确筛选。

在一个实施例中,计算机程序被处理器执行时还实现以下步骤:

根据命名实体遍历历史新闻数据;

识别历史新闻数据中包含命名实体的段落;

提取段落中的词语;

统计段落中的各词语与命名实体共同出现的次数;

当段落中的词语与命名实体共同出现的次数大于预设的次数阈值时,确定段落中的词语为目标名称的共现词。

在一个实施例中,计算机程序被处理器执行时还实现以下步骤:

获取预设的主题数据库中的主题词;

根据主题词查询历史新闻数据;

当历史新闻数据中存在与主题词对应的词语时,根据对应的主题词确定目标名称的主题。

在一个实施例中,计算机程序被处理器执行时还实现以下步骤:

将待处理新闻拆分为多个新闻片段;

根据新闻识别模型中的各识别词组匹配各新闻片段,根据匹配结果确定目标新闻片段;

确定与目标新闻片段对应的待处理新闻为目标新闻。

在一个实施例中,计算机程序被处理器执行时还实现以下步骤:

获取新闻识别模型中的各识别词组的主题;

根据各识别词组的主题,获取在各新闻片段中与各识别词组的主题相同的第一新闻片段集合;

根据与各识别词组的主题对应的命名实体和共现词,遍历第一新闻片段集合中的第一新闻片段;

确定在第一新闻片段集合中包含命名实体和共现词的第二新闻片段,将第二新闻片段作为目标新闻片段。在一个实施例中,计算机程序被处理器执行时还实现以下步骤:

根据目标名称标识目标新闻;

将标识后的目标新闻存入预设的新闻数据库。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(rom)、可编程rom(prom)、电可编程rom(eprom)、电可擦除可编程rom(eeprom)或闪存。易失性存储器可包括随机存取存储器(ram)或者外部高速缓冲存储器。作为说明而非局限,ram以多种形式可得,诸如静态ram(sram)、动态ram(dram)、同步dram(sdram)、双数据率sdram(ddrsdram)、增强型sdram(esdram)、同步链路(synchlink)dram(sldram)、存储器总线(rambus)直接ram(rdram)、直接存储器总线动态ram(drdram)、以及存储器总线动态ram(rdram)等。

以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1