新闻素材的采集方法及装置、存储介质、电子装置与流程

文档序号:26050677发布日期:2021-07-27 15:25阅读:122来源:国知局
新闻素材的采集方法及装置、存储介质、电子装置与流程

本发明涉及计算机领域,具体而言,涉及一种新闻素材的采集方法及装置、存储介质、电子装置。



背景技术:

相关技术中,随着新闻数字化的兴起,网络新闻信息爆炸式增长。网络上存在着海量的新闻内容,在这些新闻之中,因新闻报道者的不同,新闻内容也会存在着差异,但本质上还是同一个新闻主题。同时,网络上的海量新闻以文章的形式呈现居多,人们想要得到一些新闻消息时需要额外花费不少时间。现代信息技术和存储技术的快速发展以及互联网的迅速蔓延,以网络为载体的网络新闻兴起,网络新闻信息爆炸式增长,其中可能存在一些虚假新闻,而如何辨别筛选出可信度高的新闻是一个关键的问题。同时,现代人们工作生活节奏加快,如何使人们在短时间内快速了解新闻信息是一个重要的问题,面对这两个挑战性问题,只依靠人力来解决不仅低效且难以实现,所以能够对海量数据进行智能化处理的人工智能技术成为现在的研究热点,并在近些年得到快速发展,各种基于人工智能技术的系统层出不穷。利用文本摘要抽取技术,根据这些同一主题但不同描述内容的新闻信息得到简短且有可靠性的新闻摘要,人们能通过新闻摘要快速了解新闻内容。

相关技术中,信息技术和存储技术的快速发展以及互联网的迅速蔓延,以网络为载体的网络新闻兴起,网络新闻信息爆炸式增长,其中可能存在一些虚假新闻,而如何辨别筛选出可信度高的新闻是一个关键的问题。同时,现代人们工作生活节奏加快,如何使人们在短时间内快速了解新闻信息是一个重要的问题,面对这两个挑战性问题,只依靠人力来解决不仅低效且难以实现,所以能够对海量数据进行智能化处理的人工智能技术成为现在的研究热点,并在近些年得到快速发展,各种基于人工智能技术的系统层出不穷。

相关技术中,人工智能应用系统在数据采集环节采取的爬取策略单一,采集到的数据可能会造成后续机器学习的性能影响,尤其比如像新闻信息数据,若在采集的时候没有针对虚假新闻的处理,能可能会导致虚假新闻也进入到了机器学习过程,进而对最终的应用系统造成不良影响。

针对相关技术中存在的上述问题,目前尚未发现有效的解决方案。



技术实现要素:

本发明实施例提供了一种新闻素材的采集方法及装置、存储介质、电子装置。

根据本发明的一个实施例,提供了一种新闻素材的采集方法,包括:采用限制来源的方式从指定数据源采集目标主题的第一新闻源数据;提取所述第一新闻源数据中的第一关键词集合,并基于所述第一关键词集合采用非限制来源的方式从搜索引擎采集第二新闻源数据;提取所述第二新闻源数据中的第二关键词集合;根据所述第一关键词集和所述第二关键词集合生成所述目标主题的新闻素材。

可选的,根据所述第一关键词集和所述第二关键词集合生成所述目标主题的新闻素材包括:对比所述第一关键词集和所述第二关键词集合,提取所述第一关键词集和所述第二关键词集合在第一采集周期的第一共有关键词集合;判断所述第一共有关键词的数量是否小于预设阈值;若所述第一共有关键词的数量小于预设阈值,将所述第一关键词集和所述第二关键词输出所述目标主题的新闻素材;若所述第一共有关键词的数量大于或等于预设阈值,以所述第二关键词集合为起始关键字继续迭代提取关键字集合,直到迭代后的第n采集周期的第n共有关键词集合的数量小于预设阈值,其中,n为大于0的整数。

可选的,在第二采集周期,以所述第二关键词集合为起始关键字继续迭代提取关键字集合包括:以所述第二关键词集合为搜索关键字采用限制来源的方式从所述指定数据源采集第三新闻源数据;提取所述第三新闻源数据中的第三关键词集合,并基于所述第三关键词集合采用非限制来源的方式从所述搜索引擎采集第四新闻源数据;提取所述第四新闻源数据中的第四关键词集合。

可选的,所述方法还包括:对所述新闻源数据进行分词处理,得到词序列;配置所述词序列的第一标签信息,生成新闻数据集,其中,所述新闻数据集包括词序列和对应的第一标签信息,其中,所述新闻源数据包括所述第一新闻源数据和所述第二新闻源数据;采用目标命名实体识别ner模型识别所述新闻数据集,并输出所述新闻数据集的实体信息,其中,所述实体信息包括有效字符序列;从所述新闻素材中选择与所述实体信息匹配的新闻特征素材。

可选的,在采用目标ner模型识别所述新闻数据集之前,所述方法还包括:将所述新闻数据集划分为训练集,验证集,以及测试集;采用所述训练集,所述验证集,以及所述测试集迭代训练初始ner模型,直到最新的目标ner模型满足预设条件。

可选的,采用所述训练集,所述验证集,以及所述测试集迭代训练初始ner模型,包括:将所述训练集,所述验证集,以及所述测试集分割成第一字符序列;将所述第一字符序列作为输入数据,提取所述第一字符序列的特征信息,并基于所述特征信息生成特征向量集合;采用双向长期短期记忆bilstm网络提取所述特征向量集合的隐状态序列,其中,所述隐状态序列包括字与字之间的关系特征信息;根据所述隐状态序列对所述第一字符序列中的字符进行实体标签检测,得到第二标签信息,并根据所述第一标签信息和所述第二标签信息采用维特比算法生成第三标签信息,得到第二字符序列,其中,所述第二字符序列包括词序列和对应的第三标签信息;将所述第二字符序列作为输入数据,迭代训练所述初始ner模型,直到当前迭代周期的ner模型满足预设条件。

可选的,采用bilstm网络提取所述特征向量集合的隐状态序列包括:根据所述特征向量集合提取到字的特征信息,将各个字对应的特征向量输入到bilstm网络,其中,所述bilstm网络包括一个正向lstm和一个反向lstm;正向lstm根据输入的特征向量输出得到正向隐状态序列,反向lstm根据输入的特征向量输出得到反向隐状态序列;将所述正向隐状态序列和所述反向隐状态序列进行拼接得到完整的所述隐状态序列。

根据本发明的另一个实施例,提供了一种新闻素材的采集装置,包括:第一采集模块,用于采用限制来源的方式从指定数据源采集目标主题的第一新闻源数据;第二采集模块,用于提取所述第一新闻源数据中的第一关键词集合,并基于所述第一关键词集合采用非限制来源的方式从搜索引擎采集第二新闻源数据;提取模块,用于提取所述第二新闻源数据中的第二关键词集合;生成模块,用于根据所述第一关键词集和所述第二关键词集合生成所述目标主题的新闻素材。

可选的,所述生成模块包括:提取单元,用于对比所述第一关键词集和所述第二关键词集合,提取所述第一关键词集和所述第二关键词集合在第一采集周期的第一共有关键词集合;判断单元,用于判断所述第一共有关键词的数量是否小于预设阈值;处理单元,用于若所述第一共有关键词的数量小于预设阈值,将所述第一关键词集和所述第二关键词输出所述目标主题的新闻素材;若所述第一共有关键词的数量大于或等于预设阈值,以所述第二关键词集合为起始关键字继续迭代提取关键字集合,直到迭代后的第n采集周期的第n共有关键词集合的数量小于预设阈值,其中,n为大于0的整数。

可选的,在第二采集周期,所述处理单元包括:第一采集子单元,用于以所述第二关键词集合为搜索关键字采用限制来源的方式从所述指定数据源采集第三新闻源数据;第二采集子单元,用于提取所述第三新闻源数据中的第三关键词集合,并基于所述第三关键词集合采用非限制来源的方式从所述搜索引擎采集第四新闻源数据;提取子单元,用于提取所述第四新闻源数据中的第四关键词集合。

可选的,所述装置还包括:分词模块,用于对所述新闻源数据进行分词处理,得到词序列;配置模块,用于配置所述词序列的第一标签信息,生成新闻数据集,其中,所述新闻数据集包括词序列和对应的第一标签信息,其中,所述新闻源数据包括所述第一新闻源数据和所述第二新闻源数据;识别模块,用于采用目标命名实体识别ner模型识别所述新闻数据集,并输出所述新闻数据集的实体信息,其中,所述实体信息包括有效字符序列;选择模块,用于从所述新闻素材中选择与所述实体信息匹配的新闻特征素材。

可选的,所述装置还包括:划分模块,用于在所述识别模块采用目标ner模型识别所述新闻数据集之前,将所述新闻数据集划分为训练集,验证集,以及测试集;训练模块,用于采用所述训练集,所述验证集,以及所述测试集迭代训练初始ner模型,直到最新的目标ner模型满足预设条件。

可选的,所述训练模块包括:分割单元,用于将所述训练集,所述验证集,以及所述测试集分割成第一字符序列;第一提取单元,用于将所述第一字符序列作为输入数据,提取所述第一字符序列的特征信息,并基于所述特征信息生成特征向量集合;第二提取单元,用于采用双向长期短期记忆bilstm网络提取所述特征向量集合的隐状态序列,其中,所述隐状态序列包括字与字之间的关系特征信息;处理单元,用于根据所述隐状态序列对所述第一字符序列中的字符进行实体标签检测,得到第二标签信息,并根据所述第一标签信息和所述第二标签信息采用维特比算法生成第三标签信息,得到第二字符序列,其中,所述第二字符序列包括词序列和对应的第三标签信息;训练单元,用于将所述第二字符序列作为输入数据,迭代训练所述初始ner模型,直到当前迭代周期的ner模型满足预设条件。

可选的,所述第二提取单元包括:输入子单元,用于根据所述特征向量集合提取到字的特征信息,将各个字对应的特征向量输入到bilstm网络,其中,所述bilstm网络包括一个正向lstm和一个反向lstm;输出子单元,用于正向lstm根据输入的特征向量输出得到正向隐状态序列,反向lstm根据输入的特征向量输出得到反向隐状态序列;拼接子单元,用于将所述正向隐状态序列和所述反向隐状态序列进行拼接得到完整的所述隐状态序列。

根据本发明的又一个实施例,还提供了一种存储介质,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。

根据本发明的又一个实施例,还提供了一种电子装置,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行上述任一项方法实施例中的步骤。

通过本发明,采用限制来源的方式从指定数据源采集目标主题的第一新闻源数据,提取第一新闻源数据中的第一关键词集合,并基于第一关键词集合采用非限制来源的方式从搜索引擎采集第二新闻源数据;提取第二新闻源数据中的第二关键词集合,根据第一关键词集和第二关键词集合生成目标主题的新闻素材,通过利用限制来源和非限制来源的两种数据采集方式,可以防范虚假新闻数据的采集,在保证数据量的前提下提高数据和新闻稿件的准确性,解决了相关技术采集新闻素材的准确率低的技术问题,同时提高了多源文本数据的采集效率,降低了新闻数据的冗余度。

附图说明

此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:

图1是本发明实施例的一种新闻素材的采集计算机的硬件结构框图;

图2是根据本发明实施例的一种新闻素材的采集方法的流程图;

图3是本发明实施例的数据采集流程图;

图4是根据本发明实施例的一种新闻素材的采集系统的结构框图;

图5是本发明实施例的一种电子装置的结构图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。

需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

实施例1

本申请实施例一所提供的方法实施例可以在服务器、计算机、手机、或者类似的运算装置中执行。以运行在服务器上为例,图1是本发明实施例的一种服务器的硬件结构框图。如图1所示,服务器可以包括一个或多个(图1中仅示出一个)处理器102(处理器102可以包括但不限于微处理器mcu或可编程逻辑器件fpga等的处理装置)和用于存储数据的存储器104,可选地,上述服务器还可以包括用于通信功能的传输设备106以及输入输出设备108。本领域普通技术人员可以理解,图1所示的结构仅为示意,其并不对上述服务器的结构造成限定。例如,服务器还可包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。

存储器104可用于存储服务器程序,例如,应用软件的软件程序以及模块,如本发明实施例中的一种新闻素材的采集方法对应的服务器程序,处理器102通过运行存储在存储器104内的服务器程序,从而执行各种功能应用以及数据处理,即实现上述的方法。存储器104可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器104可进一步包括相对于处理器102远程设置的存储器,这些远程存储器可以通过网络连接至服务器。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

传输设备106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括服务器的通信供应商提供的无线网络。在一个实例中,传输设备106包括一个网络适配器(networkinterfacecontroller,简称为nic),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输设备106可以为射频(radiofrequency,简称为rf)模块,其用于通过无线方式与互联网进行通讯。

在本实施例中提供了一种新闻素材的采集方法,图2是根据本发明实施例的一种新闻素材的采集方法的流程图,如图2所示,该流程包括如下步骤:

步骤s202,采用限制来源的方式从指定数据源采集目标主题的第一新闻源数据;

本实施例通过采集技术,在指定的网站上合法地采集数据的技术。比如想要采集新闻信息,可以在新浪新闻、腾讯新闻等新闻网站上设置采集脚本,进行新闻数据的采集。

步骤s204,提取所述第一新闻源数据中的第一关键词集合,并基于所述第一关键词集合采用非限制来源的方式从搜索引擎采集第二新闻源数据;

本实施例采集新闻数据,分两种方式采集,一种是限制来源的数据采集,另一种是非限制来源的数据采集。限制来源的数据是指,针对某一特定领域的新闻信息的采集是指定的有限个数据源(如大型新闻网站)上进行采集的,比如想要采集5g技术相关的新闻,就在腾讯新闻、新浪新闻等知名大型网站的5g专题上进行采集。非限制来源的数据是指,根据关键词在搜索引擎上进行搜索采集到的新闻信息,并不限制数据源。

步骤s206,提取所述第二新闻源数据中的第二关键词集合;

步骤s208,根据所述第一关键词集和所述第二关键词集合生成所述目标主题的新闻素材。本实施例的新闻素材包括若干个关键词,是一个集合。

通过上述步骤,采用限制来源的方式从指定数据源采集目标主题的第一新闻源数据,提取第一新闻源数据中的第一关键词集合,并基于第一关键词集合采用非限制来源的方式从搜索引擎采集第二新闻源数据;提取第二新闻源数据中的第二关键词集合,根据第一关键词集和第二关键词集合生成目标主题的新闻素材,通过利用限制来源和非限制来源的两种数据采集方式,可以防范虚假新闻数据的采集,在保证数据量的前提下提高数据和新闻稿件的准确性,解决了相关技术采集新闻素材的准确率低的技术问题,同时提高了多源文本数据的采集效率,降低了新闻数据的冗余度。

在本实施例的一个实施方式中,根据第一关键词集和第二关键词集合生成目标主题的新闻素材包括:

s11,对比第一关键词集和第二关键词集合,提取第一关键词集和第二关键词集合在第一采集周期的第一共有关键词集合;

s12,判断第一共有关键词的数量是否小于预设阈值;

s13,若第一共有关键词的数量小于预设阈值,将第一关键词集和第二关键词输出目标主题的新闻素材;若第一共有关键词的数量大于或等于预设阈值,以第二关键词集合为起始关键字继续迭代提取关键字集合,直到迭代后的第n采集周期的第n共有关键词集合的数量小于预设阈值,其中,n为大于0的整数。

在一个实施方式中,根据第一关键词集和第二关键词集合生成目标主题的新闻素材包括:计算第一关键词集和第二关键词集合的关键词总数,若关键词总数小于第一门限值,对比第一关键词集和第二关键词集合,提取第一关键词集和第二关键词集合在第一采集周期的第一共有关键词集合;若第一共有关键词的数量大于第二门限值,将第一关键词集和第二关键词输出目标主题的新闻素材。在该实施方式中,若通过两种方式采用到的总关键词较少,且重合率较高时,说明两种方式采集到的新闻源数据都较可靠,将其共有的关键词输出为目标主题的新闻素材。

可选的,可以继续采用迭代的方式确定最终的关键词集合,针对第n次采用限制来源的方式从指定数据源采集目标主题的新闻源数据n,基于新闻源数据n采用非限制来源的方式从搜索引擎采集新闻源数据n+1,比较新闻源数据n和新闻源数据n+1中的关键词,直到相同的关键词少于预设值,停止迭代,将新闻源数据n和新闻源数据n+1中的关键词作为最终的关键词集合,n为正整数。

在一个示例中,在第二采集周期,以第二关键词集合为起始关键字继续迭代提取关键字集合包括:以第二关键词集合为搜索关键字采用限制来源的方式从指定数据源采集第三新闻源数据;提取第三新闻源数据中的第三关键词集合,并基于第三关键词集合采用非限制来源的方式从搜索引擎采集第四新闻源数据;提取第四新闻源数据中的第四关键词集合。

图3是本发明实施例的数据采集流程图,从网上采集新闻数据,并统计出相应关键词,可以封装为数据采集模块,数据采集流程包括:

s31,进行限制来源的数据采集,根据限制来源的数据进行初始化关键词集合key_list_0={kword_1,kword_2,…,kword_n},其中kword_n表示第n个关键词,key_list_0的_0表示这是初始关键词集合。

s32,根据关键词集合进行非限制来源数据的采集。

s33,对限制来源数据和非限制来源数据进行数据清洗。

s34,利用关键词抽取技术来进行关键词抽取,然后更新关键词集合得到key_list_1,其中_1表示这是第一次更新得到的关键词集合。

s35,重复步骤s31-s33,同时对新旧关键词集合进行对比,例如:旧关键词集合key_list_0和新关键词集合key_list_1,若新旧关键词集合相同的关键词少于m个(m为工程经验参数),则停止迭代,结束数据采集模块,保留目前的限制来源数据和非限制来源数据作为新闻数据集raw_data={new_data_1,new_data_2,…,new_data_n},其中new_data_n表示在这个数据集中的第n条新闻。保留目前的关键词集合作为最终关键词列表key_list={kword_1,kword_2,…,kword_n}。

通过利用限制来源和非限制来源的两种数据采集方式,进行基于关键词多轮迭代的数据爬取来进行新闻信息数据的采集,可以防范虚假新闻数据的采集,在保证数据量的前提下提高数据和新闻稿件的准确性。

在本实施例的一个实施方式中,还包括:对新闻源数据进行分词处理,得到词序列;配置词序列的第一标签信息,生成新闻数据集,其中,新闻数据集包括词序列和对应的第一标签信息,其中,新闻源数据包括第一新闻源数据和第二新闻源数据;采用目标命名实体识别ner模型识别新闻数据集,并输出新闻数据集的实体信息,其中,实体信息包括有效字符序列;从新闻素材中选择与实体信息匹配的新闻特征素材。

在本实施例中,实体例如有人名、地名、机构名、专有名词等。例如,在一个句子中“小明在学校上课”,“小明”是一个人名,“学校”是一个地名,“小明”和“学校”都属于这个句子的实体。对于新闻信息数据,将其中的一些主要实体成分识别出来,能有效提高新闻资讯理解效率。

可选的,在采用目标ner模型识别新闻数据集之前,还包括:将新闻数据集划分为训练集,验证集,以及测试集;采用训练集,验证集,以及测试集迭代训练初始ner模型,直到最新的目标ner模型满足预设条件。

在本实施例的一个实施方式中,采用训练集,验证集,以及测试集迭代训练初始ner模型,包括:将训练集,验证集,以及测试集分割成第一字符序列;将第一字符序列作为输入数据,提取第一字符序列的特征信息,并基于特征信息生成特征向量集合;采用双向长期短期记忆bilstm网络提取特征向量集合的隐状态序列,其中,隐状态序列包括字与字之间的关系特征信息;根据隐状态序列对第一字符序列中的字符进行实体标签检测,得到第二标签信息,并根据第一标签信息和第二标签信息采用维特比算法生成第三标签信息,得到第二字符序列,其中,第二字符序列包括词序列和对应的第三标签信息;将第二字符序列作为输入数据,迭代训练初始ner模型,直到当前迭代周期的ner模型满足预设条件。

可选的,采用bilstm网络提取特征向量集合的隐状态序列包括:根据特征向量集合提取到字的特征信息,将各个字对应的特征向量输入到bilstm网络,其中,bilstm网络包括一个正向lstm和一个反向lstm;正向lstm根据输入的特征向量输出得到正向隐状态序列,反向lstm根据输入的特征向量输出得到反向隐状态序列;将正向隐状态序列和反向隐状态序列进行拼接得到完整的隐状态序列。

由于过数据采集模块得到的新闻数据集是计算机无法直接理解的文本形式,那就要对数据集进行处理。处理流程包括:数据标注、数据划分和模型训练。下面进行详细说明:

步骤a,数据标注:命名实体识别是一个分类任务,主要基于监督学习来进行,通过标注数据让数据成为带有标签的有监督数据是进行监督学习必不可少的一个环节,命名实体识别模型通过学习有标签数据的特征来得到预测函数,进而预测出数据集中的各个实体。根据不同的命名实体识别任务可采用的数据标注方法也有不同。本实施例基于字的中文命名实体识别,如采用bio(begininsideoutside)的实体标注方法,即可以有b-per、i-per代表人名首字、人名非首字,b-loc、i-loc代表地名首字、地名非首字,b-org、i-org代表组织机构名首字、组织机构名非首字等,,这些都属于实体标签,而o代表该字不属于命名实体的一部分,属于无效标签。标注例子:马[b-per]云[i-per]出[0]席[0]国[b-org]家[i-org]科[i-org]技[i-org]展[i-org]览[i-org]会[i-org]。通过这种实体标注方式,将原本的新闻数据集raw_data处理成每个字都带有实体标签的新闻数据集tag_data。新闻文本首先通过训练好的中文分词模型,进行中文分词,并在分词,获得新闻文本的词序列,再由人工标注该词序列,获得新闻文本的新闻实体标签。

步骤b,数据划分:将由步骤a)标注好的新闻数据集tag_data划分为以下三个部分:

(1)训练集:用来作为模型的训练数据;

(2)验证集:用来验证训练模型的性能;

(3)测试集:用来测试最终模型的效果。划分标准是a:b:c,即训练集占新闻数据集raw_data的a%,验证集占b%,测试集占c%,其中a、b、c均为预设的工程经验参数。

步骤c,模型训练:预处理完数据后,就可以将数据输入到命名实体识别模型(可选的)进行模型训练,这里以bert(bidirectionalencoderrepresentationsfromtransformers,可变压的双向编码器)+bilstm(bi-directionallongshort-termmemory,双向长期短期记忆)+crf(conditionalrandomfield,条件随机场算法)的命名实体识别模型为例进行流程说明:

c.1)将步骤b)得到的训练集、验证集和测试集中的新闻文本分割成为字符序列char_list_i={char_1,char_2,…,char_n},其中char_list_i表示的是第i条新闻的字符序列,char_n表示的是第n个字符。

c.2)模型的第一层是输入层,利用谷歌提供的中文预训练模型bert(可替代技术)作为输入层来使用,即bert作为一个特征提取器。将由c.1)分割好的字符序列输入到输入层,将文本转化成计算机可以理解的向量形式,得到特征向量集合vector={v_1,v_2,…,v_n},其中v_n表示第n个字符的特征向量。

c.3)模型的第二层是bilstm层,lstm是指长短期记忆的人工神经网络模型。bilstm是由一个正方向的lstm和一个反方向的lstm所构成。具体bilstm的训练流程步骤如下:

(1)bilstm能够根据c.2)得到的特征向量集合提取到字的特征信息,将新闻的各个字对应的特征向量作为bilstm层的输入;

(2)正向lstm根据输入的特征向量能够输出得到正向隐状态序列h正={h正_1,h正_2,…,h正_n},其中h正_n表示第n个字符的的正向隐状态;

(3)反向lstm根据输入的特征向量能够输出得到反向隐状态序列h反={h反_1,h反_2,…,h反_n},其中h反_n表示第n个字符的的反向隐状态;

(4)将正向隐状态序列h正和反向隐状态序列h反进行拼接得到完整的隐状态序列h={h正,h反},在完整隐状态序列h中包含了经过bilstm通过字符特征向量学习到的字与字之间的关系特征信息。

c.4)模型的最后一层是crf层,crf是指条件随机场模型,crf能够根据上面得到的隐状态序列h对字符进行实体标签预测。crf再重新对一个字进行预测的时候可以利用上这个字以前的实体标签信息,然后根据维特比算法得到最优的实体标签结果,得到被标注上实体标签的字符序列。

c.5)利用c.4)得到的带有实体标签的字符序列作为输入数据,重复迭代c.2)—c.4)的模型训练步骤,直到满足迭代结束条件为止,最后采用迭代结束的ner模型识别新闻数据集,并输出新闻数据集的实体信息,记录下带有有效实体标签的字符序列和其对应的最终字符特征向量。

将经过步骤c.5)得到的带实体标签字符序列处理成词序列,其对应的字符特征向量进行相加取平均的操作处理成词特征向量,然后将词序列和由前面得到的关键词列表key_list进行匹配,若相同,则记录下来作为实体词集合entity_set={entity_1,entity_2,…,entity_n},对应的新闻特征集合entity_embedding={embedding_1,embedding_2,…,embedding_n},其中entity_n表示第n条新闻的特征关键词序列,embedding_n表示第n条特征关键词对应的特征向量。

本实施例的方案首先利用命名实体识别技术对新闻数据抽取出对应的实体,然后将实体信息和新闻信息一起作为聚类对象,这样不仅能利用上文本相似度,还能利用上实体关键信息,提高聚类效果,得到更具价值的新闻素材。

通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如rom/ram、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。

实施例2

在本实施例中还提供了一种新闻素材的采集装置,用于实现上述实施例及优选实施方式,已经进行过说明的不再赘述。如以下所使用的,术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。

图4是根据本发明实施例的一种新闻素材的采集装置的结构框图,如图4所示,该装置包括:第一采集模块40,第二采集模块42,提取模块44,生成模块46,其中,

第一采集模块40,用于采用限制来源的方式从指定数据源采集目标主题的第一新闻源数据;

第二采集模块42,用于提取所述第一新闻源数据中的第一关键词集合,并基于所述第一关键词集合采用非限制来源的方式从搜索引擎采集第二新闻源数据;

提取模块44,用于提取所述第二新闻源数据中的第二关键词集合;

生成模块46,用于根据所述第一关键词集和所述第二关键词集合生成所述目标主题的新闻素材。

可选的,所述生成模块包括:提取单元,用于对比所述第一关键词集和所述第二关键词集合,提取所述第一关键词集和所述第二关键词集合在第一采集周期的第一共有关键词集合;判断单元,用于判断所述第一共有关键词的数量是否小于预设阈值;处理单元,用于若所述第一共有关键词的数量小于预设阈值,将所述第一关键词集和所述第二关键词输出所述目标主题的新闻素材;若所述第一共有关键词的数量大于或等于预设阈值,以所述第二关键词集合为起始关键字继续迭代提取关键字集合,直到迭代后的第n采集周期的第n共有关键词集合的数量小于预设阈值,其中,n为大于0的整数。

可选的,在第二采集周期,所述处理单元包括:第一采集子单元,用于以所述第二关键词集合为搜索关键字采用限制来源的方式从所述指定数据源采集第三新闻源数据;第二采集子单元,用于提取所述第三新闻源数据中的第三关键词集合,并基于所述第三关键词集合采用非限制来源的方式从所述搜索引擎采集第四新闻源数据;提取子单元,用于提取所述第四新闻源数据中的第四关键词集合。

可选的,所述装置还包括:分词模块,用于对所述新闻源数据进行分词处理,得到词序列;配置模块,用于配置所述词序列的第一标签信息,生成新闻数据集,其中,所述新闻数据集包括词序列和对应的第一标签信息,其中,所述新闻源数据包括所述第一新闻源数据和所述第二新闻源数据;识别模块,用于采用目标命名实体识别ner模型识别所述新闻数据集,并输出所述新闻数据集的实体信息,其中,所述实体信息包括有效字符序列;选择模块,用于从所述新闻素材中选择与所述实体信息匹配的新闻特征素材。

可选的,所述装置还包括:划分模块,用于在所述识别模块采用目标ner模型识别所述新闻数据集之前,将所述新闻数据集划分为训练集,验证集,以及测试集;训练模块,用于采用所述训练集,所述验证集,以及所述测试集迭代训练初始ner模型,直到最新的目标ner模型满足预设条件。

可选的,所述训练模块包括:分割单元,用于将所述训练集,所述验证集,以及所述测试集分割成第一字符序列;第一提取单元,用于将所述第一字符序列作为输入数据,提取所述第一字符序列的特征信息,并基于所述特征信息生成特征向量集合;第二提取单元,用于采用双向长期短期记忆bilstm网络提取所述特征向量集合的隐状态序列,其中,所述隐状态序列包括字与字之间的关系特征信息;处理单元,用于根据所述隐状态序列对所述第一字符序列中的字符进行实体标签检测,得到第二标签信息,并根据所述第一标签信息和所述第二标签信息采用维特比算法生成第三标签信息,得到第二字符序列,其中,所述第二字符序列包括词序列和对应的第三标签信息;训练单元,用于将所述第二字符序列作为输入数据,迭代训练所述初始ner模型,直到当前迭代周期的ner模型满足预设条件。

可选的,所述第二提取单元包括:输入子单元,用于根据所述特征向量集合提取到字的特征信息,将各个字对应的特征向量输入到bilstm网络,其中,所述bilstm网络包括一个正向lstm和一个反向lstm;输出子单元,用于正向lstm根据输入的特征向量输出得到正向隐状态序列,反向lstm根据输入的特征向量输出得到反向隐状态序列;拼接子单元,用于将所述正向隐状态序列和所述反向隐状态序列进行拼接得到完整的所述隐状态序列。

需要说明的是,上述各个模块是可以通过软件或硬件来实现的,对于后者,可以通过以下方式实现,但不限于此:上述模块均位于同一处理器中;或者,上述各个模块以任意组合的形式分别位于不同的处理器中。

实施例3

本申请实施例还提供了一种电子装置,图5是本发明实施例的一种电子装置的结构图,如图5所示,包括处理器51、通信接口52、存储器53和通信总线54,其中,处理器51,通信接口52,存储器53通过通信总线54完成相互间的通信,存储器53,用于存放计算机程序;

处理器51,用于执行存储器53上所存放的程序时,实现如下步骤:采用限制来源的方式从指定数据源采集目标主题的第一新闻源数据;提取所述第一新闻源数据中的第一关键词集合,并基于所述第一关键词集合采用非限制来源的方式从搜索引擎采集第二新闻源数据;提取所述第二新闻源数据中的第二关键词集合;根据所述第一关键词集和所述第二关键词集合生成所述目标主题的新闻素材。

可选的,根据所述第一关键词集和所述第二关键词集合生成所述目标主题的新闻素材包括:对比所述第一关键词集和所述第二关键词集合,提取所述第一关键词集和所述第二关键词集合在第一采集周期的第一共有关键词集合;判断所述第一共有关键词的数量是否小于预设阈值;若所述第一共有关键词的数量小于预设阈值,将所述第一关键词集和所述第二关键词输出所述目标主题的新闻素材;若所述第一共有关键词的数量大于或等于预设阈值,以所述第二关键词集合为起始关键字继续迭代提取关键字集合,直到迭代后的第n采集周期的第n共有关键词集合的数量小于预设阈值,其中,n为大于0的整数。

可选的,在第二采集周期,以所述第二关键词集合为起始关键字继续迭代提取关键字集合包括:以所述第二关键词集合为搜索关键字采用限制来源的方式从所述指定数据源采集第三新闻源数据;提取所述第三新闻源数据中的第三关键词集合,并基于所述第三关键词集合采用非限制来源的方式从所述搜索引擎采集第四新闻源数据;提取所述第四新闻源数据中的第四关键词集合。

可选的,所述方法还包括:对所述新闻源数据进行分词处理,得到词序列;配置所述词序列的第一标签信息,生成新闻数据集,其中,所述新闻数据集包括词序列和对应的第一标签信息,其中,所述新闻源数据包括所述第一新闻源数据和所述第二新闻源数据;采用目标命名实体识别ner模型识别所述新闻数据集,并输出所述新闻数据集的实体信息,其中,所述实体信息包括有效字符序列;从所述新闻素材中选择与所述实体信息匹配的新闻特征素材。

可选的,在采用目标ner模型识别所述新闻数据集之前,所述方法还包括:将所述新闻数据集划分为训练集,验证集,以及测试集;采用所述训练集,所述验证集,以及所述测试集迭代训练初始ner模型,直到最新的目标ner模型满足预设条件。

可选的,采用所述训练集,所述验证集,以及所述测试集迭代训练初始ner模型,包括:将所述训练集,所述验证集,以及所述测试集分割成第一字符序列;将所述第一字符序列作为输入数据,提取所述第一字符序列的特征信息,并基于所述特征信息生成特征向量集合;采用双向长期短期记忆bilstm网络提取所述特征向量集合的隐状态序列,其中,所述隐状态序列包括字与字之间的关系特征信息;根据所述隐状态序列对所述第一字符序列中的字符进行实体标签检测,得到第二标签信息,并根据所述第一标签信息和所述第二标签信息采用维特比算法生成第三标签信息,得到第二字符序列,其中,所述第二字符序列包括词序列和对应的第三标签信息;将所述第二字符序列作为输入数据,迭代训练所述初始ner模型,直到当前迭代周期的ner模型满足预设条件。

可选的,采用bilstm网络提取所述特征向量集合的隐状态序列包括:根据所述特征向量集合提取到字的特征信息,将各个字对应的特征向量输入到bilstm网络,其中,所述bilstm网络包括一个正向lstm和一个反向lstm;正向lstm根据输入的特征向量输出得到正向隐状态序列,反向lstm根据输入的特征向量输出得到反向隐状态序列;将所述正向隐状态序列和所述反向隐状态序列进行拼接得到完整的所述隐状态序列。

上述终端提到的通信总线可以是外设部件互连标准(peripheralcomponentinterconnect,简称pci)总线或扩展工业标准结构(extendedindustrystandardarchitecture,简称eisa)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。

通信接口用于上述终端与其他设备之间的通信。

存储器可以包括随机存取存储器(randomaccessmemory,简称ram),也可以包括非易失性存储器(non-volatilememory),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器,包括中央处理器(centralprocessingunit,简称cpu)、网络处理器(networkprocessor,简称np)等;还可以是数字信号处理器(digitalsignalprocessing,简称dsp)、专用集成电路(applicationspecificintegratedcircuit,简称asic)、现场可编程门阵列(field-programmablegatearray,简称fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

在本申请提供的又一实施例中,还提供了一种计算机可读存储介质,该计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述实施例中任一所述的新闻素材的采集方法。

在本申请提供的又一实施例中,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述实施例中任一所述的新闻素材的采集方法。

在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(dsl))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,dvd)、或者半导体介质(例如固态硬盘solidstatedisk(ssd))等。

上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。

在本申请的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、只读存储器(rom,read-onlymemory)、随机存取存储器(ram,randomaccessmemory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅是本申请的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1