一种新闻数据的处理方法及装置与流程

文档序号:17951325发布日期:2019-06-19 00:03阅读:344来源:国知局
一种新闻数据的处理方法及装置与流程

本申请涉及信息处理技术,尤其涉及一种新闻数据的处理方法及装置。



背景技术:

伴随着互联网的发展,信息流通的速度迅速提升,各种新闻门户网站、自媒体等新闻发布者和其发表的新闻也日益增多,热点事件以及重点政策导向的舆情从开始到爆发再到结束的周期越来越短。如何从大量新闻报道中,及时准确地把握舆情发展的态势成为关注的热点。

传统的方法通过人工阅读事件相关报道,梳理事件脉络,了解各方观点,对原始素材进行整理和编辑,对热点事件进行态势描述和分析。这样的事件态势描述和分析虽然保证了准确性,但是受限于人工处理效率,很难满足及时性和全面性。伴随着现代人工智能及自然语言处理技术的发展与兴起,大量舆情分析系统被开发,由机器代替人工,此类系统能够快速处理海量文本,对文本进行分析整理,提取出有价值的信息。

通过分析专家和机构针对某些舆情事件或者对重点政策发表的观点,不仅能够了解各方的态度和立场,还能够全面地了解热点事件与重点政策导向的舆情发展态势,把握具有及时性、前瞻性、导向性、代表性的信息,为决策者提供帮助。因此,提取和分析专家和机构的观点有着重要的意义。

目前的系统对专家和机构观点的处理还有许多不足,提取的信息既不准确也不全面,缺少自动评价专家和机构重要度的功能,也难以对观点进行回溯和关联分析。



技术实现要素:

为解决上述技术问题,本申请实施例提供了一种新闻数据的处理方法及装置。

本申请实施例提供的新闻数据的处理方法,包括:

获取流式的新闻数据,从所述新闻数据中提取观点持有者信息和观点信息;

对所述观点持有者信息进行实体对齐处理,并存储至持有者数据库;将所述观点信息存储至观点数据库中,其中,所述持有者数据库中记录有所述持有者的重要度;

建立所述新闻数据与所述观点信息的关联关系;

根据配置的选题检索新闻数据,基于检索到的新闻数据在所述观点数据库中确定与所述新闻数据关联的观点信息。

本申请实施例提供的新闻数据的处理装置,包括:

抽取模块,用于获取流式的新闻数据,从所述新闻数据中提取观点持有者信息和观点信息;

对齐模块,用于对所述观点持有者信息进行实体对齐处理,并存储至持有者数据库;将所述观点信息存储至观点数据库中,其中,所述持有者数据库中记录有所述持有者的重要度;

重要度计算模块,用于计算及更新所述持有者的重要度;

分析模块,用于建立所述新闻数据与所述观点信息的关联关系;根据配置的选题检索新闻数据,基于检索到的新闻数据在所述观点数据库中确定与所述新闻数据关联的观点信息。

采用本申请实施例的上述技术方案,1)应用自然语言处理相关技术,能够从文本中准确地抽取出专家、机构、职位和观点等要素,处理效率高,结果准确率高,查全率高。2)建立了专家和机构库,能够依据新闻报道数量建立专家、职位和机构的重要度评估机制,该重要度评估机制合理有效。3)能够对选题下的专家、机构的观点进行回溯,利用聚类算法进行关联分析、提取聚类簇内观点的关键词,依据持有者的重要度进行排序。聚类和关键词提取效果好,引入重要度排序体现了观点的重要性。4)对专家和机构进行了实体对齐和去噪,减少了系统误差。5)系统可扩展性强,触发词库、实体对齐表都可以更新升级。

附图说明

图1为本申请实施例提供的新闻数据的处理方法的流程示意图;

图2为本申请实施例提供的原理框架图;

图3为本申请实施例提供的联合抽取方法的流程示意图;

图4为本申请实施例提供的联合抽取方法的单篇新闻的处理流程图;

图5为本申请实施例提供的新闻数据的处理装置的结构组成示意图。

具体实施方式

现在将参照附图来详细描述本申请的各种示例性实施例。应注意到:除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本申请的范围。

同时,应当明白,为了便于描述,附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。

以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本申请及其应用或使用的任何限制。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为说明书的一部分。

应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。

本申请实施例可以应用于计算机系统/服务器等电子设备,其可与众多其它通用或专用计算系统环境或配置一起操作。适于与计算机系统/服务器等电子设备一起使用的众所周知的计算系统、环境和/或配置的例子包括但不限于:个人计算机系统、服务器计算机系统、瘦客户机、厚客户机、手持或膝上设备、基于微处理器的系统、机顶盒、可编程消费电子产品、网络个人电脑、小型计算机系统、大型计算机系统和包括上述任何系统的分布式云计算技术环境,等等。

计算机系统/服务器等电子设备可以在由计算机系统执行的计算机系统可执行指令(诸如程序模块)的一般语境下描述。通常,程序模块可以包括例程、程序、目标程序、组件、逻辑、数据结构等等,它们执行特定的任务或者实现特定的抽象数据类型。计算机系统/服务器可以在分布式云计算环境中实施,分布式云计算环境中,任务是由通过通信网络链接的远程处理设备执行的。在分布式云计算环境中,程序模块可以位于包括存储设备的本地或远程计算系统存储介质上。

当前的舆情分析系统首先难以准确地抽取出文本中包含的专家和机构持有的观点,其次难以评估专家和机构重要性,除此之外,也欠缺对专家机构的观点的回溯和关联分析功能。为此,本申请针对中文文本语法的特点,提出了一种基于观点触发词的专家与机构及其观点的联合抽取方法;在此基础上构建了专家库和机构库,动态评估专家和机构的重要度,对专家和机构实体进行对齐和去噪;建立了新闻索引,构建了观点库,为观点回溯提供了基础;建立了专家与机构观点的分析系统。

图1为本申请实施例提供的新闻数据的处理方法的流程示意图,如图1所示,所述新闻数据的处理方法包括以下步骤:

步骤101:获取流式的新闻数据,从所述新闻数据中提取观点持有者信息和观点信息。

本申请实施例中,流式的新闻数据是指实时的以流的方式获取到的新闻数据。本申请实施例的技术方案通过流式的方式对实时的新闻数据进行处理,这里,新闻数据的处理至少包括从所述新闻数据中提取观点持有者信息和观点信息。

本申请实施例中,从所述新闻数据中提取的所述观点持有者信息包括以下至少之一:机构信息、职位信息、专家信息。

可选地,所述观点持有者信息包括机构信息和专家信息。

可选地,所述观点持有者信息包括机构信息、职位信息和专家信息。

步骤102:对所述观点持有者信息进行实体对齐处理,并存储至持有者数据库;将所述观点信息存储至观点数据库中,其中,所述持有者数据库中记录有所述持有者的重要度。

本申请实施例中,所述持有者数据库包括以下至少之一:机构数据库、职位数据库、专家数据库。

其中,机构数据库用于存储机构信息,职位数据库用于存储职位信息,专家数据库用于存储专家信息。

本申请实施例中,对所述观点持有者信息进行实体对齐处理后存储至对应的持有者数据库。

本申请实施例中,从所述新闻数据中提取观点持有者信息和观点信息,可以通过以下步骤实现:

1)输入待分析的新闻数据,并初始化任职字典和用于保存结果的数组;

2)对所述新闻数据进行分句,判断是否有未处理的句子;

3)如果有未处理的句子,则从所述句子中提取以下至少之一:机构信息、职位信息、专家信息、观点信息;

4)判断所提取的专家信息是否没有对应的职位信息;是时,根据所述职位字典补全所述专家信息对应的职位信息;否时,更新所述任职字典;

5)将所述句子对应的机构信息、职位信息、专家信息、观点信息保存到对应的用于保存结果的数组中。

进一步,上述方案中,从所述句子中提取以下至少之一:机构信息、职位信息、专家信息、观点信息,可以通过以下步骤实现:

3.1)输入待处理的句子;

3.2)对所述句子进行如下处理:分词、词性标注、命名实体识别、句法分析;

3.3)加载观点触发词库,基于所述观点触发词库判断所述句子中是否包含观点触发词;

3.4)如果所述句子中包含观点触发词,则根据所述句子的句法结构,查找所述观点触发词的主语以及该主语的修饰语,将所述观点触发词的主语以及该主语的修饰语作为目标主语;

3.5)根据所述命名实体识别对所述目标主语进行切分,得到以下至少之一:机构信息、职位信息、专家信息;以及根据正则表达式和语法结构从所述句子中提取所述观点触发词后面的观点信息。

本申请实施例中,所述观点信息存储至观点数据库中,其中,所述持有者数据库中记录有所述持有者的重要度。

上述方案中,所述持有者的重要度通过以下方式计算:

初始化所述持有者的重要度,并设置所述持有者表发的新闻数量为0;

在一个统计周期内,每处理一篇包含所述观点持有者信息的新闻,将所述持有者表发的新闻数量加1,并将所述持有者的重要度加1;

当前所述统计周期结束后,按照如下公式更新所述持有者的重要度和所述持有者表发的新闻数量:

news_count=0

其中,importance代表所述持有者的重要度,news_count代表所述持有者表发的新闻数量。

步骤103:建立所述新闻数据与所述观点信息的关联关系;根据配置的选题检索新闻数据,基于检索到的新闻数据在所述观点数据库中确定与所述新闻数据关联的观点信息。

进一步,本申请实施例的技术方案还包括以下步骤:

步骤104:对检索到的多条新闻数据进行聚类处理,得到多个子话题;将同一子话题的观点信息归类为一簇,得到多簇观点信息集合。

步骤105:从每簇观点信息集合中提取该簇观点信息集合的关键词,并根据所述关键词对应的持有者的重要度对各簇的关键词进行排序。

以下结合图2所示的原理框架对本申请实施例的技术方案进行举例说明,该原理需要通过如下基础模块来实现:

抽取模块:具有基于观点触发词的专家与机构及其观点的联合抽取功能。

重要度计算模块:具有专家、职位和机构重要度的计算与动态更新功能。

对齐模块:具有专家与机构实体的对齐与去噪功能。

分析模块:具有观点的回溯与关联分析功能。

参照图2,对于互联网中流式的新闻数据,利用本申请实施例提出的新闻数据的处理方法,提取新闻数据中的专家、机构、职位和观点等要素,在经过实体对齐处理后,存入专家数据库、机构数据库和观点数据库,在专家数据库和机构数据库中记录有专家、机构和职位的重要度,该重要度根据新闻报道数量定期更新。同时,本申请实施例保存新闻数据,并建立与观点库之间的关联关系。根据用户配置的选题(关键字)和时间窗口,检索新闻及新闻包含的观点,实现观点回溯,然后对新闻聚类,得到子话题,将同一子话题下的观点归为一个簇,利用关键词提取算法,提取具有代表性的关键词,最终根据观点持有者的重要度对观点进行排序,完成对专家和机构观点的分析。以下具体描述本申请实施例的技术方案。

(1)基于观点触发词的专家与机构及其观点的联合抽取

中文文本表述方式繁杂且丰富,表达一个人说了什么话的方式有很多种,可以分为显式表达和隐式表达,隐式表达没有固定的语法结构,主要根据上下文语义推断出来,而新闻中通常是显式表达,即分为直接引语和间接引语,这两种表达方式都有固定的语法结构,包含一个表达观点的动词,称为观点触发词,针对观点触发词依据中文语法结构可以同时提取出专家、机构及其持有的观点和专家的任职信息。本申请提出的,基于观点触发词的专家与机构及其观点的联合抽取方法如图3所示。使用该方法对单篇新闻进行抽取的流程如图4所示。

(2)专家、职位和机构的重要度的计算与动态更新

由于不同的专家和机构在社会影响力方面存在悬殊差距,因此建立专家和机构的重要度评价机制对于观点分析有着重要意义。此外,专家、职位和机构的重要度可以用来进行实体对齐与去噪。本发明本申请中的重要度的计算依据是新闻报道数量,这个依据既简单也合理,新闻报道越多的专家或机构,影响力越大,因此重要度越高。但是,考虑到专家和机构的影响力会随时间不断变化,单纯统计新闻报道次数对影响力的动态变化不敏感,本发明本申请提出了一种重要度计算方法。该方法处理流程如下:

1、初始化重要度(importance)、统计周期内(本发明本申请设置为一个月)新闻报道数量(news_count)为0。

2、在统计周期内,每处理一篇包含该统计对象(专家、职位、机构)的新闻,将对应的新闻报道数量加一,重要度加一。

3、当前统计周期结束后,重要度和新闻报道数量按如下公式更新:

news_count=0

其中,importance代表所述持有者的重要度,news_count代表所述持有者表发的新闻数量。

(3)专家与机构实体的对齐与去噪

实体对齐主要解决以下三个问题:

1、多个专家实体具有相同的名称

2、同一个实体(专家、机构)有多个名称。

3、同一个专家实体具有多个职位。

针对第一个问题,由于专家有专业领域的限制,同一专业领域有两名姓名相同的专家的概率极小,因此本申请假设,在同一个选题下不存在多个专家的姓名相同的情况。

针对第二个问题,系统构建了一个实体对齐表,在实体存入数据库前,根据实体对齐表,对实体名称进行替换,统一为最常见的称谓,这个表支持更新和替换,内容通过百度百科等现有知识得到。

针对第三个问题,系统首先获取同一专家在同一选题所有新闻中出现的职位的集合,选取重要度最大的职位作为专家的职位。如果同一选题下所有的新闻中都没有该专家的职位,则从专家库中查询出同名专家最重要的职位作为该专家的职位。

因为有些新闻会采访普通群众、一些小组织和小团体,这些人或组织和团体不应该被认为是专家和机构,因此需要对专家库和机构库进行去噪,本申请在定期更新重要度的同时,把重要度过低的专家和机构实体从数据库中删除,从而达到去噪的目的。

(4)观点的回溯与关联分析

对一个选题在某个时间段内新闻的观点进行分析,需要提取新闻中所包含的专家和机构及其持有的观点,然而,新闻数量可能比较大,实时处理花费时间长。本申请流式处理每篇新闻,将观点保存到数据库中,并建立与新闻的关联,这样可以通过选题检索到新闻,从而回溯观点。

同一个选题下,可能会包含若干个子话题,本申请先对选题下的新闻进行聚类,得到子话题划分。新闻文本的聚类算法如下:

1、计算每篇新闻的tfidf值

2、提取新闻中tfidf值最大的30个词语

3、取这30个词语的词向量的平均值作为新闻的向量表示,词向量采用新闻语料预训练得到

4、使用kmeans聚类,依据簇的聚集程度确定聚类个数。

依据子话题将观点划分为不同集合,利用textrank算法提取观点集合的关键词。最后根据观点持有者(专家或机构)的重要度排序得到最终分析结果。

图5为本申请实施例提供的新闻数据的处理装置的结构组成示意图,如图5所示,所述装置包括:

抽取模块501,用于获取流式的新闻数据,从所述新闻数据中提取观点持有者信息和观点信息;

对齐模块502,用于对所述观点持有者信息进行实体对齐处理,并存储至持有者数据库;将所述观点信息存储至观点数据库中,其中,所述持有者数据库中记录有所述持有者的重要度;

重要度计算模块503,用于计算及更新所述持有者的重要度;

分析模块504,用于建立所述新闻数据与所述观点信息的关联关系;根据配置的选题检索新闻数据,基于检索到的新闻数据在所述观点数据库中确定与所述新闻数据关联的观点信息。

在一实施方式中,所述分析模块504,还用于对检索到的多条新闻数据进行聚类处理,得到多个子话题;将同一子话题的观点信息归类为一簇,得到多簇观点信息集合;从每簇观点信息集合中提取该簇观点信息集合的关键词,并根据所述关键词对应的持有者的重要度对各簇的关键词进行排序。

在一实施方式中,所述观点持有者信息包括以下至少之一:机构信息、职位信息、专家信息;

所述持有者数据库包括以下至少之一:机构数据库、职位数据库、专家数据库。

在一实施方式中,所述抽取模块501,用于:

输入待分析的新闻数据,并初始化任职字典和用于保存结果的数组;

对所述新闻数据进行分句,判断是否有未处理的句子;

如果有未处理的句子,则从所述句子中提取以下至少之一:机构信息、职位信息、专家信息、观点信息;

判断所提取的专家信息是否没有对应的职位信息;是时,根据所述任职字典补全所述专家信息对应的职位信息;否时,更新所述任职字典;

将所述句子对应的机构信息、职位信息、专家信息、观点信息保存到对应的用于保存结果的数组中。

在一实施方式中,所述抽取模块501,用于:

输入待处理的句子;

对所述句子进行如下处理:分词、词性标注、命名实体识别、句法分析;

加载观点触发词库,基于所述观点触发词库判断所述句子中是否包含观点触发词;

如果所述句子中包含观点触发词,则根据所述句子的句法结构,查找所述观点触发词的主语以及该主语的修饰语,将所述观点触发词的主语以及该主语的修饰语作为目标主语;

根据所述命名实体识别对所述目标主语进行切分,得到以下至少之一:机构信息、职位信息、专家信息;以及根据正则表达式和语法结构从所述句子中提取所述观点触发词后面的观点信息。

在一实施方式中,所述重要度计算模块503,用于通过以下方式计算所述持有者的重要度:

初始化所述持有者的重要度,并设置所述持有者表发的新闻数量为0;

在一个统计周期内,每处理一篇包含所述观点持有者信息的新闻,将所述持有者表发的新闻数量加1,并将所述持有者的重要度加1;

当前所述统计周期结束后,按照如下公式更新所述持有者的重要度和所述持有者表发的新闻数量:

news_count=0

其中,importance代表所述持有者的重要度,news_count代表所述持有者表发的新闻数量。

本领域技术人员应当理解,图5所示的新闻数据的处理装置中的各模块的实现功能可参照前述新闻数据的处理方法的相关描述而理解。图5所示的新闻数据的处理装置中的各模块的功能可通过运行于处理器上的程序而实现,也可通过具体的逻辑电路而实现。

本发明的描述是为了示例和描述起见而给出的,而并不是无遗漏的或者将本发明限于所公开的形式。很多修改和变化对于本领域的普通技术人员而言是显然的。选择和描述实施例是为了更好说明本发明的原理和实际应用,并且使本领域的普通技术人员能够理解本发明从而设计适于特定用途的带有各种修改的各种实施例。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1