一种新闻质量评判方法、系统、计算机设备和存储介质与流程

文档序号:33151263发布日期:2023-02-03 22:54阅读:44来源:国知局
一种新闻质量评判方法、系统、计算机设备和存储介质与流程

1.本技术涉及数据处理领域,尤其涉及一种新闻质量评判方法、系统、计算机设备和存储介质。


背景技术:

2.随着新闻业的发展,新闻的数量开始大规模的增加,这其中不乏一些发布过时,不涉及广大群众切身利益,新闻主体知名度低,与受众人群具有一定距离,缺乏能够引起观众兴趣,不能反应客观事实的新闻。由于新闻数量的激增,各种新闻的质量参差不齐,难以用人工去对新闻进行分类,没有一个统一的框架能够使用人工智能的方法自动的将新闻的文章内容进行细粒度的分类。


技术实现要素:

3.基于上述问题,本技术提供了一种新闻质量评判方法、系统、计算机设备和存储介质,能够从更多更细的维多度自动对新闻质量进行评判。
4.本技术公开了如下技术方案:本技术第一方面提供一种新闻质量评判方法,包括:从待评判的新闻内容中获取多个待评判文本;将所述多个待评判文本进行向量化处理,得到文本向量;将所述文本向量输入质量评判模型,所述质量评判模型输出多维度的质量评判结果;每个维度的质量评判结果表征被评判的新闻内容的一个质量判定属性;其中,所述质量评判模型为利用训练文本以及人工标注的质量评判结果进行训练获得的模型,所述训练文本获取自所述待评判的新闻内容的同类型内容中。
5.在一个可能的实现方式中,所述质量评判模型的训练方法如下:获取训练文本以及人工标注的质量评判结果;将所述训练文本进行向量化处理,得到训练集内容向量;将所述人工标注的质量评判结果进行向量化处理,得到标注结果向量;根据所述训练集内容向量、标注结果向量对待训练的质量评判模型进行训练。
6.在一个可能的实现方式中,获取训练文本以及人工标注的质量评判结果,包括:从所述待评判的新闻内容的同类型内容中获取多个连续的文本,作为训练文本;获取根据预设规则对所述多个连续的文本进行评判的人工标注的质量评判结果;所述人工标注的质量评判结果包括多维度的质量判定属性。
7.在一个可能的实现方式中,所述质量评判模型,包括:多个共享参数神经网络;所述将所述文本向量输入质量评判模型,所述质量评判模型输出多维度的质量评判结果,包括:将所述文本向量输入所述多个共享参数神经网络,输出多个第一结果向量;将所述多个第一结果向量输入多个逻辑运算的单元进行逻辑运算,得到多个运算
结果向量;根据所述多个运算结果向量输出多个维度的质量评判结果。
8.在一个可能的实现方式中,所述将所述多个待评判文本进行向量化处理,得到文本向量,包括:将所述待评判文本输入预训练的语言表征模型,所述语言表征模型对所述待评判文本进行向量化处理,得到文本向量。
9.本技术第二方面提供一种新闻质量评判系统,包括:获取单元,用于从待评判的新闻内容中获取多个待评判文本;向量化单元,用于将所述多个待评判文本进行向量化处理,得到文本向量;质量评判单元,用于将所述文本向量输入质量评判模型,所述质量评判模型输出多维度的质量评判结果;每个维度的质量评判结果表征被评判的新闻内容的一个质量判定属性;其中,所述质量评判模型为利用训练文本以及人工标注的质量评判结果进行训练获得的模型,所述训练文本获取自所述待评判的新闻内容的同类型内容中。
10.在一个可能的实现方式中,所述系统还包括质量评判模型的训练单元,包括:训练文本获取单元,用于获取训练文本以及人工标注的质量评判结果;训练文本向量化单元,将所述训练文本进行向量化处理,得到训练集内容向量;将所述人工标注的质量评判结果进行向量化处理,得到标注结果向量;训练单元,用于根据所述训练集内容向量、标注结果向量对待训练的质量评判模型进行训练。
11.在一个可能的实现方式中,所述质量评判模型,包括:多个共享参数神经网络;所述质量评判单元具体用于:将所述文本向量输入所述多个共享参数神经网络,输出多个第一结果向量;将所述多个第一结果向量输入多个逻辑运算的单元进行逻辑运算,得到多个运算结果向量;根据所述多个运算结果向量输出多个维度的质量评判结果。
12.本技术第三方面提供一种计算机设备,包括:存储器,处理器,及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时,实现如本技术第一方面任一项所述的新闻质量评判方法。
13.本技术第四方面提供一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当所述指令在终端设备上运行时,使得所述终端设备执行如本技术第一方面任一项所述的新闻质量评判方法。
14.相较于现有技术,本技术具有以下有益效果:本技术提供的一种新闻质量评判方法,包括:从待评判的新闻内容中获取多个待评判文本;将所述多个待评判文本进行向量化处理,得到文本向量;将所述文本向量输入质量评判模型,所述质量评判模型输出多维度的质量评判结果;每个维度的质量评判结果表征被评判的新闻内容的一个质量判定属性;其中,所述质量评判模型为利用训练文本以及人工标注的质量评判结果进行训练获得的模型,所述训练文本获取自所述待评判的新闻内容的同类型内容中。在不使用更多计算资源的条件下,考虑多个质量判定属性之间相关性进行模型训练,从而使模型高精度、高效率自动的评定新闻的质量。
附图说明
15.为了更清楚地说明本技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
16.图1为本技术实施例提供的一种新闻质量评判方法流程图;图2为本技术实施例提供的质量评判模型的训练方法流程图;图3为本技术实施例提供的新闻质量评判过程示意图;图4为本技术实施例提供的计算机设备结构图。
具体实施方式
17.为使本技术的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本技术实施例作进一步详细的说明。
18.正如前文所述,随着新闻业的发展,新闻的数量开始大规模的增加,这其中不乏一些发布过时,不涉及广大群众切身利益,新闻主体知名度低,与受众人群具有一定距离,缺乏能够引起观众兴趣,不能反应客观事实的新闻。由于新闻数量的激增,各种新闻的质量参差不齐,难以用人工去对新闻进行分类,没有一个统一的框架能够使用人工智能的方法自动的将新闻的文章内容进行细粒度的分类。
19.有鉴于此,本技术实施例提供一种新闻质量评判方法、系统、计算机设备和存储介质。
20.参见图1,图1为本技术实施例提供的一种新闻质量评判方法流程图。如图1所示,该方法包括:s110、从待评判的新闻内容中获取多个待评判文本;s120、将所述多个待评判文本进行向量化处理,得到文本向量;s130、将所述文本向量输入质量评判模型,所述质量评判模型输出多维度的质量评判结果;每个维度的质量评判结果表征被评判的新闻内容的一个质量判定属性;其中,所述质量评判模型为利用训练文本以及人工标注的质量评判结果进行训练获得的模型,所述训练文本获取自所述待评判的新闻内容的同类型内容中。
21.在一个示例中,所说质量判别模型为多任务学习模型。
22.本技术实施例在不使用更多计算资源的条件下,考虑各个粒度分类之间相关性进行模型训练从而使模型高精度、高效率自动的将新闻的质量进行细粒度的分类。
23.参见图2,图2为本技术实施例提供的质量评判模型训练方法流程图。如图2所示,所述质量评判模型的训练方法如下:s210、获取训练文本以及人工标注的质量评判结果。
24.s210包括:从所述待评判的新闻内容的同类型内容中获取多个连续的文本,作为训练文本。获取根据预设规则对所述多个连续的文本进行评判的人工标注的质量评判结果;所述人工标注的质量评判结果包括多维度的质量判定属性。
25.s220、将所述训练文本进行向量化处理,得到训练集内容向量;s230、将所述人工标注的质量评判结果进行向量化处理,得到标注结果向量;
s240、根据所述训练集内容向量、标注结果向量对待训练的质量评判模型进行训练。
26.在一个示例中,应用新闻质量判别方法的过程如下:步骤1:将新闻原始数据进行预处理,去除到一些无用的内容。
27.步骤2:将预处理后的数据一小部分进行人工标注不同的细粒度分类。
28.步骤3:利用人工标注的数据对多任务模型进行训练,学习将新闻文本分类到各个细粒度中以及各细粒度分类中的关联性。
29.步骤4:将另一部分预处理后的数据作为待评判的新闻内容,经过训练好的模型得到新闻质量细粒度的分类。
30.在一个示例中,通过bert预训练模型将新闻内容映射到低维空间中的一个向量,大多为768维。
31.参见图3,图3为本技术实施例提供的新闻质量评判过程示意图。如图3所示,获取到新闻文字内容后,经过语言表征模型将新闻的文字内容进行向量化处理,得到新闻内容的低维向量化表示。这个低维向量能在低维的向量空间中表示这个新闻的内容。将低维向量经过专家单元(expert)学习各个单任务之间的相关性,在专家单元中具有共享参数的三个网络结构e1、e2、e0,每个网络结构都是相同的,所有低维向量都会经过这三个共享参数的网络结构。同时新闻的低维向量表示也会通过六个门控单元来学习是否将专家单元中的网络结构进行输出,之后将门控单元控制的多个输出进行组合,将组合后的向量作为分类单元(tower)的输入,分类单元将对不同组合向量进行分类,一共有六个分类单元c0、c1、c2、c3、c4和c5,每个单元代表一个单任务。在专家单元中学习到了各个单任务之间的相关性信息,并且能降低计算资源的使用。
32.在一个示例中,多维度的质量判定属性包括:定义新闻质量的多个细粒度,例如,时效性、重要性、显著性、接近性、趣味性和真实性。
33.1.时效性:过时是指发布的资讯、消息等是已经过期的内容,并非新近发生的,因时间不明确、隐藏时间词或时间词过期等引起读者理解偏差、混淆了事件的真实发生时间。
34.2.重要性:判断新闻内容中的事件和当前的生活和广大群众的切身利益是否有密切关系,涉及到民众的钱、性命、生活相关的,为重要性高。
35.3.显著性:判断新闻内容中的事件主题的知名度,主体(包括人物、团体、地点等)的知名度越高,显著性越强。
36.4.接近性:判断新闻内容中的事件与受众的距离,包括地理上的接近、利益关系上的接近,感情上的接近。
37.5.趣味性:判断新闻内容能够引起观众的兴趣,包括内容的有趣和展示方式的有趣。
38.6.真实性:判断新闻内容是否可以反映客观事件,使读者获得真实信息。
39.在一些实施例中,所述质量评判模型,包括:多个共享参数神经网络;所述将所述文本向量输入质量评判模型,所述质量评判模型输出多维度的质量评判结果,包括:将所述文本向量输入所述多个共享参数神经网络,输出多个第一结果向量;将所述多个第一结果向量进行逻辑运算,得到运算结果向量;
根据所述运算结果向量输出多个维度的质量评判结果。
40.在一些实施例中,所述将所述多个待评判文本进行向量化处理,得到文本向量,包括:将所述待评判文本输入预训练的语言表征模型,所述语言表征模型对所述待评判文本进行向量化处理,得到文本向量。
41.本技术实施例提供一种新闻质量评判系统,包括:获取单元,用于从待评判的新闻内容中获取多个待评判文本;向量化单元,用于将所述多个待评判文本进行向量化处理,得到文本向量;质量评判单元,用于将所述文本向量输入质量评判模型,所述质量评判模型输出多维度的质量评判结果;每个维度的质量评判结果表征被评判的新闻内容的一个质量判定属性;其中,所述质量评判模型为利用训练文本以及人工标注的质量评判结果进行训练获得的模型,所述训练文本获取自所述待评判的新闻内容的同类型内容中。
42.在一个可能的实现方式中,所述系统还包括质量评判模型的训练单元,包括:训练文本获取单元,用于获取训练文本以及人工标注的质量评判结果;训练文本向量化单元,将所述训练文本进行向量化处理,得到训练集内容向量;将所述人工标注的质量评判结果进行向量化处理,得到标注结果向量;训练单元,用于根据所述训练集内容向量、标注结果向量对待训练的质量评判模型进行训练。
43.在一个可能的实现方式中,所述质量评判模型,包括:多个共享参数神经网络;所述质量评判单元具体用于:将所述文本向量输入所述多个共享参数神经网络,输出多个第一结果向量;将所述多个第一结果向量进行逻辑运算,得到多个运算结果向量;根据所述多个运算结果向量输出多个维度的质量评判结果。
44.本技术实施例提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现本技术实施例所述的新闻质量评判方法。
45.在实际应用中,所述计算机可读存储介质可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑磁盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本实施例中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
46.计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
47.计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、电线、光缆、rf等等,或者上述的任意合适的组合。
48.可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如java、smalltalk、c++,还包括常规的过程式程序设计语言—诸如“c”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(lan)或广域网(wan)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
49.如图4所示,本技术实施例提供的一种计算机设备的结构示意图。图4显示的计算机设备12仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
50.如图4所示,计算机设备12以通用计算设备的形式表现。计算机设备12的组件可以包括但不限于:一个或者多个处理器或者处理单元16,系统存储器28,连接不同系统组件(包括系统存储器28和处理单元16)的总线18。
51.总线18表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(isa)总线,微通道体系结构(mac)总线,增强型isa总线、视频电子标准协会(vesa)局域总线以及外围组件互连(pci)总线。
52.计算机设备12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机设备12访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
53.系统存储器28可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(ram)30和/或高速缓存存储器32。计算机设备12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统34可以用于读写不可移动的、非易失性磁介质(图4未显示,通常称为“硬盘驱动器”)。尽管图4中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如cd-rom,dvd-rom或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线18相连。存储器28可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本发明各实施例的功能。
54.具有一组(至少一个)程序模块42的程序/实用工具40,可以存储在例如存储器28中,这样的程序模块42包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本发明所描述的实施例中的功能和/或方法。
55.计算机设备12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信,还可与一个或者多个使得用户能与该计算机设备12交互的设备通信,和/或与使得该计算机设备12能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(i/o)接口22进行。并且,计算机设备12还可以通过网络适配器20与一个或者多个网络(例如局域网(lan),广域网(wan)和/或公共网
络,例如因特网)通信。如图4所示,网络适配器20通过总线18与计算机设备12的其它模块通信。应当明白,尽管图4中未示出,可以结合计算机设备12使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、raid系统、磁带驱动器以及数据备份存储系统等。
56.处理器单元16通过运行存储在系统存储器28中的程序,从而执行各种功能应用以及数据处理,例如实现本技术实施例提供的新闻质量评判方法。
57.需要注意,本文使用的术语“包括”及其变形是开放性包括,即“包括但不限于”。术语“基于”是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”;术语“另一实施例”表示“至少一个另外的实施例”;术语“一些实施例”表示“至少一些实施例”。其他术语的相关定义将在下文描述中给出。
58.需要注意,本技术中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分,并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。
59.需要说明的是,尽管已经采用特定于结构特征和/或方法逻辑动作的语言描述了本主题,但是应当理解所附权利要求书中所限定的主题未必局限于上面描述的特定特征或动作。相反,上面所描述的特定特征和动作仅仅是实现权利要求书的示例形式。
60.虽然在上面论述中包含了若干具体实现细节,但是这些不应当被解释为对本技术的范围的限制。在单独的实施例的上下文中描述的某些特征还可以组合地实现在单个实施例中。相反地,在单个实施例的上下文中描述的各种特征也可以单独地或以任何合适的子组合的方式实现在多个实施例中。
61.以上描述仅为本技术的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本技术中所涉及的公开范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述公开构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本技术中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1