文章质量的确定方法、文章筛选方法、以及相应的装置与流程

文档序号:18885858发布日期:2019-10-15 20:54阅读:377来源:国知局
文章质量的确定方法、文章筛选方法、以及相应的装置与流程

本申请涉及计算机领域,具体而言,本申请涉及一种文章质量的确定方法、文章筛选方法、以及相应的装置。



背景技术:

目前,在许多实际应用场景中,都需要对文章的质量进行评价。例如,很多的应用程序中为用户推送的文章,在将文章推送给用户之前,文章的质量也基本上都是经过评估的。

现有的文章质量评估方法主要有以下几种:一种常用的方式是通过文章质量预测模型来预测文章质量,但是对于模型的训练,需要大量样本数据,且需要对大量样本数据进行标注,训练成本较高,且由于对样本数据的标注的标准比较主观,基于模型预测文章质量的准确性也不准确。另一种常用方式是依据用户对文章的操作行为(如用户对文章的评分、用户对文章的点击量等等)来评估文章质量,但是该方案的评估客观性及准确性也较低。



技术实现要素:

为了解决现有技术中所在的问题中的至少一个,本申请实施例提供了一种文章质量的确定方法、文章筛选方法、以及相应的装置,基于本申请实施例所提供的方案,能够有效提高文章质量评估准确性。本申请实施例所提供的技术方案如下:

本申请实施例的第一方面,提供了一种文章质量的确定方法,该方法包括:

获取关于同一话题的至少两个文章;

对于至少两个文章中待处理的目标文章,确定目标文章的质量评估参数,其中,质量评估参数包括语义覆盖度和文章信息量,语义覆盖度表征了目标文章和至少两个文章中除目标文章之外的其他文章的文章相关性;

根据目标文章的质量评估参数确定目标文章的文章质量。

在一种可选的实施方式中,文章相关性包括语义相似度,确定目标文章的语义覆盖度,包括:

分别确定目标文章与其他文章中每个文章的语义相似度;

根据目标文章与其他文章中的每个文章的语义相似度,确定目标文章的语义覆盖度。

在一种可选的实施方式中,确定目标文章的文章信息量,包括:

提取目标文章的关键词,并确定各关键词的信息量;

根据目标文章中各关键词的信息量,确定目标文章的文章信息量。

在一种可选的实施方式中,关键词的信息量是指在至少两个文章中,关键词为文章提供的信息量。

在一种可选的实施方式中,目标文章的文章质量通过目标文章的文章质量得分表征;

根据目标文章的质量评估参数确定目标文章的文章质量,包括:

获取语义覆盖度的第一权重和文章信息量的第二权重;

根据语义覆盖度、文章信息量、第一权重、以及第二权重,确定目标文章的文章质量得分。

在一种可选的实施方式中,目标文章的文章质量通过目标文章的文章质量得分表征,该方法还包括:

获取目标文章的影响力评估参数;

根据目标文章的影响力评估参数,确定目标文章的文章质量得分的调节系数;

根据目标文章的质量评估参数确定目标文章的文章质量,包括:

根据质量评估参数确定目标文章的初始质量得分;

根据初始质量得分和调节系数,确定目标文章的文章质量得分。

在一种可选的实施方式中,影响力评估参数包括以下至少一种:

文章的原创性、用户对文章的操作行为信息、或者文章所对应的发布媒体的媒体等级。

本申请实施例的第二方面,提供了一种文章筛选方法,该方法包括:

获取关于同一话题的至少两个待处理文章;

确定每个待处理文章的文章质量,其中,文章质量基于本申请实施例第一方面或第一方面的任一可选实施方式中所提供的文章质量的确定方法确定的;

根据每个待处理文章的文章质量,对至少两个待处理文章进行筛选。

在一种可选的实施方式中,文章质量通过待处理文章的文章质量得分表征,待处理文章为待发布文章或待推送文章;

根据每个待处理文章的文章质量,对至少两个待处理文章进行筛选,包括:

将文章质量得分大于第一设定阈值的待处理文章作为筛选结果,或者,将每个待处理文章的得分按照由高到低的顺序排列,将得分靠前的第一设定数量的待处理文章作为筛选结果;

该方法还包括:

发布或推送筛选出的待处理文章。

在一种可选的实施方式中,文章质量通过待处理文章的文章质量得分表征,待处理文章为基于检索关键词检索到的文章;

根据每个待处理文章的文章质量,对至少两个待处理文章进行筛选,包括:

将文章质量得分大于第二设定阈值的待处理文章作为筛选结果,或者,将每个待处理文章的得分按照由高到低的顺序排列,将得分靠前的第二设定数量的待处理文章作为筛选结果;

该方法还包括:

将筛选出来的待处理文章提供给用户。

本申请实施例的第三方面,提供了一种文章质量的确定装置,该装置包括:

文章获取模块,用于获取关于同一话题的至少两个文章;

文章质量确定模块,用于对于至少两个文章中待处理的目标文章,确定目标文章的质量评估参数,根据目标文章的质量评估参数确定目标文章的文章质量,其中,质量评估参数包括语义覆盖度和文章信息量,语义覆盖度是表征了目标文章和至少两个文章中除目标文章之外的其他文章的文章相关性。

在一种可选的实施方式中,文章相关性包括语义相似度,文章质量确定模块在确定目标文章的语义覆盖度时,具体用于:

分别确定目标文章与其他文章中每个文章的语义相似度;

根据目标文章与其他文章中的每个文章的语义相似度,确定目标文章的语义覆盖度。

在一种可选的实施方式中,文章质量确定模块在确定目标文章的文章信息量时,具体用于:

提取目标文章的关键词,并确定各关键词的信息量;

根据目标文章中各关键词的信息量,确定目标文章的文章信息量。

在一种可选的实施方式中,关键词的信息量是指在至少两个文章中,关键词为文章提供的信息量。

在一种可选的实施方式中,目标文章的文章质量通过目标文章的文章质量得分表征;

文章质量确定模块在根据目标文章的质量评估参数确定目标文章的文章质量时,具体用于:

获取语义覆盖度的第一权重和文章信息量的第二权重;

根据语义覆盖度、文章信息量、第一权重、以及第二权重,确定目标文章的文章质量得分。

在一种可选的实施方式中,目标文章的文章质量通过目标文章的文章质量得分表征,该装置还包括质量调节系数确定模块,该模块用于:

获取目标文章的影响力评估参数;根据目标文章的影响力评估参数,确定目标文章的文章质量得分的调节系数;

文章质量确定模块在根据目标文章的质量评估参数确定目标文章的文章质量时,具体用于:

根据质量评估参数确定目标文章的初始质量得分;

根据初始质量得分和调节系数,确定目标文章的文章质量得分。

在一种可选的实施方式中,影响力评估参数包括以下至少一种:

文章的原创性、用户对文章的操作行为信息、或者文章所对应的发布媒体的媒体等级。

本申请实施例的第四方面,提供了一种文章筛选装置,该装置包括:

获取模块,用于获取关于同一话题的至少两个待处理文章;

文章质量确定模块,用于确定每个待处理文章的文章质量,其中,文章质量基于本申请实施例第一方面或第一方面的任一可选实施方式中所提供的文章质量的确定方法确定的;

文章筛选模块,用于根据每个待处理文章的文章质量,对至少两个待处理文章进行筛选。

在一种可选的实施方式中,文章质量通过待处理文章的文章质量得分表征,待处理文章为待发布文章或待推送文章,文章筛选模块具体用于:

将文章质量得分大于第一设定阈值的待处理文章作为筛选结果,或者,将每个待处理文章的得分按照由高到低的顺序排列,将得分靠前的第一设定数量的待处理文章作为筛选结果;

该装置还包括文章处理模块,该模块用于发布或推送筛选出的待处理文章。

在一种可选的实施方式中,文章质量通过待处理文章的文章质量得分表征,待处理文章为基于检索关键词检索到的文章,文章筛选模块具体用于:

将文章质量得分大于第二设定阈值的待处理文章作为筛选结果,或者,将每个待处理文章的得分按照由高到低的顺序排列,将得分靠前的第二设定数量的待处理文章作为筛选结果;

该装置还包括文章提供模块,该模块用于:

将筛选出来的待处理文章提供给用户。

本申请实施例的第五方面,提供了一种电子设备,该电子设备包括存储器和处理器;存储器中存储有计算机程序;处理器用于在运行计算机程序时执行第一方面及其可选的实施方式、以及第二方面及其可选的实施方式中任一项的方法。

本申请实施例的第六方面,提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该程序被处理器执行时实现第一方面及其可选的实现方式以及第二方面及其可选的实现方式中任一项的方法。

本申请实施例所提供的方案的有益效果在于:

本申请实施例所提供的文章质量的确定方法,将文章的语义覆盖度和文章信息量作为文章的质量评估参数,用于文章质量的评估,对于一个文章而言,由于其语义覆盖度表征了该文章与该文章所属话题下的其他文章的文章相关性,而文章信息量则反映了该文章所包含的信息量,因此,语义覆盖度和文章信息量都能够客观、有效的反映文章的质量,基于本申请实施例所提供的方法,能够有效提高文章质量评估的客观性及准确性。

附图说明

为了更清楚地说明本申请实施例中的技术方案,下面将对本申请实施例描述中所需要使用的附图作简单地介绍。

图1示出了本申请实施例提供的一种文章质量的确定方法的流程示意图;

图2示出了本申请实施例提供的一种文章筛选方法的流程示意图;

图3示出了本申请一示例中的一种文章质量确定方式的示意图;

图4a示出了本申请一示例中不同得分的文章数量的统计结果示意图;

图4b示出了本申请一示例中不同得分的文章占比的统计结果示意图;

图5示出了本申请实施例提供的一种文章质量的确定装置的结构示意图;

图6示出了本申请实施例提供的一种文章筛选装置的结构示意图;

图7示出了本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

下面详细描述本申请的实施例,实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本申请,而不能解释为对本发明的限制。

本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“其”和“该”也可包括复数形式。应该进一步理解的是,本申请的说明书中使用的措辞“包括”是指存在特征、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。

为了更好的对本申请实施例中的方案进行说明,下面首先对本申请涉及的相关技术术语进行介绍和解释:

话题:通常是指某个事件的总称,是对各种事件的一个概括,对于文章而言,文章所属的话题可以是文章所想表达的内容的主题,还可以是基于文章中的关键词、关键句或者关键段落所确定的主题。其中,在实际应用中,文章的话题可以是用户所选择的发布平台预配置的话题选项中的一个,还可以是基于文章的具体内容确定出的,如基于文章的内容确定出文章的主题,该主题或主题的部分内容(如关键词)可以作为文章所属的话题。在实际应用中,话题的划分粒度可以根据需求配置,例如,作为一示例,一种粗粒度的划分方式,话题可以为“音乐”、“美食”、“减肥”等,一种细粒度的划分方式,上述“音乐”、“美食”、“减肥”等话题还可以进一步划分,如,“音乐”话题可以进一步细化为“欧美音乐”、“华语音乐”、“日韩音乐”等话题。

热点话题:通常是指一定时间、一定范围内,公众最为关心的热点问题,如教育、医疗、劳动就业问题等。其中,在实际应用中,可以根据应用需求的不同,采用不同的热点话题确定基准,如可以将用户留言数量排名前列的多个话题为热点话题,可以指定某个话题为热点话题,还可以根据其他规则来确定热点话题。

语义覆盖度:对于同一话题中一个文章,该文章的语义覆盖度用于表征该文章与该同一话题下的其他文章的相关程度,具体的可以通过文章间的语义相似度来确定的。

语义相似度:两个文章之间的相关程度的一种表征方式,具体用于表征两个文章的内容的相似度,可以通过文本相似度算法或者神经网络模型等方式来确定两个文章之间的语义相似度。

信息量:信息量是对信息的度量,对于一文章而言,文章信息量是用来衡量该文章包含多少信息,通常可以通过该文章的信息熵来确定,因此,信息量也可称信息熵,信息熵是用来衡量事物不确定性的。信息熵越大,事物越具不确定性,事物越复杂。

随着网络技术的快速发展,关于同一话题的相关文章有成千上百个,例如微博热搜,围绕同一个话题,热搜下的相关文章数量巨大,在很多场景长都需要对文章的质量进行评估,再基于评估结果和实际需求进行相应处理。例如,在为用户进行文章推送的应用场景中,为了提升用户感知,保证所推送的文章的质量,对于待推送的文章,服务器需要首先对文章质量进行评估,以将文章质量相对较高的文章推送给用户。但是现有的文章质量的评估方法都存在文章质量评估准确性较低或者评估客观性较差的问题。

为了解决现有技术的如上技术问题中的至少一个,本申请实施例提供了一种文章质量的确定方法、文章筛选方法、以及相应的装置,基于本申请实施例所提供的方案,能够有效提高文章质量评估的客观性及准确性。

需要说明的是,本申请实施例所提供的文章质量的确定方法适用于任一需要进行文章质量评估的场景中,如可以应用于交互平台中的文章发布、文章推送等场景下的文章质量的评估,还可以用于文章检索场景中,以为用户提供高质量文章的检索结果,还可以应用于普通用户需要对文章进行质量评估的场景中。

下面以具体地实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图,对本申请的实施例进行描述。

图1示出了本申请实施例提供了一种文章质量的确定方法的流程示意图,如图中所示,该方法主要可以包括:

s110:获取关于同一话题的至少两个文章;

其中,关于同一话题的至少两个文章的来源本申请实施例不做限定。对于不同的应用场景,文章的来源也可能不同。例如,在用于文章检索的应用场景中,关于同一话题的各文章可以是基于检索关键词检索得到的,该场景下,检索关键词即为文章所属的话题。再例如,在社交平台中,关于同一话题的文章可以是服务器所接收到的各用户所想要发布的文章,用户在发布文章时,可以选定文章所属的话题,或者可以由服务器根据文章内容确定出文章的话题,从而基于各文章所属的话题,得到属于同一话题的各个文章。

s120:对于至少两个文章中待处理的目标文章,确定每个文章的质量评估参数;

对于一个文章而言,文章的质量评估参数可以包括文章的语义覆盖度和文章信息量,也就是说,可以将文章的语义覆盖度和文章信息量作为文章的质量评估参数。其中,一个文章的语义覆盖度表征了该文章和上述至少两个文章(也就是步骤s110中所获取的与该文章属于同一话题的所有文章)中其他文章(也就是同一话题下除该文章之外的文章)的文章相关性。而一个文章的文章信息量则是对于该文章所包含的信息的度量。

需要说明的是,在实际应用中,对于一个文章而言,在确定文章的语义覆盖度时,所采用的上述其他文章可以是同一话题下除该文章之外的所有文章中的全部或部分(如任选全部中一定比例或者设定数量的其他文章),文章之间的相关性指的则是文章之间的相关联程度,如具体可以是文章的语义相似度。

作为一可选方案,为了进一步保证文章质量评估的客观性,一个文章的语义覆盖度,可以是基于该文章与关于同一话题的所有文章中除该文章之外的各个文章的相关性来确定的,也就是说,需要确定该文章与所有其他文章中每个文章的相关性。作为一个示例,假设属于同一话题的文章共10个,对于其中一个文章,该文章的语义覆盖度可以根据该文章与其他9个文章中各文章的相关性的确定的。

可以理解的是,上述目标文章指的是需要进行质量评估的文章,目标文章可以是上述关于同一话题的至少两个文章中的任一文章。例如,上述示例中的属于同一话题的文章共10个,如果需要确定其中一个文章的质量,则该文章即为目标文章,如果需要确定10个文章中每个文章的质量,则这10个文章中的每个文章都是目标文章,对于每个目标文章,都可以基于本申请实施例所提供的方案来实现文章质量的评估。

s130:根据目标文章的质量评估参数确定文章的文章质量。

可选的,文章质量的表征形式可以根据实际需求配置,如可以通过文章质量得分来表征文章的质量高或低,得分越高,文章质量越高,还可以通过文章质量的等级来表征,如在确定出文章的质量得分之后,可以根据设定的分数阈值,对各文章进行文章质量等级的划分,具体如可以划分为低、中、高三个等级,每个等级可以对应不同的质量得分范围。

本申请实施例所提供的文章质量的确定方法,基于能够客观、有效的反映文章质量的文章的语义覆盖度和文章信息量实现了对文章质量的确定,与现有方案相比,基于本申请实施例所提供的该方法,能够有效提高文章质量评估的客观性及准确性。

可以理解的是,本申请实施例所提供的方法可以应用在任何需要对文章质量进行评估的电子设备中,对于不同的应用场景,本申请实施例所提供的方法的执行主体可以不同。例如,在社交平台中,该方法的执行主体可以是社交平台的服务器,服务器可以基于本申请实施例所提供的方案,对接收到的或者服务器中已存储的文章的质量进行评估。再例如,该方法的执行主体还可以是终端设备,终端设备可以对其存储或者获取到的文章的质量进行评估,作为一示例,终端设备的用户在网络上通过关键词检索,获取到了关于同一关键词(该关键词即为本示例中的话题)的多个文章,则可以基于本申请实施例所提供的方案对各个文章的质量进行评估。

本申请的可选实施例中,文章相关性可以是语义相似度,上述步骤s120中,确定目标文章的语义覆盖度具体可以包括:

分别确定该文章与其他文章中每个文章的语义相似度;

根据该目标文章与其他文章中每个文章的语义相似度确定该目标文章的语义覆盖度。

由前文描述可知,语义覆盖度主要计算每篇文章之间的相关性,旨在找出一篇文章能代表此事件(即话题)绝大多数文章在表述的内容。文章的语义覆盖度越大,该文章的内容能够代表该话题下绝大多数文章在表述的文章的内容的可能性越高,也就是该文章能够代表此话题的可能性越高,该文章的质量则很可能越高。因此,该语义覆盖度可以作为文章质量的一客观评估参数。

在实际应用中,对于目标文章,根据该目标文章与其他文章中每个文章的语义相似度确定该文章的语义覆盖度的具体方式,可以根据实际需求配置,本申请实施例不作限定。可选的,可以将该目标文章与其他文章中每个文章的语义相似度的和作为该文章的语义覆盖度;还可以将各语义相似度的平均值作为该文章的语义覆盖度;还可以基于该目标文章所对应的各语义相似度中设定数量或设定比例的语义相似度确定其语义覆盖度,如根据所计算出各语义相似度的高低,选取较高的设定数量的语义相似度来确定语义覆盖度。

作为一个示例,假设关于同一话题的文章为5个,分别记为文章a1、a2、a3、a4和a5,对于文章a1,可以分别计算a1与a2的语义相似度s12、a1与a3的语义相似度s13、a1与a4的语义相似度s14、以及a1与a5的语义相似度s15,则s12、s13、s14与s15这四个语义相似度之和、或者平均值、述四个语义相似度中相似度较高的三个语义相似度的平均值作为文章a1的语义覆盖度。采用同样的方式,可以分别计算出文章a2、a3、a4和a5的语义覆盖度。

在实际应用中,对于语义相似度的具体算法本申请实施例不作限定。例如,作为一可选方案,语义相似度可以采用余弦相似度算法来计算。具体的,在采用余弦相似度算法来计算语义相似度时,可以首先确定各文章的向量,如可以是文章的词频(termfrequency,tf)向量(具体可以是文章中先后所出现的关键词的词频所组成的向量)、或者词频-逆文本频率指数(termfrequency-inversedocumentfrequency,tf-idf)向量(具体可以是文章中先后出现的各关键词的tf-idf所组成的向量),或者通过神经网络模型得到的文章的向量,在确定出各个文章的向量之后,即可基于两个文章的向量计算出两个文章的语义相似度,具体可以表示为:

sim=cos(一个文章的向量,另一个文章的向量);

其中,sim即为上述两个文章的语义相似度,具体将两个文章的向量代入到余弦相似度公式中(上述cos(一个文章的向量,另一个文章的向量)即表征了余弦相似度的计算公式)即可得到。

可以理解的是,上述余弦相似度算法该来确定文章间的语义相似度的方式只是举例说明,在实际应用中,还可以根据实际需要,配置其他的语义相似度的确定方式,还可以基于简单共有词、编辑距离、汉明距离、杰卡德(jaccard)相似性系数、欧几里得距离、曼哈顿距离等文本相似度的计算方案来确定语义相似度,当然还可以直接通过用于预测语义相似度的神经网络模型来确定文章间的语义相似度。

本申请的可选实施例中,上述步骤s120中,确定目标文章的文章信息量具体可以包括:

提取目标文章的关键词,再确定各个关键词的信息量,根据目标文章中各关键词的信息量,确定目标文章的文章信息量。

可选的,对于目标文章而言,该文章的文章信息量可以是该文章中各关键词的信息量之和。

也就是说,对于目标文章,可以基于其所包含的各关键词中的信息量得到该文章的信息量。其中,各关键词可以是目标文章中所包含的全部关键词,也可以是部分关键词,例如,可以基于目标文章中出现次数较多的若干个关键词的信息量来确定目标文章的信息量。其中,关键词的信息量具体可以为关键词的信息熵。

可选的,对于目标文章而言,其关键词的信息量还可以是指该关键词在该文章中的信息量,即相对于该目标文章本身而言,其所包含的信息量。本申请的可选实施例中,对于目标文章而言,其关键词的信息量还可以是指在上述至少两个文章中关键词为该目标文章提供的信息量。

由于所要评估的文章是同一话题下的多个文章的文章质量,也就是相对于该话题而言的文章的质量,因此,对于一文章中的关键词而言,其信息量采用该关键词在该同一话题的所有文章中为该文章所提供的信息量(也就是相对于所有该话题下的所有文章而言,该关键词为该文章提供的信息量),能够进一步提高该文章相对于该话题下的所有文章的文章质量的客观性。具体的,目标文章中的关键词的信息量可以表示为:

h(x)=-log2p(x);

其中,p(x)表示目标文章中每个关键词出现的概率(即词频除以所有词出现总次数),具体可以是该目标文章中该关键词的词频除以此话题下所有文章的关键词词频,也就是该关键词在该目标文章中的出现次数除以该话题下所有关键词的关键词的出现次数。对于一个关键词而言,其信息熵越大(也就是信息量越大),则表明该目标文章中所提取的该关键词所包含的信息能涵盖该话题信息的比例越大。

假设一关键词在一文章中出现了5次,该话题下的所有文章中的关键词共20个,这20个关键词在所有文章中一共出现了80次,则该关键词的p(x)=5/80。

对一个事件即话题下的所有文章,每篇文章的信息量则等于该文章中提取的所有关键词的信息熵总和。

本申请的可选实施例中,上述提取目标文章的关键词的方式可以是:

提取目标文章的初始关键词;

确定目标文章中的各初始关键词的词频;

将初始关键词中词频大于设定值的初始关键词确定为目标文章的关键词,或者,将初始关键词的词频按照由大至小的顺序排序,将排序靠前的设定数量的词频所对应的初始关键词确定为目标文章的关键词。

例如,可以将词频大于m的初始关键词确定为目标文章的关键词,m为正整数,再例如,假设有z个初始关键词,将这z个初始关键词按照词频由大到小的顺序排列,确定排名靠前的z1个初始关键词为目标文章的关键词,z为正整数,z1为不大于z的正整数,例如,z1取值可以为20,则提取不大于20个的关键词。在通过关键词提取算法提取到目标文章的初始关键词之后,则可以基于从初始关键词中确定出的各关键词的信息量得到目标文章的信息量。

本申请的可选实施例中,目标文章的文章质量可以通过文章的文章质量得分表征,在步骤s130中,根据文章的质量评估参数确定文章的文章质量,具体可以包括:

获取语义覆盖度的第一权重和文章信息量的第二权重;

根据语义覆盖度、文章信息量、第一权重、以及第二权重,确定目标文章的文章质量得分。

具体的,目标文章的文章质量得分可以表示为:

score=(γ1*sim+γ2*h)(1)

其中,score表示目标文章的文章质量得分,sim表示目标文章的语义覆盖度,h表示目标文章的文章信息量,γ1表示第一权重,γ2表示第二权重。

在实际应用中,不同的质量评估参数对文章质量所起到的作用可以是不同的,也有可能在不同的应用场景中,不同的质量评估参数的影响程度是不同的,因此,为了能够控制或调节不同质量评估参数的相对重要程度,在基于语义覆盖度和文章信息量确定文章质量时,可以分别为语义覆盖度和文章信息量赋予各自的权重,即上述第一权重和第二权重。其中,第一权重和第二权重的具体取值可以根据实际需求配置或者调节。

作为一可选方式,第一权重可以为1,第二权重可以设置为2。此时,对于一文章,其文章质量得分可以表示为:

语义覆盖度+文章信息量×2

本申请的可选实施例中,对于目标文章而言,目标文章的文章质量通过目标文章的文章质量得分表征,该方法还可以包括:

获取目标文章的影响力评估参数;

根据目标文章的影响力评估参数,确定目标文章的文章质量得分的调节系数;

相应的,根据目标文章的质量评估参数确定目标文章的文章质量,可以包括:

根据质量评估参数确定目标文章的初始质量得分;

根据初始质量得分和调节系数,确定目标文章的文章质量得分。

其中,影响力评估参数是指示文章的影响力的参数。为了更加全面的对文章的质量进行评估,在基于质量评估参数来确定文章质量时,还可以采用可能的或者读者比较看重的文章的影响力评估参数,来确定用于调节文章质量得分的调节系数,通过该系数对基于质量评估参数确定出的初始质量得分进行控制,从而得到文章的最终质量得分。

可选的,影响力评估参数可以包括以下至少一种:

文章的原创性、用户对文章的操作行为信息或文章对应的发布媒体的媒体等级等。

其中,文章的原创性即文章是否为原创文章。

用户对文章的操作行为信息是指读者对文章进行的相关操作的有关信息,例如,可以包括但不限于文章的阅读量、文章的转载量、文章的评论量、文章的评论信息或文章的推荐信息中的至少一项。

媒体等级具体发布该文章的媒体的等级,其中,媒体可以包括但不限于传统媒体(如杂志、期刊等)或新媒体(网站、终端应用平台等),媒体等级可以是最初发布该文章的媒体的等级,也可以是当前获取到文章的媒体的等级,如用户当前上传该文章或想要发布该文章的媒体的等级。例如最初发布该文章的是第一媒体,然后第二媒体转载了该文章,则媒体等级可以是第一媒体的媒体等级,也可以是指第二媒体的媒体等级。

需要说明的是,上述媒体等级的具体划分方式本申请实施例不作限定,可以根据实际需求配置,例如,可以根据实际需求设置或者预划分好各媒体的等级,或者根据媒体的类型进行不同等级的划分。

可以理解的是,在实际应用中,根据实际应用场景的不同,所采用的影响力评估参数可以不同。另外,由于不同的影响力评估参数对于文章的影响力的影响程度可能不同,对于各影响力评估参数可以分别配置不同的权重,根据各影响力评估参数的权重来控制各参数对调节系数的影响。

作为一示例,假设所采用的影响力评估参数包括文章的原创性、文章是否被推荐和文章所对应的发布媒体(采用当前媒体)的媒体等级,文章的原创性所对应的权重为0.3,文章是否被推荐所对应的权重为0.2,媒体等级所对应的权重为0.1,则该示例中的调节系数可以表示为:

1+是否原创×0.3+是否被推荐×0.2+媒体等级×0.1

其中,上述是否选项中,如果结果为是,则取值可以为1,否则为0。对于一文章,假设其是原创文章,但没有被推荐,对应的媒体等级为3,则该文章所对应的调节系数则为1+0.3+0+0.3=1.6。

作为一可选方案,对于目标文章而言,目标文章的文章质量得分可以表示为:

score1=(γ1*sim+γ2*h)*k(2)

其中,score1表示文章质量得分,sim表示目标文章的语义覆盖度,h表示目标文章的文章信息量,γ1表示第一权重,γ2表示第二权重,k表示文章质量得分的调节系数。

通过对比前文中的表达式(1)和该表达式(2)可以看出,在基于文章的语义覆盖度和文章信息量确定出文章的初始质量得分后,可以基于该调节系数和初始质量得分得到文章的最终质量得分。基于该方式,从文章的客观的质量评估参数和对用户有影响的影响力评估参数两个方面,实现了对文章质量的评估。

在实际应用中,根据应用需要,还可以根据需要对文章质量得分的分值范围进行约束,即还可以通过归一化方式将文章质量得分限制在某一个分数范围内,作为一可选的归一化方式,归一化后的文章质量得分可以表示为:

score2=归一化得分范围的最小值+k1*(score0-mins)(3)

其中,

其中,score0表示目标文章归一化前的文章质量得分,可以是通过上述表达式(1)或表示(2)确定出的文章质量得分,score2表示归一化后的文章质量得分,k1为归一化系数,maxs表示归一化前的同一话题下的各文章的文章质量得分中的最大值,mins表示归一化前的同一话题下的各文章的文章质量得分中的最小值。

作为一个示例,假设归一化后的文章质量得分范围为[1,5],即所要控制的得分范围为1至5,最高分为5分,最低分为1分,则上述k1则为(5-1)/(maxs-mins),上述式(2)则为:

score2=1+k1×(score0-mins);

假设获取到的关于同一话题的文章的数量为5个,归一化前的文章质量得分分别为10、12、8、15和5,则maxs=15,mins=5,对于分值10,归一化后的分值则为对于分值15,归一化后的分值则为5。当然,在实际应用中,如果想要得分均为整数,还可以设置分值的处理规则,如四舍五入,如果归一化后的分值不是整数,可以采用四舍五入的方式得到整数分值。

基于本申请实施例所提供的文章质量的确定方法,本申请实施例还提供的一种文章筛选方法,该方法可以应用于一种电子设备,该电子设备可以是用户终端设备或者服务器。用户终端设备可以是台式设备或者移动终端,服务器可以是独立的物理服务器或者服务器集群,也可以是虚拟服务器(如云端服务器)或服务器集群。如图2所示,该文章筛选方法具体可以包括:

步骤s210:获取关于同一话题的至少两个待处理文章;

步骤s220:确定每个待处理文章的文章质量;

步骤s230:根据每个待处理文章的文章质量,对至少两个待处理文章进行筛选。

其中,步骤s220中,在确定每个文章的文章质量时,具体可以采用本申请任一实施例中所提供的文章质量的确定方法,也就是,将该至少两个待处理文章作为步骤s110中的至少两个文章,至少两个待处理文章中的每个文章分别作为目标文章,基于前文中所提供的任一文章质量的确定方法得到每个待处理文章的文章质量得分。

可以理解的是,对于不同的应用场景,待处理文章可以不同,待处理文章的来源也可能不同。相应的,在确定出各个待处理文章的文章质量后,可以根据需求进行相应的文章的筛选,如可以筛选出高质量的文章,还可以是筛选出低质量的文章,还可以对筛选出的文章根据需求进行进一步的处理,如推送筛选出的高质量文章,删除筛选出的低质量文章等。

本申请的可选实施例中,文章质量通过待处理文章的文章质量得分表征,待处理文章为待发布文章或待推送文章;该场景下,上述步骤s130中,根据每个待处理文章的文章质量,对至少两个待处理文章进行筛选,可以包括:

将文章质量得分大于第一设定阈值的待处理文章作为筛选结果,或者,将每个待处理文章的得分按照由高到低的顺序排列,将得分靠前的第一设定数量的待处理文章作为筛选结果;

此时,该方法还可以包括:

发布或推送筛选出的待处理文章。

该方案适用于任一需要进行文章发布或者文章推送的应用场景中,例如,对于一文章推送应用程序,其服务器可以基于该文章筛选方式筛选出高质量的文章推送给用户,再例如,对于一文章发布平台,服务器接收到各用户所发布的文章之后,可以首先基于文章的质量对同一话题下的文章进行文章质量的确定,并基于文章质量的确定结果,将质量较高的文章发布,将质量较低的文章过滤掉即不发布。

本申请的可选实施例中,文章质量通过待处理文章的文章质量得分表征,待处理文章为基于检索关键词检索到的文章;

根据每个待处理文章的文章质量,对至少两个待处理文章进行筛选,包括:

将文章质量得分大于第二设定阈值的待处理文章作为筛选结果,或者,将每个待处理文章的得分按照由高到低的顺序排列,将得分靠前的第二设定数量的待处理文章作为筛选结果;

相应的,该筛选方法还包括:

将筛选出来的待处理文章提供给用户。

该方式适用于文章检索应用场景中,如在一具有检索功能的应用程序中,用户可以基于关键词进行文章的检索,用户终端设备将用户所提供的检索关键词提供给对应的服务器,服务器可以基于该关键词进行检索,得到初步的检索结果,该初步的检索结果中所包含的文章即可为此时同一话题下的文章,基于本申请实施例所提供的方案确定出初步检索结果中各文章的质量后,即可以将高质量的文章作为最终的检索结果,通过用户终端设备提供给用户,当然,服务器也可以将初步检索结果提供给用户终端设备,由用户终端设备执行文章质量确定及筛选的步骤,终端设备将筛选出的高质量文章提供给用户。

为了更好的说明本申请实施例所提供的方案的有益效果及实用性,下面结合一个具体示例对该方案进行进一步的说明。

随着互联网技术的飞速发展,在微博、微信、新闻、搜索等各个渠道上报的文章每天源源不断,一个热点话题出现后,围绕这个话题的文章开始重复出现,有些文章有可能是商家为了蹭热点转发并附上广告信息,大多数是一个话题不同的表述方式。在各平台的热点管理系统内,通常都会对广告信息进行过滤,将同一事件即话题的文章聚类到一起,该热点管理系统的目标是为了尽早发现一些热度趋势在上升的话题,以及在一个热点话题下找到质量比较好的文章呈现出来。

在实际应用中,可以将本申请实施例所提供的文章质量的确定方法(执行该方法的应用程序)应用于各平台的服务器中,由服务器基于该方法对同一话题下的每个文章进行文章质量评分服务,得出质量分,从而可以只将质量分大于设定阈值的文章进行显示,其他则不显示,例如,文章质量得分的最高分为5分,最低分为1分,可以将质量得分不小于3分的文章进行显示,其他则不显示。具体如图3所示的一示意图中,服务器中的热点文章池可以用于对接收到的所有文章按照话题进行分类存储,服务器的文章质量服务(用于确定文章质量的功能模块)通过读取该热点文章池中各话题下的文章,通过运行本申请实施例所提供的文章质量的确定方法所对应的应用程序,对一个话题下的各文章,基于文章的语义覆盖度和文章信息量进行质量评估,可以将评估后的结果(文章质量得分)与对应的文章关联存储到热点文章池中,以由服务器的文章质量推送模块根据各文章的质量得分确定推送哪些文章。

由于本申请实施例所提供的文章质量的确定方法,在确定文章质量方面具有很好的客观性及准确性,因此,基于该方式所筛选出的文章的质量高低同样比较客观和准确,能够很好的适用于各种应用场景。

在另一应用场景中,文章的质量得分评估和文章的精品分类是两个任务,其中,精品分类中判断一文章是否为精品通常是按照预设的规则来判定,而预设的规则通常是与用户的使用体验有关。通常而言,质量得分高的情况下文章才有可能是精品文章,但实际中,一些精品的文章有可能是图特别多,但实际文本表述长度很短,该类文章的文章质量得分并不一定高,所以是精品的文章不一定是文章质量分值比较高的。

在一实际应用中,对于一现有的同一话题下的精品文章的分类结果进行了文章质量评估,如图4a中所示,总的精品文章的数量为55087篇,基于本申请实施例所提供的方案,确定出这些文章中质量得分(即图中所示的质量分)为3分、4分和5分的文章数量分别为13741篇、18253篇和23093篇,各文章质量得分的统计结果如图4b所示,其中,质量得分为3分的文章到的占比为25%,质量得分为4分的文章到的占比为33%,质量得分为5分的文章到的占比为42%(图中未示出),可见,质量得分不小于4分的文章占比75%。经过对比发现,得分在3分的文章质量中大部分多是包含图片较多的文章,可见,基于本申请实施例所提供的文章质量确定方案,能够准确、客观的评估出文章中文本信息质量的高低。

可以理解的是,本申请实施例所提供的文章质量的确定方法可以作为软件服务,在实际应用中,为了保证服务的稳定性,该服务上线前可以对该服务进行相关的测试,一般主要是测试本地跑代码的结果和服务调用的结果一样,如测试该服务所对应的代码部分(也就是该服务的程序代码是否运行正常),还可以对该服务进行压力测试,压力测试主要测试服务的稳定性。通过测试后,即可将该服务上线,将本申请所提供的方法应用于需要的电子设备中,电子设备通过运行方法所对应的应用程序实现文章质量的评估或者文章的筛选等。

另外,需要说明的是,本申请实施例所提供的方法所对应的应用程序的程序设计语言的实现,本申请不作限定,如可以通过python语言或其他程序语言实现。

在一实验结果中,基于本申请实施例所提供的方案,对于2万个测试数据(2万个文章),电子设备在开启8个线程的情况下,3分钟即可完整对这些数据的测试结果,得到各数据对应的质量得分。可见,基于本申请实施例所提供的方案,在保证文章质量评估的客观性以及准确性的前提下,数据的处理效率也是非常高的,能够很好的满足实际应用需求。

对应于图1中所示的方法,本申请实施例还提供了一种文章质量的确定装置,如图5中所示,该文章质量的确定装置100可以包括文章获取模块110和文章质量确定模块120。其中:

文章获取模块110,用于获取关于同一话题的至少两个文章;

文章质量确定模块120,用于对于所述至少两个文章中待处理的目标文章,确定目标文章的质量评估参数,根据目标文章的质量评估参数确定目标文章的文章质量,其中,质量评估参数包括语义覆盖度和文章信息量,语义覆盖度是表征了目标文章和至少两个文章中除目标文章之外的其他文章的文章相关性。

可选的,文章相关性包括语义相似度,文章质量确定模块在确定目标文章的语义覆盖度时,具体用于:

分别确定目标文章与其他文章中每个文章的语义相似度;

根据目标文章与其他文章中的每个文章的语义相似度,确定目标文章的语义覆盖度。

可选的,文章质量确定模块在确定目标文章的文章信息量时,具体用于:

提取目标文章的关键词,并确定各关键词的信息量;

根据目标文章中各关键词的信息量,确定目标文章的文章信息量。

可选的,关键词的信息量是指在至少两个文章中,关键词为文章提供的信息量。

可选的,目标文章的文章质量通过目标文章的文章质量得分表征;

文章质量确定模块在根据目标文章的质量评估参数确定目标文章的文章质量时,具体用于:

获取语义覆盖度的第一权重和文章信息量的第二权重;

根据语义覆盖度、文章信息量、第一权重、以及第二权重,确定目标文章的文章质量得分。

可选的,目标文章的文章质量通过目标文章的文章质量得分表征,该装置还包括质量调节系数确定模块,该模块用于:

获取目标文章的影响力评估参数;根据目标文章的影响力评估参数,确定目标文章的文章质量得分的调节系数;

相应的,文章质量确定模块在根据目标文章的质量评估参数确定目标文章的文章质量时,具体用于:

根据质量评估参数确定目标文章的初始质量得分;

根据初始质量得分和调节系数,确定目标文章的文章质量得分。

可选的,影响力评估参数包括以下至少一种:

文章的原创性、用户对文章的操作行为信息、或者文章所对应的发布媒体的媒体等级。

对应于图2中所示的方法,本申请实施例还提供了一种文章筛选装置,如图6中所示,该文章筛选装置200可以包括获取模块210、文章质量确定模块220和文章筛选模块230。其中:

获取模块210,用于获取关于同一话题的至少两个待处理文章;

文章质量确定模块220,用于确定每个待处理文章的文章质量,其中,文章质量是基于本申请任一可选实施例中所提供的文章质量的确定方法确定的;

文章筛选模块230,用于根据每个待处理文章的文章质量,对至少两个待处理文章进行筛选。

可选的,文章质量通过待处理文章的文章质量得分表征,待处理文章为待发布文章或待推送文章,文章筛选模块具体用于:

将文章质量得分大于第一设定阈值的待处理文章作为筛选结果,或者,将每个待处理文章的得分按照由高到低的顺序排列,将得分靠前的第一设定数量的待处理文章作为筛选结果;

该装置还可以包括:

文章推送模块,用于发布或推送筛选出的待处理文章。

可选的,文章质量通过待处理文章的文章质量得分表征,待处理文章为基于检索关键词检索到的文章,文章筛选模块具体用于:

将文章质量得分大于第二设定阈值的待处理文章作为筛选结果,或者,将每个待处理文章的得分按照由高到低的顺序排列,将得分靠前的第二设定数量的待处理文章作为筛选结果;

该装置还可以包括:

文章提供模块,用于将筛选出来的待处理文章提供给用户。

由于本发明实施例所提供的装置为可以执行本发明实施例中相应的方法的装置,故而基于本发明实施例中所提供的方法,本领域所属技术人员能够了解本发明实施例的装置的具体实施方式以及其各种变化形式,所以在此对于该装置如何实现本发明实施例中的方法不再详细介绍。只要本领域所属技术人员实施本发明实施例中的方法所采用的装置,都属于本申请所欲保护的范围。

基于与图1或图2中所示的方法相同的原理,本申请实施例还提供了一种电子设备,该电子设备包括存储器和处理器;存储器中存储有计算机程序;处理器用于在运行计算机程序时执行本申请任一可选实施例中所提供的文章质量的确定方法或文章筛选方法。

本申请实施例的第六方面,提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该程序被处理器执行时可以实现本申请任一可选实施例中所提供的文章质量的确定方法或文章筛选方法。

作为一示例,图7中示出了本申请可以应用于的一种电子设备7000的结构示意图,该电子设备包括存储器7003和处理器7001,存储器7003中存储有计算机程序,处理器7001,用于在运行计算机程序时执行上述任一方法。

具体的,该电子设备可以是终端、服务器或其他可能的设备,图7只是示出了电子设备的一种可选的示意性结构。图7中所示的该电子设备7000的结构并不构成对本申请实施例的限定。

其中,处理器7001和存储器7003相连,如通过总线7002相连。可选地,电子设备7000还可以包括收发器7004。需要说明的是,实际应用中收发器7004不限于一个,收发器7004可以具体用于该电子设备7000与其他设备的通信,例如,电子设备7000可以通过收发器7004从其它设备获取属于同一话题的多个文章。

处理器7001可以是cpu(centralprocessingunit,中央处理器),通用处理器,dsp(digitalsignalprocessor,数据信号处理器),asic(applicationspecificintegratedcircuit,专用集成电路),fpga(fieldprogrammablegatearray,现场可编程门阵列)或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框,模块和电路。处理器7001也可以是实现计算功能的组合,例如包含一个或多个微处理器组合,dsp和微处理器的组合等。

总线7002可包括一通路,在上述组件之间传送信息。总线7002可以是pci(peripheralcomponentinterconnect,外设部件互连标准)总线或eisa(extendedindustrystandardarchitecture,扩展工业标准结构)总线等。总线7002可以分为地址总线、数据总线、控制总线等。为便于表示,图7中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。

存储器7003可以是rom(readonlymemory,只读存储器)或可存储静态信息和指令的其他类型的静态存储设备,ram(randomaccessmemory,随机存取存储器)或者可存储信息和指令的其他类型的动态存储设备,也可以是eeprom(electricallyerasableprogrammablereadonlymemory,电可擦可编程只读存储器)、cd-rom(compactdiscreadonlymemory,只读光盘)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。

存储器7003用于存储执行本申请方案的应用程序代码,并由处理器7001来控制执行。处理器7001用于执行存储器7003中存储的应用程序代码,以实现上面任一方法实施例所示的内容。

应该理解的是,虽然附图的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序执行。而且,附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

以上仅是本发明的部分实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1