文章质量评分方法、文章质量评分装置及存储介质与流程

文档序号:23262402发布日期:2020-12-11 18:51阅读:138来源:国知局
文章质量评分方法、文章质量评分装置及存储介质与流程
本公开涉及文章质量评分
技术领域
,尤其涉及一种文章质量评分方法、文章质量评分装置及存储介质。
背景技术
:随着互联网技术的快速发展,通过浏览器或其他一些类似浏览器的应用程序访问互联网已经成为用户获取信息的重要手段。为了能够为用户提供良好的使用体验,浏览器或类似浏览器的应用程序往往会为用户推荐每日新增的文章。但是,由于新增的文章中存在较多低质文章,若大量向用户推荐此类文章,将会造成用户的流失。为了减少用户的流失、增加用户的体验感,为用户推荐优质文章变得尤为重要。因此,相关技术中,通过对文章进行质量评分,并基于评分的结果,对用户进行文章推荐。目前,相关技术中,通过基于待评分文章的文本评分特征及预先构建的评分模型,实现对待评分文章的质量评分。但是,由于该方法仅使用了文章的文本数据,而没有全方位考虑文章的其他特征,例如,文章的正文图片、文章的分类等,因此,导致对待评分文章的质量评分的准确率较低。相关技术中,还通过获取用户在浏览目标文章(又可称待评分文章)时的浏览行为信息,并根据浏览行为信息以及对应的浏览行为系数,获得该用户对目标文章的浏览行为评分,最后,根据获取的多个用户的对目标文章的浏览行为评分,获取目标文章的文章质量评分。但是,由于该方法仅使用了用户对文章的浏览行为数据,而没有充分利用文章自身存在的特征,因此,会导致对目标文章的质量评分的准确性。进一步地,基于本方法,若要对目标文章进行质量评估,还需要先将目标文章推荐给多个用户,在应用过程中,易于出现将低质量的目标文章推荐给用户的可能,进而给用户带来了不好的体验感。因此,如何高效、准确评分文章的质量成为当前关注的一个焦点。技术实现要素:为克服相关技术中存在的问题,本公开提供一种文章质量评分方法、文章质量评分装置及存储介质。根据本公开实施例的第一方面,提供一种文章质量评分方法,包括:确定待评分文章中包含的多个静态特征,并确定所述多个静态特征中每一静态特征的静态特征分值以及静态特征权重;将所述多个静态特征中各静态特征对应的所述静态特征分值与所述静态特征权重相乘后进行累加得到静态特征总分;基于所述静态特征总分确定所述待评分文章的文章质量评分。在一种实施方式中,所述文章质量评分方法还包括:基于文章类型以及至少一个参考静态特征的特征阈值,预先设置多个特征阈值区间,每一特征阈值区间对应一权重组合,其中,每一权重组合中包括所述多个静态特征的权重;所述确定所述多个静态特征中每一静态特征的静态特征权重,包括:基于所述待评分文章的类型、所述待评分文章中对应所述参考静态特征的静态特征、以及所述特征阈值,确定所述待评分文章中对应所述参考静态特征的静态特征对应的特征阈值区间;基于与所述特征阈值区间对应的权重组合,确定所述多个静态特征中每一静态特征的静态特征权重。在另一种实施方式中,基于文章类型以及至少一个参考静态特征的特征阈值,预先设置多个特征阈值区间,包括:针对预设的多个参考静态特征中每一参考静态特征设置至少一个特征阈值,并针对不同文章类型的参考静态特征设置不同的特征阈值;将所述多个参考静态特征中全部参考静态特征对应的特征阈值中任意两个特征阈值进行组合,形成多个特征阈值区间。在又一种实施方式中,所述文章质量评分方法还包括:确定所述待评分文章是否满足预设的附加评分标准,所述附加评分标准包括加分标准和/或减分标准;所述基于所述静态特征总分确定所述待评分文章的文章质量评分,包括:若所述待评分文章满足预设的附加评分标准,则对所述静态特征总分按照所述加分标准和/或减分标准进行加分和/或减分,得到所述待评分文章的文章质量评分。在又一种实施方式中,在确定待评分文章中包含的多个静态特征之前,所述文章质量评分方法还包括:确定所述待评分文章为非低质量文章。在又一种实施方式中,所述文章质量评分方法还包括:响应于确定所述待评分文章为低质量文章,确定所述待评分文章的文章质量评分为最低分。在又一种实施方式中,所述静态特征包括正文长度、段落、正文图片数、正文图片清晰度、低质特征以及作者中的一个或多个,所述确定所述多个静态特征中每一静态特征的静态特征分值,包括:根据文章正文长度确定文章正文长度分值;根据段落数量确定段落分值;根据正文图片数确定正文图片数分值;根据正文图片清晰度确定正文图片清晰度分值;根据低质特征确定低质特征分值;根据作者的等级确定作者分值。根据本公开实施例的第二方面,提供一种文章质量评分装置,包括:确定静态特征模块,用于确定待评分文章中包含的多个静态特征,并确定所述多个静态特征中每一静态特征的静态特征分值以及静态特征权重;处理模块,用于将所述多个静态特征中各静态特征对应的所述静态特征分值与所述静态特征权重相乘后进行累加得到静态特征总分;文章质量评分模块,用于基于所述静态特征总分确定所述待评分文章的文章质量评分。在一种实施方式中,所述文章质量评分装置还包括:设置特征阈值区间模块,用于基于文章类型以及至少一个参考静态特征的特征阈值,预先设置多个特征阈值区间,每一特征阈值区间对应一权重组合,其中,每一权重组合中包括所述多个静态特征的权重;所述确定静态特征模块用于:基于所述待评分文章的类型、所述待评分文章中对应所述参考静态特征的静态特征、以及所述特征阈值,确定所述待评分文章中对应所述参考静态特征的静态特征对应的特征阈值区间;基于与所述特征阈值区间对应的权重组合,确定所述多个静态特征中每一静态特征的静态特征权重。在又一种实施方式中,所述设置特征阈值区间模块用于:针对预设的多个参考静态特征中每一参考静态特征设置至少一个特征阈值,并针对不同文章类型的参考静态特征设置不同的特征阈值;将所述多个参考静态特征中全部参考静态特征对应的特征阈值中任意两个特征阈值进行组合,形成多个特征阈值区间。在又一种实施方式中,所述文章质量评分装置还包括:判断模块,用于确定所述待评分文章是否满足预设的附加评分标准,所述附加评分标准包括加分标准和/或减分标准;所述文章质量评分模块采用如下方式基于所述静态特征总分确定所述待评分文章的文章质量评分:若所述待评分文章满足预设的附加评分标准,则对所述静态特征总分按照所述加分标准和/或减分标准进行加分和/或减分,得到所述待评分文章的文章质量评分。在又一种实施方式中,所述文章质量评分装置还包括:确定非低质量文章模块,用于确定所述待评分文章为非低质量文章。在又一种实施方式中,所述文章质量评分装置还包括:处理低质量文章模块,用于响应于确定所述待评分文章为低质量文章,确定所述待评分文章的文章质量评分为最低分。在又一种实施方式中,所述静态特征包括正文长度、段落、正文图片数、正文图片清晰度、低质特征以及作者中的一个或多个,所述确定静态特征模块采用如下方式确定所述多个静态特征中每一静态特征的静态特征分值:根据文章正文长度确定文章正文长度分值;根据段落数量确定段落分值;根据正文图片数确定正文图片数分值;根据正文图片清晰度确定正文图片清晰度分值;根据低质特征确定低质特征分值;根据作者的等级确定作者分值。本公开的实施例提供的技术方案可以包括以下有益效果:本公开提供的文章质量评分方法,充分利用待评分文章自身具备的各个静态特征,通过确定各静态特征分值与静态特征权重,得到静态特征总分,并基于静态特征总分确定待评分文章的文章质量评分,可以高效、准确确定待评分文章的文章质量评分,为用户推荐高质量的文章,并提高用户在获取推荐文章过程的满意度打下基础。应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。附图说明此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。图1示出了一种当前对待评分文章进行质量评分的方法的流程图。图2示出了另一种当前对待评分文章进行质量评分的方法的流程图。图3是根据一示例性实施例示出的一种文章质量评分方法的流程图。图4示出了一种应用文章质量评分方法的应用场景的示意图。图5是根据一示例性实施例示出的另一种文章质量评分方法的流程图。图6示出了一种确定多个静态特征中每一静态特征的静态特征权重的流程图。图7示出了一种基于文章类型以及至少一个参考静态特征的特征阈值,预先设置多个特征阈值区间的流程图。图8是根据一示例性实施例示出的又一种文章质量评分方法的流程图。图9是根据一示例性实施例示出的另一种文章质量评分方法的流程图。图10是根据一示例性实施例示出的一种文章质量评分装置的框图。图11是根据一示例性实施例示出的一种用于文章质量评分的装置的框图。具体实施方式这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。当前处于一个信息大爆炸的时代,浏览器或类似浏览器的应用程序,例如:新闻推送应用、miui浏览器等客户端,每天都会新增海量的文章。这些新增的文章各式各样并且会包含低质量的文章,比如:广告类文章、标题党文章等。若大量向用户推荐此类文章,会大大降低用户的阅读体验感,造成用户的流失。除此之外,新增的文章中也会包含优质量的文章,如果根据用户特征和喜好定向为用户推送相关文章,则可以提高用户的体验感,从而能够更好的留住用户。因此,如何高效、准确评分文章的质量变得尤为重要。图1示出了一种当前对待评分文章进行质量评分的方法的流程图。如图1所示,在相关技术中,可以通过基于待评分文章的文本评分特征及预先构建的评分模型,实现对待评分文章的质量评分。但是,由于该方法仅使用了文章的文本数据,而没有全方位考虑文章的其他特征,例如,文章的正文图片、文章的分类等,因此,导致对待评分文章的质量评分的准确率较低。在一示例中,一些待评分文章的立意特征、篇章结构特征、词汇语义特征都比较好,但是如果这些文章的正文中没有任何图片,则会让用户阅读起来很枯燥无味,并且,文章的视觉感也很差,最终导致用户的体验感不好。或者,若待评分文章中夹杂着一些广告内容,则会让用户产生反感。从实际角度出发,这些文章的综合质量并不高,但是,在该方案下,会使得此类文章的质量得分较高。图2示出了另一种当前对待评分文章进行质量评分的方法的流程图。如图2所示,在相关技术中,还可以通过获取用户在浏览目标文章(又可称待评分文章)时的浏览行为信息,并根据浏览行为信息以及对应的浏览行为系数,获得该用户对目标文章的浏览行为评分,最后,根据获取的多个用户的对目标文章的浏览行为评分,获取目标文章的文章质量评分。但是,由于该方法仅使用了用户对文章的浏览行为数据,而没有充分利用文章自身存在的特征,因此,会导致对目标文章的质量评分的准确性。进一步地,在该方案下,若目标文章本身属于质量很好的文章,但是由于在收集的多个用户的浏览行为时,如果选择的这些用户大多数为对该文章不感兴趣的用户,但现实中会存在其他没有收集到并且对该文章感兴趣的用户,那么,根据该方案就会片面的将该目标文章评分为低质量文章,降低了评分的准确性。进一步的,在该基于用户浏览信息进行文章质量评分方案,若对目标文章进行质量评估,需要首先把该待评分文章推荐给多个用户,再获取到关于多个用户对待评分文章的浏览行为。在这个过程中,如果向用户推荐的目标文章属于低质量的文章,则虽然能够根据用户的浏览行为计算出该待评分文章的质量分数为较低的分数,但是,由于这篇低质量的文章已经给用户带来不好的体验感,则有很大可能会导致该用户的流失。由此,相关技术中进行文章质量评分的方法需要进一步进行优化。本公开实施例提供一种文章质量评分方法,该文章质量评分方法中基于文章的多个静态特征进行评分,以便高效、准确确定待评分文章的文章质量评分,为用户推荐高质量的文章,并提高用户在获取推荐文章过程的满意度打下基础。本公开一实施例中,在向用户推送之前进行文章质量评分,以便进一步保证推送文章的质量。图3是根据一示例性实施例示出的一种文章质量评分方法的流程图。在本公开一示例性实施例中,如图3所示,文章评分方法可以包括步骤s11-步骤s13。下面将分别介绍各步骤。在步骤s11中,确定待评分文章中包含的多个静态特征,并确定多个静态特征中每一静态特征的静态特征分值以及静态特征权重。在本公开一示例中,静态特征可以理解为是有关待评分文章的非动态的特征。例如,待评分文章的静态特征可以包括正文长度、段落、正文图片数、正文图片清晰度、低质特征和作者等。在本公开中,不对静态特征作具体限定,若后续存在新的静态特征用于评价文章的质量,则该新的静态特征仍可以应用于本公开涉及的文章质量评分方法。通过上述描述可知,待评价文章的静态特征基本涵盖了关于文章自身特征的各个方面,例如,正文、图片、段落、作者、低质特征等,在本公开中,基于待评分文章的多个静态特征进行文章质量评分,可以提高评分精准度。本公开实施例可以针对待评分文章的多个静态特征分别确定静态特征分值以及静态特征权重,基于待评分文章的多个静态特征的静态特征分值以及静态特征权重进行文章质量评分,可以更加准确的对待评价文章进行质量评分。在步骤s12中,将多个静态特征中各静态特征对应的静态特征分值与静态特征权重相乘后进行累加得到静态特征总分。在应用过程中,可以将多个静态特征中的每一个静态特征对应的静态特征分值与静态特征权重相乘后进行累加,得到关于待评分文章的静态特征总分。需要说明的是,各个静态特征权重可以根据待评价文章的文章类型、文章的正文以及图片情况进行确定,各个静态特征权重还可以根据其他方式进行确定,在此实施例中,不对各个静态特征权重作具体限定。在步骤s13中,基于静态特征总分确定待评分文章的文章质量评分。在一示例中,可以根据各个静态特征确定的静态特征总分,来确定待评分文章的文章质量分数。在一种可能的实施方式中,可以基于待评分文章的文章质量分数将待评分文章划分为高质量文章、中等质量文章和低质量文章。在一种可能的实施方式中,当浏览器或类似浏览器的应用程序新增需要推送给用户的文章时,可以基于本公开实施例提供的文章质量评分方法对新增的文章进行文章质量评分,并基于文章质量评分的结果,有针对性的向用户推荐新增的文章。在一示例中,若一些新增文章的文章质量评分较低,被评价为低质量文章,则可以根据需要在对用户进行文章推荐时,过滤掉低质量文章。例如,通过用户的行为分析发现某一用户对标题党或广告类文章非常反感,那么,在向该用户进行文章推荐时,可以主动将属于标题党或广告类的低质量文章过滤掉,以避免用户接收到该类型的文章。图4示出了一种应用文章质量评分方法的应用场景的示意图。图4中1为文章,2为本公开涉及的文章质量评分方法,3为个性化推荐系统,4为用户。当有新增文章时根据本公开涉及的文章质量方法确定文章的质量评分,然后通过个性化推荐系统根据用户特征推荐不同质量分文章给用户,当文章向用户曝光后,用户会对文章作出反馈,然后根据用户反馈收集其行为数据,从而以后更准确的向其推荐文章。一示例中,如图4所示,若用户4对美食类文章1非常感兴趣,并且通过用户之前的行为数据分析发现,该用户对美食类文章1的文章质量评分不太高的文章的阅读时间很短且没有其他操作,而对一些文章质量评分较高的文章的阅读时间较长且经常对该类文章进行评论或收藏。那么,对于浏览器或类似浏览器的应用程序新增的美食类文章1,可以基于本公开实施例提供的文章质量评分方法2对新增的美食类文章1进行文章质量评分,对将得到较高的文章质量评分的美食类文章通过个性化推荐系统3推荐给用户4。在又一示例中,某一用户经常阅读或评论高质量的文章和中等质量的文章,并且没有体现出明显的文章类型的偏好,那么,可以多分类抽选高质量的文章和中等质量的文章向该用户进行文章推荐。需要说明的是,当将文章推荐给用户后,用户可能会对文章做出反馈。在一种实施例中,还可以基于用户做出的反馈获取用户的行为数据,为以后向用户推荐更加符合用户要求的文章打下基础。本公开提供的文章质量评分方法,充分利用待评分文章自身具备的各个静态特征,通过确定各静态特征分值与静态特征权重,得到静态特征总分,并基于静态特征总分确定待评分文章的文章质量评分。通过本公开可以高效、准确确定待评分文章的文章质量评分,为用户推荐高质量的文章,并提高用户在获取推荐文章过程的满意度打下基础。本公开将通过下述实施例对文章质量评分的过程进行说明。本公开实施例中首先对静态特征分值确定过程进行说明。在本公开一示例性实施例中,静态特征包括正文长度、段落、正文图片数、正文图片清晰度、低质特征以及作者中的一个或多个。确定多个静态特征中每一静态特征的静态特征分值可以采用以下方式进行。在一示例中,可以根据文章正文长度确定文章正文长度分值。其中,确定文章正文长度分值可以通过以下公式实现:其中,bodylen表示待评分文章的正文长度。l1和l2分别表示待评分文章对应不同文章类型的正文长度的两个阈值,其中,l1为较小的阈值(例如,上文的x小=600),l2为较大的阈值(例如,上文的x大=1000)。w1和w2表示两个参数,其中,w1和w2可根据l1和l2进行设定。在一示例中,可以根据段落数量确定段落分值。其中,确定段落分值可以通过以下公式实现:其中,paragraphnum表示文章的段落数。在一示例中,可以根据正文图片数确定正文图片数分值。其中,确定正文图片数分值可以通过以下公式实现:其中,imgnum表示正文图片数。n2表示待评分文章对应不同文章类型的正文图片数的两个阈值中较大的阈值(例如,上文的p大=5)。在一示例中,可以根据正文图片清晰度确定正文图片清晰度分值。其中,确定正文图片清晰度分值可以通过以下公式实现:其中,imgclarity表示图片的清晰度值,n表示正文图片数。在一示例中,可以根据低质特征确定低质特征分值。其中,确定低质特征分值可以通过以下公式实现:negfeaturescore=min(negfeaturescore1,negfeaturescore2……)其中,总的低质特征的得分为所有低质特征得分中的最小值。在一示例中,可以根据作者的等级确定作者分值。其中,确定作者分值可以通过以下公式实现:authorscore=0.2*level其中:level表示作者等级数。在一示例中,作者等级可以分为5级:1、2、3、4、5。作者分值是根据作者等级大小来定义的,作者等级越高,作者分值就越高。进一步地,可以基于上述的6个静态特征的静态特征分值与静态特征权重相乘后进行累加得到静态特征总分。其中,静态特征总分可以通过以下公式确定:其中:i表示第i个静态特征,factor表示静态特征得分,weight表示静态特征对应的静态特征权重。本公开实施例中,共计涉及到上述的6个静态特征:正文长度、段落、正文图片数、正文图片清晰度、低质特征和作者。本公开实施例以下对静态特征权重的确定过程进行说明。本公开实施例一种实施方式中,可以预先设置静态特征的权重,将每一文章类型对应的各静态特征的权重形成权重组合,每一权重组合中包括多个静态特征的权重,在进行静态特征权重确定时,可以按照预设的权重组合进行静态特征权重的确定,并进行文章质量评分。图5是根据一示例性实施例示出的另一种文章质量评分方法的流程图。在本公开一示例性实施例中,如图5所示,文章质量评分方法可以包括步骤s21-步骤s24。下面将分别介绍各步骤。在步骤s21中,基于文章类型以及至少一个参考静态特征的特征阈值,预先设置多个特征阈值区间,每一特征阈值区间对应一权重组合,其中,每一权重组合中包括多个静态特征的权重。在步骤s22中,确定待评分文章中包含的多个静态特征,并确定多个静态特征中每一静态特征的静态特征分值以及静态特征权重。在步骤s23中,将多个静态特征中各静态特征对应的静态特征分值与静态特征权重相乘后进行累加得到静态特征总分。在步骤s24中,基于静态特征总分确定待评分文章的文章质量评分。其中,步骤s22-步骤s24分别和前文的实施例中的步骤s11-步骤s13相同,其相关解释和描述以及有益效果请参照上文关于步骤s11-步骤s13的描述,在此不再赘述。下面将详细介绍步骤s21。在应用过程中,可以基于文章类型以及至少一个参考静态特征的特征阈值,预先设置多个特征阈值区间。其中,文章类型可以包括美食类文章、时政类文章、漫画类文章等。参考静态特征可以理解为在一定程度上能够体现文章的特点的特征。在一示例中,参考静态特征可以是文章的正文长度、正文图片数等。在本公开中,不对参考静态特征作具体限定。在一可能的实施例中,每个参考静态特征的特征阈值可以为至少一个。在一示例中,对于美食类文章而言,当参考静态特征为正文长度时,可以对应有两个特征阈值,例如,较大的阈值(1000)和较小的阈值(800)。进一步地,基于较大的阈值和较小的阈值可以为关于正文长度的静态特征设置三个特征阈值区间(l≥1000,800<l<1000,l≤800,其中,l表示正文长度)。需要说明的是,每一特征阈值区间对应有一个权重组合,每一权重组合中包括有多个静态特征的权重。在应用过程中,可以基于特征阈值区间内对应的静态特征的权重,确定待评分文章中的静态特征的静态特征权重。进一步地,将待评分文章的静态特征分值与静态特征权重相乘后进行累加得到静态特征总分,并基于静态特征总分确定待评分文章的文章质量评分。根据上文描述可知,本公开实施例中可以基于特征阈值区间内对应的静态特征的权重,确定待评分文章中静态特征的静态特征权重。本公开将通过下述实施例将对基于特征阈值区间对应的静态特征的权重,确定待评分文章中的多个静态特征中每一静态特征的静态特征权重的过程进行说明。图6示出了一种确定多个静态特征中每一静态特征的静态特征权重的流程图。在本公开一示例性实施例中,确定多个静态特征中每一静态特征的静态特征权重可以包括步骤s31和步骤s32。下面将分别介绍各步骤。在步骤s31中,基于待评分文章的类型、待评分文章中对应参考静态特征的静态特征、以及特征阈值,确定待评分文章中对应参考静态特征对应的特征阈值区间。在应用过程中,由于文章的类型不同,对于同一参考静态特征而言,静态特征具有的特征阈值也相应不同。在一示例中,对于美食类文章而言,当参考静态特征为正文长度时,可以对应有两个特征阈值,例如,较大的阈值(1000)和较小的阈值(800)。对于时政类文章而言,当参考静态特征为正文长度时,可以对应有两个特征阈值,例如,较大的阈值(2000)和较小的阈值(1000)。在步骤s32中,基于与特征阈值区间对应的权重组合,确定多个静态特征中每一静态特征的静态特征权重。需要说明的是,特征阈值区间除了包括有权重组合之外,还可以表征参考静态特征的取值范围。通过判断待评分文章中与参考静态特征对应的静态特征是否位于该特征阈值区间,来确定待评分文章的静态特征权重是否可以根据该特征阈值区间内包括的权重组合来确定。本公开将通过下述实施例对确定多个特征阈值区间的过程进行说明。图7示出了一种基于文章类型以及至少一个参考静态特征的特征阈值,预先设置多个特征阈值区间的流程图。在本公开一示例性实施例中,基于文章类型以及至少一个参考静态特征的特征阈值,预先设置多个特征阈值区间可以包括步骤s41和步骤s42。在步骤s41中,针对预设的多个参考静态特征中每一参考静态特征设置至少一个特征阈值,并针对不同文章类型的参考静态特征设置不同的特征阈值。在步骤s42中,将多个参考静态特征中全部参考静态特征对应的特征阈值中任意两个特征阈值进行组合,形成多个特征阈值区间。在一示例中,可以确定两个参考静态特征(例如,正文长度和正文图片数)。现继续以美食类文章为例,正文长度可以包括两个阈值,正文图片数也可以包括两个阈值。为便于描述,现令正文长度的较大的阈值为x大(1000);正文长度的较小的阈值为x小(800);正文图片数的较大的阈值为y大(5);正文图片数的较小的阈值为y小(0)。进一步地,基于x大和x小可以为关于正文长度的静态特征设置三个特征阈值区间(l≥1000,800<l<1000,l≤800,其中,l表示正文长度);基于y大和y小可以为关于正文图片数的静态特征设置三个特征阈值区间(p≥5,0<p<5,p≤5,其中,p表示正文图片数)。进一步地,可以将正文长度和正文图片数这两个参考静态特征结合,将特征阈值区间进行组合,即可形成9(3*3)种不同的特征阈值区间情况,形成一种类似九宫格的特征阈值区间。可以参照表1。表1不同特征阈值区间的九宫格l≤x小,p≥y大x小<l<x大,p≥y大l≥x大,p≥y大l≤x小,y小<p<y大x小<l<x大,y小<p<y大l≥x大,y小<p<y大l≤x小,p≤y小x小<l<x大,p≤y小l≥x大,p≤y小需要说明的是,每个文章类型的文章都可以对应上述表1中九宫格中的某一个格子。对于待评分文章的静态特征而言,不同的格子(特征阈值区间)有不同的权重组合,不同文章类型的待评价文章在相同的格子(特征阈值区间)里面会有相同的权重组合。在应用过程中,对于一篇待评分文章,可以根据待评分文章的文章类型、与参考静态特征对应的静态特征的数值(例如,正文长度为600,正文图片数为0)找到了对应的九宫格中的格子(l≤x小,p≤y小),并通过该格子中的权重组合,确定静态特征权重。在一示例中,对于美食类文章而言,正文长度的两个阈值可以为800和1000,正文图片数的两个阈值可以为0和5。当一篇待评分文章的正文长度为600,正文图片数为0时,可以确定特征阈值区间为(l≤x小,p≤y小);当一篇待评分文章的正文长度为900,正文图片数为3时,可以确定特征阈值区间为(x小<l<x大,y小<p<y大);当一篇待评分文章的正文长度为950,正文图片数为5时,可以确定特征阈值区间为(x小<l<x大,p≥y大);当一篇待评分文章的正文长度为1200,正文图片数为6时,可以确定特征阈值区间为(l≥x大,p≥y大)。进一步地,可以将待评分文章的静态特征分值与静态特征权重相乘后进行累加得到静态特征总分,并基于静态特征总分确定待评分文章的文章质量评分。在应用过程中,待评分文章若满足一些附加评分标准,则会影响待评分文章的最终的文章质量评分。本公开以下实施例将对当待评分文章若满足一些附加评分标准时,文章质量评分的处理过程进行说明。图8是根据一示例性实施例示出的又一种文章质量评分方法的流程图。在本公开一示例性实施例中,如图8所示,文章质量评分方法包括步骤s51-步骤s54。下面将分别介绍各步骤。在步骤s51中,确定待评分文章中包含的多个静态特征,并确定多个静态特征中每一静态特征的静态特征分值以及静态特征权重。在步骤s52中,将多个静态特征中各静态特征对应的静态特征分值与静态特征权重相乘后进行累加得到静态特征总分。在步骤s53中,确定待评分文章是否满足预设的附加评分标准。其中,附加评分标准包括加分标准和/或减分标准。在步骤s54中,若待评分文章满足预设的附加评分标准,则对静态特征总分按照加分标准和/或减分标准进行加分和/或减分,得到待评分文章的文章质量评分。其中,步骤s51-步骤s52分别和前文的实施例中的步骤s11-步骤s12相同,其相关解释和描述以及有益效果请参照上文关于步骤s11-步骤s12的描述,在此不再赘述。下面将详细介绍步骤s53和步骤s54。在应用过程中,可以判断待评分文章是否满足预设的附件评分标准。其中,附加评分标准包括加分标准和/或减分标准。在一示例中,当检测到待评价文章尾部标点符号为“:”,表示待评分文章内容未结束,其内容不完整,因此,满足预设的减分标准。在应用过程中,可以对静态特征总分进行减分,以得到待评分文章的文章质量评分。在一又示例中,由于待评分文章正文中有对段落的子标题,因此,满足预设的加分标准。在应用过程中,可以对静态特征总分进行加分,以得到待评分文章的文章质量评分。需要说明的是,预设的附加评分标准可以根据实际情况进行调整,在本公开中,不对预设的附加评分标准作具体限定。由于基于待评分文章的标题和正文,即可简单判断出该文章是否为低质量文章(标题党、广告、竞品、封建迷信、低格调、正文内容重复等)。因此,在获取到一篇待评分文章时,可以首先判断该文章是否为低质量文章。本公开将通过下述实施例对文章质量评分方法进行说明。在本公开一示例性实施例中,在确定待评分文章中包含的多个静态特征之前,还可以首先确定待评分文章为非低质量文章。若判断出待评分文章不是非低质量文章,则可以直接将该文章定义为低质量文章,而不用进行确定待评分文章中包含的多个静态特征等步骤。通过本实施例,可以减少确定待评分文章的文章质量评分的运算过程。在本公开一示例性实施例中,响应于确定待评分文章为低质量文章,确定待评分文章的文章质量评分为最低分。在一示例中,最低分可以为0分。本公开实施例以下结合实际应用对上述实施例涉及的文章质量评分方法进行说明。图9是根据一示例性实施例示出的另一种文章质量评分方法的流程图。如图9所示,在一示例中,可以获取到待评分文章的标题、正文、正文图片、文章分类和作者等信息。基于待评分文章的上述信息,判断待评分文章是否属于低质量文章或出现内容重复的现象,若判断出待评分文章属于低质量文章或出现内容重复的现象,则直接将该文章的文章质量得分设定为0,而不再进行下述步骤。若判断出待评分文章不属于低质量文章且未出现内容重复的现象,则进一步计算待评分文章的各个静态特征得分(例如,正文长度、段落、正文图片数、正文图片清晰度、低质特征和作者)。并根据文章的类型、正文长度和正文图片数查找表1的九宫格中每一格子(特征阈值区间)对应的权重组合,以此确定与该待评分文章的各个静态特征对应的静态特征权重。并将各个静态特征与静态特征权重相乘后累加,以得到待评分文章的静态特征的总质量得分。进一步地,确定待评分文章是否满足预设的附加评分标准。其中,附加评分标准包括加分标准和/或减分标准。若待评分文章满足预设的附加评分标准,则对静态特征总分按照加分标准和/或减分标准进行加分和/或减分,得到待评分文章的最终的文章质量评分。由上述描述可知,本公开提供的文章质量评分方法,充分利用待评分文章自身具备的各个静态特征,通过确定各静态特征分值与静态特征权重,得到静态特征总分,并基于静态特征总分确定待评分文章的文章质量评分。通过本公开可以高效、准确确定待评分文章的文章质量评分,为用户推荐高质量的文章,并提高用户在获取推荐文章过程的满意度打下基础。本公开实施例提供的文章质量评分方法,针对相关技术方案中涉及的单纯基于文本进行质量评分方案准确率较低的缺点,充分使用了文章自身的各个静态特征,基于文章的标题、正文文本、正文图片、作者等信息,得到文章各个静态特征得分,然后根据不同分类文章的正文长度和正文图片数的特点为每个静态特征赋予不同的权重,能够准确识别出文章是低质量文章还是高质量文章,其中如果文章为标题党、广告、竞品、封建迷信、低格调,文章出现内容重复、文章较短无图,文章内容不完整,文章内容为水文等被定义为低质量文章。如果文章内容有深度、专业性较强、图文并茂、层次分明、结构完整等被定义为高质量文章,其他可被定义为中等质量文章。该技术方案大大提高了文章质量评分的准确率。本公开实施例提供的文章质量评分方法,针对相关技术方案中基于用户浏览行为确定文章质量评分容易造成用户流失的缺点,在将文章推荐给用户之前就已经将文章的质量分给评估出来了,避免了将一些低质文章推荐给用户,并且可根据不同的用户特征向其定向推荐不同的文章,从而给用户带来较好的体现,满足其兴趣爱好,从而留住用户。基于相同的构思,本公开实施例还提供一种文章质量评分装置。可以理解的是,本公开实施例提供的文章质量评分装置为了实现上述功能,其包含了执行各个功能相应的硬件结构和/或软件模块。结合本公开实施例中所公开的各示例的单元及算法步骤,本公开实施例能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行,取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同的方法来实现所描述的功能,但是这种实现不应认为超出本公开实施例的技术方案的范围。图10是根据一示例性实施例示出的一种文章质量评分装置框图。参照图10可知,文章质量评分装置包括确定静态特征模块110、处理模块120和文章质量评分模块130。下面将分别介绍各模块。确定静态特征模块110可以被配置为用于:确定待评分文章中包含的多个静态特征,并确定多个静态特征中每一静态特征的静态特征分值以及静态特征权重。处理模块120可以被配置为用于:将多个静态特征中各静态特征对应的静态特征分值与静态特征权重相乘后进行累加得到静态特征总分。文章质量评分模块130可以被配置为用于:基于静态特征总分确定待评分文章的文章质量评分。在本公开一示例性实施例中,文章质量评分装置还包括设置特征阈值区间模块。设置特征阈值区间模块可以被配置为用于:基于文章类型以及至少一个参考静态特征的特征阈值,预先设置多个特征阈值区间,每一特征阈值区间对应一权重组合,其中,每一权重组合中包括所述多个静态特征的权重;确定静态特征模块110可以被配置为用于:基于待评分文章的类型、待评分文章中对应参考静态特征的静态特征、以及特征阈值,确定待评分文章中对应参考静态特征的静态特征对应的特征阈值区间;基于与特征阈值区间对应的权重组合,确定多个静态特征中每一静态特征的静态特征权重。在本公开一示例性实施例中,设置特征阈值区间模块可以被配置为用于:针对预设的多个参考静态特征中每一参考静态特征设置至少一个特征阈值,并针对不同文章类型的参考静态特征设置不同的特征阈值;将多个参考静态特征中全部参考静态特征对应的特征阈值中任意两个特征阈值进行组合,形成多个特征阈值区间。在本公开一示例性实施例中,文章质量评分装置还包括判断模块。判断模块可以被配置为用于:确定待评分文章是否满足预设的附加评分标准,附加评分标准包括加分标准和/或减分标准。文章质量评分模块130可以采用如下方式基于静态特征总分确定待评分文章的文章质量评分:若待评分文章满足预设的附加评分标准,则对静态特征总分按照加分标准和/或减分标准进行加分和/或减分,得到待评分文章的文章质量评分。在本公开一示例性实施例中,文章质量评分装置还包括确定非低质量文章模块。确定非低质量文章模块可以被配置为用于:确定待评分文章为非低质量文章。在本公开一示例性实施例中,文章质量评分装置还包括处理低质量文章模块。处理低质量文章模块可以被配置为用于:响应于确定待评分文章为低质量文章,确定待评分文章的文章质量评分为最低分。在本公开一示例性实施例中,静态特征包括正文长度、段落、正文图片数、正文图片清晰度、低质特征以及作者中的一个或多个,确定静态特征模块110可以采用如下方式确定多个静态特征中每一静态特征的静态特征分值:根据文章正文长度确定文章正文长度分值;根据段落数量确定段落分值;根据正文图片数确定正文图片数分值;根据正文图片清晰度确定正文图片清晰度分值;根据低质特征确定低质特征分值;根据作者的等级确定作者分值。关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。图11是根据一示例性实施例示出的一种用于文章质量评分的装置200的框图。例如,装置200可以是移动电话,计算机,数字广播终端,消息收发设备,游戏控制台,平板设备,医疗设备,健身设备,个人数字助理等。参照图11,装置200可以包括以下一个或多个组件:处理组件202,存储器204,电力组件206,多媒体组件208,音频组件210,输入/输出(i/o)的接口212,传感器组件214,以及通信组件216。处理组件202通常控制装置200的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。处理组件202可以包括一个或多个处理器220来执行指令,以完成上述的方法的全部或部分步骤。此外,处理组件202可以包括一个或多个模块,便于处理组件202和其他组件之间的交互。例如,处理组件202可以包括多媒体模块,以方便多媒体组件208和处理组件202之间的交互。存储器204被配置为存储各种类型的数据以支持在装置200的操作。这些数据的示例包括用于在装置200上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。存储器204可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(sram),电可擦除可编程只读存储器(eeprom),可擦除可编程只读存储器(eprom),可编程只读存储器(prom),只读存储器(rom),磁存储器,快闪存储器,磁盘或光盘。电力组件206为装置200的各种组件提供电力。电力组件206可以包括电源管理系统,一个或多个电源,及其他与为装置200生成、管理和分配电力相关联的组件。多媒体组件208包括在所述装置200和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(lcd)和触摸面板(tp)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件208包括一个前置摄像头和/或后置摄像头。当装置200处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。音频组件210被配置为输出和/或输入音频信号。例如,音频组件210包括一个麦克风(mic),当装置200处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器204或经由通信组件216发送。在一些实施例中,音频组件210还包括一个扬声器,用于输出音频信号。i/o接口212为处理组件202和外围接口模块之间提供接口,上述外围接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。传感器组件214包括一个或多个传感器,用于为装置200提供各个方面的状态评估。例如,传感器组件214可以检测到装置200的打开/关闭状态,组件的相对定位,例如所述组件为装置200的显示器和小键盘,传感器组件214还可以检测装置200或装置200一个组件的位置改变,用户与装置200接触的存在或不存在,装置200方位或加速/减速和装置200的温度变化。传感器组件214可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件214还可以包括光传感器,如cmos或ccd图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件214还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器或温度传感器。通信组件216被配置为便于装置200和其他设备之间有线或无线方式的通信。装置200可以接入基于通信标准的无线网络,如wifi,2g或3g,或它们的组合。在一个示例性实施例中,通信组件216经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,所述通信组件216还包括近场通信(nfc)模块,以促进短程通信。例如,在nfc模块可基于射频识别(rfid)技术,红外数据协会(irda)技术,超宽带(uwb)技术,蓝牙(bt)技术和其他技术来实现。在示例性实施例中,装置200可以被一个或多个应用专用集成电路(asic)、数字信号处理器(dsp)、数字信号处理设备(dspd)、可编程逻辑器件(pld)、现场可编程门阵列(fpga)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述的文章质量评分方法。在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器204,上述指令可由装置200的处理器220执行以完成上述的文章质量评分方法。例如,所述非临时性计算机可读存储介质可以是rom、随机存取存储器(ram)、cd-rom、磁带、软盘和光数据存储设备等。可以理解的是,本公开中“多个”是指两个或两个以上,其它量词与之类似。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,a和/或b,可以表示:单独存在a,同时存在a和b,单独存在b这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。进一步可以理解的是,术语“第一”、“第二”等用于描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开,并不表示特定的顺序或者重要程度。实际上,“第一”、“第二”等表述完全可以互换使用。例如,在不脱离本公开范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。进一步可以理解的是,术语“中心”、“纵向”、“横向”、“前”、“后”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本实施例和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作。在附图中,自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。所描述的实施例是本公开一部分实施例,而不是全部的实施例。上文通过参考附图描述的实施例是示例性的,旨在用于解释本公开,而不能理解为对本公开的限制。基于本公开中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本公开保护的范围。上文结合了附图对本公开的实施例进行了详细说明。进一步可以理解的是,除非有特殊说明,“连接”包括两者之间不存在其他构件的直接连接,也包括两者之间存在其他元件的间接连接。进一步可以理解的是,本公开实施例中尽管在附图中以特定的顺序描述操作,但是不应将其理解为要求按照所示的特定顺序或是串行顺序来执行这些操作,或是要求执行全部所示的操作以得到期望的结果。在特定环境中,多任务和并行处理可能是有利的。本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本
技术领域
中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1