物品摘要自动生成方法、系统、设备及可读存储介质与流程

文档序号:19738244发布日期:2020-01-18 04:48阅读:278来源:国知局
物品摘要自动生成方法、系统、设备及可读存储介质与流程

本发明属于信息处理技术领域,尤其涉及一种物品摘要自动生成方法、系统、设备及可读存储介质。



背景技术:

通常互联网网站会设定一些专栏或频道向用户展示或推荐产品,如发现好货、会买专辑等。为了吸引用户,对于产品会添加标题、图片以及文字描述,本发明将这一文字描述称为摘要。现阶段,摘要通常是由人工撰写完成的,由于人工撰写的水平参差不齐,所以撰写质量难以把控,需要专门的人员进行审核,另外,人工撰写耗时长,成本高。



技术实现要素:

本发明要解决的技术问题是为了克服现有技术中人工撰写产品信息时撰写质量难以把控、耗时较长、成本较高的缺陷,提供一种物品摘要自动生成方法、系统、设备及可读存储介质。

本发明是通过下述技术方案来解决上述技术问题:

一种物品摘要自动生成方法,所述物品摘要自动生成方法包括:

构建一物品类目的属性列表,所述属性列表包括所述物品类目下所有物品的属性及每个属性相应的属性值;

爬取包含至少一个所述属性值的所有语句构成语料库;

接收输入的所述物品类目下的一目标物品的关键词;

从所述属性列表中获取与所述关键词相关联的目标属性值;

从所述语料库中获取与所述目标属性值相匹配的匹配语句;

根据所述匹配语句生成所述目标物品的摘要。

较佳地,所述从所述语料库中获取与所述目标属性值相匹配的匹配语句的步骤具体包括:

从所述语料库中获取包含所述目标属性值的语句作为候选语句;

对每个候选语句进行打分得到所述每个候选语句的得分;

根据所述属性列表检测每个候选语句包含的属性的个数;

根据属性个数大小将所述候选语句进行降序排列;

根据得分大小将属性个数相同的候选语句进行降序排列;

从排序后的候选语句中选取排序靠前的若干候选语句作为所述匹配语句;

所述根据所述匹配语句生成所述目标物品的摘要的步骤具体包括:

依次选取所述匹配语句组合形成所述摘要,直至所述摘要的字数达到预设字数。

较佳地,所述从排序后的候选语句中选取排序靠前的若干候选语句作为所述匹配语句的步骤具体包括:

从排序后的候选语句中选取排序第一的语句作为第一匹配语句;所述匹配语句包括所述第一匹配语句;

从排序后的候选语句中依次选取下一排序的语句与所述第一匹配语句进行相似度计算,直至所述相似度小于预设相似度;

将第一个与所述第一匹配语句相似度小于预设相似度的语句作为第二匹配语句,然后继续选取下一匹配语句;所述匹配语句包括所述第二匹配语句。

较佳地,所述对每个候选语句进行打分得到所述每个候选语句的得分的步骤具体包括:

预设一语句模板库,所述语句模板库中存储有多个语句模板;

计算所述每个候选语句与所述语句模板的相似度分值;

基于nlp(自然语言处理)算法分别对所述每个候选语句的词法、句法结构和情感值进行计算得到第一分值、第二分值和第三分值;

基于ppl(困惑度)算法对所述每个候选语句的语言困惑度进行计算得到第四分值;

分别为所述相似度分值、所述第一分值、所述第二分值、所述第三分值和所述第四分值赋予对应的权重;

将所述相似度分值、所述第一分值、所述第二分值、所述第三分值和所述第四分值加权求和得到所述每个候选语句的得分。

较佳地,所述从所述语料库中获取包含所述目标属性值的语句作为候选语句的步骤之后,所述物品摘要自动生成方法还包括:

基于cnn(卷积神经网络)算法对所述候选语句进行清洗;

所述对每个候选语句进行打分得到所述每个候选语句的得分的步骤中,对清洗后的候选语句进行打分。

较佳地,所述基于cnn算法对所述候选语句进行清洗的步骤具体包括:

检测每个候选语句中是否包含相斥的属性值,若否,则滤除包含相斥属性值的候选语句。

一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述的物品摘要自动生成方法。

一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现上述的物品摘要自动生成方法的步骤。

一种物品摘要自动生成系统,所述物品摘要自动生成系统包括属性列表构建模块、语句爬取模块、关键词接收模块、目标属性值获取模块、匹配语句获取模块和摘要生成模块;

所述属性列表构建模块用于构建一物品类目的属性列表,所述属性列表包括所述物品类目下所有物品的属性及每个属性相应的属性值;

所述语句爬取模块用于爬取包含至少一个所述属性值的所有语句构成语料库;

所述关键词接收模块用于接收输入的所述物品类目下的一目标物品的关键词;

所述目标属性值获取模块用于从所述属性列表中获取与所述关键词相关联的目标属性值;

所述匹配语句获取模块用于从所述语料库中获取与所述目标属性值相匹配的匹配语句;

所述摘要生成模块用于根据所述匹配语句生成所述目标物品的摘要。

较佳地,所述匹配语句获取模块包括候选语句获取单元、打分单元、检测单元、排序单元和匹配语句选取单元;

所述候选语句获取单元用于从所述语料库中获取包含所述目标属性值的语句作为候选语句;

所述打分单元用于对每个候选语句进行打分得到所述每个候选语句的得分;

所述检测单元用于根据所述属性列表检测每个候选语句包含的属性的个数;

所述排序单元用于根据属性个数大小将所述候选语句进行降序排列,还用于根据得分大小将属性个数相同的候选语句进行降序排列;

所述匹配语句选取单元用于从排序后的候选语句中选取排序靠前的若干候选语句作为所述匹配语句;

所述摘要生成模块用于依次选取所述匹配语句组合形成所述摘要,直至所述摘要的字数达到预设字数。

较佳地,所述匹配语句获取模块还包括相似度计算单元;

所述匹配语句选取单元用于从排序后的候选语句中选取排序第一的语句作为第一匹配语句;所述匹配语句包括所述第一匹配语句;

所述相似度计算单元用于从排序后的候选语句中依次选取下一排序的语句与所述第一匹配语句进行相似度计算,直至所述相似度小于预设相似度;

所述匹配语句选取单元还用于将第一个与所述第一匹配语句相似度小于预设相似度的语句作为第二匹配语句,然后继续选取下一匹配语句;所述匹配语句包括所述第二匹配语句。

较佳地,所述物品摘要自动生成系统还包括一语句模板库,所述语句模板库中存储有多个语句模板,所述匹配语句获取模块还包括分值计算单元;

所述分值计算单元用于计算所述每个候选语句与所述语句模板的相似度分值,还用于基于nlp算法分别对所述每个候选语句的词法、句法结构和情感值进行计算得到第一分值、第二分值和第三分值,还用于基于ppl算法对所述每个候选语句的语言困惑度进行计算得到第四分值;

所述权重赋予单元用于分别为所述相似度分值、所述第一分值、所述第二分值、所述第三分值和所述第四分值赋予对应的权重;

所述打分单元用于将所述相似度分值、所述第一分值、所述第二分值、所述第三分值和所述第四分值加权求和得到所述每个候选语句的得分。

较佳地,所述匹配语句获取模块还包括清洗单元;

所述清洗单元用于基于cnn算法对所述候选语句进行清洗;

所述打分单元用于对每个可用候选语句进行打分。

较佳地,所述清洗单元用于检测每个候选语句中是否包含相斥的属性值,若否,则滤除包含相斥属性值的候选语句。

本发明的积极进步效果在于:本发明能够根据输入物品的关键词自动撰写物品的摘要,使得撰写质量得以把控,并且缩短撰写时间,提高写作效率,降低写作成本。

附图说明

图1为本发明实施例1的物品摘要自动生成方法的流程图。

图2为本发明实施例1的物品摘要自动生成方法中步骤150的具体流程图。

图3为本发明实施例1的物品摘要自动生成方法中步骤156的具体流程图。

图4为本发明实施例1的物品摘要自动生成方法中步骤152的具体流程图。

图5为本发明实施例1的物品摘要自动生成方法中步骤150的另一种实现方式的具体流程图。

图6为本发明实施例1的物品摘要自动生成方法中步骤1511的具体流程图。

图7为本发明实施例2的电子设备的结构示意图。

图8为本发明实施例3的物品摘要自动生成系统的结构框图。

图9为本发明实施例3的物品摘要自动生成系统中匹配语句获取模块的具体结构框图。

具体实施方式

下面通过实施例的方式进一步说明本发明,但并不因此将本发明限制在所述的实施例范围之中。

实施例1

一种物品摘要自动生成方法,如图1所示,所述物品摘要自动生成方法包括:

步骤110、构建一物品类目的属性列表;所述属性列表包括所述物品类目下所有物品的属性及每个属性相应的属性值;

步骤120、爬取包含至少一个属性值的所有语句构成语料库;

步骤130、接收输入的物品类目下的一目标物品的关键词;需要说明的是,关键词中至少要包含物品名;

步骤140、从属性列表中获取与关键词相关联的目标属性值;

步骤150、从语料库中获取与目标属性值相匹配的匹配语句;

步骤160、根据匹配语句生成目标物品的摘要。

其中,可以对每一个物品类目都构建属性列表及获取对应的语料库,接收输入的关键词后,可以设定先判定关键词中包含的物品名所属的物品类目,再在相应物品类目下进行摘要的自动生成,另外,本发明对关键词的个数不做具体限定,用户可根据实际需求进行输入。

需要说明的是,本发明中构建的属性列表是根据大数据统计得出的任一物品类目下的所有物品及与每个物品对应的属性及相应属性值,比如:对于手机这个三级类目,与手机对应的属性有品牌、产地、名称、内存等,相应的属性值即为具体的品牌名、具体的产地、具体的名称等,其中对于一些特殊属性,比如名称、品牌等,其属性值不限于一个,比如荣耀v9全网通,v9是其品牌,荣耀是其品牌,与输入的关键词相关联的品牌这个属性下对应的属性值为v9、荣耀和华为,荣耀所属的华为同样属于其品牌,再比如全网通、三网通、移动联通电信在当前现有技术下同属于网络制式这一属性的属性值,上述属性及相应的属性值均在属性列表中提前设定好,在获取到关键词后,直接根据属性列表可以查询得到与关键词相关联的目标属性值。

本实施例中,如图2所示,步骤150具体包括:

步骤151、从语料库中获取包含目标属性值的语句作为候选语句;

步骤152、对每个候选语句进行打分得到每个候选语句的得分;

步骤153、根据属性列表检测每个候选语句包含的属性的个数;

步骤154、根据属性个数大小将候选语句进行降序排列;

步骤155、根据得分大小将属性个数相同的候选语句进行降序排列;

步骤156、从排序后的候选语句中选取排序靠前的若干候选语句作为匹配语句;

步骤160具体包括:依次选取匹配语句组合形成摘要,直至摘要的字数达到预设字数。此处,为了避免摘要的字数过多,在匹配语句组合形成摘要的过程中,实时检测字数是否超过预设字数,一旦超过,不再选取下面的匹配语句。

通过上述步骤可以借助语料库中丰富的语句为关键词筛选出多种多样的候选语句,一般情况下,根据关键词获取到的目标属性值应该是包含输入的关键词的,若不包括,此处在选取候选语句时,将包含关键词的语句也选取出来作为候选语句,得到候选语句后,就是如何选择出合适的匹配语句,在上述的步骤156中,每选取一个匹配语句,需要将后选取的语句与前一个语句进行相似度判定,避免摘要中出现重复或过于相似的语句,从而提高摘要的质量,具体的,如图3所示,步骤156具体包括:

步骤1561、从排序后的候选语句中选取排序第一的语句作为第一匹配语句;所述匹配语句包括所述第一匹配语句;

步骤1562、从排序后的候选语句中依次选取下一排序的语句与第一匹配语句进行相似度计算,直至相似度小于预设相似度;

步骤1563、将第一个与第一匹配语句相似度小于预设相似度的语句作为第二匹配语句,然后继续选取下一匹配语句;所述匹配语句包括所述第二匹配语句。

本实施例中,如图4所示,步骤152中通过以下步骤得到每个候选语句的得分,包括:

步骤1521、预设一语句模板库;所述语句模板库中存储有多个语句模板;

步骤1522、计算每个候选语句与语句模板的相似度分值;

步骤1523、基于nlp算法分别对每个候选语句的词法、句法结构和情感值进行计算得到第一分值、第二分值和第三分值;

步骤1524、基于ppl算法对每个候选语句的语言困惑度进行计算得到第四分值;

步骤1525、分别为相似度分值、第一分值、第二分值、第三分值和第四分值赋予对应的权重;

步骤1526、将相似度分值、第一分值、第二分值、第三分值和第四分值加权求和得到每个候选语句的得分。

另外,为了减少语句得分计算的工作量,可以先对候选语句进行简单的清洗,具体地,如图5所示,提供步骤150的另一种实现方式,步骤151之后,还包括:

步骤1511、基于cnn算法对候选语句进行清洗;

用步骤152’替换步骤152,具体包括:

步骤152’、对清洗后的候选语句进行打分得到每个候选语句的得分。

其中,如图6所示,步骤1511具体包括:

步骤1511-1检测每个候选语句中是否包含相斥的属性值,若否,则执行步骤1511-2;比如:手机类目下,输入的关键词是全网通,若选取的候选语句为移动版和全网通版可选,其中包含两个相斥的属性,则将该语句滤除。

步骤1511-2、滤除包含相斥属性值的候选语句。

本实施例能够根据输入物品的关键词自动撰写物品的摘要,使得撰写质量得以把控,并且缩短撰写时间,提高写作效率,降低写作成本。

实施例2

一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现实施例1所述的物品摘要自动生成方法。

图7为本发明实施例2提供的一种电子设备的结构示意图。图7示出了适于用来实现本发明实施方式的示例性电子设备90的框图。图7显示的电子设备90仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。

如图7所示,电子设备90可以以通用计算设备的形式表现,例如其可以为服务器设备。电子设备90的组件可以包括但不限于:至少一个处理器91、至少一个存储器92、连接不同系统组件(包括存储器92和处理器91)的总线93。

总线93包括数据总线、地址总线和控制总线。

存储器92可以包括易失性存储器,例如随机存取存储器(ram)921和/或高速缓存存储器922,还可以进一步包括只读存储器(rom)923。

存储器92还可以包括具有一组(至少一个)程序模块924的程序工具925,这样的程序模块924包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。

处理器91通过运行存储在存储器92中的计算机程序,从而执行各种功能应用以及数据处理。

电子设备90也可以与一个或多个外部设备94(例如键盘、指向设备等)通信。这种通信可以通过输入/输出(i/o)接口95进行。并且,电子设备90还可以通过网络适配器96与一个或者多个网络(例如局域网(lan),广域网(wan)和/或公共网络,例如因特网)通信。网络适配器96通过总线93与电子设备90的其它模块通信。应当明白,尽管图中未示出,可以结合电子设备90使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、raid(磁盘阵列)系统、磁带驱动器以及数据备份存储系统等。

应当注意,尽管在上文详细描述中提及了电子设备的若干单元/模块或子单元/模块,但是这种划分仅仅是示例性的并非强制性的。实际上,根据本申请的实施方式,上文描述的两个或更多单元/模块的特征和功能可以在一个单元/模块中具体化。反之,上文描述的一个单元/模块的特征和功能可以进一步划分为由多个单元/模块来具体化。

实施例3

一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现实施例1所述的物品摘要自动生成方法的步骤。

其中,可读存储介质可以采用的更具体可以包括但不限于:便携式盘、硬盘、随机存取存储器、只读存储器、可擦拭可编程只读存储器、光存储器件、磁存储器件或上述的任意合适的组合。

在可能的实施方式中,本发明还可以实现为一种程序产品的形式,其包括程序代码,当所述程序产品在终端设备上运行时,所述程序代码用于使所述终端设备执行实现实施例1所述的物品摘要自动生成方法的步骤。

其中,可以以一种或多种程序设计语言的任意组合来编写用于执行本发明的程序代码,所述程序代码可以完全地在用户设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户设备上部分在远程设备上执行或完全在远程设备上执行。

实施例4

一种物品摘要自动生成系统,如图8所示,所述物品摘要自动生成系统包括属性列表构建模块1、语句爬取模块2、关键词接收模块3、目标属性值获取模块4、匹配语句获取模块5和摘要生成模块6;

所述属性列表构建模块1用于构建一物品类目的属性列表,所述属性列表包括所述物品类目下所有物品的属性及每个属性相应的属性值;

所述语句爬取模块2用于爬取包含至少一个所述属性值的所有语句构成语料库;

所述关键词接收模块3用于接收输入的所述物品类目下的一目标物品的关键词;

所述目标属性值获取模块4用于从所述属性列表中获取与所述关键词相关联的目标属性值;

所述匹配语句获取模块5用于从所述语料库中获取与所述目标属性值相匹配的匹配语句;

所述摘要生成模块6用于根据所述匹配语句生成所述目标物品的摘要。

其中,可以对每一个物品类目都构建属性列表及获取对应的语料库,接收输入的关键词后,可以设定先判定关键词中包含的物品名所属的物品类目,再在相应物品类目下进行摘要的自动生成,另外,本发明对关键词的个数不做具体限定,用户可根据实际需求进行输入。

需要说明的是,本发明中构建的属性列表是根据大数据统计得出的任一物品类目下的所有物品及与每个物品对应的属性及相应属性值,比如:对于手机这个三级类目,与手机对应的属性有品牌、产地、名称、内存等,相应的属性值即为具体的品牌名、具体的产地、具体的名称等,其中对于一些特殊属性,比如名称、品牌等,其属性值不限于一个,比如荣耀v9全网通,v9是其品牌,荣耀是其品牌,荣耀所属的华为同样属于其品牌,与输入的关键词相关联的品牌这个属性下对应的属性值为v9、荣耀和华为,再比如全网通、三网通、移动联通电信在当前现有技术下同属于网络制式这一属性的属性值,上述属性及相应的属性值均在属性列表中提前设定好,在获取到关键词后,直接根据属性列表可以查询得到与关键词相关联的目标属性值。

本实施例中,如图9所示,所述匹配语句获取模块5包括候选语句获取单元51、打分单元52、检测单元53、排序单元54和匹配语句选取单元55;

所述候选语句获取单元51用于从所述语料库中获取包含所述目标属性值的语句作为候选语句;

所述打分单元52用于对每个候选语句进行打分得到所述每个候选语句的得分;

所述检测单元53用于根据所述属性列表检测每个候选语句包含的属性的个数;

所述排序单元54用于根据属性个数大小将所述候选语句进行降序排列,还用于根据得分大小将属性个数相同的候选语句进行降序排列;

所述匹配语句选取单元55用于从排序后的候选语句中选取排序靠前的若干候选语句作为所述匹配语句;

所述摘要生成模块6用于依次选取所述匹配语句组合形成所述摘要,直至所述摘要的字数达到预设字数。此处,为了避免摘要的字数过多,在匹配语句组合形成摘要的过程中,实时检测字数是否超过预设字数,一旦超过,不再选取下面的匹配语句。

通过上述步骤可以借助语料库中丰富的语句为关键词筛选出多种多样的候选语句,一般情况下,根据关键词获取到的目标属性值应该是包含输入的关键词的,若不包括,此处在选取候选语句时,将包含关键词的语句也选取出来作为候选语句,得到候选语句后,就是如何选择出合适的匹配语句,所述匹配语句获取模块5每选取一个匹配语句,需要将后选取的语句与前一个语句进行相似度判定,避免摘要中出现重复或过于相似的语句,从而提高摘要的质量,具体的,参考图9,所述匹配语句获取模块5还包括相似度计算单元56;

所述匹配语句选取单元55用于从排序后的候选语句中选取排序第一的语句作为第一匹配语句;所述匹配语句包括所述第一匹配语句;

所述相似度计算单元56用于从排序后的候选语句中依次选取下一排序的语句与所述第一匹配语句进行相似度计算,直至所述相似度小于预设相似度;

所述匹配语句选取单元55还用于将第一个与所述第一匹配语句相似度小于预设相似度的语句作为第二匹配语句,然后继续选取下一匹配语句;所述匹配语句包括所述第二匹配语句。

本实施例中,所述物品摘要自动生成系统还包括一语句模板库,所述语句模板库中存储有多个语句模板,参见图9,所述匹配语句获取模块5还包括分值计算单元57;

所述分值计算单元57用于计算所述每个候选语句与所述语句模板的相似度分值,还用于基于nlp算法分别对所述每个候选语句的词法、句法结构和情感值进行计算得到第一分值、第二分值和第三分值,还用于基于ppl算法对所述每个候选语句的语言困惑度进行计算得到第四分值;

所述权重赋予单元58用于分别为所述相似度分值、所述第一分值、所述第二分值、所述第三分值和所述第四分值赋予对应的权重;

所述打分单元52用于将所述相似度分值、所述第一分值、所述第二分值、所述第三分值和所述第四分值加权求和得到所述每个候选语句的得分。

另外,为了减少语句得分计算的工作量,可以先对候选语句进行简单的清洗,参见图9,所述匹配语句获取模块5还包括清洗单元59;

所述清洗单元59用于基于cnn算法对所述候选语句进行清洗;具体地,检测每个候选语句中是否包含相斥的属性值,若否,则滤除包含相斥属性值的候选语句。比如:手机类目下,输入的关键词是全网通,若选取的候选语句为移动版和全网通版可选,其中包含两个相斥的属性,则将该语句滤除。

所述打分单元52用于对清洗后的候选语句进行打分。

本实施例能够根据输入物品的关键词自动撰写物品的摘要,使得撰写质量得以把控,并且缩短撰写时间,提高写作效率,降低写作成本。

虽然以上描述了本发明的具体实施方式,但是本领域的技术人员应当理解,这仅是举例说明,本发明的保护范围是由所附权利要求书限定的。本领域的技术人员在不背离本发明的原理和实质的前提下,可以对这些实施方式做出多种变更或修改,但这些变更和修改均落入本发明的保护范围。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1