本发明涉及文本摘要技术领域,尤其涉及一种商品短标题生成方法及装置。
背景技术:
商品短标题一般是由商品的标准长标题压缩而成,短标题顾名思义具有简洁短小的特点,旨在使用较少的字数对商品关键信息进行描述,使用户能够一目了然商品所要表示的商品关键信息,例如“韩版印花连衣裙”,这在自然语言处理上可以归类为一种特殊的文本摘要技术。
传统的文本摘要技术,例如textrank,lead-3等都是对文章进行摘要,抽取文章中的句子,这种方法无法很好应用到商品标题上。随着深度学习的快速发展,seq2seq,pointer-generation等各种深度学习模型能够生成压缩后的短标题。但是,在现实的场景中,尤其是在商品标题这一块,缺乏大量的短标题训练语料,使之无法在真实场景中广泛应用。
技术实现要素:
本发明的目的在于提供一种商品短标题生成方法及装置,能够提高商品短标题的生成效率及精度。
为了实现上述目的,本发明的一方面提供一种商品短标题生成方法,包括:
爬取商品标题数据和/或采集搜索词数据,构建语料数据集;
基于商品分类表将语料数据集中的多条语料按商品类别分类后,提取关键词组建词库;
将词库中的各关键词按照词性标注为修饰词或品类词;
获取原始商品标题数据分词得到多个标题词,将各标题词分别与词库中的关键词匹配,输出匹配成功的关键词;
从多个关键词中筛选出至少两个有效关键词,根据词性拼接组成商品短标题。
优选地,基于商品分类表将语料数据集中的多条语料按商品类别分类后,提取关键词组建词库的方法包括:
基于商品分类表将语料数据集中的多条语料按照商品类别逐条分类;
分别对多条语料分词得到多个关键词,将每个商品分类中的关键词去重后和过滤得到与商品分类一一对应的关键词集;
汇总多个关键词集组建词库。
较佳地,将词库中的各关键词按照词性标注为修饰词或品类词的方法包括:
采用人工标注的方式,从词库中提取出属于修饰词或者品类词的关键词并进行对应词性的标注;和/或,
采用机器模型标注的方式,从词库中提取出属于修饰词或者品类词的关键词并进行对应词性的标注。
进一步地,在采用人工标注的方式,从词库中提取出属于修饰词或者品类词的关键词并进行对应词性的标注之后还包括:
爬取新的商品标题数据分词后与词库中的关键词匹配;
当匹配成功的关键词数量小于阈值,则将新的商品标题数据中的关键词补入对应的关键词集,并对新补入的关键词进行词性标注;
当匹配成功的关键词数量大于阈值,则再次爬取新的商品标题数据分词后与词库中的关键词匹配。
优选地,采用机器模型标注的方式,从词库中提取出属于修饰词或者品类词的关键词并进行对应词性的标注之后还包括:
基于机器模型中的语义识别技术,从新爬取的商品标题数据中提取出属于修饰词或者品类词的关键词补入对应的关键词集,同时对新补入的关键词进行对应词性的标注。
优选地,获取原始商品标题数据分词得到多个标题词,将各标题词分别与词库中的关键词匹配,输出匹配成功的关键词的方法包括:
识别原始商品标题数据中的商品分类,匹配对应的关键词集;
将原始商品标题数据分词为多个标题词,将各标题词分别与对应关键词集中的关键词进行匹配,筛选出匹配成功的关键词。
优选地,从多个关键词中筛选出至少两个有效关键词,根据词性拼接组成商品短标题的方法包括:
记录原始商品标题数据中各关键词的位置信息;
若标注为修饰词的关键词中存在词义范围交叉的多个关键词,仅保留交叉中的一个关键词;
若标注为修饰词的关键词中存在词义范围包含的多个关键词,仅保留词义范围大的关键词;
若标注为品类词的关键词的词义中包含有修饰词的关键词词义,则将对应的修饰词的关键词剔除;
将保留下的关键词定义为有效关键词,并按照有效关键词所在的位置顺序拼接成商品短标题。
可选地,将多个原始商品标题数据分别与词库匹配,并行处理后输出对应的多个商品短标题。
示例性,搜索词数据为用户在搜索商品时对应输入的搜索词的集合。
与现有技术相比,本发明提供的商品短标题生成方法具有以下有益效果:
本发明提供的商品短标题生成方法中,首先构建语料数据集,然后基于商品分类表将语料数据集中的语料进行分类,分类完成后提取出语料中的关键词共同组建词库,同时对词库中的各关键词按照词性标注为修饰词或品类词,至此词库建设完成,接下来可获取原始商品标题数据准备压缩,将原始商品标题数据分词后得到多个标题词,将这些标题词输入词库与关键词匹配,从匹配成功的关键词中筛选出至少两个有效关键词,将其按照词性顺序拼接后组成商品短标题。
可见,本发明采用将语料分类再标注的方案,能够有效降低标注过程的难度进而加快关键词标注的效率,通过将原始商品标题数据分词后直接与词库中的关键词匹配,经筛选拼接得到的商品短标题的准确性相对较高。
本发明的另一方面提供一种商品短标题生成装置,应用有上述技术方案提到的用于商品短标题生成方法,该装置包括:
数据采集单元,用于爬取商品标题数据和/或采集搜索词数据,构建语料数据集;
词库单元,用于基于商品分类表将语料数据集中的多条语料按商品类别分类后,提取关键词组建词库;
词标注单元,用于将词库中的各关键词按照词性标注为修饰词或品类词;
词匹配单元,用于获取原始商品标题数据分词得到多个标题词,将各标题词分别与词库中的关键词匹配,输出匹配成功的关键词;
处理单元,用于从多个关键词中筛选出至少两个有效关键词,根据词性拼接组成商品短标题。
与现有技术相比,本发明提供的商品短标题生成装置的有益效果与上述技术方案提供的商品短标题生成方法的有益效果相同,在此不做赘述。
本发明的第三方面提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器运行时执行上述商品短标题生成方法的步骤。
与现有技术相比,本发明提供的计算机可读存储介质的有益效果与上述技术方案提供的商品短标题生成方法的有益效果相同,在此不做赘述。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本发明的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1为实施例一中商品短标题生成方法的流程示意图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其它实施例,均属于本发明保护的范围。
实施例一
请参阅图1,本实施例提供一种商品短标题生成方法,包括:
爬取商品标题数据和/或采集搜索词数据,构建语料数据集;基于商品分类表将语料数据集中的多条语料按商品类别分类后,提取关键词组建词库;将词库中的各关键词按照词性标注为修饰词或品类词;获取原始商品标题数据分词得到多个标题词,将各标题词分别与词库中的关键词匹配,输出匹配成功的关键词;从多个关键词中筛选出至少两个有效关键词,根据词性拼接组成商品短标题。
本实施例提供的商品短标题生成方法中,首先构建语料数据集,然后基于商品分类表将语料数据集中的语料进行分类,分类完成后提取出语料中的关键词共同组建词库,同时对词库中的各关键词按照词性标注为修饰词或品类词,至此词库建设完成,接下来可获取原始商品标题数据准备压缩,将原始商品标题数据分词后得到多个标题词,将这些标题词输入词库与关键词匹配,从匹配成功的关键词中筛选出至少两个有效关键词,将其按照词性顺序拼接后组成商品短标题。
可见,本实施例采用将语料分类再标注的方案,能够有效降低标注过程的难度进而加快关键词标注的效率,通过将原始商品标题数据分词后直接与词库中的关键词匹配,经筛选拼接得到的商品短标题的准确性相对较高。
需要说明的是,语料数据集的数据来源包括商品标题数据的爬取和搜索词数据的采集,对于商品标题数据需重点爬取各大电商平台的商品短标题,对于搜索词数据是指用户搜索各类商品对应输入的搜索词集合,也即query数据。
上述实施例中,基于商品分类表将语料数据集中的多条语料按商品类别分类后,提取关键词组建词库的方法包括:
基于商品分类表将语料数据集中的多条语料按照商品类别逐条分类;分别对多条语料分词得到多个关键词,将每个商品分类中的关键词去重后和过滤得到与商品分类一一对应的关键词集;汇总多个关键词集组建词库。
考虑到直接在语料上进行标注的工作量巨大,为了降低标注的难度并提高标注效率,首先将语料数据集中的语料按照商品分类表(如四级商品组)进行分类,例如分类结果包括上衣语料组、裤子语料组、手机语料组等,接着对分类的语料进行分词,使得每组分类中形成有多个关键词,对无关的关键词实现过滤(去除燥音关键词)后,再对每组分类中的关键词进行去重,以确保组内关键词的唯一性,最终形成与每组分类一一对应的关键词集,将全部关键词集汇总即可形成词库。
上述实施例中,将词库中的各关键词按照词性标注为修饰词或品类词的方法包括:
采用人工标注的方式,从词库中提取出属于修饰词或者品类词的关键词并进行对应词性的标注;和/或,采用机器模型标注的方式,从词库中提取出属于修饰词或者品类词的关键词并进行对应词性的标注。
顾名思义,人工标注即是指采用人工的方式识别出词库中各关键词是属于修饰词或者品类词,并手工完成相应标注。机器模型标注采用的是自动化识别标注技术,当词库中的关键词数据量巨大,可考虑采用机器模型方式来提升标注效率,实践发现机器模型的标注方式虽然效率高,但其标注的精度不如人工,因此在具体实施的过程中,优选两种结合的方式对词库中的关键词进行标注,如先使用机器模型对大量关键词预标注,然后采用人工方式校验,进而在提升关键词标注效率的同时均衡标注的精确度。
在采用人工标注的方式,从词库中提取出属于修饰词或者品类词的关键词并进行对应词性的标注之后还包括:
爬取新的商品标题数据分词后与词库中的关键词匹配;当匹配成功的关键词数量小于阈值,则将新的商品标题数据中的关键词补入对应的关键词集,并对新补入的关键词进行词性标注;当匹配成功的关键词数量大于阈值,则再次爬取新的商品标题数据分词后与词库中的关键词匹配。
上述实施例的目的在于扩充词库中的词源,通过不断获取新的商品标题数据,来检验词库中的关键词是否足够完善,具体过程为,首先将商品标题数据分词,过滤后仅保留词性为修饰词和品类词的相关关键词,当保留下来的关键词与词库中的关键词的数量小于阈值,则说明词库中的关键词还不够完善,可将未匹配成功的商品标题数据中的关键词补录入对应的关键词集中,同时对新补入的关键词进行词性标注,反之,当保留下来的关键词与词库中的关键词的数量大于阈值,则说明词库中的关键词足以应付该条商品标题数据,可以重新爬取新的商品标题数据重复上述过程继续检验词库。示例性地,阈值为3.
采用机器模型标注的方式,从词库中提取出属于修饰词或者品类词的关键词并进行对应词性的标注之后还包括:
基于机器模型中的语义识别技术,从新爬取的商品标题数据中提取出属于修饰词或者品类词的关键词补入对应的关键词集,同时对新补入的关键词进行对应词性的标注。
可选地,机器模型可选用bilstm+crf的深度学习模型,通过深度学习模型从新爬取的商品标题数据中提取出属于修饰词或者品类词的关键词,标注后补入对应的关键词集,该深度学习模型具有很好的适应性,能够根据上下文的信息自动识别出商品标题中的品类词和修饰词。
进一步地,上述实施例中的获取原始商品标题数据分词得到多个标题词,将各标题词分别与词库中的关键词匹配,输出匹配成功的关键词的方法包括:
识别原始商品标题数据中的商品分类,匹配对应的关键词集;将原始商品标题数据分词为多个标题词,将各标题词分别与对应关键词集中的关键词进行匹配,筛选出匹配成功的关键词。
优选地,可以同时获取多个原始商品标题数据分别与词库匹配,并行处理后输出对应的多个商品短标题。
具体实施时,同时识别出多个原始商品标题数据中的商品分类,并对应匹配到所属关键词集,将每个原始商品标题数据分词为多个标题词,将各标题词分别与对应关键词集中的关键词进行匹配,筛选出各原始商品标题数据匹配成功的关键词。
进一步地,上述实施例中从多个关键词中筛选出至少两个有效关键词,根据词性拼接组成商品短标题的方法包括:
记录原始商品标题数据中各关键词的位置信息;若标注为修饰词的关键词中存在词义范围交叉的多个关键词,仅保留交叉中的一个关键词;若标注为修饰词的关键词中存在词义范围包含的多个关键词,仅保留词义范围大的关键词;若标注为品类词的关键词的词义中包含有修饰词的关键词词义,则将对应的修饰词的关键词剔除;将保留下的关键词定义为有效关键词,并按照有效关键词所在的位置顺序拼接成商品短标题。具体实施过程中,优先处理原始商品标题数据中的品类词关键词。
可以理解的是,根据商品短标题的字数,筛选出符合条件的修饰词关键词和品类词关键词,把修饰词关键词和品类词关键词按照位置顺序拼接在一起,即可组成通顺的商品短标题,上述实施例仅为一个原始商品标题数据处理生成一个商品短标题的处理过程,当原始商品标题数据为多个时,同时执行多次上述处理过程即可,继而实现大批量的商品短标题。
实施例二
本实施例提供一种商品短标题生成装置,包括:
数据采集单元,用于爬取商品标题数据和/或采集搜索词数据,构建语料数据集;
词库单元,用于基于商品分类表将语料数据集中的多条语料按商品类别分类后,提取关键词组建词库;
词标注单元,用于将词库中的各关键词按照词性标注为修饰词或品类词;
词匹配单元,用于获取原始商品标题数据分词得到多个标题词,将各标题词分别与词库中的关键词匹配,输出匹配成功的关键词;
处理单元,用于从多个关键词中筛选出至少两个有效关键词,根据词性拼接组成商品短标题。
与现有技术相比,本实施例提供的商品短标题生成装置的有益效果与上述实施例提供的商品短标题生成方法的有益效果相同,在此不做赘述。
实施例三
本实施例提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器运行时执行上述商品短标题生成方法的步骤。
与现有技术相比,本实施例提供的计算机可读存储介质的有益效果与上述技术方案提供的商品短标题生成方法的有益效果相同,在此不做赘述。
本领域普通技术人员可以理解,实现上述发明方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,上述程序可以存储于计算机可读取存储介质中,该程序在执行时,包括上述实施例方法的各步骤,上述的存储介质可以是:rom/ram、磁碟、光盘、存储卡等。
以上,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。