1.一种商品短标题生成方法,其特征在于,包括:
爬取商品标题数据和/或采集搜索词数据,构建语料数据集;
基于商品分类表将语料数据集中的多条语料按商品类别分类后,提取关键词组建词库;
将词库中的各关键词按照词性标注为修饰词或品类词;
获取原始商品标题数据分词得到多个标题词,将各标题词分别与词库中的关键词匹配,输出匹配成功的关键词;
从多个关键词中筛选出至少两个有效关键词,根据词性拼接组成商品短标题。
2.根据权利要求1所述的方法,其特征在于,基于商品分类表将语料数据集中的多条语料按商品类别分类后,提取关键词组建词库的方法包括:
基于商品分类表将语料数据集中的多条语料按照商品类别逐条分类;
分别对多条语料分词得到多个关键词,将每个商品分类中的关键词去重后和过滤得到与商品分类一一对应的关键词集;
汇总多个关键词集组建词库。
3.根据权利要求2所述的方法,其特征在于,将词库中的各关键词按照词性标注为修饰词或品类词的方法包括:
采用人工标注的方式,从词库中提取出属于修饰词或者品类词的关键词并进行对应词性的标注;和/或,
采用机器模型标注的方式,从词库中提取出属于修饰词或者品类词的关键词并进行对应词性的标注。
4.根据权利要求3所述的方法,其特征在于,在采用人工标注的方式,从词库中提取出属于修饰词或者品类词的关键词并进行对应词性的标注之后还包括:
爬取新的商品标题数据分词后与词库中的关键词匹配;
当匹配成功的关键词数量小于阈值,则将新的商品标题数据中的关键词补入对应的关键词集,并对新补入的关键词进行词性标注;
当匹配成功的关键词数量大于阈值,则再次爬取新的商品标题数据分词后与词库中的关键词匹配。
5.根据权利要求3或4所述的方法,其特征在于,采用机器模型标注的方式,从词库中提取出属于修饰词或者品类词的关键词并进行对应词性的标注之后还包括:
基于机器模型中的语义识别技术,从新爬取的商品标题数据中提取出属于修饰词或者品类词的关键词补入对应的关键词集,同时对新补入的关键词进行对应词性的标注。
6.根据权利要求2-4任一项所述的方法,其特征在于,获取原始商品标题数据分词得到多个标题词,将各标题词分别与词库中的关键词匹配,输出匹配成功的关键词的方法包括:
识别原始商品标题数据中的商品分类,匹配对应的关键词集;
将原始商品标题数据分词为多个标题词,将各标题词分别与对应关键词集中的关键词进行匹配,筛选出匹配成功的关键词。
7.根据权利要求1-4任一项所述的方法,其特征在于,从多个关键词中筛选出至少两个有效关键词,根据词性拼接组成商品短标题的方法包括:
记录原始商品标题数据中各关键词的位置信息;
若标注为修饰词的关键词中存在词义范围交叉的多个关键词,仅保留交叉中的一个关键词;
若标注为修饰词的关键词中存在词义范围包含的多个关键词,仅保留词义范围大的关键词;
若标注为品类词的关键词的词义中包含有修饰词的关键词词义,则将对应的修饰词的关键词剔除;
将保留下的关键词定义为有效关键词,并按照有效关键词所在的位置顺序拼接成商品短标题。
8.根据权利要求1所述的方法,其特征在于,将多个原始商品标题数据分别与词库匹配,并行处理后输出对应的多个商品短标题。
9.根据权利要求1所述的方法,其特征在于,搜索词数据为用户在搜索商品时对应输入的搜索词的集合。
10.一种商品短标题生成装置,其特征在于,包括:
数据采集单元,用于爬取商品标题数据和/或采集搜索词数据,构建语料数据集;
词库单元,用于基于商品分类表将语料数据集中的多条语料按商品类别分类后,提取关键词组建词库;
词标注单元,用于将词库中的各关键词按照词性标注为修饰词或品类词;
词匹配单元,用于获取原始商品标题数据分词得到多个标题词,将各标题词分别与词库中的关键词匹配,输出匹配成功的关键词;
处理单元,用于从多个关键词中筛选出至少两个有效关键词,根据词性拼接组成商品短标题。