基于电商用户行为数据的近义词识别方法

文档序号:8339761阅读:461来源:国知局
基于电商用户行为数据的近义词识别方法
【技术领域】
[0001] 本发明涉及自然语言处理领域,具体的说,是涉及一种基于用户行为数据的近义 词识别方法。
【背景技术】
[0002] 近年来,互联网电子商务蓬勃发展,影响渗透到人类生活的方方面面。互联网上存 在着不同品类上亿种商品,单靠人工,甚至不可能将所有商品遍历一遍,更遑论识别分析, 个性化搜索是解决大数据提取的重要方案。在大数据领域,文字搜索面临的最大挑战就是 提高召回率。准确的词语联想,可以极大地提高搜索结果召回率。然而,现有技术中,并没 有解决商品标题关键词的命名实体和对命名实体的近义词识别的问题,极大地降低了词语 联想的准确性。

【发明内容】

[0003] 本发明的目的在于克服上述缺陷,提供一种基于用户行为数据的近义词识别方 法,解决了如何识别商品标题关键词的命名实体和对命名实体的近义词识别的问题。
[0004] 为了实现上述目的,本发明采用的技术方案如下:
[0005] 基于电商用户行为数据的近义词识别方法,包括以下步骤:
[0006] (1)将原始数据进行数据预处理,提取目标商品的商品描述数据和用户行为数 据;
[0007] (2)随机选择部分商品描述数据分词并进行标注;
[0008] (3)返回标注的商品描述数据并作为隐马尔可夫算法模型的训练集数据;
[0009] (4)通过训练集数据训练出隐马尔可夫算法模型的参数,建立隐马尔可夫算法模 型,并由隐马尔可夫算法识别提取的商品描述数据,得到结果数据有效实体词库;
[0010] (5)过滤用户行为数据,从中提取用户浏览行为数据和用户搜索行为数据;
[0011] (6)读取用户浏览行为数据和用户搜索行为数据,组成多个相似词类数据集;
[0012] (7)调用隐马尔可夫算法模型,识别相似词类数据集中每个近义词类的有效实体 和相同词性的实体,组成与相似词类数据集数量对应的近义词组;
[0013] (8)整理汇总所有近义词组,计算词与词之间的相似度;
[0014] (9)按相似度大小归一化排序,输出近义词识别结果。
[0015] 进一步的,所述步骤(6)的具体方法如下:
[0016] 读取用户浏览行为数据
[0017] (61)读取用户浏览行为数据,建立用户-商品二部图;
[0018] (62)利用经典的基于物品的协同过滤算法,计算商品间的相似度;
[0019] (63)提取每个商品对应的相似度最高的5-10个商品对应的词,组成一个相似词 类;
[0020] 读取用户搜索行为数据
[0021] (64)读取用户搜索行为数据,提取用户每次搜索输入的搜索词和点击过的所有商 品对应的词,组成一个搜索词类;
[0022] (65)提取同一个商品被搜索点击时,用户输入的搜索词,组成一个相似词类。
[0023] 进一步的,所述原始数据包括原始商品描述数据和原始用户行为数据。
[0024] 进一步的,所述步骤(1)的具体方法如下:
[0025] (11)读取原始商品描述数据,根据品类映射表过滤,得到目标商品的商品描述数 据;
[0026] (12)读取原始用户行为数据,过滤非目标商品的用户行为数据,得到目标商品的 用户行为数据。
[0027] 进一步的,所述步骤(7)中识别相似词类数据集中每个近义词类的有效实体和相 同词性的实体的具体方法如下:
[0028] (71)调用隐马尔可夫算法模型,输入商品描述数据中的商品标题文字;
[0029] (72)通过隐马尔可夫算法识别出商品标题中的不同词性的有效实体词;
[0030] (73)统计不同词性的有效实体词被识别出的次数和每次被识别出的词性标记,取 出现次数最多的词性标记作为商品标题文字的标记,并输出实体识别结果。
[0031] 与现有技术相比,本发明具有以下有益效果:
[0032] 本发明解决了如何识别商品标题关键词的命名实体和对命名实体的近义词识别 的问题;与现有技术相比,应用本发明,可以从现在最火热,最有市场价值的电子商务商品 数据中,识别命名实体和近义词关系,为进一步的数据挖掘,情感分析,知识库建立,联想搜 索等研宄和应用打下坚实的基础。
【附图说明】
[0033] 图1为本发明整体流程图。
[0034] 图2为本发明中数据预处理流程示意图。
[0035] 图3为本发明中建立隐马尔可夫算法模型的流程示意图。
[0036] 图4为本发明中命名实体识别方法的流程示意图。
[0037] 图5为本发明中近义词识别方法的流程示意图。
[0038] 图6为本发明中物品相似法近义词识别方法的流程示意图。
[0039] 图7为本发明中搜索词相似法近义词识别方法的流程示意图。
[0040] 图8为本发明中实搜索物品相似近义词识别方法的流程示意图。
[0041] 图9为本发明中数据整合方法的流程示意图。
【具体实施方式】
[0042] 下面结合附图和实施例对本发明作进一步说明,本发明的实施方式包括但不限于 下列实施例。
[0043] 实施例
[0044] 如图!至9所示,本实施例提供了一种基于电商用户行为数据的近义词识别方法, 包括以下步骤:
[0045] 一、将原始数据进行数据预处理,提取目标商品的商品描述数据item, data和用 户行为数据pageview. data ;其中,原始数据是指原始商品描述数据和原始用户行为数据。
[0046] 如图2所示,预处理方法如下:
[0047] 商品描述数据
[0048] 读取原始商品描述数据,读取品类映射表,根据品类映射表过滤,得到目标商品的 商品描述数据,如下表所示:
【主权项】
1. 基于电商用户行为数据的近义词识别方法,其特征在于,包括以下步骤: (1) 将原始数据进行数据预处理,提取目标商品的商品描述数据和用户行为数据; (2) 随机选择部分商品描述数据分词并进行标注; (3) 返回标注的商品描述数据并作为隐马尔可夫算法模型的训练集数据; (4) 通过训练集数据训练出隐马尔可夫算法模型的参数,建立隐马尔可夫算法模型,并 由隐马尔可夫算法识别提取的商品描述数据,得到结果数据有效实体词库; (5) 过滤用户行为数据,从中提取用户浏览行为数据和用户搜索行为数据; (6) 读取用户浏览行为数据和用户搜索行为数据,组成多个相似词类数据集; (7) 调用隐马尔可夫算法模型,识别相似词类数据集中每个近义词类的有效实体和相 同词性的实体,组成与相似词类数据集数量对应的近义词组; (8) 整理汇总所有近义词组,计算词与词之间的相似度; (9) 按相似度大小归一化排序,输出近义词识别结果。
2. 根据权利要求1所述的基于电商用户行为数据的近义词识别方法,其特征在于,所 述步骤(6)的具体方法如下: 读取用户浏览行为数据 (61) 读取用户浏览行为数据,建立用户-商品二部图; (62) 利用经典的基于物品的协同过滤算法,计算商品间的相似度; (63) 提取每个商品对应的相似度最高的5-10个商品对应的词,组成一个相似词类; 读取用户搜索行为数据 (64) 读取用户搜索行为数据,提取用户每次搜索输入的搜索词和点击过的所有商品对 应的词,组成一个搜索词类; (65) 提取同一个商品被搜索点击时,用户输入的搜索词,组成一个相似词类。
3. 根据权利要求1所述的基于电商用户行为数据的近义词识别方法,其特征在于,所 述原始数据包括原始商品描述数据和原始用户行为数据。
4. 根据权利要求3所述的基于电商用户行为数据的近义词识别方法,其特征在于,所 述步骤(1)的具体方法如下: (11) 读取原始商品描述数据,根据品类映射表过滤,得到目标商品的商品描述数据; (12) 读取原始用户行为数据,过滤非目标商品的用户行为数据,得到目标商品的用户 行为数据。
5. 根据权利要求1所述的基于电商用户行为数据的近义词识别方法,其特征在于,所 述步骤(7)中识别相似词类数据集中每个近义词类的有效实体和相同词性的实体的具体 方法如下: (71) 调用隐马尔可夫算法模型,输入商品描述数据中的商品标题文字; (72) 通过隐马尔可夫算法识别出商品标题中的不同词性的有效实体词; (73) 统计不同词性的有效实体词被识别出的次数和每次被识别出的词性标记,取出现 次数最多的词性标记作为商品标题文字的标记,并输出实体识别结果。
【专利摘要】本发明公开了一种基于电商用户行为数据的近义词识别方法,解决了现有技术中如何识别商品标题关键词的命名实体和对命名实体的近义词识别的问题。该识别方法包括:(1)将原始数据进行数据预处理;(2)随机选择部分商品描述数据分词并进行标注;(3)返回标注的商品描述数据并作为隐马尔可夫算法模型的训练集数据;(4)通过训练集数据训练出隐马尔可夫算法模型的参数,建立隐马尔可夫算法模型,得到结果数据有效实体词库;(5)过滤用户行为数据;(6)组成多个相似词类数据集;(7)组成与相似词类数据集数量对应的近义词组;(8)整理汇总所有近义词组,计算词与词之间的相似度;(9)输出近义词识别结果。
【IPC分类】G06F17-30
【公开号】CN104657514
【申请号】CN201510129041
【发明人】王军, 甘骏, 彭中正, 王磊, 张迪, 肖琴
【申请人】成都知数科技有限公司
【公开日】2015年5月27日
【申请日】2015年3月24日
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1