基于知识图谱的钢铁电商数据精准搜索方法、介质及设备与流程

文档序号:31687715发布日期:2022-09-30 21:27阅读:121来源:国知局
基于知识图谱的钢铁电商数据精准搜索方法、介质及设备与流程

1.本发明涉及一种钢铁电商数据处理方法,尤其是涉及一种基于知识图谱的钢铁电商数据精准搜索方法、介质及设备。


背景技术:

2.现有的搜索引擎主要使用关键字匹配技术实现商品的搜索功能。使用这种技术搜索商品,在商品描述中必须包含搜索信息中的关键字字符,否则无法输出搜索的结果。特别是在钢铁电商领域中,这种搜索技术不能深层次地理解用户的意图,只能做到“搜得出”,无法实现“搜得准”。现有搜索引擎存在的问题简述如下:
3.1、搜索引擎中主要使用的是字符串匹配的技术实现商品的查找,这种通过“字符完全相同”实现的搜索方式,其对于多字符串难以评估优先级别,也无法识别字符串之间的联系,所获得的搜索结果准确率低,不具备对自然语言的理解能力。
4.2、当贸易商在挂货时填写的信息不规范,或对挂货的商品没有准确的属性描述时,关键词技术无法理解用户的“静默需求”,会导致用户检索不到合适的商品数据。
5.3、由于使用的是字符串匹配的方式,所以现有的搜索引擎不支持钢铁昵称和俗称的检索,不支持近似名词的推理能力。
6.4、由于没有专业的钢铁领域的分词技术和工具,当用户的查询语句中包含了多个商品属性信息时,这需要采购人员把用户询单中的专业词汇进行准确分解,这对采购人员的专业性要求高。
7.随着互联网的发展,交易数据越来越大,电商平台中的商品品类也越来越丰富,仅仅使用关键字匹配的技术来实现商品搜索功能,会对电商平台的货物流通效率有着较大的影响,也使得用户的体验度不佳。因此,钢铁电商平台的搜索能力需要不断优化和改进。


技术实现要素:

8.本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种提高商品的检索效率的基于知识图谱的钢铁电商数据精准搜索方法、介质及设备。
9.本发明的目的可以通过以下技术方案来实现:
10.第一方面,本发明提供一种基于知识图谱的钢铁电商数据精准搜索方法,该方法包括以下步骤:
11.获取用户输入数据,采用一经训练的实体抽取模型对所述用户输入数据进行实体抽取;
12.对抽取的实体进行实体对齐处理,构建与所述用户输入数据对应的实体链;
13.基于所述实体链在预先构建的钢铁产品知识图谱进行查询,获得对应的商品信息;
14.其中,所述实体抽取模型基于word2vec模型、bi-lstm模型和crf模型构建。
15.进一步地,对所述用户输入数据进行分词处理后输入所述实体抽取模型中。
16.进一步地,训练所述实体抽取模型时采用的训练数据集基于用户历史购买信息获取,具体地:
17.将所述用户历史购买信息转化为非结构化输入数据,对该非结构化输入数据进行分词和词性标注,形成所述训练数据集。
18.进一步地,所述词性标注包括对实体类别的标注和实体位置的标注,所述词性标注使用bmeo准则进行。
19.进一步地,所述实体类别包括牌号、表面处理、表面结构、镀锌类型和镀锌量。
20.进一步地,所述钢铁产品知识图谱的构建具体为:
21.获取钢铁行业商品数据,每个商品分配有用于标识该商品属性聚合的唯一性编码,采用所述实体抽取模型对每个商品对应的商品数据进行实体抽取,形成实体链,该实体链具有实体表和关系表,将获得的实体链存储到图数据库中,形成所述钢铁产品知识图谱。
22.进一步地,所述图数据库采用neo4j图数据库。
23.第二方面,本发明提供一种计算机可读存储介质,包括供电子设备的一个或多个处理器执行的一个或多个程序,所述一个或多个程序包括用于执行如上所述基于知识图谱的钢铁电商数据精准搜索方法的指令。
24.第三方面,本发明提供一种电子设备,包括:
25.一个或多个处理器;
26.存储器;和
27.被存储在存储器中的一个或多个程序,所述一个或多个程序包括用于执行如上所述基于知识图谱的钢铁电商数据精准搜索方法的指令。
28.进一步地,所述实体抽取模型固化成pb模型文件,在docker容器引擎中拉取tensorflow serving镜像实现部署。
29.与现有技术相比,本发明具有如下有益效果:
30.1、本发明引进了知识图谱概念,结合专家数据库和数学模型,将商品数据存储到neo4j图数据库中,并在图数据库中通过专家对于钢铁产品的理解构建了知识关系,通过算法实现了静默需求推理等能力,以此提高商品的检索效率,改善了钢铁电商平台的精准搜索方式,提高了业务平台的检索准确率和用户的满意度,使关键词技术无法直接匹配的场景,得以通过语义解析和需求推理的功能得以输出搜索结果,解决了部分从无到有的搜索能力。
31.2、本发明将深度学习中的word2vec模型、bi-lstm模型、crf模型相结合,使用钢铁电商行业的语料,训练了一个适用于钢铁电商领域的实体抽取模型,提高实体抽取精度,进而实现更精准的搜索。
32.3、本发明使用bmeo准则对数据进行更加详细的标注,从而进一步明确实体的边界,提高实体抽取模型的训练精度。
33.4、本发明使用知识图谱和实体抽取模型的同时,还利用tensorflow serving部署实体抽取模型,提高了钢铁电商业务平台的并发能力和响应时间,以此来提高用户的满意度。
34.5、本发明使得钢铁电商平台的检索更智能化,可以使用俗称搜索,可以部分属性缺省输入,从而降低了对采购人员专业性要求,促进了平台用户搜索转化率的有效提升,推
进钢铁电商交易行业的高效精准智能化服务应用,让钢材交易更简单有效。
附图说明
35.图1为本发明原理示意图。
具体实施方式
36.下面结合附图和具体实施例对本发明进行详细说明。本实施例以本发明技术方案为前提进行实施,给出了详细的实施方式和具体的操作过程,但本发明的保护范围不限于下述的实施例。
37.实施例1
38.本实施例提供一种基于知识图谱的钢铁电商数据精准搜索方法,该方法包括以下步骤:获取用户输入数据,采用一经训练的实体抽取模型对用户输入数据进行实体抽取;对抽取的实体进行实体对齐处理,构建与用户输入数据对应的实体链;基于实体链在预先构建的钢铁产品知识图谱进行查询,获得对应的商品信息。上述方法通过构建的实体抽取模型准确识别用户询单意图,结合知识图谱技术来改进商品数据的存储模式,实现需求推理的功能,可以改进电商平台的搜索能力,从真正意义上提高电商平台的搜索准确度和用户的满意度。
39.本实施例中,实体抽取模型基于word2vec模型、bi-lstm(双向long short-term memory)模型和crf(conditional random field)模型构建,其中,word2vec模型的输出作为bi-lstm模型的输入,而bi-lstm模型的输出则作为crf模型的输入。为能够准确识别用户询单意图的深度学习模型该实体抽取模型的输入为对用户输入数据进行分词处理后获得的数据,输出为实体。
40.训练实体抽取模型时采用的训练数据集基于用户历史购买信息获取,具体地:将用户历史购买信息转化为非结构化输入数据,对该非结构化输入数据进行分词和词性标注,形成训练数据集。在训练深度学习模型中,使用用户的历史询单数据作为模型的训练语料,结合专门的语料标注模型(如人民日报语料标注模型),通过深度学习技术、训练语料的扩充和多次训练,获得一个可以准确提取钢铁领域的专业实体的实体抽取模型。
41.词性标注包括对实体类别的标注和实体位置的标注。在此过程中,结合钢铁电商数据的特征,将数据分为了动词(v)、标点符号(x)、规格(gg)、量词(q)、牌号(ph)、名词(n)、边部形态(bbxt)、厚度(hd)、品种(pz)、助词(u)、产地(cd)、重量(zl)、代词(r)、连词(c)、表面结构(bmjg)、镀层量(dcl)、表面处理(bmcl)、数词(q)、地区(dq)、副词(d)、宽度(kd)、形容词(a)、方位词(f)、语气词(y)、介词(p)、人名(nr)、英文(eng)、颜色(ys)、动名词(vn)、专有名词(nz)、地名(ns)、区别词(b)、仓库(ck)、习用语(l)、名语素(ng)、镀层类型(dclx)、处所词(s)、简称略语(j)、直径(zj)、单价(dj)、时间词(t)等41种类别,其中牌号、表面处理、表面结构、镀锌类型和镀锌量这5种类别被定义为需要抽取出的主要实体类别。接着使用bmeo准则(b表示实体第一个位置,m代表实体中间位置,e表示实体最后的位置,o表示单个字)对数据进行更加详细的标注,从而进一步明确实体的边界。首先将实体按照字符拆开,然后将代表位置的字母与类别标签相结合,共同作为字符的词性,例如“热镀锌”是钢铁商品中的一个品种,可用“pz”做初次标记,结合bmeo准则,该实体可标记为“热/b_pz镀/m_pz
锌/e_pz”。
42.实体对齐处理具体为基于专家数据库对抽取的实体进行归一化处理。
43.钢铁产品知识图谱的构建具体为:
44.通过与业务平台对接,获得钢铁行业的电商数据。结合钢铁领域的专家数据库和数学模型,通过分词、知识抽取等方法和技术,对电商数据进行清洗和预处理,并根据钢铁行业数据特性将其调整为结构化数据。接着,结合钢铁电商领域专家提供的知识,根据商品数据特点(牌号、后缀特征等)生成包含牌号、镀层量、镀层类型、表面处理、表面结构这5种属性的实体链聚合,并以此给每个商品数据分配一个用于标识的该商品属性聚合的唯一性编码(sp码),从而构建一份包含牌号、镀层量、镀层类型、表面处理、表面结构以及实体链这6种类别的实体表和一份包含牌号、镀层量、镀层类型、表面处理、表面结构这5种关系的关系表。然后通过批量导入的方式,将这些数据存储到neo4j图数据库中。在此基础上结合钢铁专家的知识,在图数据库中生成知识关系,结合算法实现静默需求推理等功能,从而形成钢铁产成品知识图谱。
45.上述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-only memory)、随机存取存储器(ram,random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
46.实施例2
47.本实施例提供一种电子设备,包括一个或多个处理器、存储器和被存储在存储器中的一个或多个程序,一个或多个程序包括用于执行如上基于知识图谱的钢铁电商数据精准搜索方法的指令。本实施例中,实体抽取模型固化成pb模型文件,在docker容器引擎中拉取tensorflow serving镜像实现部署,提高系统的并发能力,可以应用于真实的生产环境中。
48.该技术还可部分用于钢铁电商的商品推荐和信息分发系统中。
49.以上详细描述了本发明的较佳具体实施例。应当理解,本领域的普通技术人员无需创造性劳动就可以根据本发明的构思作出诸多修改和变化。因此,凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案,皆应在由权利要求书所确定的保护范围内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1