工业品实体数字化描述方法和系统与流程

文档序号:28167820发布日期:2021-12-24 22:57阅读:190来源:国知局
工业品实体数字化描述方法和系统与流程

1.本发明涉及数据处理技术领域,具体地,涉及一种工业品实体数字化描述方法和系统。


背景技术:

2.在传统的工业品行业,不同工业品公司对同一物料或商品可能会根据公司自身的原因对本质上一样的工业品赋予不同的名字,这样就给双方在进行工业品交易的时候,带来了极大的困难,为此,就需要对工业品行业有很深理解的行业专家来人工的进行识别。
3.为此,本系统旨在解决因买卖双方对工业品的定义存在差异,而导致商业关系匹配困难的痛点问题。所以,本系统实现了不同描述下商品匹配的通用核心技术组件,不同数字化场景均会使用本系统。
4.专利文献cn110968685a(申请号:cn201811126406.9)公开了一种商品名称的归集方法和装置。根据商品描述的相似度,对商品描述进行领域归类;对每个领域中的每个商品描述进行商品词的归集处理,确定每个能归集处理的商品描述的商品词;基于能归集处理的商品描述中的商品词,标注不能归集处理的商品描述中的商品词序列,确定每个不能归集处理的商品描述中的最大概率商品词。然而这样不仅增加了公司的成本,而且极大地降低了商品消歧的速度。


技术实现要素:

5.针对现有技术中的缺陷,本发明的目的是提供一种工业品实体数字化描述方法和系统。
6.根据本发明提供的工业品实体数字化描述方法,包括:
7.步骤1:获取在售工业品数据,并将获取的工业品数据作为待匹配工业品的匹配源和命名的标准;
8.步骤2:构建训练数据集,用于数学向量训练和行业词典构建;
9.步骤3:对训练数据集进行预处理,根据行业词典将工业品的文本数据进行分词,并去停用词;
10.步骤4:对预处理后的文本数据进行模型实验和测试,得到将匹配源工业品数据进行数学向量化的模型;
11.步骤5:将待匹配的工业品在匹配源中进行匹配,若匹配到对应结果,则直接输出;若没有匹配到对应结果,则利用数学向量化模型进行编码,根据编码后的匹配源数据计算相似度,得到相似度最高的工业品数据并进行输出。
12.优选的,在计算相似度的过程中,采用余弦相似度计算,公式为:
[0013][0014]
其中,similarity(a,b)表示余弦相似度;a表示目标用户的行为向量;b表示除目标用户的行为向量;a
·
b表示向量a和向量b的内积;||a||表示向量a的模;||b||表示向量b的模;n表示向量的分量数;i表示向量的第i个分量;a
i
表示向量a的第i个分量;b
i
表示向量b的第i个分量;
[0015]
根据相似度计算结果,对相似度最高的工业品数据进行工业品推荐。
[0016]
优选的,采用word2vec模型对工业品的文本数据进行数学向量化编码,word2vec模型的框架根据文本数据输入输出的不同,包括cbow模型和skip

gram模型;
[0017]
所述cbow模型根据当前文本的上下文预测当前文本内容;
[0018]
所述skip

gram模型根据当前文本内容预测上下文。
[0019]
优选的,对训练数据集进行预处理的过程中,将工业品的文本数据进行分类提取,包括英文字母、数字和符号,然后对英文字母、数字和符号按预设规则进行组合,将组合后的字符串作为特征输入到模型中进行训练。
[0020]
优选的,根据工业品的类别对工业品进行分类,在工业品匹配的过程中,先匹配工业品的类别,再进一步匹配工业品。
[0021]
根据本发明提供的工业品实体数字化描述系统,包括:
[0022]
模块m1:获取在售工业品数据,并将获取的工业品数据作为待匹配工业品的匹配源和命名的标准;
[0023]
模块m2:构建训练数据集,用于数学向量训练和行业词典构建;
[0024]
模块m3:对训练数据集进行预处理,根据行业词典将工业品的文本数据进行分词,并去停用词;
[0025]
模块m4:对预处理后的文本数据进行模型实验和测试,得到将匹配源工业品数据进行数学向量化的模型;
[0026]
模块m5:将待匹配的工业品在匹配源中进行匹配,若匹配到对应结果,则直接输出;若没有匹配到对应结果,则利用数学向量化模型进行编码,根据编码后的匹配源数据计算相似度,得到相似度最高的工业品数据并进行输出。
[0027]
优选的,在计算相似度的过程中,采用余弦相似度计算,公式为:
[0028][0029]
其中,similarity(a,b)表示余弦相似度;a表示目标用户的行为向量;b表示除目标用户的行为向量;a
·
b表示向量a和向量b的内积;||a||表示向量a的模;||b||表示向量b的模;n表示向量的分量数;i表示向量的第i个分量;a
i
表示向量a的第i个分量;b
i
表示向量b的第i个分量;
[0030]
根据相似度计算结果,对相似度最高的工业品数据进行工业品推荐。
[0031]
优选的,采用word2vec模型对工业品的文本数据进行数学向量化编码,word2vec模型的框架根据文本数据输入输出的不同,包括cbow模型和skip

gram模型;
[0032]
所述cbow模型根据当前文本的上下文预测当前文本内容;
[0033]
所述skip

gram模型根据当前文本内容预测上下文。
[0034]
优选的,对训练数据集进行预处理的过程中,将工业品的文本数据进行分类提取,包括英文字母、数字和符号,然后对英文字母、数字和符号按预设规则进行组合,将组合后的字符串作为特征输入到模型中进行训练。
[0035]
优选的,根据工业品的类别对工业品进行分类,在工业品匹配的过程中,先匹配工业品的类别,再进一步匹配工业品。
[0036]
与现有技术相比,本发明具有如下的有益效果:
[0037]
(1)本发明从业务方面可以解决因买卖双方对工业品的定义存在差异,而导致商业关系匹配困难的痛点问题,并且适用于多种业务场景;
[0038]
(2)本发明从公司成本方面可以提高相关工作人员的效率,大幅度降低人力成本;
[0039]
(3)本发明从系统方面来讲,一方面只需修改数据源就可适用与相应的业务场景,另一方面进行一条商品的匹配花费时间为1s左右,具有很高的时效性。
附图说明
[0040]
通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
[0041]
图1为本发明模型训练流程图;
[0042]
图2为本发明工业品匹配流程图;
[0043]
图3为cbow模型结构图;
[0044]
图4为skip

gram模型结构图。
具体实施方式
[0045]
下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明,但不以任何形式限制本发明。应当指出的是,对本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变化和改进。这些都属于本发明的保护范围。
[0046]
实施例:
[0047]
对于不同工业品行业公司,会存在对同一工业品有不同描述的问题。所以,对工业品的识别成为该系统所要解决的最大的问题。为此,本发明通过将每一个工业品进行数学向量化的编码,并将该编码作为替代该工业品的唯一识别标注,通过这种方式来实现对痛点问题的解决,具体流程如下:
[0048]
步骤1:确定匹配源标准,选取商城的商品数据作为待匹配的源,并将其作为所有工业品命名的标准;
[0049]
步骤2:构建训练数据集,一方面用于进行对数学向量的训练;另一方面用于构建行业词典;
[0050]
步骤3:对训练数据集进行预处理,包括加载从训练数据集得到的行业词典,然后
将文本数据进行分词,并去停用词;
[0051]
步骤4:对预处理后的文本数据进行模型实验和测试,根据测试结果进行筛选,得到将匹配源工业品数据进行数学向量化的模型,训练流程如图1;
[0052]
步骤5:将待匹配的工业品直接去匹配源中进行精准匹配,若能匹配到结果,则直接输出;若没有在匹配源中匹配到工业品,则先进行数据预处理并利用得到的模型进行编码,根据编码后的匹配源数据计算相似度,最终输出相似度最高的商品,匹配流程如图2。
[0053]
在计算相似度的过程中,采用余弦相似度计算,其具体的原理如下:
[0054][0055]
其中,similarity(a,b)表示余弦相似度;a表示目标用户的行为向量;b表示除目标用户的行为向量;a
·
b表示向量a和向量b的内积;||a||表示向量a的模;||b||表示向量b的模;n表示向量的分量数;i表示向量的第i个分量;a
i
表示向量a的第i个分量;b
i
表示向量b的第i个分量;
[0056]
根据相似度计算结果,对相似度最高的工业品数据进行工业品推荐。
[0057]
在模型训练过程中采用了word2vec模型来对文本类型的数据进行数学向量的编码,word2vec模型是一种轻量级的神经网络模型,该模型只包含了输入层、隐藏层和输出层,模型框架根据输入输出的不同,主要有cbow和skip

gram模型。
[0058]
cbow模型是在知道词的上下文的情况下预测当前词,而skip

gram模型是在知道词的情况下对词的上下文进行预测,其中cbow模型结构如图3所示,skip

gram模型结构如图4所示。
[0059]
本发明的工业品实体数字化描述规则主要从两个方面来进行:
[0060]
第一个方面,在进行模型训练的时候,对训练集中的商品数据,会有对其描述的一些英文和数字,为此,我们通过了解业务,把重点放在常用的商品上,将其中的英文字母,数字和公式提取出来,作为单独的整体。以“莱盛光标lsgb

can

e16黑色硒鼓/粉盒适用canon fc

200/300/500pc

700/800黑色”为例:首先经过数据预处理之后,得到诸如:“lsgb”、“can”、“e16”、“canon”、“fc”、“200”、“300”、“500”、“pc”、“700”、“800”的字符串,然后按照规则进行组合,拼成“200/300/500”、“700/800”、“lsgb

can

e16”,然后将组合后的字符串作为特征加入到模型中。这样做能够大大的提高训练集的丰富程度,可以让模型的泛化能力变得更加强大,使得模型能够更多的学习到有用的信息。
[0061]
第二个方面,结合工业品行业的特点,采取先匹配类别,再去匹配商品的架构方式。这样做一方面大大提高了商品匹配的速率,另一方面也提高了匹配的准确率。
[0062]
根据本发明提供的工业品实体数字化描述系统,包括:模块m1:获取在售工业品数据,并将获取的工业品数据作为待匹配工业品的匹配源和命名的标准;模块m2:构建训练数据集,用于数学向量训练和行业词典构建;模块m3:对训练数据集进行预处理,根据行业词典将工业品的文本数据进行分词,并去停用词;模块m4:对预处理后的文本数据进行模型实验和测试,得到将匹配源工业品数据进行数学向量化的模型;模块m5:将待匹配的工业品在匹配源中进行匹配,若匹配到对应结果,则直接输出;若没有匹配到对应结果,则利用数学
向量化模型进行编码,根据编码后的匹配源数据计算相似度,得到相似度最高的工业品数据并进行输出。
[0063]
在计算相似度的过程中,采用余弦相似度计算,公式为:
[0064][0065]
其中,similarity(a,b)表示余弦相似度;a表示目标用户的行为向量;b表示除目标用户的行为向量;a
·
b表示向量a和向量b的内积;||a||表示向量a的模;||b||表示向量b的模;n表示向量的分量数;i表示向量的第i个分量;a
i
表示向量a的第i个分量;b
i
表示向量b的第i个分量;
[0066]
根据相似度计算结果,对相似度最高的工业品数据进行工业品推荐。
[0067]
采用word2vec模型对工业品的文本数据进行数学向量化编码,word2vec模型的框架根据文本数据输入输出的不同,包括cbow模型和skip

gram模型;所述cbow模型根据当前文本的上下文预测当前文本内容;所述skip

gram模型根据当前文本内容预测上下文。对训练数据集进行预处理的过程中,将工业品的文本数据进行分类提取,包括英文字母、数字和符号,然后对英文字母、数字和符号按预设规则进行组合,将组合后的字符串作为特征输入到模型中进行训练。根据工业品的类别对工业品进行分类,在工业品匹配的过程中,先匹配工业品的类别,再进一步匹配工业品。
[0068]
本领域技术人员知道,除了以纯计算机可读程序代码方式实现本发明提供的系统、装置及其各个模块以外,完全可以通过将方法步骤进行逻辑编程来使得本发明提供的系统、装置及其各个模块以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同程序。所以,本发明提供的系统、装置及其各个模块可以被认为是一种硬件部件,而对其内包括的用于实现各种程序的模块也可以视为硬件部件内的结构;也可以将用于实现各种功能的模块视为既可以是实现方法的软件程序又可以是硬件部件内的结构。
[0069]
以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变化或修改,这并不影响本发明的实质内容。在不冲突的情况下,本技术的实施例和实施例中的特征可以任意相互组合。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1