一种用张量提取货物订单元数据的方法及系统与流程

文档序号:29238601发布日期:2022-03-12 14:39阅读:89来源:国知局
一种用张量提取货物订单元数据的方法及系统与流程

1.本发明属于信息技术领域,更具体地,涉及一种用张量提取货物订单元数据的方法及系统。


背景技术:

2.元数据,又称中介数据,是描述数据的数据,其内容是对数据及信息资源的描述性信息;在企业中,只要有数据存在的地方,就有其对应元数据。只有完整、准确的元数据存在,才能更好地理解数据,充分挖掘数据的价值。
3.在大数据时代的背景下,数据即资产,元数据实现了信息的描述和分类的格式化,从而为机器处理创造了可能,它能帮助企业更好地对数据资产进行管理,理清数据之间的关系。在传统意义上,元数据有两方面的用处:
4.第一,帮助数据平台了解自己本身的情况。例如:有哪些数据、存储的数据有多大、如何找到所需要的数据、数据何时产出等等信息,当我们拿到这些信息后,就可以做对应运维报警等工作。
5.第二,帮助数据平台制定数据统计的标准。例如:数据口径如何统一、计算指标如何统一、数据之间的关系如何、数据的上下游关联数据是什么等等信息,打通了上下游数据之间的关联关系,就可以为数据质量及维护可视化奠定基础。
6.货物实体跟其它的实体不一样的地方在于,它的属性非常多,包括但不限于货物名称、尺寸大小、保存方法、运输要求、颜色、产地等;现有的货物订单元数据抽取方法通常使用数组来存储货物实体的属性值,但是数组无法将货物实体的所有属性值存储下来,因此会降低货物订单元数据抽取的效果,使得抽取出的元数据不够全面和准确。
7.为了便于理解本发明,以下对有关术语和相关概念进行解释:
8.元数据的构成:一个元数据由元数据项目和元数据内容的构成,例:“著者”和“日期”是元数据项目,“中信出版社”和“2021年12月7日”就是元数据内容;
9.深度神经网络预训练模型:预先训练好的可以直接使用的模型,模型结构已确定,模型参数已初始化;常用的深度神经网络预训练模型为bert模型;
10.张量:多个维度的数组,每个维度存储同一数据类型的数值;每个张量有一个名称,称为张量名称;每个维度有一个名称,称为维度名称;
11.命名实体识别模型:用于识别出待处理文本中的实体或属性;常用的命名实体识别模型为bilstm-crf;
12.实体:从数据处理的角度看,现实世界中的客观事物称为实体,它是现实世界中任何可区分、可识别的事物;本发明中的实体指的是货物,实体名称为货物名称;
13.属性:实体的特性;每个实体都具有多个属性;
14.属性值:属性的具体化表示,一个实体可以用其属性值的集合来表示;
15.自然语言理解(nlp,natural language processing)技术:人工智能领域的一项技术,该技术使得计算机能理解和运用人类社会的自然语言,实现人机之间的自然语言通
信;常用的nlp算法包括:最大匹配分词算法,最短路径分词算法,基于n-gram model的分词算法,基于字的分词算法;
16.相近短句:通过自然语言理解技术,找到与初始短句表示的含义相近的短句,即为该短句的相近短句;例如:初始短句为:红色;椭圆形;冷冻;冬瓜是绿色,椭圆形;对应的相近短句为:红黑色;椭形;0-2度;冬瓜是浅绿色,椭形;
17.文本字段:只能输入一行文字的区域;
18.货物类型:根据货物的具体名称对货物进行分类,得到不同的货物类型,例:苹果,桔子,巧克力。


技术实现要素:

19.针对现有技术的缺陷,本发明的目的在于提供一种用张量提取货物订单元数据的方法及系统,旨在解决提高元数据抽取的全面性和准确性的问题。
20.为实现上述目的,本发明提供一种用张量存储货物信息的方法,其特征在于,包括以下步骤:
21.(1)张量生成步骤:
22.根据预先设定的维度名称集,通过深度神经网络预训练模型从同一货物类型的若干个样本订单文本中获得一个张量;
23.所述若干个样本订单文本称为文本集;所述文本集对应的货物称为目标货物;所述维度名称集由维度名称组成,所述维度名称为目标货物的属性;
24.所述张量的各个维度名称与所述维度名称集中的各个维度名称一一对应;每个维度存储属性对应的属性值,所述对应的属性值来源于所述文本集;
25.(2)维度添加步骤:
26.在所述文本集中,通过命名实体识别模型查找得到所述张量中不具备的属性;将每个属性作为一个维度名称,在所述张量中添加一个对应的维度,得到货物张量。
27.优选地,所述张量生成步骤包括以下子步骤:
28.(1-1)模型输入子步骤:
29.将所述文本集输入所述深度神经网络预训练模型;所述文本集中的每个样本订单文本均包含一个名为货物名称的文本字段,该文本字段用于存储该订单文本的货物名称;
30.(1-2)张量构建子步骤:
31.所述深度神经网络预训练模型从所述文本集获取所述货物名称的内容,并将其作为张量名称;并根据所述维度名称集中的每个维度名称,在所述文本集中查找与该维度名称相对应的属性值;根据所述张量名称、维度名称集中的每个维度名称及其对应的属性值,构建一个张量。
32.本发明提供一种基于如上所述的货物张量的提取货物订单元数据的方法,其特征在于,包括以下步骤:
33.(1)短句提取步骤:
34.按预先设定的由短句组成的初始短句集,通过自然语言理解技术,从单个货物订单文本中提取所述初始短句集中的短句的相近短句,加入初始短句集,得到最终短句集;所述短句为所述单个货物订单文本对应的货物的描述性词组或语句;
35.所述单个货物订单文本对应的货物与所述货物张量对应的货物为同一货物类型;
36.(2)元数据抽取步骤:
37.根据预先设定的元数据项目和所述货物张量,通过自然语言理解技术从所述最终短句集中抽取元数据内容中的属性值;所述元数据项目包括货物,属性;其对应的元数据内容包括货物名称,属性值。
38.优选地,所述元数据抽取步骤中抽取元数据内容的过程为:通过自然语言理解技术对所述货物张量中的各个属性值和最终短句集中的各个短句进行匹配操作;若该短句中包含该属性值或该属性值的相近短句,则匹配成功,抽取匹配成功的短句作为元数据内容中的属性值;否则,匹配失败。
39.本发明提供一种用张量存储货物信息的系统,其特征在于,包括以下模块:
40.张量生成模块:
41.用于根据预先设定的维度名称集,通过深度神经网络预训练模型从同一货物类型的若干个样本订单文本中获得一个张量;
42.所述若干个样本订单文本称为文本集;所述文本集对应的货物称为目标货物;所述维度名称集由维度名称组成,所述维度名称为目标货物的属性;
43.所述张量的各个维度名称与所述维度名称集中的各个维度名称一一对应;每个维度存储属性对应的属性值,所述对应的属性值来源于所述文本集;
44.维度添加模块:
45.用于在所述文本集中,通过命名实体识别模型查找得到所述张量中不具备的属性;将每个属性作为一个维度名称,在所述张量中添加一个对应的维度,得到货物张量。
46.优选地,所述张量生成模块包括以下子模块:
47.模型输入子模块:
48.用于将所述文本集输入所述深度神经网络预训练模型;所述文本集中的每个样本订单文本均包含一个名为货物名称的文本字段,该文本字段用于存储该订单文本的货物名称;
49.张量构建子模块:
50.用于所述深度神经网络预训练模型从所述文本集获取所述货物名称的内容,并将其作为张量名称;并根据所述维度名称集中的每个维度名称,在所述文本集中查找与该维度名称相对应的属性值;根据所述张量名称、维度名称集中的每个维度名称及其对应的属性值,构建一个张量。
51.本发明提供一种基于如上所述的货物张量的提取货物订单元数据的系统,其特征在于,包括以下模块:
52.短句提取模块:
53.用于按预先设定的由短句组成的初始短句集,通过自然语言理解技术,从单个货物订单文本中提取所述初始短句集中的短句的相近短句,加入初始短句集,得到最终短句集;所述短句为所述单个货物订单文本对应的货物的描述性词组或语句;
54.所述单个货物订单文本对应的货物与所述货物张量对应的货物为同一货物类型;
55.元数据抽取模块:
56.用于根据预先设定的元数据项目和所述货物张量,通过自然语言理解技术从所述
最终短句集中抽取元数据内容中的属性值;所述元数据项目包括货物,属性;其对应的元数据内容包括货物名称,属性值。
57.优选地,所述元数据抽取模块中抽取元数据内容的操作为:通过自然语言理解技术对所述货物张量中的各个属性值和最终短句集中的各个短句进行匹配操作;若该短句中包含该属性值或该属性值的相近短句,则匹配成功,抽取匹配成功的短句作为元数据内容中的属性值;否则,匹配失败。
58.本发明提供一种用张量提取货物订单元数据的装置,其特征在于,包括存储器和处理器;所述存储器,用于存储计算机程序;所述处理器,用于当执行所述计算机程序时,实现如上所述的提取货物订单元数据的方法。
59.本发明提供一种计算机可读存储介质,其特征在于,所述存储介质上存储有计算机程序,当所述计算机程序被处理器执行时,实现如上所述的提取货物订单元数据的方法。
60.通过本发明所构思的以上技术方案,与现有技术相比,由于本发明使用张量存储货物实体,使得货物实体的所有属性值能够全部存储下来,因此在进行元数据抽取时,有更多的属性值参与匹配操作,使得抽取的元数据更全面且准确性更高;
61.本发明通过深度神经网络预训练模型和命名实体识别模型构建张量,使得最终得到的货物张量的维度更多,且其存储的属性值更多;
62.本发明通过自然语言理解技术进行元数据抽取操作,使得抽取的元数据更全面且准确性更高。
附图说明
63.图1是本发明实施例提供的用张量存储货物信息的方法的流程图;
64.图2是本发明实施例提供的用张量存储货物信息的方法中张量生成步骤的流程图;
65.图3是本发明实施例提供的用张量提取货物订单元数据的方法的流程图。
具体实施方式
66.为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
67.本实施例提供一种用张量存储货物信息的方法,包括以下步骤:
68.(1)张量生成步骤,包括以下子步骤:
69.(1-1)模型输入子步骤:
70.将同一货物类型的若干个样本订单文本输入深度神经网络预训练模型;其中,货物类型为巧克力;
71.若干个样本订单文本称为文本集;文本集对应的货物称为目标货物;文本集中的每个样本订单文本均包含一个名为货物名称的文本字段,该文本字段用于存储该订单文本的货物名称;其中,货物名称为巧克力。
72.(1-2)张量构建子步骤:
73.深度神经网络预训练模型从文本集获取货物名称的内容,并将其作为张量名称;
并根据预先设定的维度名称集中的每个维度名称,在文本集中查找与该维度名称相对应的属性值;根据张量名称、维度名称集中的每个维度名称及其对应的属性值,构建一个张量。
74.维度名称集由维度名称组成,维度名称为目标货物的属性;张量的各个维度名称与维度名称集中的各个维度名称一一对应;每个维度存储属性对应的属性值,对应的属性值来源于文本集;
75.其中,维度名称集中的维度名称为:颜色,形状,存放位置。
76.(2)维度添加步骤:
77.在文本集中,通过命名实体识别模型查找得到张量中不具备的属性;将每个属性作为一个维度名称,在张量中添加一个对应的维度,得到货物张量。
78.其中,查找的过程为:命名实体识别模型在文本集中发现一个属性值为“-18
°”
,判断出来其对应的属性为温度,于是将温度作为一个维度名称,在张量中添加一个对应的维度。
79.本实施例通过深度神经网络预训练模型和命名实体识别模型构建张量,使得最终得到的货物张量的维度更多,且其存储的属性值更多;
80.本实施例提供一种用张量提取货物订单元数据的方法,包括以下步骤:
81.(1)短句提取步骤:
82.按预先设定的由短句组成的初始短句集,通过自然语言理解技术,从单个货物订单文本中提取初始短句集中的短句的相近短句,加入初始短句集,得到最终短句集;短句为单个货物订单文本对应的货物的描述性词组或语句;
83.单个货物订单文本对应的货物与货物张量对应的货物为同一货物类型;
84.其中,初始短句集中的短句为:黑色;椭圆形;放在盒子中;冷冻;
85.对应的相近短句为:暗黑色;椭形;装在盒子中;0-2度。
86.(2)元数据抽取步骤:
87.根据预先设定的元数据项目和货物张量,通过自然语言理解技术从最终短句集中抽取元数据内容中的属性值;元数据项目包括货物,属性;其对应的元数据内容包括货物名称,属性值。
88.抽取元数据内容的过程为:通过自然语言理解技术对货物张量中的各个属性值和最终短句集中的各个短句进行匹配操作;若该短句中包含该属性值或该属性值的相近短句,则匹配成功,抽取匹配成功的短句作为元数据内容中的属性值;否则,匹配失败。
89.其中,元数据项目为(货物,颜色);抽取到的元数据内容为:(巧克力,黑色)。
90.本实施例使用张量存储货物实体,使得货物实体的所有属性值能够全部存储下来,因此在进行元数据抽取时,有更多的属性值参与匹配操作,使得抽取的元数据更全面且准确性更高;
91.本实施例通过自然语言理解技术进行元数据抽取操作,使得抽取的元数据更全面且准确性更高。
92.本实施例提供一种用张量存储货物信息的系统,包括以下模块:
93.张量生成模块:
94.用于根据预先设定的维度名称集,通过深度神经网络预训练模型从同一货物类型的若干个样本订单文本中获得一个张量;
95.若干个样本订单文本称为文本集;文本集对应的货物称为目标货物;维度名称集由维度名称组成,维度名称为目标货物的属性;
96.张量的各个维度名称与维度名称集中的各个维度名称一一对应;每个维度存储属性对应的属性值,对应的属性值来源于文本集;
97.张量生成模块包括以下子模块:
98.模型输入子模块:
99.用于将文本集输入深度神经网络预训练模型;文本集中的每个样本订单文本均包含一个名为货物名称的文本字段,该文本字段用于存储该订单文本的货物名称;
100.张量构建子模块:
101.用于深度神经网络预训练模型从文本集获取货物名称的内容,并将其作为张量名称;并根据维度名称集中的每个维度名称,在文本集中查找与该维度名称相对应的属性值;根据张量名称、维度名称集中的每个维度名称及其对应的属性值,构建一个张量。
102.维度添加模块:
103.用于在文本集中,通过命名实体识别模型查找得到张量中不具备的属性;将每个属性作为一个维度名称,在张量中添加一个对应的维度,得到货物张量。
104.本实施例提供一种用张量提取货物订单元数据的系统,包括以下模块:
105.短句提取模块:
106.用于按预先设定的由短句组成的初始短句集,通过自然语言理解技术,从单个货物订单文本中提取初始短句集中的短句的相近短句,加入初始短句集,得到最终短句集;短句为单个货物订单文本对应的货物的描述性词组或语句;
107.单个货物订单文本对应的货物与货物张量对应的货物为同一货物类型;
108.元数据抽取模块:
109.用于根据预先设定的元数据项目和货物张量,通过自然语言理解技术从最终短句集中抽取元数据内容中的属性值;元数据项目包括货物,属性;其对应的元数据内容包括货物名称,属性值;
110.其中,抽取元数据内容的操作为:通过自然语言理解技术对货物张量中的各个属性值和最终短句集中的各个短句进行匹配操作;若该短句中包含该属性值或该属性值的相近短句,则匹配成功,抽取匹配成功的短句作为元数据内容中的属性值;否则,匹配失败。
111.本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1