实体词注释方法及其装置、设备、介质、产品与流程

文档序号:31856719发布日期:2022-10-19 03:08阅读:63来源:国知局
实体词注释方法及其装置、设备、介质、产品与流程

1.本技术涉及文本信息技术领域,尤其涉及一种实体词注释方法及其相应的装置、计算机设备、计算机可读存储介质,以及计算机程序产品。


背景技术:

2.为文本注释实体词的需求,广泛存在于多种应用场景中,例如,直播间中对用户输入的发言信息的文本内容中的实体词进行显性提示,或者,将电商平台中根据用户发言信息中包含的实体词智能化转换为订单数据等。这些示例性的场景所采用的技术,本质上是依赖于对文本内容中的实体词进行识别后的注释操作,以便根据注释结果执行相应的预设业务逻辑。
3.具体而言,在文本内容识别场景中,经常对文本进行实体词信息提取,比如关键字、电话、人名、地名等。识别成功后会获取实体词的位置,然后在实体词前后插入另外的控制标识加以注释,用于指示相应的实体词的数据类型或者指示对应的控制方式等。
4.为实现对文本中实体词的注释,常见的做法是直接确定原文本中应插入控制标识的位置,按插入位置将原文本拆分成多个子串,在插入位置处插入控制标识,再将各个子串重构成一句文本。但对于一个位置的多次插入多个控制标识,或者同一实体词的两个控制标识具有包含关系时,以子串为单位的处理方式,其处理复杂度会增加,产生不必要的处理开销。
5.鉴于实体词注释具有普遍性,更为高效地注释方式将能获得更为广泛的收益,因而,本技术人对文本中实体词的注释方式做出改进。


技术实现要素:

6.本技术的目的在于解决上述问题而提供一种实体词注释方法及其相应的装置、计算机设备、计算机可读存储介质、计算机程序产品、
7.适应本技术的各个目的,采用如下技术方案:
8.一个方面,适应本技术的目的之一而提供一种实体词注释方法,包括:
9.获取目标文本,所述目标文本包含多个实体词;
10.根据所述目标文本中各个实体词的标注类型确定相对应的标签对,所述标签对包括开始标签和结束标签;
11.基于目标文本中的每个单字设置前缀标识和后缀标识为所述目标文本注释各个所述的实体词,获得注释文本,使每个标签对中的开始标签和结束标签分别成为相应的实体词的首字的前缀标识和尾字的后缀标识。
12.可选的,根据所述目标文本中各个实体词的标注类型确定相对应的标签对,包括:
13.对所述目标文本进行词嵌入,构造出所述目标文本的编码向量;
14.采用序列标注模型对所述编码向量进行序列标注,获得序列标注信息,所述序列标注信息包含与目标文本中各个实体词相对应映射的各个标注类型;
15.获取所述序列标注信息中各个标注类型相对应的标签对,建立标签对与实体词之间的映射关系数据。
16.可选的,基于目标文本中的每个单字设置前缀标识和后缀标识为所述目标文本注释各个所述的实体词,获得注释文本,包括:
17.构造所述目标文本中各个单字相对应的结构体,将该单字及其在目标文本中的排列序号存储于结构体中,在结构体中建立前缀标识链表和后缀标识链表;
18.根据各个实体词与其标签对的映射关系数据,确定每个实体词的首字所在的结构体,将该实体词的标签对中的开始标签追加到所述首字的前缀标识链表中,所述前缀标识链表实现为堆栈;
19.根据各个实体词与其标签对的映射关系数据,确定每个实体词的尾字所在的结构体,将该实体词的标签对中的结束标签追加到所述尾字的后缀标识链表中,所述后缀标识链表实现为队列;
20.根据所述各个单字的排列序号对各个单字进行重组,使每个标签对中的开始标签和结束标签分别成为相应的实体词的首字的前缀标识和尾字的后缀标识,获得注释文本。
21.可选的,根据所述各个单字的排列序号对各个单字进行重组,包括:
22.将各个单字的结构体的前缀标识链表中的各个开始标签逐一出栈自先到后排列构造为前缀标识串,拼接于相应的单字的前缀位置;
23.将各个单字的结构体的前缀标识链表中的各个开始标签逐一出列自先到后排列构造为后缀标识串,拼接于相应的单字的后缀位置;
24.将每个单字的前缀标识、该单字、该单字的后缀标识组合构造为该单字对应的扩展字符串;
25.按照各个单字在结构体中的排列序号有序拼接各个单字的扩展字符串,获得注释文本。
26.可选的,获取目标文本,所述目标文本包含多个实体词,包括:
27.响应用户发言事件,获取用户在直播间中对应该事件提交的发言信息;
28.将所述发言信息输入预设的文本分类模型进行类型识别,判断其是否为目标类型,将属于目标类型的发言信息识别为目标文本,其中,属于目标类型的发言信息中包含有商品名称、商品型号、送货地址、联系电话中任意一项或任意多项实体词。
29.可选的,基于目标文本中的每个单字设置前缀标识和后缀标识为所述目标文本注释各个所述的实体词,获得注释文本之后,包括:
30.解析所述注释文本,获得各个标签对相对应的实体词,根据所述实体词的标签对确定相应的实体词的数据类型;
31.将各个所述的实体词对应其数据类型赋值给商品订单的消息体中相应数据类型的变量;
32.根据所述消息体生成相应的商品订单页面,其中包含根据所述变量输出的实体词。
33.可选的,基于目标文本中的每个单字设置前缀标识和后缀标识为所述目标文本注释各个所述的实体词,获得注释文本之后,包括:
34.解析所述注释文本,获得各个标签对相对应的实体词,根据所述实体词的标签对
确定相应的实体词的数据类型;
35.根据各个实体词相对应的数据类型,对相应的实体词进行文本格式化处理,使注释文本中的各个标签对转义为其相应实体词的显示样式,使注释文本成为格式化文本;
36.将所述格式化文本作为对话内容输出至终端设备的图形用户界面中显示。
37.另一方面,适应本技术的目的之一而提供一种实体词注释装置,包括:文本获取模块、标签对确定模块,以及实体词注释模块,其中,所述文本获取模块,用于获取目标文本,所述目标文本包含多个实体词;所述标签对确定模块,用于根据所述目标文本中各个实体词的标注类型确定相对应的标签对,所述标签对包括开始标签和结束标签;所述实体词注释模块,用于基于目标文本中的每个单字设置前缀标识和后缀标识为所述目标文本注释各个所述的实体词,获得注释文本,使每个标签对中的开始标签和结束标签分别成为相应的实体词的首字的前缀标识和尾字的后缀标识。
38.可选的,所述标签对确定模块,包括:文本编码单元,用于对所述目标文本进行词嵌入,构造出所述目标文本的编码向量;序列标注单元,用于采用序列标注模型对所述编码向量进行序列标注,获得序列标注信息,所述序列标注信息包含与目标文本中各个实体词相对应映射的各个标注类型;映射处理单元,用于获取所述序列标注信息中各个标注类型相对应的标签对,建立标签对与实体词之间的映射关系数据。
39.可选的,所述实体词注释模块,包括:单字构造单元,用于构造所述目标文本中各个单字相对应的结构体,将该单字及其在目标文本中的排列序号存储于结构体中,在结构体中建立前缀标识链表和后缀标识链表;前缀处理单元,用于根据各个实体词与其标签对的映射关系数据,确定每个实体词的首字所在的结构体,将该实体词的标签对中的开始标签追加到所述首字的前缀标识链表中,所述前缀标识链表实现为堆栈;后缀处理单元,用于根据各个实体词与其标签对的映射关系数据,确定每个实体词的尾字所在的结构体,将该实体词的标签对中的结束标签追加到所述尾字的后缀标识链表中,所述后缀标识链表实现为队列;文本重组单元,用于根据所述各个单字的排列序号对各个单字进行重组,使每个标签对中的开始标签和结束标签分别成为相应的实体词的首字的前缀标识和尾字的后缀标识,获得注释文本。
40.可选的,所述文本重组单元,包括:堆栈操作单元,用于将各个单字的结构体的前缀标识链表中的各个开始标签逐一出栈自先到后排列构造为前缀标识串,拼接于相应的单字的前缀位置;队列操作单元,用于将各个单字的结构体的前缀标识链表中的各个开始标签逐一出列自先到后排列构造为后缀标识串,拼接于相应的单字的后缀位置;扩展串接单元,用于将每个单字的前缀标识、该单字、该单字的后缀标识组合构造为该单字对应的扩展字符串;拼接构造单元,用于按照各个单字在结构体中的排列序号有序拼接各个单字的扩展字符串,获得注释文本。
41.可选的,所述文本获取模块,包括:发言获取单元,用于响应用户发言事件,获取用户在直播间中对应该事件提交的发言信息;目标识别单元,用于将所述发言信息输入预设的文本分类模型进行类型识别,判断其是否为目标类型,将属于目标类型的发言信息识别为目标文本,其中,属于目标类型的发言信息中包含有商品名称、商品型号、送货地址、联系电话中任意一项或任意多项实体词。
42.可选的,后于所述实体注释模块,包括:注释解析单元,用于解析所述注释文本,获
得各个标签对相对应的实体词,根据所述实体词的标签对确定相应的实体词的数据类型;变量赋值单元,用于将各个所述的实体词对应其数据类型赋值给商品订单的消息体中相应数据类型的变量;页面生成单元,用于根据所述消息体生成相应的商品订单页面,其中包含根据所述变量输出的实体词。
43.可选的,后于所述实体注释模块,包括:注释解析单元,用于解析所述注释文本,获得各个标签对相对应的实体词,根据所述实体词的标签对确定相应的实体词的数据类型;格式处理单元,用于根据各个实体词相对应的数据类型,对相应的实体词进行文本格式化处理,使注释文本中的各个标签对转义为其相应实体词的显示样式,使注释文本成为格式化文本;输出显示单元,用于将所述格式化文本作为对话内容输出至终端设备的图形用户界面中显示。
44.又一方面,适应本技术的目的之一而提供的一种计算机设备,包括中央处理器和存储器,所述中央处理器用于调用运行存储于所述存储器中的计算机程序以执行本技术所述的实体词注释方法的步骤。
45.又一方面,适应本技术的另一目的而提供的一种计算机可读存储介质,其以计算机可读指令的形式存储有依据所述的实体词注释方法所实现的计算机程序,该计算机程序被计算机调用运行时,执行该方法所包括的步骤。
46.又一方面,适应本技术的另一目的而提供的一种计算机程序产品,包括计算机程序/指令,该计算机程序/指令被处理器执行时实现本技术任意一种实施例中所述实体词注释方法的步骤。
47.相对于现有技术,本技术在确定了目标文本中的实体词相对应的标签对之后,以目标文本中的单字为操作对象,对目标文本中的各个实体词进行注释,将各个实体词的标签对中的开始标签和结束标签分别扩展为相应的实体词的前缀标识和后缀标识,获得注释文本。由于操作对象是以字为单位,且每个单字均可独立设置前缀标识和后缀标识,细化了对目标文本插入标识进行注释的操作粒度,使得标识的插入过程具有更高的灵活度,从而降低算法复杂度,提升文本注释效率。在此基础上,由于文本注释场景的广泛性,有望取得广泛的技术收益。
附图说明
48.本技术上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
49.图1为本技术的实体词注释方法的典型实施例的流程示意图。
50.图2为本技术实施例中确定目标文本的实体词及其标签对的流程示意图。
51.图3为本技术实施例中注释目标文本获得注释文本的流程示意图。
52.图4为本技术实施例中重组获取注释文本的流程示意图。
53.图5为本技术实施例中利用注释文本生成商品订单页面的流程示意图。
54.图6为本技术实施例中利用注释文本生成格式化文本的流程示意图。
55.图7为本技术的实体词注释装置的原理框图;
56.图8为本技术所采用的一种计算机设备的结构示意图。
具体实施方式
57.下面详细描述本技术的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本技术,而不能解释为对本技术的限制。
58.本技术中所引用或可能引用到的神经网络模型,除非明文指定,既可部署于远程服务器且在客户端实施远程调用,也可部署于设备能力胜任的客户端直接调用,某些实施例中,当其运行于客户端时,其相应的智能可通过迁移学习来获得,以便降低对客户端硬件运行资源的要求,避免过度占用客户端硬件运行资源。
59.本技术即将揭示的各个实施例,除非明文指出彼此之间的相互排斥关系,否则,各个实施例所涉的相关技术特征可以交叉结合而灵活构造出新的实施例,只要这种结合不背离本技术的创造精神且可满足现有技术中的需求或解决现有技术中的某方面的不足即可。对此变通,本领域技术人员应当知晓。
60.本技术的一种实体词注释方法,可被编程为计算机程序产品,部署于客户端或服务器中运行而实现,例如,本技术的示例性应用场景中,可以在电商平台的服务器中部署实现,藉此可以通过访问该计算机程序产品运行后开放的接口,通过图形用户界面与该计算机程序产品的进程进行人机交互而执行该方法。
61.请参阅图1,本技术的实体词注释方法在其典型实施例中,包括如下步骤:
62.步骤s1100、获取目标文本,所述目标文本包含多个实体词;
63.所述目标文本由多个单字顺序排列组成,示例而言,所述的单字可以是中文语种的单个汉字,也可以是拉丁语种的单词,还可以是个别字符。目标文本一般是符合自然语言表达习惯的语句,其中可以包含一个或多个实体词。
64.所述实体词,在狭义上可以泛指以名称为标识的实体,例如人名、机构名、地名、商品名称等,在广义上可以泛指指向任意实体的概念,例如有指代意义的数字、日期、货币、地址、电话等。
65.所述目标文本的性质,依其所处不同的应用场景,可以有所不同。例如,可以是聊天会话中的用户发言信息,可以是电商平台的系统通知消息,也可以是电商平台中各个业务环节传递的文本信息等等,且不受此限。相应的,目标文本的来源也不受限制。
66.在示例性的电商平台的应用场景中,所述目标文本可以是电商平台的直播间中用户输入并提交的符合条件的发言信息,针对此类目标文本,一种实施例中,按照如下过程识别出目标文本,该过程包括:
67.步骤s1110、响应用户发言事件,获取用户在直播间中对应该事件提交的发言信息;
68.电商平台所架构的网络直播服务,通过网络直播间进行商品的销售,用户可以在直播间中输入其发言信息,所述发言信息一般用于表达用户自身的看法,但也可以用于承载用户创建订单、提供订单信息等目的相对应的信息,例如,用户采用如下语句表示需要创建订单:“我要买红色款的手机”,或者,采用如下语句表示提供订单的物流信息:“你发到

广州黄埔科丰路某某广场某某房’电话12500000000”。根据以上示例不难理解,对于此类包含某种交互目的的信息,其中会包含适应所述目的所需的实体词,例如,以上示例中的“红色款”、“手机”等是实体词,分别对应商品的款式和商品各类,可以用于创建商品订单;“广州黄埔科丰路某某广场某某房”、“12500000000”分别是对应送货地址和电话号码的实体词,可以用于完善商品订单的物流信息。
69.当用户在直播间中输入发言信息后,根据本技术的技术方案所部署的位置不同,可以通过后台提交至服务器进行关于该发言信息是否属于目标文本的识别,或者也可在用户的终端设备中进行所述的识别,以便确定出用户的发言信息是否属于目标文本。
70.步骤s1120、将所述发言信息输入预设的文本分类模型进行类型识别,判断其是否为目标类型,将属于目标类型的发言信息识别为目标文本,其中,属于目标类型的发言信息中包含有商品名称、商品型号、送货地址、联系电话中任意一项或任意多项实体词。
71.为了识别用户的发言信息是否属于目标文本,可以采用一个文本分类模型对发言信息进行识别。所述文本分类模型可采用文本特征提取模型后接分类器构成,其中的文本特征提取模型可以是基于循环神经网络(rnn,recurrent neural network)演进的相关模型,包括但不限于长短期记忆网络(lstm)系列的模型、bert模型,此类模型的共性是适于对所输入文本进行特征表示,从而获得其相应的文本特征向量;其中的分类器可以是二分类器,可采用sigmoid函数构造,其根据文本特征向量进行全连接实现分类映射,将文本特征向量映射到预设的二分类空间,获得与是、否属于目标文本相对应的分类概率,根据分类概率大小确定文本是否属于目标文本。
72.所述文本分类模型在投入使用之前,被预先采用足量的训练样本训练至收敛状态,使其习得以上根据输入的文本的文本特征向量进行是否属于目标文本的识别的能力。从而,对于用户提交的发言信息,将其转换为嵌入向量的形式,输入至文本分类模型中,由文本分类模型对其进行特征提取获得文本特征向量,再经分类器确定出其是否属于目标文本,从而完成目标文本的识别。
73.本示例性应用场景相对应的实施例中的目标文本,是适应电商平台创建订单或完善订单物流信息而设置的,因而,属于目标文本的发言信息,其通常包括但不限于商品名称、商品型号、送货地址、联系电话中任意一项或任意多项实体词。
74.在对所述文本分类模型训练时,相应的训练样本中,可以包含相应的实体词,并根据训练样本中是否包含实体词设置训练样本的监督标签,从而,通过对文本分类模型实施多次迭代训练,将其训练至收敛状态,以服务于对发言信息是否属于目标文本的识别。
75.不难理解,借助文本分类模型识别目标文本,可以快速确定目标文本,避免动辄针对每个发言信息进行标识处理,可以降低计算机的系统开销。
76.步骤s1200、根据所述目标文本中各个实体词的标注类型确定相对应的标签对,所述标签对包括开始标签和结束标签;
77.目标文本中的各个实体词,通常分别属于不同的标注类型,例如“电话”、“商品名称”等,其中不同的标注类型可以有不同的用途,或者需要做相应的处理,因而,将其标注类型对应标注出来,在方便数据处理方面,有其必要性。为了标注不同的类型,可以预备各个标注类型相对应的标签对以备调用,不同的标签对,指示不同的标注类型,通过解析识别实体词的标签对,便可确定该实体词相应的标签类型,从而方便对该实体词做相应的处理。
78.目标文本中的各个实体词与其标注类型的对应关系,可以采用多种方式预先确定,例如:
79.一种实施例中,可以基于正则匹配的方式,或者基于预设词表匹配的方式,模糊或
精准匹配出目标文本中的各个实体词,然后根据匹配时命中的类别,确定其各实体词对应的标注类型。例如,基于预设词表的方式中,存在一个商品名称类别对应的词表,查询该词表中的每个词是否命中目标文本,当命中目标文本时,表明该词即为实体词,其对应的标注类型即为商品名称。
80.另一实施例中,可以采用基于深度学习的神经网络模型构造的序列标注模型,对所述目标文本进行序列标注,获得目标文本相对应的序列标注信息,在序列标注信息中包含目标文本中的各个实体词的标注类型,从而,根据序列标注信息便可确定目标文本中的各个实体词及其标注类型的对应关系。
81.与标注类型相对应的标签对,主要起指示实体词相对应的字符串在目标文本中的起始位置和终止位置的作用,因而包括与起始位置相对应的开始标签,和与终止位置相对应的结束标签。并且,通常可结合特殊符合结合标识符进行表达,例如用尖括号、中括号表示,同一标签对中,开始标签与结束标签可以采用相同标识符,两者之一再结合特殊字符例如“/”加以区别即可,以方便计算机程序高效识别。示例性的多个标签对及其指示的标注类型如下所示:
82.标签对1:《product_name》//开始标签《/product_name》//结束标签
83.标签对2:《telephone_no》//开始标签《/telephone_no》//结束标签
84.标签对3:《address》//开始标签《/address》//结束标签
85.所述标签对中的标识符可以根据预设的协议进行自定义,只要其能按照相同协议被相应解析利用即可,例如所述标签符也可以自定义为中文形式。
86.步骤s1300、基于目标文本中的每个单字设置前缀标识和后缀标识为所述目标文本注释各个所述的实体词,获得注释文本,使每个标签对中的开始标签和结束标签分别成为相应的实体词的首字的前缀标识和尾字的后缀标识。
87.在对所述目标文本进行注释时,改变传统以实体词的字符串为单位的方式,针对目标文本中的每个单字进行标签对的植入。为此,可以在确定目标文本中单字与单字之间的相对应位置关系的基础上,为每个单字设置其相对应的前缀标识和后缀标识,其中,对于实体词的首字,由于其在先位置应当插入相对应的标签对的开始标签,可将所述标签对的开始标签设置为该实体词的首字的前缀标识;对于实体词的尾字,由于其在后位置应当插入相对应的标签对的结束标签,可将所述标签对的结束标签设置为该实体词的尾字的后缀标识,从而完成对整个实体词的单个标签对的植入。但是,对于每个单字而言,如果该单字并不属于任何实体词,或者该单字只是实体词首、尾之外的中间位置的单字,那么,其由于前缀标识与后缀标识均设置为空值。同理,对于实体词中的首字,由于其并非该实体词的尾字,因而其后缀标识也可设置为空;对于实体词中的尾字,由于其并非实体词的首字,因而其前缀标识也设置为空值。
88.一种实施例中,当同一实体词对应多个标签对时,允许所述多个标签对之间进行嵌套设置,使得其中一个标签对设置在最为邻近所述实体词两侧的位置,其他标签对则依次向外设置在相对远离所述实体词两侧的位置,由此可知,实体词两侧的多个开始标签与多个结束标签之间,保持对称设置的关系成对构造,不会发生混乱,方便计算机程序准确解析。
89.当将目标文本中的各个实体词的标签对都植入目标文本之后,目标文本便成为注
释文本。所述注释文本后续可以被用于实现下游任务,下游任务通过解析注释文本即可快速提取相应的实体词,或者对相应的实体词做相应的格式化处理。根据示例性的不同应用场景,所述下游任务可以是调用注释文本中的实体词用于构造商品订单,或者对不同实体词做不同格式化处理等相对应的任务。
90.根据以上实施例可以知晓,本技术在确定了目标文本中的实体词相对应的标签对之后,以目标文本中的单字为操作对象,对目标文本中的各个实体词进行注释,将各个实体词的标签对中的开始标签和结束标签分别扩展为相应的实体词的前缀标识和后缀标识,获得注释文本。由于操作对象是以字为单位,且每个单字均可独立设置前缀标识和后缀标识,细化了对目标文本插入标识进行注释的操作粒度,使得标识的插入过程具有更高的灵活度,从而降低算法复杂度,提升文本注释效率。在此基础上,由于文本注释场景的广泛性,有望取得广泛的技术收益。
91.在以上任意实施例的基础上,请参阅图2,根据所述目标文本中各个实体词的标注类型确定相对应的标签对,包括:
92.步骤s1210、对所述目标文本进行词嵌入,构造出所述目标文本的编码向量;
93.本实施例中,借助序列标注模型提取所述目标文本的实体词,因而需要对目标文本进行编码获得其编码向量,作为序列标注模型的输入。
94.编码时,先对目标文本进行分词,可以基于词袋算法,或者基于n-gram算法等,对目标文本进行分词,获得其分词集。然后,根据序列标注模型相对应的预设词表,查询出各个分词相对应的向量,根据各个分词在目标文本中的排列顺序有序构造出目标文本的文本向量,进一步,在文本向量的基础上,进一步叠加各个分词相对应的位置向量,获得目标文本相对应的编码向量。不难理解,所述编码向量不仅包含目标文本的各个分词的语义表示信息,也包含各个分词所处位置的语义表示信息。
95.步骤s1220、采用序列标注模型对所述编码向量进行序列标注,获得序列标注信息,所述序列标注信息包含与目标文本中各个实体词相对应映射的各个标注类型;
96.目标文本的编码向量作为序列标注模型的输入。所述序列标注模型可以是基于文本特征提取模型与条件随机场模型相结合构造的神经网络模型,所述文本特征提取模型可以是lstm、bert之类的适于提取文本的深层语义信息完成特征表示而获得文本特征向量的深度学习模型,所述条件随机场模型负责根据文本特征向量对各个实体词进行分类映射,确定各个实体词映射到预设的分类空间中各个类别相对应的分类概率,所述各个类别与实体词的各种标注类别一一对应,由此,分类概率最大的类别,即是相应的实体词相对应的标注类别,根据这个原理,构造出序列标注信息,使序列标注信息中对应标示出目标文本中的各个单字所属的实体词标注类型。
97.所述序列标注模型预先采用足量的训练样本训练至收敛状态,其所采用的训练样本中,包含有实体词,对应的,采用与实体词相对应的标注类型构成的类型序列信息用于监督相应的训练样本的训练,计算每个训练样本的交叉熵损失,在模型未达到收敛时,根据损失值对模型进行梯度更新,并继续调用下一训练样本实施迭代训练,直至根据损失值确定模型达到收敛状态为止,即可终止序列标注模型的训练过程。
98.步骤s1230、获取所述序列标注信息中各个标注类型相对应的标签对,建立标签对与实体词之间的映射关系数据。
99.序列标注信息是按照序列标注模型的便利所设置的表达形式,其不易被下游任务所理解,因而,后续可以在目标文本的序列标注信息的基础上进行转义处理。在转义处理之前,适应转义处理的需要,先根据目标文本的序列标注信息中的各个标注类型,获取其相应的标签对。所述标签对预设定义并存储于一个数据库中,该数据库建立有标签对与标注类型之间的映射关系,据此,只需根据目标文本的序列标注模型中实有的各个标注类型,从所述数据库中调用获取相应的标签对即可。为方便后续处理,根据“实体词—标注类型—标签对”三者之间的对应关系,可进一步构造出各实体词与其相应的标签对之间的映射关系数据。
100.根据以上实施例不难理解,借助序列标注模型可以精准快速地确定目标文本中的实体词,以序列标注模型获得实体词的标注类型为桥梁,迅速建立起目标文本中的实体词与标签对的映射关系数据,确保后续的注释操作能够获得精准的注释结果。
101.在以上任意实施例的基础上,请参阅图3,基于目标文本中的每个单字设置前缀标识和后缀标识为所述目标文本注释各个所述的实体词,获得注释文本,包括:
102.步骤s1310、构造所述目标文本中各个单字相对应的结构体,将该单字及其在目标文本中的排列序号存储于结构体中,在结构体中建立前缀标识链表和后缀标识链表;
103.可以采用数组来存储所述目标文本中的各个单字相对应的结构体,每个单字便对应数组中的一个元素,每个元素便是一个结构体。其中,数组元素的下标可以用于对应指示各个单字在所述目标文本中的排列序号。所述结构体用作注释过程的中间媒介,被实现为结构类型,一个实施例中,所述结构体设置有字符串变量、前缀标识链表以及后缀标识链表。所述字符串变量用于存储相应的单字的文本内容,所述前缀标识链表用于存储应插入于其单字之前的开始标签,所述后缀标识链表用于存储应插入于其单字之后的结束标签。前缀标识链表和后缀标识链表均为链表形式,顾名思义,其所起到的作用是能够利用链表的结构优势,当需要基于一个单字处理多个开始标签或多个结束标签时,可以发挥这种优势,实现对多个标签的缓存和便利访问。
104.步骤s1320、根据各个实体词与其标签对的映射关系数据,确定每个实体词的首字所在的结构体,将该实体词的标签对中的开始标签追加到所述首字的前缀标识链表中,所述前缀标识链表实现为堆栈;
105.如前所述,目标文本中的各个实体词,与其标签对之间可以预先构造为映射关系数据,以便在注释目标文本时对标签对进行调用。对于各个实体词,可以确定其中的首字和尾字即实体词中第一个字和最后一个字相对应的结构体,然后,将该实体词相对应的标签对中的开始标签追加到该实体词的首字的结构体内的前缀标识链表中。如果同一实体词对应有多个标签对,则多个标签对的各个开始标签可先后追加到该实体词的首字的前缀标识链表中。
106.一种实施例中,将所述前缀标识链表实现为堆栈式数据结构,以便应用后进先出的存取规则对其进行基于多个开始标签的入栈和出栈的数据操作。默认情况下,每个单字的结构体中的前缀标识链表都是空值,对于任意一个单字而言,若该单字属于一个实体词的首字,那么,当一个或多个开始标签陆续入栈添加到其前缀标识链表之后,其前缀标识链表便有序地排列好各个所述的开始标签。
107.步骤s1330、根据各个实体词与其标签对的映射关系数据,确定每个实体词的尾字
所在的结构体,将该实体词的标签对中的结束标签追加到所述尾字的后缀标识链表中,所述后缀标识链表实现为队列;
108.同理,对于实体词相对应的标签对的结束标签来说,需要将其添加到实体词的尾字结构体的后缀标识链表中。如果同一实体词对应有多个标签对,则多个标签对的各个结束标签可先后追加到该实体词的尾字的后缀标识链表中。
109.一种实施例中,将所述后缀标识链表实现为队列式数据结构,以便应用先进先出的存取规则对其进行基于多个开始标签的入列和出列的数据操作。默认情况下,每个单字的结构体中的后缀标识链表都是空值,对于任意一个单字而言,若该单字属于一个实体词的尾字,那么,当一个或多个结束标签陆续入列添加到其后缀标识链表之后,其后缀标识链表便有序地排列好各个所述的结束标签。
110.步骤s1340、根据所述各个单字的排列序号对各个单字进行重组,使每个标签对中的开始标签和结束标签分别成为相应的实体词的首字的前缀标识和尾字的后缀标识,获得注释文本。
111.根据以上过程不难理解,每个单字均有其前缀标识链表及后缀标识链表,并且同一标签对的开始标签和结束标签是对称添加到同一实体词的首字的前缀标识链表和尾字的后缀标识链表中的,因而,只要根据各个单字的排列序号对各个单字进行重组,在重组过程中,针对同一个实体词,将其首字的前缀标识链表和尾字的后缀标识链表对称展开,使其中的开始标签、结束标签成为相应的首字或尾字的前缀标识、后缀标识,由此便可获得一个由各个单字及前缀标识和后缀标识组成的注释文本,该注释文本中各个实体词左右两侧分别添加了开始标签和结束标签。
112.在重组过程中,由于每个单字的结构体中的前缀标识链表被实现为堆栈结构而遵循后进先出的存取规则、每个单字的结构体中的后缀标识链表被实现为队列结构而遵循先进先出的存取规则,因而,通过结合相应的存取规则,可以实现对同一实体词的多个开始标签和多个结束标签的对称操作,使开始和结束两类标签均存在多个的情况下,可以确保多标签对沿相应的实体词的两侧有序展开,算法巧妙,执行高效。
113.根据以上实施例,本技术以单字为单位,对目标文本进行解构,并借助结构体将每个单字视为一个操作对象,根据每个单字是否属于实体词的首字或尾字而相应为其前缀标识链表或后缀标识链表赋值,完成操作对象的构造,然后,再通过对各个操作对象进行重组获得注释文本,其中,借助前缀标识链表的堆栈存取规则和后缀标识链表的队列存取规则,可以实现高效有序地处理同一实体词携带多标签对的情况,构思巧妙,实效明显。
114.在以上任意实施例的基础上,请参阅图4,根据所述各个单字的排列序号对各个单字进行重组,包括:
115.步骤s1331、将各个单字的结构体的前缀标识链表中的各个开始标签逐一出栈自先到后排列构造为前缀标识串,拼接于相应的单字的前缀位置;
116.在重组各个单字以获得注释文本的过程中,针对每个单字,先将其结构体内前缀标识链表中的各个开始标签,按照后进先出的存取规则,逐一出栈,先出栈的开始标签排列在前,后出栈的开始标签排列在后,由此,有序地将各个开始标签逐一出栈并排列成一个前缀标识串,该前缀标识串进而被拼接于相应的单字的前缀位置处。不难理解,当存在多个开始标签时,最先出栈的开始标签将会置于距离该单字最远的位置,最后出栈的开始标签将
会置于该单字最紧邻的位置,由此,该单字获得多个有序排列的前缀标识。
117.步骤s1332、将各个单字的结构体的前缀标识链表中的各个开始标签逐一出列自先到后排列构造为后缀标识串,拼接于相应的单字的后缀位置;
118.在重组各个单字以获得注释文本的过程中,针对每个单字,先将其结构体内后缀标识链表中的各个结束标签,按照先进先出的存取规则,逐一出列,先出列的开始标签排列在前,后出列的开始标签排列在后,由此,有序地将各个结束标签逐一出列并排列成一个后缀标识串,该后缀标识串进而被拼接于相应的单字的后缀位置处。不难理解,当存在多个结束标签时,最先出列的开始标签将会置于距离该单字最紧邻的位置,最后出列的开始标签将会置于该单字最远的位置,由此,该单字获得多个有序排列的前缀标识。
119.步骤s1333、将每个单字的前缀标识、该单字、该单字的后缀标识组合构造为该单字对应的扩展字符串;
120.针对每个单字,经过对其前缀标识和后缀标识进行展开拼接后,每个单字可对应获得一个扩展字符串,该扩展字符串中包含该单字的前缀标识、该单字本身,以及该单字的后缀标识。不难理解,如果该单字的前缀标识和后缀标识根据该单字是否属于实体词的首字和尾字的具体情况而定,可以是空值,也可以包含一个或多个相应的标签,根据实际情况而定。
121.步骤s1334、按照各个单字在结构体中的排列序号有序拼接各个单字的扩展字符串,获得注释文本。
122.最后,只要将各个单字相对应的扩展字符串,按照积上单字在结构体中的排列序列有序前后排列拼接,便可获得注释文本。
123.根据以上实施例,可以知晓,基于结构体进行重组获得注释文本的过程,高效而便利,在对前缀标识和后缀标识的处理时,依照堆栈与队列的特点而有序排列相应的开始标签和结束标签,可以确保每个实体词两侧的开始标签和结束标签有序对称,确保完成正确的注释。
124.在以上任意实施例的基础上,请参阅图5,基于目标文本中的每个单字设置前缀标识和后缀标识为所述目标文本注释各个所述的实体词,获得注释文本之后,包括:
125.步骤s2100、解析所述注释文本,获得各个标签对相对应的实体词,根据所述实体词的标签对确定相应的实体词的数据类型;
126.当完成所述的注释文本之后,其中各个实体词便以前缀标识和后缀标识相结合的方式携带了相应的标签对,因而,只要根据本技术注释过程相应的原理,便可对所述注释文本进行解析而获得其中的各个标签对相对应的实体词,并且,利用标签对与数据类型之间的映射关系数据,可以确定各个实体词及其所对应的数据类型。例如,个别实体词可以是指示商品名称相对应的数据类型,或者可以是指示送货地址相对应的数据类型。
127.步骤s2200、将各个所述的实体词对应其数据类型赋值给商品订单的消息体中相应数据类型的变量;
128.电商平台在生成商品订单页面时,会包括一个或多个消息体,所述消息体包括多种数据类型相对应的变量,用于存储相应的属性值。例如,商品订单页面中,存在送货地址、商品名称相对应的变量。由于数据类型与标签对之间存在对应关系,因而,便可根据这种对应关系,为消息体中的变量赋值,使得所述注释文本中的各个标签对所指向的实体词,被逐
一赋值给所述消息体中的相应变量,从而,使这些实体词能够参与所述商品订单页面的构造。
129.步骤s2300、根据所述消息体生成相应的商品订单页面,其中包含根据所述变量输出的实体词。
130.最后,根据所述消息体生成相应的商品订单页面,消息体中的各个变量一般接受了各个相应的实体词的赋值之后,随着商品订单页面推送到终端设备,被浏览器解析,所述各个实体词便会被显示于所述商品订单页面中。
131.根据以上实施例可知,注释文本可以被用于构造商品订单页面,当所述注释文本源自于电商平台直播间用户提交的发言信息时,不难理解,实际上将用户的发言信息转换为下单口令,当用户输入下单口令之后,便可按照下单口令中的各个实体词创建相应的商品订单页面,显然,优化了电商平台订单创建逻辑,使用户可以自然语言表达方式启动商品下单流程,可望改善人机交互体验。
132.在以上任意实施例的基础上,请参阅图6,基于目标文本中的每个单字设置前缀标识和后缀标识为所述目标文本注释各个所述的实体词,获得注释文本之后,包括:
133.步骤s3100、解析所述注释文本,获得各个标签对相对应的实体词,根据所述实体词的标签对确定相应的实体词的数据类型;
134.当完成所述的注释文本之后,其中各个实体词便以前缀标识和后缀标识相结合的方式携带了相应的标签对,因而,只要根据本技术注释过程相应的原理,便可对所述注释文本进行解析而获得其中的各个标签对相对应的实体词,并且,利用标签对与数据类型之间的映射关系数据,可以确定各个实体词及其所对应的数据类型。例如,个别实体词可以是指示商品名称相对应的数据类型,或者可以是指示送货地址相对应的数据类型。
135.步骤s3200、根据各个实体词相对应的数据类型,对相应的实体词进行文本格式化处理,使注释文本中的各个标签对转义为其相应实体词的显示样式,使注释文本成为格式化文本;
136.系统可以适应不同数据类型预设各种数据类型相对应的格式化处理业务逻辑,以便针对某种数据类型的实体词做相应的格式化处理,使其呈现相应的显示样式。
137.当注释文本中的各个实体词被确定出其相应的数据类型之后,便根据每个数据类型相对应的格式化处理业务逻辑,对其做相应的格式化处理,例如,将商品名称相对应的实体词显示为红色,将送货地址相对应的实体词显示为加粗效果等。注释文本中的各个实体词经过格式化处理后,所述注释文本便成为格式化文本。
138.步骤s3300、将所述格式化文本作为对话内容输出至终端设备的图形用户界面中显示。
139.在示例性的电商平台的直播间的应用场景中,用户输入的目标文本,在其推送到直播间中显示之前,经过电商平台的服务器注释成为注释文本,然后将注释文本转换为格式化文本,推送到该直播间的各个用户的终端设备,所述终端设备接收到所述的格式化文本后,将其显示到图形用户界面中,其中的各个实体词按其数据类型的相应格式进行显示,由其中经格式化处理的实体词发挥显性提示的作用。
140.根据以上实施例可知,注释文本可以被用于制作格式化文本,使其中的实体词发挥显性提示的作用,突出重点信息,提升人机交互体验。特别是在直播间应用场景中,主播
用户面对大量的用户发言信息的时候,通过彰显包含于发言信息中的实体词,可使主播用户迅速抓住重点,集中解决用户问题,提升交互效率。
141.请参阅图7,适应本技术的目的之一而提供一种实体词注释装置,是对本技术的实体词注释方法的功能化体现,该装置包括:文本获取模块1100、标签对确定模块1200,以及实体词注释模块1300,其中,所述文本获取模块1100,用于获取目标文本,所述目标文本包含多个实体词;所述标签对确定模块1200,用于根据所述目标文本中各个实体词的标注类型确定相对应的标签对,所述标签对包括开始标签和结束标签;所述实体词注释模块1300,用于基于目标文本中的每个单字设置前缀标识和后缀标识为所述目标文本注释各个所述的实体词,获得注释文本,使每个标签对中的开始标签和结束标签分别成为相应的实体词的首字的前缀标识和尾字的后缀标识。
142.在以上任意实施例的基础上,所述标签对确定模块1200,包括:文本编码单元,用于对所述目标文本进行词嵌入,构造出所述目标文本的编码向量;序列标注单元,用于采用序列标注模型对所述编码向量进行序列标注,获得序列标注信息,所述序列标注信息包含与目标文本中各个实体词相对应映射的各个标注类型;映射处理单元,用于获取所述序列标注信息中各个标注类型相对应的标签对,建立标签对与实体词之间的映射关系数据。
143.在以上任意实施例的基础上,所述实体词注释模块1300,包括:单字构造单元,用于构造所述目标文本中各个单字相对应的结构体,将该单字及其在目标文本中的排列序号存储于结构体中,在结构体中建立前缀标识链表和后缀标识链表;前缀处理单元,用于根据各个实体词与其标签对的映射关系数据,确定每个实体词的首字所在的结构体,将该实体词的标签对中的开始标签追加到所述首字的前缀标识链表中,所述前缀标识链表实现为堆栈;后缀处理单元,用于根据各个实体词与其标签对的映射关系数据,确定每个实体词的尾字所在的结构体,将该实体词的标签对中的结束标签追加到所述尾字的后缀标识链表中,所述后缀标识链表实现为队列;文本重组单元,用于根据所述各个单字的排列序号对各个单字进行重组,使每个标签对中的开始标签和结束标签分别成为相应的实体词的首字的前缀标识和尾字的后缀标识,获得注释文本。
144.在以上任意实施例的基础上,所述文本重组单元,包括:堆栈操作单元,用于将各个单字的结构体的前缀标识链表中的各个开始标签逐一出栈自先到后排列构造为前缀标识串,拼接于相应的单字的前缀位置;队列操作单元,用于将各个单字的结构体的前缀标识链表中的各个开始标签逐一出列自先到后排列构造为后缀标识串,拼接于相应的单字的后缀位置;扩展串接单元,用于将每个单字的前缀标识、该单字、该单字的后缀标识组合构造为该单字对应的扩展字符串;拼接构造单元,用于按照各个单字在结构体中的排列序号有序拼接各个单字的扩展字符串,获得注释文本。
145.在以上任意实施例的基础上,所述文本获取模块1100,包括:发言获取单元,用于响应用户发言事件,获取用户在直播间中对应该事件提交的发言信息;目标识别单元,用于将所述发言信息输入预设的文本分类模型进行类型识别,判断其是否为目标类型,将属于目标类型的发言信息识别为目标文本,其中,属于目标类型的发言信息中包含有商品名称、商品型号、送货地址、联系电话中任意一项或任意多项实体词。
146.在以上任意实施例的基础上,后于所述实体注释模块,包括:注释解析单元,用于解析所述注释文本,获得各个标签对相对应的实体词,根据所述实体词的标签对确定相应
的实体词的数据类型;变量赋值单元,用于将各个所述的实体词对应其数据类型赋值给商品订单的消息体中相应数据类型的变量;页面生成单元,用于根据所述消息体生成相应的商品订单页面,其中包含根据所述变量输出的实体词。
147.在以上任意实施例的基础上,后于所述实体注释模块,包括:注释解析单元,用于解析所述注释文本,获得各个标签对相对应的实体词,根据所述实体词的标签对确定相应的实体词的数据类型;格式处理单元,用于根据各个实体词相对应的数据类型,对相应的实体词进行文本格式化处理,使注释文本中的各个标签对转义为其相应实体词的显示样式,使注释文本成为格式化文本;输出显示单元,用于将所述格式化文本作为对话内容输出至终端设备的图形用户界面中显示。
148.为解决上述技术问题,本技术实施例还提供计算机设备。如图8所示,该计算机设备包括通过系统总线连接的处理器、计算机可读存储介质、存储器和网络接口。其中,该计算机设备的计算机可读存储介质存储有操作系统、数据库和计算机可读指令,数据库中可存储有控件信息序列,该计算机可读指令被处理器执行时,可使得处理器实现一种商品搜索类目识别方法。该计算机设备的处理器用于提供计算和控制能力,支撑整个计算机设备的运行。该计算机设备的存储器中可存储有计算机可读指令,该计算机可读指令被处理器执行时,可使得处理器执行本技术的实体词注释方法。该计算机设备的网络接口用于与终端连接通信。本领域技术人员可以理解,图8中示出的结构,仅仅是与本技术方案相关的部分结构的框图,并不构成对本技术方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
149.本实施方式中处理器用于执行图7中的各个模块及其子模块的具体功能,存储器存储有执行上述模块或子模块所需的程序代码和各类数据。网络接口用于向用户终端或服务器之间的数据传输。本实施方式中的存储器存储有本技术的实体词注释装置中执行所有模块/子模块所需的程序代码及数据,服务器能够调用服务器的程序代码及数据执行所有子模块的功能。
150.本技术还提供一种存储有计算机可读指令的存储介质,计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行本技术任一实施例的实体词注释方法的步骤。
151.本技术还提供一种计算机程序产品,包括计算机程序/指令,该计算机程序/指令被一个或多个处理器执行时实现本技术任一实施例所述方法的步骤。
152.本领域普通技术人员可以理解实现本技术上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,该计算机程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,前述的存储介质可为磁碟、光盘、只读存储记忆体(read-only memory,rom)等计算机可读存储介质,或随机存储记忆体(random access memory,ram)等。
153.综上所述,本技术细化了对目标文本插入标识进行注释的操作粒度,使得标识的插入过程具有更高的灵活度,从而降低算法复杂度,提升文本注释效率,有望取得广泛的技术收益。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1