基于无监督学习的分词方法、装置、设备及存储介质与流程

文档序号:26749092发布日期:2021-09-25 01:53阅读:104来源:国知局
基于无监督学习的分词方法、装置、设备及存储介质与流程

1.本技术涉及人工智能技术领域,尤其涉及基于无监督学习的分词方法、装置、设备及存储介质。


背景技术:

2.现在的分词方法大多基于hmm(隐马尔可夫模型),crf(conditional random field,条件随机场)等传统模型,虽有普偏的通用性,但针对特定场景需要人工添加私有词库的方式进行分词干预。私有词库的制作就需要耗费大量的人工手动添加,且需大量现有分词错误案例进行分析和标注。对于需快速且需大量找出场景特定词语的场景不友好。
3.基于深度学习的分词工具一直是自然语言处理的热点和焦点,但由于模型需要的语料标注成本较大,往往投入产出的性价比较低。


技术实现要素:

4.本技术实施例的目的在于提出一种基于无监督学习的分词方法、装置、计算机设备及存储介质,以解决传统分词方法需要对大量语料进行人工标注,人力成本高的问题。
5.为了解决上述技术问题,本技术实施例提供一种基于无监督学习的分词方法,采用了如下所述的技术方案:
6.s1,获取待分词文本;
7.s2,对所述待分词文本进行标记化,得到所述待分词文本的标记序列,其中所述标记序列包含m个标记;
8.s3,对所述标记序列中第i个标记掩码,并将掩码后的标记序列输入到预调优的mac

bert模型中,获得所述mac

bert模型输出的第一预测词向量;
9.s4,获取待分词文本;对分词文本进行标记化对所述标记序列中第i个标记和第i+1个标记掩码,并将掩码后的标记序列输入到预调优的mac

bert模型中,获得所述mac

bert模型输出的第二预测词向量;
10.s5,计算所述第一预测词向量和所述第二预测词向量的第一相似度;
11.s6,当所述第一相似度小于预设的阈值时,将所述第i个标记和所述第i+1个标记进行切分,记录切分位置;
12.s7,i取1到m

1,重复步骤s3至步骤s6,得到所有切分位置,根据每个切分位置对所述待分词文本进行分词,得到所述待分词文本的分词结果。
13.进一步的,在步骤s3之前还包括:
14.获取训练数据,并随机对所述训练数据中至少10%的数据进行掩码,得到掩码后的训练数据;
15.将所述掩码后的训练数据输入到mac

bert模型中,获得所述mac

bert模型响应所述掩码后的训练数据而输出的掩码位置的预测数据;
16.通过softmax损失函数比较所述掩码位置的预测数据和被掩码前的数据的一致
性;
17.调整所述mac

bert模型中各节点的参数,至所述损失函数达到最小值时结束,得到预调优的mac

bert模型。
18.进一步的,在步骤s5之后,还包括:
19.s31,当所述第一相似度大于或等于预设的阈值时,对所述标记序列中第i个标记和第i+j个标记掩码,并将掩码后的标记序列输入到预调优的mac

bert模型中,获得所述mac

bert模型输出的第i个标记的第三预测词向量;
20.s32,计算所述第一预测词向量和所述第三预测词向量的第二相似度;
21.s33,j依次取2到m

i,重复步骤s31和步骤s32,至所述第二相似度小于预设的阈值时结束,获取j的当前值g;
22.s34,根据所述j的当前值g,对第i+g

1个标记和所述第i+g个标记进行切分,记录切分位置。
23.进一步的,在步骤s5之后,还包括:
24.当所述第一相似度大于或等于预设的阈值时,令i的取值依次+1,重复步骤s3至步骤s6,直至所述第一相似度小于预设的阈值时结束,获取i的当前值r;
25.根据i的当前值r,对第r

1个标记和第r个标记进行切分,记录切分位置。
26.进一步的,在步骤s5中,所述第一相似度按照下述算法计算:
27.l=1/d(u,v),d(u,v)=‖u

v‖2,其中u为第一预测词向量,v为第二预测词向量,d为欧氏距离,l为第一相似度。
28.为了解决上述技术问题,本技术实施例还提供一种基于无监督学习的分词装置,采用了如下所述的技术方案:
29.获取模块,用于获取待分词文本;
30.标记模块,用于对所述待分词文本进行标记化,得到所述待分词文本的标记序列,其中所述标记序列包含m个标记;
31.第一预测模块,用于对所述标记序列中第i个标记掩码,并将掩码后的标记序列输入到预调优的mac

bert模型中,获得所述mac

bert模型输出的第一预测词向量;
32.第二预测模块,用于获取待分词文本;对分词文本进行标记化对所述标记序列中第i个标记和第i+1个标记掩码,并将掩码后的标记序列输入到预调优的mac

bert模型中,获得所述mac

bert模型输出的第二预测词向量;
33.计算模块,用于计算所述第一预测词向量和所述第二预测词向量的第一相似度;
34.切分模块,用于当所述第一相似度小于预设的阈值时,将所述第i个标记和所述第i+1个标记进行切分,记录切分位置;
35.循环模块,用于i取1到m

1,重复调用所述第一预测模块到所述切分模块,得到所有切分位置,根据每个切分位置对所述待分词文本进行分词,得到所述待分词文本的分词结果。
36.进一步的,所述基于无监督学习的分词装置,还包括:
37.第一获取子模块,用于获取训练数据,并随机对所述训练数据中至少10%的数据进行掩码,得到掩码后的训练数据;
38.第一预测子模块,用于将所述掩码后的训练数据输入到mac

bert模型中,获得所
述mac

bert模型响应所述掩码后的训练数据而输出的掩码位置的预测数据;
39.第一比较子模块,用于通过softmax损失函数比较所述掩码位置的预测数据和被掩码前的数据的一致性;
40.第一调整子模块,用于调整所述mac

bert模型中各节点的参数,至所述损失函数达到最小值时结束,得到预调优的mac

bert模型。
41.进一步的,所述基于无监督学习的分词装置,还包括:
42.第二预测子模块,用于当所述第一相似度大于或等于预设的阈值时,对所述标记序列中第i个标记和第i+j个标记掩码,并将掩码后的标记序列输入到预调优的mac

bert模型中,获得所述mac

bert模型输出的第i个标记的第三预测词向量;
43.第一计算子模块,用于计算所述第一预测词向量和所述第三预测词向量的第二相似度;
44.第一循环子模块,用于j依次取2到m

i,重复调用所述第二预测子模块和所述第一计算子模块,至所述第二相似度小于预设的阈值时结束,获取j的当前值g;
45.第一切分子模块,用于根据所述j的当前值g,对第i+g

1个标记和所述第i+g个标记进行切分,记录切分位置。
46.进一步的,所述基于无监督学习的分词装置,还包括:
47.第二循环子模块,用于当所述第一相似度大于或等于预设的阈值时,令i的取值依次+1,重复调用所述第一预测模块到所述切分模块,直至所述第一相似度小于预设的阈值时结束,获取i的当前值r;
48.第一切分子模块,用于根据i的当前值r,对第r

1个标记和第r个标记进行切分,记录切分位置。
49.进一步的,在所述计算模块中,所述第一相似度按照下述算法计算:
50.l=1/d(u,v),d(u,v)=‖u

v‖2,其中u为第一预测词向量,v为第二预测词向量,d为欧氏距离,l为第一相似度。
51.为了解决上述技术问题,本技术实施例还提供一种计算机设备,采用了如下所述的技术方案:
52.一种计算机设备,包括存储器和处理器,存储器中存储有计算机可读指令,处理器执行计算机可读指令时实现如上述基于无监督学习的分词方法的步骤。
53.为了解决上述技术问题,本技术实施例还提供一种计算机可读存储介质,采用了如下所述的技术方案:
54.一种计算机可读存储介质,计算机可读存储介质上存储有计算机可读指令,计算机可读指令被处理器执行时实现如上述基于无监督学习的分词方法的步骤。
55.与现有技术相比,本技术实施例主要有以下有益效果:
56.通过获取待分词文本;对分词文本进行标记化得到标记序列;先后对序列中第i个标记掩码,对第i个标记和第i+1个标记掩码,将掩码后的序列输入到预调优的mac

bert模型中,获得第i个标记的第一预测词向量和第二预测词向量;计算两者之间的相似度;当相似度小于预设的阈值时,将第i个标记和第i+1个标记进行切分。通过比较预测词向量的相似度,判断词间相关性,确定是否在掩码标记的位置进行词切分,相对与传统分词方法准确性更高,且基于无监督学习的mac

bert模型进行预调优使用的语料无须进行人工标注,节
省了人力成本。
附图说明
57.为了更清楚地说明本技术中的方案,下面将对本技术实施例描述中所需要使用的附图作一个简单介绍,显而易见地,下面描述中的附图是本技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
58.图1是本技术可以应用于其中的示例性系统架构图;
59.图2根据本技术的基于无监督学习的分词方法的一个实施例的流程图;
60.图3是图2中步骤s5之后的一种具体实施方式的流程图;
61.图4是根据本技术的基于无监督学习的分词装置的一个实施例的结构示意图;
62.图5是根据本技术的计算机设备的一个实施例的结构示意图。
具体实施方式
63.除非另有定义,本文所使用的所有的技术和科学术语与属于本技术的技术领域的技术人员通常理解的含义相同;本文中在申请的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本技术;本技术的说明书和权利要求书及上述附图说明中的术语“包括”和“具有”以及它们的任何变形,意图在于覆盖不排他的包含。本技术的说明书和权利要求书或上述附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。
64.在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本技术的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
65.为了使本技术领域的人员更好地理解本技术方案,下面将结合附图,对本技术实施例中的技术方案进行清楚、完整地描述。
66.如图1所示,系统架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
67.用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用,例如网页浏览器应用、购物类应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。
68.终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、电子书阅读器、mp3播放器(moving picture expertsgroup audio layer iii,动态影像专家压缩标准音频层面3)、mp4(moving pictureexperts group audio layer iv,动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机和台式计算机等等。
69.服务器105可以是提供各种服务的服务器,例如对终端设备101、102、103上显示的页面提供支持的后台服务器。
70.需要说明的是,本技术实施例所提供的基于无监督学习的分词方法一般由服务
器/终端设备执行,相应地,基于无监督学习的分词装置一般设置于服务器/终端设备中。
71.应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
72.继续参考图2,示出了根据本技术的基于无监督学习的分词方法的一个实施例的流程图。所述的基于无监督学习的分词方法,包括以下步骤:
73.步骤s1,获取待分词文本。
74.在本实施例中,基于无监督学习的分词方法运行于其上的电子设备(例如图1所示的服务器/终端设备)可以通过有线连接方式或者无线连接方式获取待分词文本。需要指出的是,上述无线连接方式可以包括但不限于3g/4g连接、wifi连接、蓝牙连接、wimax连接、zigbee连接、uwb(ultra wideband)连接、以及其他现在已知或将来开发的无线连接方式。
75.待分词文本可以是用户在可交互的界面输入的文本,或通过文件导入接口获取的文本文件中待分词文本。
76.步骤s2,对所述待分词文本进行标记化,得到所述待分词文本的标记序列,其中所述标记序列包含m个标记。
77.在本实施例中,文本标记化(tokenization)。它按照特定需求,把文本切分成一个字符串序列(其元素一般称为token,)。一般来说,nlp任务中最基础也最先需要进行的一步:tokenization。该操作的目地是将输入文本分割成一个个token,和词典配合以让机器认识文本。文本标记化可以按照词粒度进行标记化,词粒度的标记化就跟人类平时理解文本原理一样,常常用一些工具来完成,例如英文的nltk、spacy,中文的jieba、ltp等。词粒度的切分能够非常好地保留完整语义信息,但是如果出现拼写错误、英文中的缩写等情况,鲁棒性一般。
78.文本标记化还可以按照字粒度进行标记化,简单说英文就是以字母为单位(对于大小写不敏感的任务,甚至可以先转小写再切分),中文就是以字为单位,举个例子:
[0079]“欧拉是一名数学家“按字粒度进行标记化为“欧/拉/是/一/名/数/学/家”。将待分词的文本进行标记化后,得到待分词文本的标记序列,其中标记序列中标记(token)数为m。
[0080]
步骤s3,对所述标记序列中第i个标记掩码,并将掩码后的标记序列输入到预调优的mac

bert模型中,获得所述mac

bert模型输出的第一预测词向量。
[0081]
在本实施例中,对标记序列中第i个标记(token)掩码(mask),掩码是一串二进制代码对目标字段进行位与运算,屏蔽当前的输入位。对token掩码,即通过一串二进制代码0对屏蔽第i个标记。
[0082]
将掩码后的标记序列输入到预调优的mac

bert模型中,获得预调优的mac

bert模型输出的第i个标记的第一预测词向量。
[0083]
mac

bert是在bert的基础上用mlm(masked language model)校正bert,bert的全称是bidirectional encoder representation from transformers,即双向transformer的encoder。
[0084]
步骤s4,获取待分词文本;对分词文本进行标记化对所述标记序列中第i个标记和第i+1个标记掩码,并将掩码后的标记序列输入到预调优的mac

bert模型中,获得所述mac

bert模型输出的第二预测词向量。
[0085]
同时对标记序列中的第i个标记和第i+1个标记掩码,即同时将第i个token和与第i个token相邻的下一个token进行掩码,将掩码后的标记序列输入到预调优的mac

bert模型中,获得mac

bert模型输出的第i个标记的第二预测词向量。
[0086]
步骤s5,计算所述第一预测词向量和所述第二预测词向量的第一相似度。
[0087]
计算第一预测词向量和所述第二预测词向量的第一相似度。向量相似度的计算可以采用余弦相似度,欧氏距离,曼哈顿距离等。
[0088]
在本实施例中,取欧氏距离的倒数为第一相似度,当距离越大,第一相似度越小,表明第一预测词向量和第二预测词向量越不相似,表示标记序列中第i个标记和第i+1个标记越不相关,在分词时应该将第i个标记和第i+1个标记切分开。即l=1/d(u,v),d(u,v)=‖u

v‖2,其中u为第一预测词向量,v为第二预测词向量,d为欧氏距离,l为第一相似度。
[0089]
步骤s6,当所述第一相似度小于预设的阈值时,将所述第i个标记和所述第i+1个标记进行切分,记录切分位置。
[0090]
通过预设阈值,将第一相似度与预设的阈值比较,当第一相似度小于预设的阈值时,表明标记序列中第i个标记和第i+1个标记不相关,在分词时将第i个标记和第i+1个标记切分开,记录切分位置为i/i+1,这里用“/”表示切分位置。
[0091]
步骤s7,i取1到m

1,重复步骤s3至步骤s6,得到所有切分位置,根据每个切分位置对所述待分词文本进行分词,得到所述待分词文本的分词结果。
[0092]
i取1到m

1,重复上述步骤s3至s6,对所有标记完成切分,得到所有切分位置,根据每个切分位置对所述待分词文本进行分词,得到所述待分词文本的分词结果。
[0093]
例如,“欧拉是一名数学家“按字粒度进行标记化为“欧/拉/是/一/名/数/学/家”,先对“欧”进行掩码[mask],将“[mask]/拉/是/一/名/数/学/家”这一序列输入到预调优的mac

bert模型中,获得所述mac

bert模型输出的token1位置的第一预测词向量,然后同时将“欧”“拉”进行掩码,将“[mask]/[mask]/是/一/名/数/学/家”这一序列输入到预调优的mac

bert模型中,获得所述mac

bert模型输出的token1位置的第二预测词向量,如果第一预测词向量和第二预测词向量之间相似度小于预设的阈值,认为“欧”“拉”没有相关性,将“欧”“拉”切分开。否则,“欧拉”不进行切分。i取1到m

1,重复前述的步骤,最后得到的分词结果为“欧拉/是/一名/数学家”。
[0094]
本技术通过获取待分词文本;对分词文本进行标记化得到标记序列;先后对序列中第i个标记掩码,对第i个标记和第i+1个标记掩码,将掩码后的序列输入到预调优的mac

bert模型中,获得第i个标记的第一预测词向量和第二预测词向量;计算两者之间的相似度;当相似度小于预设的阈值时,将第i个标记和第i+1个标记进行切分。通过比较预测词向量的相似度,判断词间相关性,确定是否在掩码标记的位置进行词切分,相对与传统分词方法准确性更高,且基于无监督学习的mac

bert模型进行预调优使用的语料无须进行人工标注,节省了人力成本。
[0095]
在本实施例的一些可选的实现方式中,在步骤s3之前,上述电子设备还可以执行以下步骤:
[0096]
获取训练数据,并随机对所述训练数据中至少10%的数据进行掩码,得到掩码后的训练数据;
[0097]
将所述掩码后的训练数据输入到mac

bert模型中,获得所述mac

bert模型响应所
述掩码后的训练数据而输出的掩码位置的预测数据;
[0098]
通过softmax损失函数比较所述掩码位置的预测数据和被掩码前的数据的一致性;
[0099]
调整所述mac

bert模型中各节点的参数,至所述损失函数达到最小值时结束,得到预调优的mac

bert模型。
[0100]
在本实现方式中,mac

bert是在bert的基础上用mlm(masked language model)校正bert。对mac

bert模型进行预调优的过程为:获取训练数据,随机对所述训练数据中至少10%的数据进行掩码,得到掩码后的训练数据;将掩码后的训练数据输入到mac

bert模型中,获得mac

bert模型响应掩码后的训练数据而输出的掩码位置的预测数据;通过softmax损失函数比较掩码位置的预测数据和被掩码前的数据的一致性;调整所述mac

bert模型中各节点的参数,至softmax损失函数达到最小值时结束,得到预调优的mac

bert模型。
[0101]
训练数据掩码的数据可以为10%、20%、30%,掩码的词可以随机选择。
[0102]
对mac

bert模型进行预调优使用的语料随机选择,掩码标记无须进行人工标注,节省了人力成本。
[0103]
这里,无须事先进行样本标注对mac

bert模型进行训练学习称为无监督学习。
[0104]
参考图3,在一些可选的实现方式中,在步骤s5之后,上述电子设备可以执行以下步骤:
[0105]
s31:当所述第一相似度大于或等于预设的阈值时,对所述标记序列中第i个标记和第i+j个标记掩码,并将掩码后的标记序列输入到预调优的mac

bert模型中,获得所述mac

bert模型输出的第i个标记的第三预测词向量;
[0106]
s32:计算所述第一预测词向量和所述第三预测词向量的第二相似度;
[0107]
s33:j依次取2到m

i,重复步骤s31和步骤s32,至所述第二相似度小于预设的阈值时结束,获取j的当前值g;
[0108]
s34:根据所述j的当前值g,对第i+g

1个标记和所述第i+g个标记进行切分,记录切分位置。
[0109]
在本实现方式中,当第一相似度大于或等于预设的阈值时,首先同时对第i个标记和第i+2个标记掩码,将掩码后的标记序列输入到预调优的mac

bert模型中,计算第一预测词向量和述第三预测词向量的第二相似度,当第一相似度大于或等于预设的阈值时,而第二相似度小于预设的阈值,认为第i个标记和第i+1个标记相关,不能切分,切分位置在第i+1个标记和第i+2个标记之间,记录切分位置为i i+1/i+2。
[0110]
当第二相似度大于或等于预设的阈值时,认为第i个标记、第i+1个标记、第i+2个标记相关,不能切分,在对第i个标记和第i+3个标记掩码,重复上述步骤。
[0111]
即j依次取2到m

i,重复上述步骤s31和s32,至第二相似度小于预设的阈值时结束,获取j的当前值g;根据j的当前值g,对第i+g

1个标记和所述第i+j个标记进行切分,记录切分位置为i i+1...i+g

1/i+g,表示从第i个标记到第i+g

1个标记之间都不进行切分,在第i+g

1个标记到第i+g个标记之间进行切分。
[0112]
切分后,将i更新为i+g,重复步骤s3至步骤s6,直到得到所有切分位置,根据切分位置对待分词文本进行分词,得到待分词文本的分词结果。即认为第i+g个标记之前已经完成切分,从第i+g个标记开始重复s3至s6的步骤,开始新的切分,直到所有标记切分完成。
[0113]
在一些可选的实现方式中,在步骤s5之后,上述电子设备可以执行以下步骤:
[0114]
当所述第一相似度大于或等于预设的阈值时,令i的取值依次+1,重复步骤s3至步骤s6,直至所述第一相似度小于预设的阈值时结束,获取i的当前值r;
[0115]
根据i的当前值r,对第r

1个标记和第r个标记进行切分,记录切分位置。
[0116]
在本实现方式中,当所述第一相似度大于或等于预设的阈值时,此时记录i的值,这里称为初始值a,令i的取值依次+1,重复s3至s6,直至所述第一相似度小于预设的阈值时结束,获取i的当前值r。即当i为1,经过步骤s3至s6,如果得到第一相似度大于或等于预设的阈值,认为第1个标记和第2个标记相关,不能切分。再令i为2,同样经过步骤s3至s6处理,如果得到第一相似度大于或等于预设的阈值认为第2个标记和第3个标记相关,不能切分。令i的取值依次+1,重复s3至s6,直至第一相似度小于预设的阈值时结束,获取i的当前值r。
[0117]
根据i的初始值a和r的当前值,记录切分位置为a a+1...r

1/r。例如i初始值为1,当前值为3,则切分位置为token1 token2/token3。
[0118]
本技术可用于众多通用或专用的计算机系统环境或配置中。例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络pc、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。本技术可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本技术,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
[0119]
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机可读指令来指令相关的硬件来完成,该计算机可读指令可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,前述的存储介质可为磁碟、光盘、只读存储记忆体(read

only memory,rom)等非易失性存储介质,或随机存储记忆体(random access memory,ram)等。
[0120]
应该理解的是,虽然附图的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序执行。而且,附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
[0121]
进一步参考图4,作为对上述图2所示方法的实现,本技术提供了一种基于无监督学习的分词装置的一个实施例,该装置实施例与图2所示的方法实施例相对应,该装置具体可以应用于各种电子设备中。
[0122]
如图4所示,本实施例所述的基于无监督学习的分词装置400包括:获取模块401、标记模块402、第二预测模块403、第二预测模块404、计算模块405、切分模块406以及循环模块407。其中:
[0123]
获取模块401,用于获取待分词文本;
[0124]
标记模块402,用于对所述待分词文本进行标记化,得到所述待分词文本的标记序
列,其中所述标记序列包含m个标记;
[0125]
第一预测模块403,用于对所述标记序列中第i个标记掩码,并将掩码后的标记序列输入到预调优的mac

bert模型中,获得所述mac

bert模型输出的第一预测词向量;
[0126]
第二预测模块404,用于获取待分词文本;对分词文本进行标记化对所述标记序列中第i个标记和第i+1个标记掩码,并将掩码后的标记序列输入到预调优的mac

bert模型中,获得所述mac

bert模型输出的第二预测词向量;
[0127]
计算模块405,用于计算所述第一预测词向量和所述第二预测词向量的第一相似度;
[0128]
切分模块406,用于当所述第一相似度小于预设的阈值时,将所述第i个标记和所述第i+1个标记进行切分,记录切分位置;
[0129]
循环模块407,用于i取1到m

1,重复调用所述第一预测模块到所述切分模块,得到所有切分位置,根据每个切分位置对所述待分词文本进行分词,得到所述待分词文本的分词结果。
[0130]
在本实施例中,通过获取待分词文本;对分词文本进行标记化得到标记序列;先后对序列中第i个标记掩码,对第i个标记和第i+1个标记掩码,将掩码后的序列输入到预调优的mac

bert模型中,获得第i个标记的第一预测词向量和第二预测词向量;计算两者之间的相似度;当相似度小于预设的阈值时,将第i个标记和第i+1个标记进行切分。通过比较预测词向量的相似度,判断词间相关性,确定是否在掩码标记的位置进行词切分,相对与传统分词方法准确性更高,且基于无监督学习的mac

bert模型进行预调优使用的语料无须进行人工标注,节省了人力成本。
[0131]
在本实施例的一些可选的实现方式中,所述基于无监督学习的分词装置,还包括:
[0132]
第一获取子模块,用于获取训练数据,并随机对所述训练数据中至少10%的数据进行掩码,得到掩码后的训练数据;
[0133]
第一预测子模块,用于将所述掩码后的训练数据输入到mac

bert模型中,获得所述mac

bert模型响应所述掩码后的训练数据而输出的掩码位置的预测数据;
[0134]
第一比较子模块,用于通过softmax损失函数比较所述掩码位置的预测数据和被掩码前的数据的一致性;
[0135]
第一调整子模块,用于调整所述mac

bert模型中各节点的参数,至所述损失函数达到最小值时结束,得到预调优的mac

bert模型。
[0136]
在本实施例的一些可选的实现方式中,所述基于无监督学习的分词装置,还包括:
[0137]
第二预测子模块,用于当所述第一相似度大于或等于预设的阈值时,对所述标记序列中第i个标记和第i+j个标记掩码,并将掩码后的标记序列输入到预调优的mac

bert模型中,获得所述mac

bert模型输出的第i个标记的第三预测词向量;
[0138]
第一计算子模块,用于计算所述第一预测词向量和所述第三预测词向量的第二相似度;
[0139]
第一循环子模块,用于j依次取2到m

i,重复调用所述第二预测子模块和所述第一计算子模块,至所述第二相似度小于预设的阈值时结束,获取j的当前值g;
[0140]
第一切分子模块,用于根据所述j的当前值g,对第i+g

1个标记和所述第i+g个标记进行切分,记录切分位置。
[0141]
在本实施例的一些可选的实现方式中,所述基于无监督学习的分词装置,还包括:
[0142]
第二循环子模块,用于当所述第一相似度大于或等于预设的阈值时,令i的取值依次+1,重复调用所述第一预测模块到所述切分模块,直至所述第一相似度小于预设的阈值时结束,获取i的当前值r;
[0143]
第一切分子模块,用于根据i的当前值r,对第r

1个标记和第r个标记进行切分,记录切分位置。
[0144]
在本实施例的一些可选的实现方式中,在计算模块405中,所述第一相似度按照下述算法计算:
[0145]
l=1/d(u,v),d(u,v)=‖u

v‖2,其中u为第一预测词向量,v为第二预测词向量,d为欧氏距离,l为第一相似度。
[0146]
为解决上述技术问题,本技术实施例还提供计算机设备。具体请参阅图5,图5为本实施例计算机设备基本结构框图。
[0147]
所述计算机设备5包括通过系统总线相互通信连接存储器51、处理器52、网络接口53。需要指出的是,图中仅示出了具有组件51

53的计算机设备5,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。其中,本技术领域技术人员可以理解,这里的计算机设备是一种能够按照事先设定或存储的指令,自动进行数值计算和/或信息处理的设备,其硬件包括但不限于微处理器、专用集成电路(application specific integrated circuit,asic)、可编程门阵列(field-programmable gate array,fpga)、数字处理器(digital signal processor,dsp)、嵌入式设备等。
[0148]
所述计算机设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述计算机设备可以与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互。
[0149]
所述存储器51至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,sd或dx存储器等)、随机访问存储器(ram)、静态随机访问存储器(sram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、可编程只读存储器(prom)、磁性存储器、磁盘、光盘等。在一些实施例中,所述存储器51可以是所述计算机设备5的内部存储单元,例如该计算机设备5的硬盘或内存。在另一些实施例中,所述存储器51也可以是所述计算机设备5的外部存储设备,例如该计算机设备5上配备的插接式硬盘,智能存储卡(smart media card,smc),安全数字(secure digital,sd)卡,闪存卡(flash card)等。当然,所述存储器51还可以既包括所述计算机设备5的内部存储单元也包括其外部存储设备。本实施例中,所述存储器51通常用于存储安装于所述计算机设备5的操作系统和各类应用软件,例如基于无监督学习的分词方法的计算机可读指令等。此外,所述存储器51还可以用于暂时地存储已经输出或者将要输出的各类数据。
[0150]
所述处理器52在一些实施例中可以是中央处理器(central processing unit,cpu)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器52通常用于控制所述计算机设备5的总体操作。本实施例中,所述处理器52用于运行所述存储器51中存储的计算机可读指令或者处理数据,例如运行所述基于无监督学习的分词方法的计算机可读指令。
[0151]
所述网络接口53可包括无线网络接口或有线网络接口,该网络接口53通常用于在所述计算机设备5与其他电子设备之间建立通信连接。
[0152]
通过获取待分词文本;对分词文本进行标记化得到标记序列;先后对序列中第i个标记掩码,对第i个标记和第i+1个标记掩码,将掩码后的序列输入到预调优的mac

bert模型中,获得第i个标记的第一预测词向量和第二预测词向量;计算两者之间的相似度;当相似度小于预设的阈值时,将第i个标记和第i+1个标记进行切分。通过比较预测词向量的相似度,判断词间相关性,确定是否在掩码标记的位置进行词切分,相对与传统分词方法准确性更高,且基于无监督学习的mac

bert模型进行预调优使用的语料无须进行人工标注,节省了人力成本。
[0153]
本技术还提供了另一种实施方式,即提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可读指令,所述计算机可读指令可被至少一个处理器执行,以使所述至少一个处理器执行如上述的基于无监督学习的分词方法的步骤。
[0154]
通过获取待分词文本;对分词文本进行标记化得到标记序列;先后对序列中第i个标记掩码,对第i个标记和第i+1个标记掩码,将掩码后的序列输入到预调优的mac

bert模型中,获得第i个标记的第一预测词向量和第二预测词向量;计算两者之间的相似度;当相似度小于预设的阈值时,将第i个标记和第i+1个标记进行切分。通过比较预测词向量的相似度,判断词间相关性,确定是否在掩码标记的位置进行词切分,相对与传统分词方法准确性更高,且基于无监督学习的mac

bert模型进行预调优使用的语料无须进行人工标注,节省了人力成本。
[0155]
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本技术的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如rom/ram、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本技术各个实施例所述的方法。
[0156]
显然,以上所描述的实施例仅仅是本技术一部分实施例,而不是全部的实施例,附图中给出了本技术的较佳实施例,但并不限制本技术的专利范围。本技术可以以许多不同的形式来实现,相反地,提供这些实施例的目的是使对本技术的公开内容的理解更加透彻全面。尽管参照前述实施例对本技术进行了详细的说明,对于本领域的技术人员来而言,其依然可以对前述各具体实施方式所记载的技术方案进行修改,或者对其中部分技术特征进行等效替换。凡是利用本技术说明书及附图内容所做的等效结构,直接或间接运用在其他相关的技术领域,均同理在本技术专利保护范围之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1