一种领域词库构建方法和装置与流程

文档序号：22967362发布日期：2020-11-19 21:41阅读：126来源：国知局

本公开属于计算机技术领域，具体涉及一种领域词库构建方法和装置。

背景技术：

特定领域的信息检索依赖有效的领域术语作为检索关键词，以工业信息领域为例，工业信息领域发展迅速，新的词汇不断涌现，及时发现并构建领域词库对领域语言理解有着重要作用。在现有技术中，领域词库的构建方法主要包括基于规则的方法和基于统计的方法，基于规则的方法主要是根据领域术语的构词特点、句法特点以及领域特点建立特征模板，然后从语料中抽取与模板相匹配的词语，该方法对规则制定和模板质量要求较高，不能涵盖特定领域的所有语言现象，导致召回率不高；基于统计的方法主要依赖于各种统计量的计算，包括词频、互信息、信息熵等，需要大规模语料库的支撑，对语料的质量也有较高的要求，综上所述，现有的领域词库构建方法中，存在规则制定难度大、移植性差，或者存在新词发现困难、需要大量标记语料的问题。

技术实现要素：

本公开旨在至少解决现有技术中存在的技术问题之一，提供一种领域词库构建方法和装置。

本公开的一个方面，提供一种领域词库构建方法，所述方法包括：

确定待构建词库的领域；

根据所述领域获取对应的领域文本；

从所述领域文本中提取所有关键词，得到初始词库；

对所述初始词库中的多个关键词进行标记，构建得到训练数据集；

利用所述训练数据集对预设的预训练模型进行训练；

利用经过训练的预训练模型对所述初始词库中的关键词进行预测，根据预测结果得到领域词库。

可选的，所述对所述初始词库中的多个关键词进行标记，构建得到训练数据集，包括：

对所述初始词库中的第一预设数量的关键词作出保留标记，以及，

对所述初始词库中的第二预设数量的关键词作出删除标记；并且，

所述第一预设数量和所述第二预设数量之间存在预设的比例关系。

可选的，所述利用所述训练数据集对预设的预训练模型进行训练，包括：

将所述训练数据集按照预设的训练比例分为训练数据子集、验证数据子集和测试数据子集；

基于所述预训练模型构建多个分类器，并利用所述训练数据子集对所述多个分类器进行训练；

利用所述验证数据子集对经过训练的多个分类器进行验证，并选取准确度最高的分类器作为所述经过训练的预训练模型；

利用所述测试数据子集对所述经过训练的预训练模型进行测试，并记录测试准确度。

可选的，所述利用经过训练的预训练模型对所述初始词库中的关键词进行预测，根据预测结果得到领域词库，包括：

利用所述经过训练的预训练模型对所述初始词库中的关键词进行预测，选择预测结果为保留的关键词作为所述领域词库。

可选的，所述预训练模型采用预训练bert模型。

本公开的另一个方面，提供一种领域词库构建装置，所述装置包括：

确定模块，用于确定待构建词库的领域；

获取模块，用于根据所述领域获取对应的领域文本；

提取模块，用于从所述领域文本中提取所有的关键词，得到初始词库；

标记模块，用于对所述初始词库中的多个关键词进行标记，构建得到训练数据集；

训练模块，用于利用所述训练数据集对预设的预训练模型进行训练；

领域词库构建模块，用于利用经过训练的预训练模型对所述初始词库中的关键词进行预测，根据预测结果得到领域词库。

可选的，所述标记模块还包括：

保留标记子模块，用于对所述初始词库中的第一预设数量的关键词作出保留标记；

删除标记子模块，用于对所述初始词库中的第二预设数量的关键词作出删除标记；其中，

所述第一预设数量和所述第二预设数量之间存在预设的比例关系。

可选的，所述训练模块还包括：

分类子模块，用于将所述训练数据集按照预设的训练比例分为训练数据子集、验证数据子集和测试数据子集；

训练子模块，用于基于所述预训练模型构建多个分类器，并利用所述训练数据子集对所述多个分类器进行训练；

验证子模块，用于利用所述验证数据子集对经过训练的多个分类器进行验证，并选取准确度最高的分类器作为所述经过训练的预训练模型；

测试子模块，用于利用所述测试数据子集对所述经过训练的预训练模型进行测试，并记录测试准确度。

一种电子设备，包括：

一个或多个处理器；

存储单元，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，能使得所述一个或多个处理器实现根据前文记载的方法。

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时能实现根据前文记载的方法。

本公开实施例的一种领域词库构建方法和装置中，根据特定的领域获取领域文本、提取其中的关键词，在此基础上进行关键词的标记，构建训练数据集，并据此对预训练模型进行训练，根据训练后的预训练模型对领域词语进行预测，根据预测结果构建领域词库，在关键词提取的基础上进行模型训练，提高预训练模型训练的效率和准确度，从而提高构建词库的效率和准确度。

附图说明

图1为用于实现根据本公开一实施例的一种领域词库构建方法和装置的示例电子设备的示意性框图；

图2为本公开另一实施例的一种领域词库构建方法的流程示意图；

图3为本公开另一实施例的步骤s140的流程示意图；

图4为本公开另一实施例的步骤s150的流程示意图；

图5为本公开另一实施例的步骤s160的流程示意图；

图6为本公开另一实施例的一种领域词库构建装置的结构示意图。

具体实施方式

为使本领域技术人员更好地理解本公开的技术方案，下面结合附图和具体实施方式对本公开作进一步详细描述。显然，所描述的实施例是本公开的一部分实施例，而不是全部的实施例。基于所描述的本公开的实施例，本领域普通技术人员在无需创造性劳动的前提下所获得的所有其他实施例，都属于本公开保护的范围。

除非另外具体说明，本公开中使用的技术术语或者科学术语应当为本公开所属领域内具有一般技能的人士所理解的通常意义。本公开中使用的“包括”或者“包含”等既不限定所提及的形状、数字、步骤、动作、操作、构件、原件和/或它们的组，也不排除出现或加入一个或多个其他不同的形状、数字、步骤、动作、操作、构件、原件和/或它们的组，或加入这些。此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量与顺序。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本公开的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

在发明的一些描述中，除非另有明确的规定和限定，术语“安装”、“连接”、“相连”或者“固定”等类似的词语并非限定于物理的或者机械的连接，而是可以包括电性的连接，不管是直接的还是通过中间媒体间接连接，可以是两个元件内部的连通或者两个元件的互相作用关系。

除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对设置、数字表达式和数值不限制本公开的范围。同时，应当明白，为了便于描述，附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的，对于相关领域普通技术人员已知的技术，方法和设备可能不作详细讨论，但在适当情况下，所示技术、方法和设备应当被视为授权说明书的一部分。在这里示出和讨论的所有示例中，任何具体的其他示例可以具有不同的值。应注意到：相似的符号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进一步讨论。

在更加详细地讨论之前应当提到的是，一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各项操作(步骤)描述成顺序的处理，但是其中的许多操作可以被并行地、并发地或者同时实施。此外，各项操作的顺序可以被重新安排。当操作完成时所述处理可以被终止，但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。

首先，参照图1来描述用于实现本公开实施例的一种领域词库构建方法和装置的示例电子设备。

如图1所示，电子设备200包括一个或多个处理器210、一个或多个存储装置220、输入装置230、输出装置240等，这些组件通过总线系统和/或其他形式的连接机构250互连。应当注意，图1所示的电子设备的组件和结构只是示例性的，而非限制性的，根据需要，所述电子设备也可以具有其他组件和结构。

所述处理器210可以是中央处理单元(cpu)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元，并且可以控制所述电子设备中的其他组件以执行期望的功能。

所述存储装置220可以包括一个或多个计算机程序产品，所述计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(ram)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(rom)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器可以运行所述程序指令，以实现下文所述的本公开实施例中(由处理器实现)的客户端功能以及/或者其他期望的功能。在所述计算机可读存储介质中还可以存储各种应用程序和各种数据，例如，所述应用程序使用和/或产生的各种数据等。

所述输入装置230可以是用户用来输入指令的装置，并且可以包括键盘、鼠标、麦克风和触摸屏等中的一个或多个。

所述输出装置240可以向外部(例如用户)输出各种信息(例如图像或声音)，并且可以包括显示器、扬声器等中的一个或多个。

示例性地，用于实现根据本公开实施例的一种领域词库构建方法和装置的示例电子设备可以被实现为诸如智能手机、平板电脑。

下面，将参考图2描述根据本公开实施例的一种领域词库构建方法。

如图2所示，一种领域词库构建方法s100，包括：

s110：确定待构建的领域。

具体地，在本步骤中，根据具体需求确定待构建的领域，该领域可以包括技术领域，例如计算机领域、建筑领域等，也可以包括其他领域，例如电商领域等，本实施例中不进行具体限制。

s120：根据所述领域获取对应的领域文本。

具体地，在本步骤中，可使用任意方式获取待构建领域文本，示例性的，可通过抓取与待构建领域对应的互联网网页来得到对应的领域文本，示例性的，该互联网网页可包括科普性网页、论文网站等具有专业性的网页，也可以包括利用搜索引擎抓取互联网新闻类网页、网络社区网页或博客网页等，示例性的，该领域文本可包括学术会议、学术期刊等具有专业性的文本，也可以包括博客等非专业性文本，本领域技术人员还可通过其他方式获取待构建领域的文本，例如从刊物等纸质文件中获取，本实施例中不进行具体限制。

s130：从所述领域文本中提取所有的关键词，得到初始词库。

具体地，在本步骤中，可使用任意方式提取关键词，示例性的，可采用爬虫技术抓取互联网网页中的关键词，本领域技术人员还可通过其他方式提取关键词，本实施例中不进行具体限制。需要说明的是，该关键词包括领域文本中已经被标记过的关键词，示例性的，若从cnki等论文网站中获取领域文本，一般情况下，论文网站中已经对该文本建立了的关键词标签，对领域文本进行了关键词标记，此时，可直接提取此类信息作为关键词，使用这种方式提取关键词可有效利用网页中已标记的数据，提高关键词提取的效率和准确度；此外，该关键词还可以包括领域文本中未被标记过的关键词，示例性的，若从博客等网页中获取领域文本，博客网页可能并未对该文本进行关键词标记，此时，可通过关键词提取算法从领域文本中提取关键词，使用这种方式提取关键词可有效利用网页中未标记的数据，可提高对新词的识别，提高关键词提取的全面性。

s140：对所述初始词库中的多个关键词进行标记，构建得到训练数据集。

具体地，在本步骤中，根据预设的分类对多个关键词进行标记，示例性的，预设的分类可以为保留和删除，标记为保留的关键词最后用于构建领域词库，标记为删除的关键词最后不用于构建领域词库，除此之外，本领域技术人员还可根据其他方式对关键词进行分类标记，本实施例中不进行具体限制。示例性的，本步骤中可使用人工标记的方法对多个关键词进行标记，从而保证构建得到的训练数据集的准确性。

s150：利用所述训练数据集对预设的预训练模型进行训练。

具体地，在本步骤中，该预训练模型为根据实际情况选取的可实现词语分类预测功能的模型，通过训练数据集对该预训练模型进行训练，得到符合待构建领域词语特征的预训练模型。

s160：利用经过训练的预训练模型对所述初始词库中的关键词进行预测，根据预测结果得到领域词库。

具体地，在本步骤中，使用经过训练的预训练模型对初始词库中关键词按照步骤s140中预设的分类进行标记，例如，标记为保留或删除，完成对关键词的预测。

本公开实施例的一种领域词库构建方法，根据特定的领域获取领域文本、提取其中的关键词，在此基础上进行关键词的标记，构建训练数据集，并据此对预训练模型进行训练，根据训练后的预训练模型对领域词语进行预测，根据预测结果构建领域词库，在关键词提取的基础上构建训练数据集、进行模型训练，提高预训练模型训练的效率和准确度，从而提高构建词库的效率和准确度。

下面结合图3，进一步阐述训练数据集的构建方法。

示例性的，如图3所示，步骤s140具体包括：

s141：对所述初始词库中的第一预设数量的关键词作出保留标记。

具体地，在本步骤中，可随机从初始词库中抽取关键词，并通过人工阅读判断其是否应该属于待构建领域内的关键词，若是，则将该抽取到的关键词标记为保留，循环进行上述抽取与标记的过程，直至标记为保留的关键词的数量达到预设的第一预设数量为止。示例性的，可根据实际情况设置第一预设数量，例如，第一预设数量为500，或者第一预设数量在初始词库中关键词的总数量中所占的比例超过预设的比例，以保证构建的训练数据集中包含足够数量的标记为保留的关键词，从而保证后续对预训练模型训练的准确度。

需要说明的是，本步骤中仅示例性的将关键词标记为保留，本领域技术人员也可将其标记为其他任意可具有“保留”含义的词语，例如，保存、留存等，本实施例中不进行具体限制。

s142：对所述初始词库中的第二预设数量的关键词作出删除标记。

具体地，在本步骤中，可随机从初始词库中抽取关键词，并通过人工阅读判断其是否应该属于待构建领域内的关键词，若否，则将该抽取到的关键词标记为删除，循环进行上述抽取与标记的过程，直至标记为删除的关键词的数量达到预设的第二预设数量为止。示例性的，可根据实际情况设置第二预设数量，例如，第二预设数量为500，或者第二预设数量在初始词库中关键词的总数量中所占的比例超过预设的比例，以保证构建的训练数据集中包含足够数量的标记为删除的关键词，从而保证后续对预训练模型训练的准确度。

需要说明的是，本步骤中仅示例性的将关键词标记为删除，本领域技术人员也可将其标记为其他任意可具有“删除”含义的词语，例如，删去、去掉等，本实施例中不进行具体限制。

示例性的，所述第一预设数量和所述第二预设数量之间存在预设的比例关系，该比例关系可根据实际需求进行设置，例如，该比例关系可为1:1，也就是说，标记为保留的关键词与标记为删除的关键词的数量相同，以使得训练数据集中两种关键词的数量均衡，从而使得经过训练的预训练模型对两种关键词的识别能力相同，提高经过训练的预训练模型的预测准确度和均衡性。

需要说明的是，步骤s141和步骤s142并无先后顺序，可按任意先后顺序执行步骤s141和步骤s142，也可同时执行步骤s141和步骤s142。

下面结合图4，进一步阐述预设的预训练模型的训练方法。

示例性的，如图4所示，步骤s150具体包括：

s151：将所述训练数据集按照预设的训练比例分为训练数据子集、验证数据子集和测试数据子集。

具体地，在本步骤中，可根据实际情况设置该预设的训练比例，示例性的，训练数据子集中的关键词数量大于验证数据子集和测试数据子集中的关键词数量，保证训练数据子集中关键词达到足够的数量，提高训练的全面性和稳定性，例如，按8:1:1的训练比例将训练数据集中的关键词进行分类，分别得到训练数据子集、验证数据子集和测试数据子集。

s152：基于所述预训练模型构建多个分类器，并利用所述训练数据子集对所述多个分类器进行训练。

具体地，在本步骤中，分别对预训练模型进行不同的设置，从而得到多个分类器，在此基础上，将训练数据子集中的多个关键词分别输入至多个分类器中，并根据已标记的保留和删除对分类器输出的分类结果进行校正，循环多次上述过程，以完成对分类器的训练。

s153：利用所述验证数据子集对经过训练的多个分类器进行验证，并选取准确度最高的分类器作为所述经过训练的预训练模型。

具体地，在本步骤中，将验证数据子集中的多个关键词分别输入至多个经过训练的分类器中，并根据已标记的保留和删除对分类器输出的分类结果进行验证，根据验证结果得到每个分类器的准确度，将其中准确度最高的分类器作为经过训练的预训练模型。

s154：利用所述测试数据子集对经过训练的预训练模型进行测试，并记录测试准确度。

具体地，在本步骤中，将测试数据子集中的多个关键词输入至经过训练的预训练模型中，并根据已标记的保留和删除对经过训练的预训练模型输出的分类结果进行测试，得到其测试准确度，示例性的，若该测试准确度不符合预设的准确度要求、准确度太低，可重新执行上述步骤s151至s154，直至测试准确度符合预设的准确度要求。

具体地，由于训练数据集中标记为保留的关键词为属于待构建领域内的关键词，标记为删除的关键词为不属于待构建领域内的关键词，因此，经过训练的预训练模型可根据关键词是否属于待构建领域来进行分类，将属于待构建领域内的关键词分类为保留，将不属于待构建领域内的关键词分类为删除。

下面结合图5，进一步阐述根据预测结构构建领域词库的方法。

示例性的，如图5所示，步骤s160具体包括：

s161：利用经过训练的预训练模型对所述初始词库中的关键词进行预测。

具体地，在本步骤中，将初始词库中的关键词输入至经过训练的预训练模型中，经过训练的预训练模型将关键词分类为保留或删除，完成对关键词分类的预测。

s162：选择预测结果为保留的关键词作为所述领域词库。

具体地，在本步骤中，预测结果为保留的关键词，也就是分类为保留的关键词，为属于待构建领域内的关键词，因此，保留该部分关键词，形成领域词库。

示例性的，在本实施例中，预训练模型可采用任意可实现分类功能的模型，例如预训练bert模型等。

本公开实施例的一种领域词库构建方法，按照预设的数量关系将初始词库中的关键词标记为保留或删除，为预训练模型构建了一个准确、全面的数据集，提高对预训练模型训练的准确度和效率；将训练数据集按照预设的训练比例分为训练数据子集、验证数据子集和测试数据子集，分别对预训练模型进行训练、验证和测试，保证经过训练的预训练模型的准确度，提高训练的可靠性和准确性；由于经过训练的预训练模型能够准确对关键词进行分类，因此，利用经过训练的预训练模型对初始词库中的关键词进行预测，选择预测结果为保留的关键词作为所述领域词库，能够有效准确的完成关键词的分类，从而有效准确的构建领域词库。

下面，将参考图6描述根据本公开另一实施例的一种领域词库构建装置。

示例性的，如图6所示，一种领域词库构建装置100包括

确定模块110，用于确定待构建词库的领域。

获取模块120，用于根据所述领域获取对应的领域文本。

提取模块130，用于从所述领域文本中提取所有的关键词，得到初始词库。

标记模块140，用于对所述初始词库中的多个关键词进行标记，构建得到训练数据集。

训练模块150，用于利用所述训练数据集对预设的预训练模型进行训练。

领域词库构建模块160，用于利用经过训练的预训练模型对所述初始词库中的关键词进行预测，根据预测结果得到领域词库。

本公开实施例的一种领域词库构建装置，可根据特定的领域获取领域文本、提取其中的关键词，在此基础上进行关键词的标记，构建训练数据集，并据此对预训练模型进行训练，根据训练后的预训练模型对领域词语进行预测，根据预测结果构建领域词库，在关键词提取的基础上进行模型训练，提高预训练模型训练的效率和准确度，从而更高效更准确的构建领域词库。

示例性的，如图6所示，标记模块140还包括：

保留标记子模块141，用于对所述初始词库中的第一预设数量的关键词作出保留标记。

删除标记子模块142，用于对所述初始词库中的第二预设数量的关键词作出删除标记。

其中，所述第一预设数量和所述第二预设数量之间存在预设的比例关系。

示例性的，如图6所示，训练模块150还包括：

分类子模块151，用于将所述训练数据集按照预设的训练比例分为训练数据子集、验证数据子集和测试数据子集。

训练子模块152，用于基于所述预训练模型构建多个分类器，并利用所述训练数据子集对所述多个分类器进行训练。

验证子模块153，用于利用所述验证数据子集对经过训练的多个分类器进行验证，并选取准确度最高的分类器作为所述经过训练的预训练模型。

测试子模块154，用于利用所述测试数据子集对经过训练的预训练模型进行测试，并记录测试准确度。

本公开实施例的一种领域词库构建装置，可按照预设的数量关系将初始词库中的关键词标记为保留或删除，为预训练模型构建了一个准确、全面的数据集，提高对预训练模型训练的准确度和效率；将训练数据集按照预设的训练比例分为训练数据子集、验证数据子集和测试数据子集，分别对预训练模型进行训练、验证和测试，保证经过训练的预训练模型的准确度，提高训练的可靠性和准确性，能够有效准确的完成关键词的分类，从而有效准确的构建领域词库。

其中，计算机可读介质可以是本公开的装置、设备、系统中所包含的，也可以是单独存在。

其中，计算机可读存储介质可是任何包含或存储程序的有形介质，其可以是电、磁、光、电磁、红外线、半导体的系统、装置、设备，更具体的例子包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、光纤、随机访问存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、便携式紧凑磁盘只读存储器(cd-rom)、光存储器件、磁存储器件，或它们任意合适的组合。

其中，计算机可读存储介质也可包括在基带中或作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码，其具体的例子包括但不限于电磁信号、光信号，或它们任意合适的组合。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本公开的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

可以理解的是，以上实施方式仅仅是为了说明本公开的原理而采用的示例性实施方式，然而本公开并不局限于此。对于本领域内的普通技术人员而言，在不脱离本公开的精神和实质的情况下，可以做出各种变型和改进，这些变型和改进也视为本公开的保护范围。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：汪良果;许文文;张峰
技术所有人：中国电子科技集团公司信息科学研究院
我是此专利的发明人

上一篇：一种数据处理方法、装置和用于数据处理的装置与流程
上一篇：文本数据增强方法及知识元抽取方法与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。