基于小样本学习的关键词提取方法及装置与流程

文档序号:33554420发布日期:2023-03-22 11:12阅读:74来源:国知局
基于小样本学习的关键词提取方法及装置与流程

1.本技术涉及人工智能技术领域,具体涉及一种基于小样本学习的关键词提取方法及装置。


背景技术:

2.目前,已有大量基于通用领域的关键词提取模型,并主要分为无监督和有监督两种类型。但在通信细分领域中,客服通信数据量庞大,构建语料库的成本也相应提升,且为之后的修正更新带来新的困难,因此已往的关键词提取模型存在几个问题:(1)使用无监督的方法提取关键词往往存在准确率较低、提取出的主题词与文档关联较弱、不能很好地诠释文档主题等问题,而有监督的方法虽然在关键词提取的准确度上有了提升,却需要大量的高质量人工标注的语料。建立细分领域下的大规模高质量的标注训练集需要大量的人工成本,并不现实。(2)客户用语随意,存在口语词汇多、通篇使用方言或者普通话中夹杂方言的现象。(3)训练成本高,大规模样本的训练需要耗费大量的训练时间和算力。
3.也即,现有技术中关键词提取方法准确度比较低。


技术实现要素:

4.本技术旨在提供一种基于小样本学习的关键词提取方法及装置,旨在解决现有技术中关键词提取方法准确度比较低的问题。
5.一方面,本技术提供一种基于小样本学习的关键词提取方法,所述基于小样本学习的关键词提取方法包括:
6.获取第一文本数据;
7.将第一文本数据输入bilstm模型,得到预设长度的文本序列;
8.将文本序列输入bilstm-crf模型,得到所述第一文本数据的第一关键词列表;
9.将所述第一文本数据输入预设关键词提取模型进行关键词提取,得到所述第一文本数据的第二关键词列表;
10.判断所述第一关键词列表和所述第二关键词列表是否相同;
11.若所述第一关键词列表和所述第二关键词列表不相同,则利用所述第一文本数据更新bilstm模型和bilstm-crf模型;若所述第一关键词列表和所述第二关键词列表相同,则将所述第一文本数据的第一关键词列表确定为提取出来的目标关键词列表。
12.进一步的,所述获取第一文本数据,包括:
13.获取通信对话语音数据;
14.对通信对话语音数据进行语音识别,得到第二文本数据;
15.根据第二文本数据确定第一文本数据。
16.进一步的,所述根据第二文本数据确定第一文本数据,包括:
17.根据预设方言词典判断第二文本数据的方言类型;
18.根据第二文本数据的方言类型确定对应的方言普通话映射字典;
19.根据方言普通话映射字典将第二文本数据映射至普通话类型的第三文本数据;
20.根据第三文本数据确定第一文本数据。
21.进一步的,所述根据第三文本数据确定第一文本数据,包括:
22.将第三文本数据中的同义词合并,得到同义词合并文本数据;
23.将同义词合并文本数据输入目标摘要生成模型进行降维,得到第一文本数据。
24.进一步的,所述目标摘要生成模型包括编码器子模型和解码器子模型,编码器子模型的网络层包括多头自注意机制子网络层和全连接前馈子网络层;解码器子模型的网络层包括多头自注意机制子网络层、注意力子网络层和全连接前馈子网络层。
25.进一步的,所述将第一文本数据输入bilstm模型,得到预设长度的文本序列,包括:
26.将第一文本数据的预设语气词和预设无意义词剔除,得到剔除后文本数据;
27.将剔除后文本数据输入预训练的字向量模型,对剔除后文本数据的字进行读取,获取字向量列表;
28.将字向量列表输入bilstm模型,得到预设长度的文本序列。
29.进一步的,所述获取第一文本数据之前,包括:
30.对训练文本集进行文本预处理,得到预处理文本数据;
31.对预处理文本数据进行预设语气词和预设无意义词剔除、特征词语提取以及修复标注,得到目标训练向量和对应的目标标签数据;
32.基于目标训练向量和对应的目标标签数据对bilstm-crf模型进行训练。
33.一方面,本技术提供一种基于小样本学习的关键词提取装置,所述基于小样本学习的关键词提取装置包括:
34.获取单元,用于获取第一文本数据;
35.文本获取单元,用于将第一文本数据输入bilstm模型,得到预设长度的文本序列;
36.第一关键词提取单元,用于将文本序列输入bilstm-crf模型,得到所述第一文本数据的第一关键词列表;
37.第二关键词提取单元,将所述第一文本数据输入预设关键词提取模型进行关键词提取,得到所述第一文本数据的第二关键词列表;
38.判断单元,用于判断所述第一关键词列表和所述第二关键词列表是否相同;
39.确定单元,若所述第一关键词列表和所述第二关键词列表不相同,则利用所述第一文本数据更新bilstm模型和bilstm-crf模型;若所述第一关键词列表和所述第二关键词列表相同,则将所述第一文本数据的第一关键词列表确定为提取出来的目标关键词列表。
40.进一步的,所述获取单元,用于:
41.获取通信对话语音数据;
42.对通信对话语音数据进行语音识别,得到第二文本数据;
43.根据第二文本数据确定第一文本数据。
44.进一步的,所述获取单元,用于:
45.根据预设方言词典判断第二文本数据的方言类型;
46.根据第二文本数据的方言类型确定对应的方言普通话映射字典;
47.根据方言普通话映射字典将第二文本数据映射至普通话类型的第三文本数据;
48.根据第三文本数据确定第一文本数据。
49.进一步的,所述获取单元,用于:
50.将第三文本数据中的同义词合并,得到同义词合并文本数据;
51.将同义词合并文本数据输入目标摘要生成模型进行降维,得到第一文本数据。
52.进一步的,所述目标摘要生成模型包括编码器子模型和解码器子模型,编码器子模型的网络层包括多头自注意机制子网络层和全连接前馈子网络层;解码器子模型的网络层包括多头自注意机制子网络层、注意力子网络层和全连接前馈子网络层。
53.进一步的,所述文本获取单元,用于,包括:
54.将第一文本数据的预设语气词和预设无意义词剔除,得到剔除后文本数据;
55.将剔除后文本数据输入预训练的字向量模型,对剔除后文本数据的字进行读取,获取字向量列表;
56.将字向量列表输入bilstm模型,得到预设长度的文本序列。
57.进一步的,所述获取单元,用于:
58.对训练文本集进行文本预处理,得到预处理文本数据;
59.对预处理文本数据进行预设语气词和预设无意义词剔除、特征词语提取以及修复标注,得到目标训练向量和对应的目标标签数据;
60.基于目标训练向量和对应的目标标签数据对bilstm-crf模型进行训练。
61.一方面,本技术还提供一种电子设备,所述电子设备包括:
62.一个或多个处理器;
63.存储器;以及
64.一个或多个应用程序,其中所述一个或多个应用程序被存储于所述存储器中,并配置为由所述处理器执行以实现第一方面中任一项所述的基于小样本学习的关键词提取方法。
65.一方面,本技术还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器进行加载,以执行第一方面任一项的基于小样本学习的关键词提取方法中的步骤。
66.本技术提供一种基于小样本学习的关键词提取方法,该基于小样本学习的关键词提取方法包括:获取第一文本数据;将第一文本数据输入bilstm模型,得到预设长度的文本序列;将文本序列输入bilstm-crf模型,得到第一文本数据的第一关键词列表;将第一文本数据输入预设关键词提取模型进行关键词提取,得到第一文本数据的第二关键词列表;判断第一关键词列表和第二关键词列表是否相同;若第一关键词列表和第二关键词列表不相同,则利用第一文本数据更新bilstm模型和bilstm-crf模型;若第一关键词列表和第二关键词列表相同,则将第一文本数据的第一关键词列表确定为提取出来的目标关键词列表。本技术将不匹配关键词用于小样本修正训练,在节省算力的同时提高了整体准确率。
67.进一步的,克服现有的关键词提取方法依赖大量人工标注的问题,本发明创造基于深度神经网络的信息提取技术和同义词合并技术,提供了一种基于细分领域的关键词自动提取方法,采用自动标注模型进行关键词抽取,并结合少量人工矫正,实现细分领域下的高质量的半自动化关键词提取,节省了人力资源,实现高质量的大规模细分领域标注数据集的构建。
附图说明
68.为了更清楚地说明本技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本技术的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
69.图1为本技术实施例所提供的基于小样本学习的关键词提取系统的场景示意图;
70.图2是本技术实施例提供的基于小样本学习的关键词提取方法的一个实施例流程示意图;
71.图3是本技术实施例中提供的基于小样本学习的关键词提取装置一个实施例结构示意图;
72.图4是本技术实施例中提供的电子设备的一个实施例结构示意图。
具体实施方式
73.下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。
74.在本技术的描述中,需要理解的是,术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本技术和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本技术的限制。此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个特征。在本技术的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
75.在本技术中,“示例性”一词用来表示“用作例子、例证或说明”。本技术中被描述为“示例性”的任何实施例不一定被解释为比其它实施例更优选或更具优势。为了使本领域任何技术人员能够实现和使用本技术,给出了以下描述。在以下描述中,为了解释的目的而列出了细节。应当明白的是,本领域普通技术人员可以认识到,在不使用这些特定细节的情况下也可以实现本技术。在其它实例中,不会对公知的结构和过程进行详细阐述,以避免不必要的细节使本技术的描述变得晦涩。因此,本技术并非旨在限于所示的实施例,而是与符合本技术所公开的原理和特征的最广范围相一致。
76.需要说明的是,本技术实施例方法由于是在电子设备中执行,各电子设备的处理对象均以数据或信息的形式存在,例如时间,实质为时间信息,可以理解的是,后续实施例中若提及尺寸、数量、位置等,均为对应的数据存在,以便电子设备进行处理,具体此处不作赘述。
77.本技术实施例提供一种基于小样本学习的关键词提取方法及装置,以下分别进行详细说明。
78.请参阅图1,图1为本技术实施例所提供的基于小样本学习的关键词提取系统的场
景示意图,该基于小样本学习的关键词提取系统可以包括电子设备100,电子设备100中集成有基于小样本学习的关键词提取装置,如图1中的电子设备。
79.本技术实施例中,该电子设备100可以是独立的服务器,也可以是服务器组成的服务器网络或服务器集群,例如,本技术实施例中所描述的电子设备100,其包括但不限于计算机、网络主机、单个网络服务器、多个网络服务器集或多个服务器构成的云服务器。其中,云服务器由基于云计算(cloud computing)的大量计算机或网络服务器构成。
80.本领域技术人员可以理解,图1中示出的应用环境,仅仅是本技术方案的一种应用场景,并不构成对本技术方案应用场景的限定,其他的应用环境还可以包括比图1中所示更多或更少的电子设备,例如图1中仅示出1个电子设备,可以理解的,该基于小样本学习的关键词提取系统还可以包括一个或多个其他服务器,具体此处不作限定。
81.另外,如图1所示,该基于小样本学习的关键词提取系统还可以包括存储器200,用于存储数据。
82.需要说明的是,图1所示的基于小样本学习的关键词提取系统的场景示意图仅仅是一个示例,本技术实施例描述的基于小样本学习的关键词提取系统以及场景是为了更加清楚的说明本技术实施例的技术方案,并不构成对于本技术实施例提供的技术方案的限定,本领域普通技术人员可知,随着基于小样本学习的关键词提取系统的演变和新业务场景的出现,本技术实施例提供的技术方案对于类似的技术问题,同样适用。
83.首先,本技术实施例中提供一种基于小样本学习的关键词提取方法,该基于小样本学习的关键词提取方法的执行主体为基于小样本学习的关键词提取装置,该基于小样本学习的关键词提取装置应用于电子设备,该基于小样本学习的关键词提取方法包括:获取第一文本数据;将第一文本数据输入bilstm模型,得到预设长度的文本序列;将文本序列输入bilstm-crf模型,得到第一文本数据的第一关键词列表;将第一文本数据输入预设关键词提取模型进行关键词提取,得到第一文本数据的第二关键词列表;判断第一关键词列表和第二关键词列表是否相同;若第一关键词列表和第二关键词列表不相同,则利用第一文本数据更新bilstm模型和bilstm-crf模型;若第一关键词列表和第二关键词列表相同,则将第一文本数据的第一关键词列表确定为提取出来的目标关键词列表。
84.参阅图2,图2是本技术实施例提供的基于小样本学习的关键词提取方法的一个实施例流程示意图。该基于小样本学习的关键词提取方法包括:
85.s201、获取第一文本数据。
86.本技术实施例中,获取第一文本数据之前,包括:
87.对训练文本集进行文本预处理,得到预处理文本数据。
88.本技术实施例中,训练文本集为通过对历史时间段内的通信对话语音数据进行asr,得到训练文本集。
89.由于客诉文本数据集中存在大量的方言(如粤语等)和口语化的表达,需要将使用方言表述的内容映射为相同含义的普通话,将表述方式不同但含义相同的词语映射为同一词语,以进行统一的训练。
90.具体来说,首先根据预设方言词典判断训练文本集的方言类型;根据训练文本集的方言类型确定对应的方言普通话映射字典;根据方言普通话映射字典将训练文本集映射至普通话类型的普通话文本集。
91.由于原始文本数据量较大,因此需要进行文本降维以减少计算量。具体而言,首先通过融合测量和mlm算法的t5模型,使用文本多层卷积来减少第三文本数据中的标签数量。将普通话文本集中的同义词合并,得到同义词合并文本数据。具体的,将表述方式不同但含义相同的词语映射为同一词语,以进行统一的训练。将同义词合并文本数据输入目标摘要生成模型进行降维,得到预处理文本数据。
92.其中,目标摘要生成模型包括编码器子模型和解码器子模型,编码器子模型的网络层包括多头自注意机制子网络层和全连接前馈子网络层;解码器子模型的网络层包括多头自注意机制子网络层、注意力子网络层和全连接前馈子网络层。
93.由于客户的口头表达往往口语化,用词非专业化,存在缺失、省略等问题,模型无法识别准确的词语,因此需要将客户表示的原始词语转化为规范的特征词语。
94.具体的,对预处理文本数据进行预设语气词和预设无意义词剔除、特征词语提取以及修复标注,得到目标训练向量和对应的目标标签数据。基于目标训练向量和对应的目标标签数据对bilstm-crf模型进行训练。构建停用词库,去除预处理文本数据中的预设语气词、地址等预设无意义词。基于规则提取特征词语。识别“公司”、“套餐”等关键词定位特征文本。降噪:业务人员对每个文本进行抽样检查,修复标注。语料的构建则需要处理特征词以及原始文本数据,获取目标训练向量以及目标标签数据。根据人工修复后的特征词汇对原始文本进行标注实体,非实体则标注为”other”,从而完成训练语料的制作。随后,根据预训练的字向量模型,对预处理文本数据中每条原始名词的字进行读取,获取字向量列表,作为作为初始化值输入到模型中。模型训练与预测使用目标训练向量和目标标签输入基于bilstm-crf实现的序列标注模型进行训练。
95.本技术实施例中,获取第一文本数据,包括:
96.(1)获取通信对话语音数据。
97.例如,通信对话语音数据为客服进行语言通话时产生的通信对话语音数据。
98.(2)对通信对话语音数据进行语音识别,得到第二文本数据。
99.对通信对话语音数据进行asr,得到第二文本数据。
100.(3)根据第二文本数据确定第一文本数据。
101.在一个具体的实施例中,将第二文本数据确定为第一文本数据。
102.在另一个具体的实施例中,根据第二文本数据确定第一文本数据,可以包括:
103.(1)根据预设方言词典判断第二文本数据的方言类型。
104.由于客诉文本数据集中存在大量的方言(如粤语等)和口语化的表达,需要将使用方言表述的内容映射为相同含义的普通话,将表述方式不同但含义相同的词语映射为同一词语,以进行统一的训练。
105.具体来说,首先根据预设方言词典判断第二文本数据的方言类型。
106.(2)根据第二文本数据的方言类型确定对应的方言普通话映射字典。
107.(3)根据方言普通话映射字典将第二文本数据映射至普通话类型的第三文本数据。
108.具体的,根据方言普通话映射字典将第二文本数据映射至普通话类型。方言普通话映射字典为方言-普通话的映射字典,将第二文本数据中的方言词汇替换为普通话,得到普通话类型的第三文本数据。
109.(4)根据第三文本数据确定第一文本数据。
110.在一个具体的实施例中,将第三文本数据确定为第一文本数据。
111.在另一个具体的实施例中,根据第三文本数据确定第一文本数据,可以包括:
112.(1)将第三文本数据中的同义词合并,得到同义词合并文本数据。
113.具体的,将表述方式不同但含义相同的词语映射为同一词语,以进行统一的训练。
114.(2)将同义词合并文本数据输入目标摘要生成模型进行降维,得到第一文本数据。
115.由于原始文本数据量较大,因此需要进行文本降维以减少计算量。具体而言,首先通过融合测量和mlm算法的t5模型,使用文本多层卷积来减少第三文本数据中的标签数量。第三文本数据经过同义词合并后,输入目标摘要生成模型进行降维,得到第一文本数据。
116.s202、将第一文本数据输入bilstm模型,得到预设长度的文本序列。
117.具体的,将第一文本数据输入bilstm模型,得到预设长度的文本序列,包括:
118.(1)将第一文本数据的预设语气词和预设无意义词剔除,得到剔除后文本数据。
119.(2)将剔除后文本数据输入预训练的字向量模型,对剔除后文本数据的字进行读取,获取字向量列表。
120.(3)将字向量列表输入bilstm模型,得到预设长度的文本序列。
121.s203、将文本序列输入bilstm-crf模型,得到第一文本数据的第一关键词列表;
122.s204、将第一文本数据输入预设关键词提取模型进行关键词提取,得到第一文本数据的第二关键词列表。
123.关键词是能够表达文档中心内容的词语,常用于计算机系统标引论文内容特征、信息检索、系统汇集以供读者检阅。关键词提取是文本挖掘领域的一个分支,是文本检索、文档比较、摘要生成、文档分类和聚类等文本挖掘研究的基础性工作。
124.从算法的角度来看,关键词提取算法主要有两类:无监督关键词提取方法和有监督关键词提取方法。
125.无监督关键词提取方法不需要人工标注的语料,利用某些方法发现文本中比较重要的词作为关键词,进行关键词提取。该方法是先抽取出候选词,然后对各个候选词进行打分,然后输出topk个分值最高的候选词作为关键词。根据打分的策略不同,有不同的算法,例如tf-idf,textrank,lda等算法。
126.无监督关键词提取方法主要有三类:基于统计特征的关键词提取(tf,tf-idf);基于词图模型的关键词提取(pagerank,textrank);基于主题模型的关键词提取(lda)
127.有监督关键词提取方法将关键词抽取过程视为二分类问题,先提取出候选词,然后对于每个候选词划定标签,要么是关键词,要么不是关键词,然后训练关键词抽取分类器。当新来一篇文档时,提取出所有的候选词,然后利用训练好的关键词提取分类器,对各个候选词进行分类,最终将标签为关键词的候选词作为关键词。
128.s205、判断第一关键词列表和第二关键词列表是否相同。
129.s206、若第一关键词列表和第二关键词列表不相同,则利用第一文本数据更新bilstm模型和bilstm-crf模型;若第一关键词列表和第二关键词列表相同,则将第一文本数据的第一关键词列表确定为提取出来的目标关键词列表。
130.提取出第一关键词列表后,与通过单一深度神经网络提取的第二关键词列表进行比对,匹配的目标关键词列表将用于后续的工程应用,但由于客服的业务和场景是变动的,
因此会出现的偶发性客服事件,产生少量未匹配的关键词。这部分关键词对应的第一文本数据将重新输入模型,更新bilstm模型和bilstm-crf模型,进行小样本修正训练,快速优化关键词表。
131.相比已有的关键词提取方法,本发明创造提升了关键词提取的准确性,且不依赖大量的人工构建细分领域的语料库。对比已有研究,本发明创造在准确率、召回率和f值三个指标上相较于基线模型的提升率为24.18%,57.40%,42.51%。
132.为了更好实施本技术实施例中基于小样本学习的关键词提取方法,在基于小样本学习的关键词提取方法基础之上,本技术实施例中还提供一种基于小样本学习的关键词提取装置,如图3所示,图3是本技术实施例中提供的基于小样本学习的关键词提取装置一个实施例结构示意图,该基于小样本学习的关键词提取装置400包括:
133.获取单元401,用于获取第一文本数据;
134.文本获取单元402,用于将第一文本数据输入bilstm模型,得到预设长度的文本序列;
135.第一关键词提取单元403,用于将文本序列输入bilstm-crf模型,得到所述第一文本数据的第一关键词列表;
136.第二关键词提取单元404,将所述第一文本数据输入预设关键词提取模型进行关键词提取,得到所述第一文本数据的第二关键词列表;
137.判断单元405,用于判断所述第一关键词列表和所述第二关键词列表是否相同;
138.确定单元406,若所述第一关键词列表和所述第二关键词列表不相同,则利用所述第一文本数据更新bilstm模型和bilstm-crf模型;若所述第一关键词列表和所述第二关键词列表相同,则将所述第一文本数据的第一关键词列表确定为提取出来的目标关键词列表。
139.进一步的,所述获取单元,用于:
140.获取通信对话语音数据;
141.对通信对话语音数据进行语音识别,得到第二文本数据;
142.根据第二文本数据确定第一文本数据。
143.进一步的,所述获取单元,用于:
144.根据预设方言词典判断第二文本数据的方言类型;
145.根据第二文本数据的方言类型确定对应的方言普通话映射字典;
146.根据方言普通话映射字典将第二文本数据映射至普通话类型的第三文本数据;
147.根据第三文本数据确定第一文本数据。
148.进一步的,所述获取单元,用于:
149.将第三文本数据中的同义词合并,得到同义词合并文本数据;
150.将同义词合并文本数据输入目标摘要生成模型进行降维,得到第一文本数据。
151.进一步的,所述目标摘要生成模型包括编码器子模型和解码器子模型,编码器子模型的网络层包括多头自注意机制子网络层和全连接前馈子网络层;解码器子模型的网络层包括多头自注意机制子网络层、注意力子网络层和全连接前馈子网络层。
152.进一步的,所述文本获取单元,用于,包括:
153.将第一文本数据的预设语气词和预设无意义词剔除,得到剔除后文本数据;
154.将剔除后文本数据输入预训练的字向量模型,对剔除后文本数据的字进行读取,获取字向量列表;
155.将字向量列表输入bilstm模型,得到预设长度的文本序列。
156.进一步的,所述获取单元,用于:
157.对训练文本集进行文本预处理,得到预处理文本数据;
158.对预处理文本数据进行预设语气词和预设无意义词剔除、特征词语提取以及修复标注,得到目标训练向量和对应的目标标签数据;
159.基于目标训练向量和对应的目标标签数据对bilstm-crf模型进行训练。
160.本技术实施例还提供一种电子设备,其集成了本技术实施例所提供的任一种基于小样本学习的关键词提取装置。如图4所示,其示出了本技术实施例所涉及的电子设备的结构示意图,具体来讲:
161.该电子设备可以包括一个或者一个以上处理核心的处理器501、一个或一个以上计算机可读存储介质的存储器502、电源503和输入单元504等部件。本领域技术人员可以理解,图中示出的电子设备结构并不构成对电子设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。其中:
162.处理器501是该电子设备的控制中心,利用各种接口和线路连接整个电子设备的各个部分,通过运行或执行存储在存储器502内的软件程序和/或模块,以及调用存储在存储器502内的数据,执行电子设备的各种功能和处理数据,从而对电子设备进行整体监控。可选的,处理器501可包括一个或多个处理核心;优选的,处理器501可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器501中。
163.存储器502可用于存储软件程序以及模块,处理器501通过运行存储在存储器502的软件程序以及模块,从而执行各种功能应用以及数据处理。存储器502可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据电子设备的使用所创建的数据等。此外,存储器502可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器502还可以包括存储器控制器,以提供处理器501对存储器502的访问。
164.电子设备还包括给各个部件供电的电源503,优选的,电源503可以通过电源管理系统与处理器501逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源503还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。
165.该电子设备还可包括输入单元504,该输入单元504可用于接收输入的数字或字符信息,以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。
166.尽管未示出,电子设备还可以包括显示单元等,在此不再赘述。具体在本实施例中,电子设备中的处理器501会按照如下的指令,将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器502中,并由处理器501来运行存储在存储器502中的应用程序,
从而实现各种功能,如下:
167.获取第一文本数据;将第一文本数据输入bilstm模型,得到预设长度的文本序列;将文本序列输入bilstm-crf模型,得到第一文本数据的第一关键词列表;将第一文本数据输入预设关键词提取模型进行关键词提取,得到第一文本数据的第二关键词列表;判断第一关键词列表和第二关键词列表是否相同;若第一关键词列表和第二关键词列表不相同,则利用第一文本数据更新bilstm模型和bilstm-crf模型;若第一关键词列表和第二关键词列表相同,则将第一文本数据的第一关键词列表确定为提取出来的目标关键词列表。本技术可以提高基于小样本学习的关键词提取方法准确度。
168.本领域普通技术人员可以理解,上述实施例的各种方法中的全部或部分步骤可以通过指令来完成,或通过指令控制相关的硬件来完成,该指令可以存储于一计算机可读存储介质中,并由处理器进行加载和执行。
169.为此,本技术实施例提供一种计算机可读存储介质,该存储介质可以包括:只读存储器(rom,read onlymemory)、随机存取记忆体(ram,random access memory)、磁盘或光盘等。其上存储有计算机程序,计算机程序被处理器进行加载,以执行本技术实施例所提供的任一种基于小样本学习的关键词提取方法中的步骤。例如,计算机程序被处理器进行加载可以执行如下步骤:
170.获取第一文本数据;将第一文本数据输入bilstm模型,得到预设长度的文本序列;将文本序列输入bilstm-crf模型,得到第一文本数据的第一关键词列表;将第一文本数据输入预设关键词提取模型进行关键词提取,得到第一文本数据的第二关键词列表;判断第一关键词列表和第二关键词列表是否相同;若第一关键词列表和第二关键词列表不相同,则利用第一文本数据更新bilstm模型和bilstm-crf模型;若第一关键词列表和第二关键词列表相同,则将第一文本数据的第一关键词列表确定为提取出来的目标关键词列表。本技术可以提高基于小样本学习的关键词提取方法准确度。
171.在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见上文针对其他实施例的详细描述,此处不再赘述。
172.具体实施时,以上各个单元或结构可以作为独立的实体来实现,也可以进行任意组合,作为同一或若干个实体来实现,以上各个单元或结构的具体实施可参见前面的方法实施例,在此不再赘述。
173.以上各个操作的具体实施可参见前面的实施例,在此不再赘述。
174.以上对本技术实施例所提供的一种基于小样本学习的关键词提取方法及装置进行了详细介绍,本文中应用了具体个例对本技术的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本技术的方法及其核心思想;同时,对于本领域的技术人员,依据本技术的思想,在具体实施方式及应用范围上均会有改变之处,综上,本说明书内容不应理解为对本技术的限制。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1