本发明涉及文本处理领域,尤其涉及一种基于小样本的语义标注方法及装置。
背景技术:
1、无论是资料搜集、学术研究还是写作需求等,生活和工作中,我们都免不了对自己学习或阅读到的文本资料或重要内容等信息进行标注,以便日后使用时,能快速检索到相关资料。
2、如何根据文本语义实现快速、高效且准确的标注,便于检索及提升工作效率成为了难题。为了解决这个问题,目前现有技术中采用传统的标签模型如人工标注,或者通过大量样本进行训练实现自动标注的方案。然而,现有技术中所采取的方案存在人工标注耗时高、效率低,大样本训练成本高、难度大、难以实现个性化和保证准确率的缺陷。
技术实现思路
1、本发明实施例提供了一种基于小样本的语义标注方法,旨在解决训练成本高、难以实现个性化和保证准确率的问题。
2、本发明实施例是这样实现的,提供了一种基于小样本的语义标注方法,包括:
3、获取用户自定义的语义标签、基于所述自定义的语义标签标注的文档集,以及待标注文本;
4、以所述自定义的语义标签和所述文档集为训练集,通过机器学习算法建立训练模型,生成自动标注模型;
5、利用所述自动标注模型,对所述待标注文本进行标注;
6、输出标注后的文本,并将所述标注后的文本保存至数据库。
7、更进一步地,所述方法还包括如下步骤:
8、接收用户审阅后的文本;
9、对比所述审阅后的文本与所述标注后的文本,判断两个文本中标注的标签是否相同;
10、若所述两个文本中标注的标签不相同,则将所述审阅后的文本和修改后的标签加入训练集,并对所述自动标注模型进行迭代更新,同时将所述审阅后的文本保存至数据库替代原所述标注后的文本。
11、更进一步地,所述方法还包括如下步骤:
12、接收用户输入的语义搜索关键词;
13、根据所述语义搜索关键词与所述数据库中保存的文本进行标签匹配;
14、若所述数据库的文本中存在所述语义搜索关键词的标签,则显示标注有所述语义搜索关键词的标签的内容;
15、若所述数据库的文本中不存在所述语义搜索关键词的标签,则输出未检索到相关信息的提示。
16、更进一步地,所述标签的内容包括词语、句子、段落,或者文档中的其中之一或其任意组合。
17、更进一步地,所述文档集中包含多个基于所述自定义的语义标签标注的文档;
18、其中,每个自定义的语义标签对应3至5个所述文档。
19、本发明实施例还提供了一种基于小样本的语义标注装置,包括:
20、标注信息获取单元,用于获取用户自定义的语义标签、基于所述自定义的语义标签标注的文档集,以及待标注文本;
21、自动标注模型生成单元,用于以所述自定义的语义标签和所述文档集为训练集,通过机器学习算法建立训练模型,生成自动标注模型;
22、文本标注单元,用于利用所述自动标注模型,对所述待标注文本进行标注;
23、文本输出单元,用于输出标注后的文本,并将所述标注后的文本保存至数据库。
24、更进一步地,所述装置还包括:
25、第一接收单元,用于接收用户审阅后的文本;
26、标签判断单元,用于对比接收到的审阅后的文本与所述标注后的文本,判断两个文本中标注的标签是否相同;
27、数据更新单元,用于根据所述判断确定,若所述两个文本中标注的标签不相同,则将所述审阅后的文本和修改后的标签加入训练集,并对所述自动标注模型进行迭代更新,同时将所述审阅后的文本保存至数据库替代原所述标注后的文本。
28、更进一步地,所述装置还包括:
29、第二接收单元,用于接收用户输入的语义搜索关键词;
30、关键词搜索单元,用于根据用户输入的语义搜索关键词与所述数据库中保存的文本进行标签匹配;
31、第一显示单元,用于根据所述标签匹配的结果,确定若所述数据库的文本中存在所述语义搜索关键词的标签,则显示标注有所述语义搜索关键词的标签的内容;
32、第二显示单元,用于根据所述标签匹配的结果,确定若所述数据库的文本中不存在所述语义搜索关键词的标签,则输出未检索到相关信息的提示。
33、由于采用用户自定义的语义标签对文档进行标注,因此,不需要预先建立语义标签库,而是由用户自定义,满足用户个体需求即可。用户采用自定义的语义标签不仅增加了标签的丰富性,实现了标注个性化处理,还可以根据用户的理解来对语义进行标签定义,检索的便利性和灵活性更高。
34、另外,将这些自定义的语义标签和标注的文档作为训练集建立自动标注模型,实现基于小样本的训练即可,降低训练成本,同时,由于个性化的标签只需要少量训练集样本,相对于大型数据集的训练难以实现反复迭代而言,基于小样本的训练能够较快的完成训练,并能通过反复迭代提高准确率。
1.一种基于小样本的语义标注方法,其特征在于,包括:
2.如权利要求1所述的基于小样本的语义标注方法,其特征在于,所述方法还包括如下步骤:
3.如权利要求2所述的基于小样本的语义标注方法,其特征在于,所述方法还包括如下步骤:
4.如权利要求3所述的基于小样本的语义标注方法,其特征在于,所述标签的内容包括词语、句子、段落,或者文档中的其中之一或其任意组合。
5.如权利要求1至4中任一项所述的基于小样本的语义标注方法,其特征在于,所述文档集中包含多个基于所述自定义的语义标签标注的文档;
6.一种基于小样本的语义标注装置,其特征在于,包括:
7.如权利要求6所述的基于小样本的语义标注装置,其特征在于,所述装置还包括:
8.如权利要求7所述的基于小样本的语义标注装置,其特征在于,所述装置还包括:
9.一种基于小样本的语义标注系统,其特征在于,包括:存储器和处理器;
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时,实现如权利要求1至6中任一项所述的基于小样本的语义标注方法的各个步骤。