关键词标注方法、装置、设备、介质及程序产品与流程

文档序号:37932957发布日期:2024-05-11 00:11阅读:5来源:国知局
关键词标注方法、装置、设备、介质及程序产品与流程

本公开涉及计算机领域,更具体地涉及一种关键词标注方法、装置、设备、介质及程序产品。


背景技术:

1、为了更好的对数据进行分类,便于数据的查找和统计,一般会对文本提取标签或者索引词,将这些可以标识语句内容的词语称为关键词。

2、目前,对于一个新业务场景中的关键词提取都是靠大量人工标注现有文本中的特定名词,然后再将标注的特定名次作为神经网络模型的学习训练集,进行模型训练,最后形成一个能够识别特定场景文本中的特定名词的模型。但前期大量人工标注现有文本的过程存在标注效率较低及人工成本高的问题。


技术实现思路

1、鉴于上述问题,本公开提供了一种关键词标注方法、装置、设备、介质及程序产品。

2、根据本公开的第一个方面,提供了一种关键词标注方法,包括:获取m个初始文本,m为大于1的整数;获取一个初始文本中的至少一个第一关键词;根据至少一个第一关键词及与至少一个第一关键词对应的初始文本,生成至少一个关键词的第一标注特征,其中,每个第一标注特征表征一个关键词的句子信息;根据至少一个第一标注特征,对剩余的m-1个初始文本进行关键词标注,得到与m-1个初始文本分别对应的至少一个第二关键词。

3、根据本公开的实施例,根据至少一个第一关键词及与至少一个第一关键词对应的初始文本,生成至少一个关键词的第一标注特征,包括:获取每个第一关键词所在语句的起始词和结束词;根据起始词,生成每个关键词的前处理信息;根据结束词,生成每个关键词的后处理信息;基于前处理信息和后处理信息,生成每个关键词的第一标注特征。

4、根据本公开的实施例,根据至少一个第一关键词及与至少一个第一关键词对应的初始文本,生成至少一个关键词的第一标注特征,包括:获取每个第一关键词所在文本的起始位置信息和终止位置信息;根据起始位置信息和终止位置信息,生成每个关键词的第一标注特征。

5、根据本公开的实施例,根据起始词,生成每个关键词的前处理信息,包括:根据起始词,生成与起始词对应的第一正则表达式;根据第一正则表达式生成每个关键词的前处理信息。

6、根据本公开的实施例,基于前处理信息和后处理信息,生成每个关键词的第一标注特征,包括:根据起始词、结束词及起始词和结束词所在的语句,生成预设条件,其中,预设条件表征起始词和结束词的之间的字词间隔数值的范围;基于前处理信息、后处理信息和预设条件,生成每个关键词的第一标注特征。

7、根据本公开的实施例,该方法还包括:获取m-1个初始文本中的异常文本;对异常文本进行二次标注。

8、根据本公开的实施例,对异常文本进行二次标注,包括:

9、根据至少一个关键词,对异常文本进行分类,得到至少一个类别的异常文本,一个类别的异常本文包括至少一个候选文本;分别获取每个类别异常本文中的一个候选文本;分别获取每个类别候选文本的第三关键词;根据每个第三关键词及与每个第三关键词分别对应的候选文本,生成每个类别关键词的第二标注特征;根据每个类别关键词的第二标注特征,分别对每个类别的异常本文进行关键词标注。

10、根据本公开的实施例,异常文本表征未对至少一个关键词进行标注的初始文本;和/或异常文本表征对至少一个关键词进行重复标注的初始文本。

11、根据本公开的实施例,该方法还包括:根据至少一个第一关键词,生成第一信息表并进行存储;和/或根据至少一个关键词的第一标注特征,生成第二信息表并进行存储。

12、本公开的第二方面提供了一种关键词标注装置,包括:第一获取模块,用于获取m个初始文本,m为大于1的整数;第二获取模块,用于获取一个初始文本中的至少一个第一关键词;第一处理模块,用于根据至少一个第一关键词及与至少一个第一关键词对应的初始文本,生成至少一个关键词的第一标注特征,其中,每个第一标注特征表征一个关键词的句子信息;以及第二处理模块,用于根据至少一个第一标注特征,对剩余的m-1个初始文本进行关键词标注,得到与m-1个初始文本分别对应的至少一个第二关键词。

13、本公开的第三方面提供了一种电子设备,包括:一个或多个处理器;存储器,用于存储一个或多个程序,其中,当一个或多个程序被一个或多个处理器执行时,使得一个或多个处理器执行上述关键词标注方法。

14、本公开的第四方面还提供了一种计算机可读存储介质,其上存储有可执行指令,该指令被处理器执行时使处理器执行上述关键词标注方法。

15、本公开的第五方面还提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述关键词标注方法。



技术特征:

1.一种关键词标注方法,包括:

2.根据权利要求1所述的方法,其中,根据所述至少一个第一关键词及与所述至少一个第一关键词对应的所述初始文本,生成至少一个关键词的第一标注特征,包括:

3.根据权利要求1所述的方法,其中,根据所述至少一个第一关键词及与所述至少一个第一关键词对应的所述初始文本,生成至少一个关键词的第一标注特征,包括:

4.根据权利要求2所述的方法,其中,根据所述起始词,生成每个所述关键词的前处理信息,包括:

5.根据权利要求2或4所述的方法,其中,基于所述前处理信息和所述后处理信息,生成每个所述关键词的第一标注特征,包括:

6.根据权利要求1所述的方法,其中,该方法还包括:

7.根据权利要求7所述的方法,其中,对所述异常文本进行二次标注,包括:

8.根据权利要求1所述的方法,其中,所述异常文本表征未对所述至少一个关键词进行标注的所述初始文本;和/或

9.根据权利要求1所述的方法,其中,该方法还包括:

10.一种关键词标注装置,包括:

11.一种电子设备,包括:

12.一种计算机可读存储介质,其上存储有可执行指令,该指令被处理器执行时使处理器执行根据权利要求1~9中任一项所述的方法。

13.一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现根据权利要求1~9中任一项所述的方法。


技术总结
本公开提供了一种关键词标注方法、装置、设备、介质及程序产品,可以应用于计算机技术领域,还可应用于金融领域。该关键词标注方法,包括:获取M个初始文本,M为大于1的整数;获取一个初始文本中的至少一个第一关键词;根据至少一个第一关键词及与至少一个第一关键词对应的初始文本,生成至少一个关键词的第一标注特征,其中,每个第一标注特征表征一个关键词的句子信息;根据至少一个第一标注特征,对剩余的M‑1个初始文本进行关键词标注,得到与M‑1个初始文本分别对应的至少一个第二关键词。

技术研发人员:王建辉
受保护的技术使用者:中国工商银行股份有限公司
技术研发日:
技术公布日:2024/5/10
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1