一种标签标注方法及装置、电子设备、存储介质与流程

文档序号:35103282发布日期:2023-08-10 12:32阅读:36来源:国知局
一种标签标注方法及装置、电子设备、存储介质与流程

本发明涉及计算机,尤其涉及一种标签标注方法及装置、电子设备、存储介质。


背景技术:

1、在大数据时代,为了挖掘数据中的有效信息,常常需要为数据标注相应的标签。标签是一种信息分类和标记机制。通常可以通过标签快速获知相关信息的基本特征,例如用户的年龄、性别、地区等,也可以通过事物的标签,对事物进行分类和相应处理。

2、相关技术中,标签一般根据用户的需求预先定义,并由人工或计算机系统对信息标注标签。然而,随着时间的推移和数据的快速增长及变化,原有的标签可能会不再适合当前的需要,因此需要花费大量的时间和精力重新定义标签并利用新定义的标签重新对信息进行标注。此外,由于标签需要根据用户需求定义,导致信息中如果含有一些标签定义未覆盖到的内容,就不能对该内容进行有效的挖掘,进而无法充分发挥数据的有效价值,数据利用效率低。


技术实现思路

1、有鉴于此,本发明实施例提供一种标签标注方法及装置、电子设备及存储介质,便于在有效提高数据利用效率的同时,使信息标注更准确且无需额外的维护。

2、第一方面,本发明实施例提供一种标签标注方法,包括:获取待标注信息;通过第一模型,确定所述待标注信息对应的语义关键词,所述第一模型为基于人工智能的模型;根据所述语义关键词,确定所述待标注信息对应的信息分类标准,所述信息分类标准的数量为至少一个;确定每个所述信息分类标准下包括的分类条目,其中,每个所述分类条目具有一个对应的条目标签;根据所述语义关键词以及所述条目标签,为所述待标注信息标注目标标签。

3、在一种实施方式中,所述通过第一模型,确定所述待标注信息对应的语义关键词包括:将所述待标注信息输入所述第一模型;基于所述第一模型,对所述待标注信息进行分词处理,得到对应的词语序列;根据所述词语序列中各词语的词性、词意和感情色彩中的至少一项,确定所述待标注信息对应的语义关键词。

4、在一种实施方式中,所述根据所述词语序列中各词语的词性、词意和感情色彩中的至少一项,确定所述待标注信息对应的语义关键词包括:根据所述词语序列中各词语的词性、词意和感情色彩中的至少一项,从所述词语序列选择至少一个词语作为语义关键词;或者,根据所述词语序列中各词语的词性、词意和感情色彩中的至少一项,生成至少一个语义关键词。

5、在一种实施方式中,所述根据所述语义关键词,确定所述待标注信息对应的信息分类标准包括:根据所述语义关键词的词意,确定所述语义关键词所描述的对象属性,得到目标属性,其中,所述语义关键词为所述目标属性的一个属性值;根据所述目标属性,确定所述待标注信息对应的信息分类标准。

6、在一种实施方式中,所述根据所述目标属性,确定所述待标注信息对应的信息分类标准包括:在预设的数据库中查找所述目标属性;在查找到所述目标属性的情况下,根据所述数据库中预先存储的目标属性与信息分类标准的对应关系,确定所述待标注信息对应的信息分类标准;在未查找到所述目标属性的情况下,为所述目标属性创建新的信息分类标准并存储到所述数据库中。

7、在一种实施方式中,所述确定每个所述信息分类标准下包括的分类条目包括:根据所述语义关键词的词意,确定所述语义关键词所描述的对象属性,得到目标属性,其中,所述语义关键词为所述目标属性的一个属性值;根据预设属性规则或第二模型,获取所述目标属性对应的全部属性值,得到所述目标属性的属性值集合;所述第二模型为基于人工智能的模型;根据所述目标属性的属性值集合,确定所述信息分类标准下包括的分类条目。

8、在一种实施方式中,所述根据所述语义关键词以及所述条目标签,为所述待标注信息标注目标标签包括:根据多个所述语义关键词各自对应的目标属性之间的关系,确定所述待标注信息、除所述目标属性之外的至少一个对象属性,得到备选属性,所述备选属性具有预设的属性值集合;根据所述备选属性的属性值集合,确定所述待标注信息的备选标签;基于所述条目标签和所述备选标签,为所述待标注信息标注目标标签。

9、在一种实施方式中,所述基于所述条目标签和所述备选标签,为所述待标注信息标注目标标签包括:根据所述语义关键词,从所述条目标签中选择至少一个标签,得到第一标签;根据预设选择规则或第三模型,从所述备选标签中选择至少一个标签,得到第二标签;所述第三模型为基于人工智能的模型;将所述第一标签和所述第二标签作为目标标签,为所述待标注信息标注。

10、第二方面,本发明的实施例还提供一种标签标注装置,包括:获取单元,用于获取待标注信息;第一确定单元,用于通过第一模型,确定所述待标注信息对应的语义关键词,所述第一模型为基于人工智能的模型;第二确定单元,用于根据所述语义关键词,确定所述待标注信息对应的信息分类标准,所述信息分类标准的数量为至少一个;第三确定单元,用于确定每个所述信息分类标准下包括的分类条目,其中,每个所述分类条目具有一个对应的条目标签;标注单元,用于根据所述语义关键词以及所述条目标签,为所述待标注信息标注目标标签。

11、在一种实施方式中,所述第一确定单元包括:输入模块,用于将所述待标注信息输入所述第一模型;分词模块,用于基于所述第一模型,对所述待标注信息进行分词处理,得到对应的词语序列;第一确定模块,用于根据所述词语序列中各词语的词性、词意和感情色彩中的至少一项,确定所述待标注信息对应的语义关键词。

12、在一种实施方式中,所述第一确定模块,具体用于:根据所述词语序列中各词语的词性、词意和感情色彩中的至少一项,从所述词语序列选择至少一个词语作为语义关键词;或者,根据所述词语序列中各词语的词性、词意和感情色彩中的至少一项,生成至少一个语义关键词。

13、在一种实施方式中,所述第二确定单元包括:第二确定模块,用于根据所述语义关键词的词意,确定所述语义关键词所描述的对象属性,得到目标属性,其中,所述语义关键词为所述目标属性的一个属性值;第三确定模块,用于根据所述目标属性,确定所述待标注信息对应的信息分类标准。

14、在一种实施方式中,所述第三确定模块,具体用于:在预设的数据库中查找所述目标属性;在查找到所述目标属性的情况下,根据所述数据库中预先存储的目标属性与信息分类标准的对应关系,确定所述待标注信息对应的信息分类标准;在未查找到所述目标属性的情况下,为所述目标属性创建新的信息分类标准并存储到所述数据库中。

15、在一种实施方式中,所述第三确定单元包括:第四确定模块,用于根据所述语义关键词的词意,确定所述语义关键词所描述的对象属性,得到目标属性,其中,所述语义关键词为所述目标属性的一个属性值;获取模块,用于根据预设属性规则或第二模型,获取所述目标属性对应的全部属性值,得到所述目标属性的属性值集合;所述第二模型为基于人工智能的模型;第五确定模块,用于根据所述目标属性的属性值集合,确定所述信息分类标准下包括的分类条目。

16、在一种实施方式中,所述标注单元包括:第六确定模块,用于根据多个所述语义关键词各自对应的目标属性之间的关系,确定所述待标注信息、除所述目标属性之外的至少一个对象属性,得到备选属性,所述备选属性具有预设的属性值集合;第七确定模块,用于根据所述备选属性的属性值集合,确定所述待标注信息的备选标签;标注模块,用于基于所述条目标签和所述备选标签,为所述待标注信息标注目标标签。

17、在一种实施方式中,所述标注模块,具体用于:根据所述语义关键词,从所述条目标签中选择至少一个标签,得到第一标签;根据预设选择规则或第三模型,从所述备选标签中选择至少一个标签,得到第二标签;所述第三模型为基于人工智能的模型;将所述第一标签和所述第二标签作为目标标签,为所述待标注信息标注。

18、第三方面,本发明的实施例还提供一种电子设备,所述电子设备包括:壳体、处理器、存储器、电路板和电源电路,其中,电路板安置在壳体围成的空间内部,处理器和存储器设置在电路板上;电源电路,用于为上述电子设备的各个电路或器件供电;存储器用于存储可执行程序代码;处理器通过读取存储器中存储的可执行程序代码来运行与可执行程序代码对应的程序,用于执行本发明的实施例提供的任一种标签标注方法。

19、第四方面,本发明的实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现本发明的实施例提供的任一种标签标注方法。

20、本发明的实施例提供的标签标注方法及装置、电子设备及存储介质,能够获取待标注信息,通过第一模型,确定所述待标注信息对应的语义关键词,根据所述语义关键词,确定所述待标注信息对应的信息分类标准,并确定每个所述信息分类标准下包括的分类条目,根据所述语义关键词以及所述分类条目下的条目标签,为所述待标注信息标注目标标签。由于第一模型为基于人工智能的模型,便于随着待标注信息的不同而进行训练和调整,这样,一方面便于充分挖掘待标注信息中的有效信息,提高大数据的利用效率,另一方面,在基于第一模型进行语义分析时,也能够从待标注信息中得到更为准确的语义关键词,并根据语义关键词得到更为准确的信息分类标准及每个信息分类标准下的分类条目,从而使标签系统能够更准确地进行动态更新,而无需进行额外的维护工作,因此,本公开的技术方案便于在有效提高数据利用效率的同时,使信息标注更准确且无需额外的维护。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1