一种实体识别的方法及装置与流程

文档序号:37229944发布日期:2024-03-05 15:39阅读:15来源:国知局
一种实体识别的方法及装置与流程

本说明书涉及数据处理领域,尤其涉及一种实体识别的方法及装置。


背景技术:

1、目前,在自然语言处理(natural language processing,nlp)、知识图谱(knowledge graph)等领域,为了实现文本结构化,通常需要对文本进行实体识别。

2、在现有技术中,由于文本中实体与其他字符的边界可能不明显,因此,在对文本进行实体识别前,往往通过统计实体的名称,构建实体词典,并根据实体词典对文本进行实体识别。

3、但是,由于实体词典中实体的名称繁多,需要识别的文本中字符的组合多样,常常出现从文本中识别出的实体名称,与该文本中实际的实体名称不符的现象,降低实体识别的准确率。


技术实现思路

1、本说明书提供一种实体识别的方法及装置,以部分的解决现有技术存在的上述问题。

2、本说明书采用下述技术方案:

3、本说明书提供了一种实体识别的方法,包括:

4、确定待识别文本的文本向量以及所述待识别文本中各候选实体;

5、获取属于不同类目的各文本,针对每个候选实体,根据该候选实体分别在各类目的文本中出现的次数,确定该候选实体属于各类目的概率;

6、根据所述文本向量,通过分类处理,确定所述待识别文本分别属于所述各类目的分类概率;

7、根据所述待识别文本的分类概率以及各候选实体分别属于各类目的概率,从各候选实体中确定所述待识别文本的目标实体。

8、可选的,根据所述待识别文本的分类概率以及各候选实体分别属于各类目的概率,从各候选实体中确定所述待识别文本的目标实体之前,所述方法还包括:

9、针对每个候选实体,确定该候选实体的词向量;

10、根据该候选实体的词向量以及所述文本向量,确定该候选实体的文本权重。

11、可选的,根据所述待识别文本的分类概率以及各候选实体分别属于各类目的概率,从各候选实体中确定所述待识别文本的目标实体,具体包括:

12、根据所述待识别文本的分类概率以及各候选实体分别属于各类目的概率,分别确定所述各候选实体的类目权重;

13、分别根据所述各候选实体的所述类目权重与所述文本权重的和,确定所述各候选实体的权重;

14、根据所述各候选实体的权重,从所述各候选实体中确定所述待识别文本的若干目标实体。

15、可选的,根据所述待识别文本的分类概率以及各候选实体分别属于各类目的概率,分别确定各候选实体的类目权重,具体包括:

16、针对每个候选实体,根据所述待识别文本的分类概率,按照预设的类目顺序,确定分类数列,所述分类数列中各元素对应类目的顺序符合所述类目顺序;

17、根据该候选实体分别属于各类目的概率,按照所述类目顺序,确定统计数列,所述统计数列中各元素对应类目的顺序符合所述类目顺序;

18、根据所述分类数列以及所述统计数列中各元素的顺序,分别确定相同位置的元素的积,作为各待选权重;

19、确定数值最大的待选权重为该候选实体的类目权重。

20、可选的,根据各候选实体的所述类目权重以及所述文本权重的和,确定各候选实体的权重,具体包括:

21、根据所述待识别文本的文本长度,分别确定第一加权值以及第二加权值,

22、针对每个候选实体,确定该候选实体的所述文本权重与所述第一加权值的乘积,作为文本权值;

23、确定该候选实体的所述类目权重与所述第二加权值的乘积,作为类目权值;

24、根据各候选实体的所述文本权值与所述类目权值的和,确定各候选实体的权重。

25、可选的,根据各候选实体的权重,从所述各候选实体中确定所述待识别文本的若干目标实体,具体包括:

26、根据各候选实体的权重以及预设的权重阈值,针对每个候选实体,判断该候选实体的权重是否大于所述权重阈值;

27、若是,则确定该候选实体为所述待识别文本中的目标实体;

28、若否,则确定该候选实体不是所述待识别文本中的目标实体。

29、可选的,所述方法还包括:

30、确定待识别文本以及预设的各实体类型的实体库;

31、针对每个实体类型,将所述待识别文本与该实体类型的实体库的若干实体进行匹配,确定匹配成功的各实体为该实体类型的候选实体;

32、当确定出所述待识别文本的各目标实体时,确定各目标实体的实体类型。

33、本说明书提供了一种实体识别的装置,包括:

34、获取模块,确定待识别文本的文本向量以及所述待识别文本中各候选实体;

35、概率模块,获取属于不同类目的各文本,针对每个候选实体,根据该候选实体分别在各类目的文本中出现的次数,确定该候选实体属于各类目的概率;

36、分类概率模块,根据所述文本向量,通过分类处理,确定所述待识别文本分别属于所述各类目的分类概率;

37、确定模块,根据所述待识别文本的分类概率以及各候选实体分别属于各类目的概率,从各候选实体中确定所述待识别文本的目标实体。

38、本说明书提供的计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述实体识别的方法。

39、本说明书提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述实体识别的方法。

40、本说明书采用的上述至少一个技术方案能够达到以下有益效果:

41、在本说明书提供的实体识别的方法中,可确定待识别文本的文本向量以及该待识别文本中各候选实体。再获取属于不同类目的各文本,针对每个候选实体,根据该候选实体分别在各类目的文本中出现的次数,确定该候选实体属于各类目的概率。并根据该文本向量,通过分类处理,确定该待识别文本分别属于各类目的分类概率。最后,根据该待识别文本的分类概率以及各候选实体分别属于各类目的概率,从各候选实体中确定该待识别文本的目标实体。

42、从上述方法中可以看出,本方法通过确定待识别文本与各类目的分类概率以及各候选实体属于各类目的概率,进一步确定各候选实体的权重,从而实现对候选实体的筛选,从该待识别文本中更加准确的确定出了目标实体。



技术特征:

1.一种实体识别的方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,根据所述待识别文本的分类概率以及各候选实体分别属于各类目的概率,从各候选实体中确定所述待识别文本的目标实体之前,所述方法还包括:

3.根据权利要求2所述的方法,其特征在于,根据所述待识别文本的分类概率以及各候选实体分别属于各类目的概率,从各候选实体中确定所述待识别文本的目标实体,具体包括:

4.根据权利要求3所述的方法,其特征在于,根据所述待识别文本的分类概率以及各候选实体分别属于各类目的概率,分别确定各候选实体的类目权重,具体包括:

5.根据权利要求3所述的方法,其特征在于,根据各候选实体的所述类目权重以及所述文本权重的和,确定各候选实体的权重,具体包括:

6.根据权利要求3所述的方法,其特征在于,根据各候选实体的权重,从所述各候选实体中确定所述待识别文本的若干目标实体,具体包括:

7.根据权利要求3所述的方法,其特征在于,所述方法还包括:

8.一种实体识别的装置,其特征在于,包括:

9.一种计算机可读存储介质,其特征在于,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述权利要求1~7任一项所述的方法。

10.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现上述权利要求1~7任一项所述的方法。


技术总结
本说明书公开了一种实体识别的方法及装置,可确定待识别文本的文本向量以及该待识别文本中各候选实体。再获取属于不同类目的各文本,针对每个候选实体,根据该候选实体分别在各类目的文本中出现的次数,确定该候选实体属于各类目的概率。并根据该文本向量,通过分类处理,确定该待识别文本分别属于各类目的分类概率。最后,根据该待识别文本的分类概率以及各候选实体分别属于各类目的概率,从各候选实体中确定该待识别文本的目标实体。可见,通过确定待识别文本与各类目的分类概率以及各候选实体属于各类目的概率,进一步确定各候选实体的权重,从而实现对候选实体的筛选,从该待识别文本中更加准确的确定出了目标实体。

技术研发人员:匡俊,陈凤娇,韩程程,曹雪智,武威
受保护的技术使用者:北京三快在线科技有限公司
技术研发日:
技术公布日:2024/3/4
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1