文本处理方法、装置、设备和存储介质与流程

文档序号:36698496发布日期:2024-01-16 11:34阅读:15来源:国知局
文本处理方法、装置、设备和存储介质与流程

本公开涉及计算机处理,尤其涉及一种文本处理方法、装置、设备和存储介质。


背景技术:

1、随着信息技术的不断发展和普及,各行各业已经广泛利用信息技术来提高效率和生产力,由此产生了海量的文本数据。这些文本数据往往含有大量有用的信息,有效利用这些文本数据资源挖掘出有用的信息已经成为一个很迫切的需求。统计分析是一种有效的方法,但是统计分析不能发掘一些隐藏的信息,大数据技术被广泛地用来进行数据处理和数据挖掘。无论是统计分析,还是大数据技术,所处理的对象往往是结构化的数据,而生产生活中产生的海量文本数据中,大多是非结构化的数据,需要将其处理成结构化数据才能更好的采用统计分析和大数据技术进行处理。

2、如何将海量的文本数据处理成结构化数据,是一个亟待解决的问题。


技术实现思路

1、为了解决上述技术问题,本公开实施例提供了一种文本处理方法、装置、设备和存储介质,能够对文本数据做全面结构化的通用性处理,更接近认知层次,解决当前文本信息结构化方法在认知层面全面性、通用性较差的问题。

2、第一方面,本公开实施例提供一种文本处理方法,包括:

3、获取待处理文本数据中的至少一个预设关系信息,其中,所述预设关系信息包括第一预设关系信息和/或第二预设关系信息,所述第一预设关系信息包括第一文本短语、第一预设关系、第二文本短语,所述第二预设关系信息包括第三文本短语、第二预设关系、第四文本短语,所述第一预设关系用于描述所述第一文本短语和所述第二文本短语之间的关系,所述第二预设关系用于描述所述第三文本短语和所述第四文本短语之间的关系;

4、基于所述至少一个预设关系信息提取所述待处理文本数据对应的至少一个目标开放关系信息,其中,所述目标开放关系信息包括:开放主体、开放关系、开放客体,所述开放主体基于所述第一预设关系信息确定,所述开放客体基于所述第二预设关系信息确定,所述开放关系基于所述第一预设关系信息和/或所述第二预设关系信息确定。

5、在本公开的一个实施方式中,所述基于所述至少一个预设关系信息提取所述待处理文本数据对应的至少一个目标开放关系信息,包括:针对每个所述第一预设关系信息,从所述第一预设关系信息中提取第一开放关系和所述开放主体;针对每个所述第二预设关系信息,从所述第二预设关系信息中提取第二开放关系和所述开放客体;如果存在所述第一开放关系和所述第二开放关系相同的第一预设关系信息和第二预设关系信息,则基于该第一预设关系信息中的开放主体、第一开放关系和该第二预设关系信息中的开放客体构建目标开放关系信息。

6、在本公开的一个实施方式中,所述方法还包括:如果不存在与所述第一开放关系相同的第二开放关系,则基于所述该第一预设关系信息中的开放主体和所述第一开放关系构建开放关系信息,其中,所述目标开放关系信息中的开放客体为空;如果不存在与所述第二开放关系相同的第一开放关系,则基于第二预设关系信息中的开放客体和所述第二开放关系构建目标开放关系信息,其中,所述目标开放关系信息中的开放主体为空。

7、在本公开的一个实施方式中,所述从所述第一预设关系信息中提取第一开放关系和所述开放主体,包括:如果所述第一预设关系表明第一文本短语是开放关系信息中的开放关系,则将所述第二文本短语作为以所述第一文本短语为第一开放关系的开放关系信息中的开放主体;或者,如果所述第一预设关系表明第二文本短语是开放关系信息中的开放关系,则将所述第一文本短语作为以所述第二文本短语为第一开放关系的开放关系信息中的开放主体。

8、在本公开的一个实施方式中,所述从所述第二预设关系信息中提取第二开放关系和所述开放客体,包括:如果所述第二预设关系表明第三文本短语是开放关系信息中的开放关系,则将所述第四文本短语作为以所述第三文本短语为第二开放关系的开放关系信息中的开放客体;或者,如果所述第二预设关系表明第四文本短语是开放关系信息中的开放关系,则将所述第三文本短语作为以所述第四文本短语为第二开放关系的开放关系信息中的开放客体。

9、在本公开的一个实施方式中,所述预设关系信息还包括第三预设关系信息,所述第三预设关系信息包括第五文本短语、第三预设关系,第六文本短语,所述第三预设关系用于描述所述第五文本短语和所述第六文本短语之间的关系;基于所述至少一个预设关系信息提取所述待处理文本数据对应的至少一个目标开放关系信息,包括:基于所述第一预设关系信息和所述第二预设关系信息提取所述待处理文本数据对应的待选开放关系信息,其中,所述待选开放关系信息包括:待选开放主体,待选开放关系,待选开放客体;基于所述第三预设关系信息提取校验开放主体和校验开放客体;如果所述待选开放关系信息中的开放主体与所述校验开放主体相同,且所述待选开放关系信息中的开放客体与所述校验开放客体相同,则将该待选开放关系信息作为目标开放关系信息。

10、在本公开的一个实施方式中,所述基于所述第三预设关系信息提取校验开放主体和校验开放客体,包括:如果所述第三预设关系中表明第五文本短语是开放关系信息中的校验开放主体,则将所述第六文本短语作为以第五文本短语为校验开放主体的开放关系信息中的校验开放客体;或者,如果所述第三预设关系中表明第六文本短语是开放关系信息中的校验开放主体,则将所述第五文本短语作为以第六文本短语为校验开放主体的开放关系信息中的校验开放客体。

11、在本公开的一个实施方式中,所述预设关系信息以预设关系三元组的形式表示,所述目标开放关系信息以目标开放关系三元组的形式表示。

12、在本公开的一个实施方式中,所述方法还包括:基于预设泛化认知关系提取所述待处理文本数据中的泛化认知关系信息,其中,所述泛化认知信息中包括:泛化认知主体、泛化认知关系、泛化认知客体,所述泛化认知关系用于描述所述泛化认知主体与所述泛化认知客体之间的通用语义认知关系。

13、在本公开的一个实施方式中,所述泛化认知关系信息中包括第一类认知关系信息,所述第一类认知关系信息包括:第一认知主体、第一认知关系、第一认知客体;所述第一认知关系用于表明在所述待处理文本数据的上下文语义中,所述第一认知主体在语义上强制约束所述第一认知客体;或者,所述第一认知关系用于表明在所述待处理文本数据的上下文语义中,所述第一认知客体在语义上强制约束所述第一认知主体。在本公开的一个实施方式中,所述泛化认知关系信息中包括第二类认知关系信息,所述第二类认知关系信息包括:第二认知主体、第二认知关系、第二认知客体;所述第二认知关系用于表明在脱离所述待处理文本数据的上下文语义的情况下,所述第二认知主体与所述第二认知客体在语义上相同。

14、在本公开的一个实施方式中,所述泛化认知关系信息中包括第三类认知关系信息,所述第三类认知关系信息包括:第三认知主体、第三认知关系、第三认知客体;所述第三认知关系用于表明在所述第三类认知关系信息中,所述第三认知主体无语义含义,所述第三认知主体用于代指第三认知客体;或者,所述第三认知关系用于表明在所述第三类认知关系信息中,所述第三认知客体无语义含义,所述第三认知客体用于代指所述第三认知主体。

15、在本公开的一个实施方式中,所述泛化认知关系信息中包括第四类认知关系信息,所述第四类认知关系信息包括:第四认知主体、第四认知关系、第四认知客体;所述第四认知关系用于表明在所述待处理文本数据的上下文语义中,所述第四认知主体在语义上包含所述第四认知客体;或者,所述第四认知关系用于表明在所述待处理文本数据的上下文语义中,所述第四认知客体在语义上包含所述第四认知主体。

16、在本公开的一个实施方式中,所述泛化认知关系信息中包括第五类认知关系信息,所述第五类认知关系信息包括:第五认知主体、第五认知关系、第五认知客体;所述第五认知关系用于表明第五类认知关系信息中所述第五认知主体是所述第五认知客体的原因,所述第五认知客体是所述第五认知主体的结果;或者,所述第五认知关系用于表明第五类认知关系信息中所述第五认知客体是所述第五认知主体的原因,所述第五认知主体是所述第五认知客体的结果。

17、在本公开的一个实施方式中,所述泛化认知关系信息中包括第六类认知关系信息,所述第六类认知关系信息包括:第六认知主体、第六认知关系、第六认知客体;所述第六认知关系用于表明在所述待处理文本数据的上下文语义中,所述第六认知主体与所述第六认知客体在语义上是同层次的并列关系。

18、在本公开的一个实施方式中,所述泛化认知关系信息中包括第七类认知关系信息,所述第七类认知关系信息包括:第七认知主体、第七认知关系、第七认知客体;所述第七认知关系用于表明在所述待处理文本数据的上下文语义中,所述第七认知主体与所述第七认知客体在语义上是同层次的选择关系。

19、在本公开的一个实施方式中,所述泛化认知关系信息中包括第八类认知关系信息,其中,所述第八类认识关系信息包括:第八认知主体、第八认知关系、第八认知客体;所述第八认知关系用于表明在第八认知关系信息中所述第八认知主体描述第八认知客体;或者,所述第八认知关系用于表明在第八认知关系信息中所述第八认知客体描述第八认知主体;其中,所述第八认知主体和所述第八认知客体组合成待处理文本数据的子集,若从该待处理文本数据的子集中提取到目标开放关系信息,则同一目标开放关系信息中的开放主体、开放客体和开放关系全部在所述第八认知主体中,或者,若从该待处理文本数据的子集中提取到目标开放关系信息,则同一目标开放关系信息中的开放主体、开放客体和开放关系全部在所述第八认知客体中;其中,所述第八类认知关系信息不包括如下任意一类认知关系信息:第一类认知关系信息,第二类认知关系信息,第三类认知关系信息,第四类认知关系信息,第五类认知关系信息,第六类认知关系信息,第七类认知关系信息。

20、在本公开的一个实施方式中,所述泛化认知关系信息以泛化认知关系三元组的形式表示。

21、第二方面,本公开实施例提供一种文本处理装置,包括:

22、预设关系信息获取模块,用于获取待处理文本数据中的至少一个预设关系信息,其中,所述预设关系信息包括第一预设关系信息和/或第二预设关系信息,所述第一预设关系信息包括第一文本短语、第一预设关系、第二文本短语,所述第一预设关系用于描述所述第一文本短语和所述第二文本短语之间的关系,所述第二预设关系信息包括第三文本短语、第二预设关系、第四文本短语,所述第二预设关系用于描述所述第三文本短语和所述第四文本短语之间的关系;

23、开放关系信息提取模块,用于基于所述至少一个预设关系信息提取所述待处理文本数据对应的至少一个目标开放关系信息,其中,所述目标开放关系信息包括:开放主体、开放关系、开放客体,所述开放主体基于所述第一预设关系信息确定,所述开放客体基于所述第二预设关系信息确定,所述开放关系基于所述第一预设关系信息和/或所述第二预设关系信息确定。

24、在本公开的一个实施方式中,所述开放关系信息提取模块,包括:第一信息提取单元,用于针对每个所述第一预设关系信息,从所述第一预设关系信息中提取第一开放关系和所述开放主体;第二信息提取单元,用于针对每个所述第二预设关系信息,从所述第二预设关系信息中提取第二开放关系和所述开放客体;第一提取单元,用于如果存在所述第一开放关系和所述第二开放关系相同的第一预设关系信息和第二预设关系信息,则基于该第一预设关系信息中的开放主体、第一开放关系和该第二预设关系信息中的开放客体构建目标开放关系信息。

25、在本公开的一个实施方式中,所述开放关系信息提取模块,还包括:第二提取单元,用于如果不存在与所述第一开放关系相同的第二开放关系,则基于所述该第一预设关系信息中的开放主体和所述第一开放关系构建开放关系信息,其中,所述目标开放关系信息中的开放客体为空;第三提取单元,用于如果不存在与所述第二开放关系相同的第一开放关系,则基于第二预设关系信息中的开放客体和所述第二开放关系构建目标开放关系信息,其中,所述目标开放关系信息中的开放主体为空。

26、在本公开的一个实施方式中,第一信息提取单元,具体用于如果所述第一预设关系表明第一文本短语是开放关系信息中的开放关系,则将所述第二文本短语作为以所述第一文本短语为第一开放关系的开放关系信息中的开放主体;或者,如果所述第一预设关系表明第二文本短语是开放关系信息中的开放关系,则将所述第一文本短语作为以所述第二文本短语为第一开放关系的开放关系信息中的开放主体。

27、在本公开的一个实施方式中,第二信息提取单元,具体用于如果所述第二预设关系表明第三文本短语是开放关系三元组中的开放关系,则将所述第四文本短语作为以所述第三文本短语为第二开放关系的开放关系信息中的开放客体;或者,如果所述第二预设关系表明第四文本短语是开放关系三元组中的开放关系,则将所述第三文本短语作为以所述第四文本短语为第二开放关系的开放关系信息中的开放客体。

28、在本公开的一个实施方式中,所述预设关系信息还包括第三预设关系信息,所述第三预设关系信息包括第五文本短语、第三预设关系,第六文本短语,所述第三预设关系用于描述所述第五文本短语和所述第六文本短语之间的关系;开放关系信息提取模块,包括:待选开放关系信息提取单元,用于基于所述第一预设关系信息和所述第二预设关系信息提取所述待处理文本数据对应的待选开放关系信息,其中,所述待选开放关系信息包括:待选开放主体,待选开放关系,待选开放客体;校验信息提取单元,用于基于所述第三预设关系信息提取校验开放主体和校验开放客体;目标开放关系提取单元,用于如果所述待选开放关系信息中的开放主体与所述校验开放主体相同,且所述待选开放关系信息中的开放客体与所述校验开放客体相同,则将该待选开放关系信息作为目标开放关系信息。

29、在本公开的一个实施方式中,校验信息提取单元,用于如果所述第三预设关系中表明第五文本短语是开放关系信息中的校验开放主体,则将所述第六文本短语作为以第五文本短语为校验开放主体的开放关系信息中的校验开放客体;或者,如果所述第三预设关系中表明第六文本短语是开放关系信息中的校验开放主体,则将所述第五文本短语作为以第六文本短语为校验开放主体的开放关系信息中的校验开放客体。

30、在本公开的一个实施方式中,所述预设关系信息以预设关系三元组的形式表示,所述目标开放关系信息以目标开放关系三元组的形式表示。

31、在本公开的一个实施方式中,所述装置还包括:泛化认知关系信息提取模块,用于基于预设泛化认知关系提取所述待处理文本数据中的泛化认知关系信息,其中,所述泛化认知信息中包括:泛化认知主体、泛化认知关系、泛化认知客体,所述泛化认知关系用于描述所述泛化认知主体与所述泛化认知客体之间的通用语义认知关系。

32、在本公开的一个实施方式中,所述泛化认知关系信息中包括第一类认知关系信息,所述第一类认知关系信息包括:第一认知主体、第一认知关系、第一认知客体;所述第一认知关系用于表明在所述待处理文本数据的上下文语义中,所述第一认知主体在语义上强制约束所述第一认知客体;或者,所述第一认知关系用于表明在所述待处理文本数据的上下文语义中,所述第一认知客体在语义上强制约束所述第一认知主体。

33、在本公开的一个实施方式中,所述泛化认知关系信息中包括第二类认知关系信息,所述第二类认知关系信息包括:第二认知主体、第二认知关系、第二认知客体;所述第二认知关系用于表明在脱离所述待处理文本数据的上下文语义的情况下,所述第二认知主体与所述第二认知客体在语义上相同。

34、在本公开的一个实施方式中,所述泛化认知关系信息中包括第三类认知关系信息,所述第三类认知关系信息包括:第三认知主体、第三认知关系、第三认知客体;所述第三认知关系用于表明在所述第三类认知关系信息中,所述第三认知主体无语义含义,所述第三认知主体用于代指第三认知客体;或者,所述第三认知关系用于表明在所述第三类认知关系信息中,所述第三认知客体无语义含义,所述第三认知客体用于代指所述第三认知主体。

35、在本公开的一个实施方式中,所述泛化认知关系信息中包括第四类认知关系信息,所述第四类认知关系信息包括:第四认知主体、第四认知关系、第四认知客体;所述第四认知关系用于表明在所述待处理文本数据的上下文语义中,所述第四认知主体在语义上包含所述第四认知客体;或者,所述第四认知关系用于表明在所述待处理文本数据的上下文语义中,所述第四认知客体在语义上包含所述第四认知主体。

36、在本公开的一个实施方式中,所述泛化认知关系信息中包括第五类认知关系信息,所述第五类认知关系信息包括:第五认知主体、第五认知关系、第五认知客体;所述第五认知关系用于表明第五类认知关系信息中所述第五认知主体是所述第五认知客体的原因,所述第五认知客体是所述第五认知主体的结果;或者,所述第五认知关系用于表明第五类认知关系信息中所述第五认知客体是所述第五认知主体的原因,所述第五认知主体是所述第五认知客体的结果。

37、在本公开的一个实施方式中,所述泛化认知关系信息中包括第六类认知关系信息,所述第六类认知关系信息包括:第六认知主体、第六认知关系、第六认知客体;所述第六认知关系用于表明在所述待处理文本数据的上下文语义中,所述第六认知主体与所述第六认知客体在语义上是同层次的并列关系。

38、在本公开的一个实施方式中,所述泛化认知关系信息中包括第七类认知关系信息,所述第七类认知关系信息包括:第七认知主体、第七认知关系、第七认知客体;所述第七认知关系用于表明在所述待处理文本数据的上下文语义中,所述第七认知主体与所述第七认知客体在语义上是同层次的选择关系。

39、在本公开的一个实施方式中,所述泛化认知关系信息中包括第八类认知关系信息,其中,所述第八类认识关系信息包括:第八认知主体、第八认知关系、第八认知客体;所述第八认知关系用于表明在第八认知关系信息中所述第八认知主体描述第八认知客体;或者,所述第八认知关系用于表明在第八认知关系信息中所述第八认知客体描述第八认知主体;其中,所述第八认知主体和所述第八认知客体组合成待处理文本数据的子集,若从该待处理文本数据的子集中提取到目标开放关系信息,则同一目标开放关系信息中的开放主体、开放客体和开放关系全部在所述第八认知主体中,或者,若从该待处理文本数据的子集中提取到目标开放关系信息,则同一目标开放关系信息中的开放主体、开放客体和开放关系全部在所述第八认知客体中;其中,所述第八类认知关系信息不包括如下任意一类认知关系信息:第一类认知关系信息,第二类认知关系信息,第三类认知关系信息,第四类认知关系信息,第五类认知关系信息,第六类认知关系信息,第七类认知关系信息。

40、在本公开的一个实施方式中,所述泛化认知关系信息以泛化认知关系三元组的形式表示。

41、第三方面,本公开实施例提供一种电子设备,所述电子设备包括:

42、一个或多个处理器;

43、存储装置,用于存储一个或多个程序;

44、当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如上述第一方面中任一项所述的文本处理方法。

45、第四方面,本公开实施例提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述第一方面中任一项所述的文本处理方法。

46、本公开实施例提供的技术方案与现有技术相比具有如下优点:

47、1.提出一种能够对文本做全面结构化的通用性方法,该方法更接近认知层次,解决当前文本信息结构化方法在认知层面全面性、通用性较差的问题;

48、2.本文提出基于预设关系提取开放关系三元组的方法,定义的预设关系能够指明实体类型,不依赖实体本身对“开放关系”、“开放主体”、“开发客体”3个类型的分类识别,解决现有开放关系三元组提取方法对实体分类识别、词性标注器等的依赖;解决现有一些单纯依赖序列标注“开放关系”、“开放主体”和“开放客体”的开放关系三元组提取算法不能有效远程跨实体提取开放关系的问题;解决现有开放关系三元组提取方法流程繁琐且不能有效解决多对多开放关系的校验问题;

49、3.提出一种基于泛化认知预设关系的文本信息结构化方法,解决现有提取预设关系三元组方法使用具象预设关系,具象预设关系与具体场景和应用绑定,导致泛化性较差的问题;解决开放关系三元组和普通具象预设关系三元组不能对文本做全面的结构化问题;解决现有依存句法分析方法的依存关系过于偏向语法层面但对认知概念表达不足的问题。

50、4.将开放关系三元组的提取、校验方法,实体间泛化认知关系的提取方法均统一在预设关系提取方法框架下,解决现有开放关系三元组提取、校验方法和预设关系三元组提取方法不能做到完全统一的问题。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1