本发明涉及数据处理领域,具体而言,涉及一种文本关系抽取处理方法及装置。
背景技术:
1、随着大数据时代的到来,每天都会产生大量与金融相关的信息如新闻、年报、财报等非结构化文本。如何从这些非结构化文本中抽取关键信息至关重要。相关技术中提出有监督关系提取,常见方法是训练一个分类器,来确定两个实体之间是否存在特定的关系。这些分类器将文本的相关特征作为输入,典型的特征有:上下文、词性标注、实体间的依存句法图、ner标注、tokens、实体位置等。需要有一批标注文本来进行训练。有监督关系抽取方法前期需要投入大量人工成本进行数据标注,增加新的关系需要相对应标注新的数据,训练新的分类器且结果不具有可解释性。
2、针对相关技术中有监督关系抽取需要投入大量人工标注成本的问题,尚未提出解决方案。
技术实现思路
1、本发明实施例提供了一种文本关系抽取处理方法及装置,以至少解决相关技术中有监督关系抽取需要投入大量人工标注成本的问题。
2、根据本发明的一个实施例,提供了一种文本关系抽取处理方法,包括:
3、对目标文本进行主题分类,得到文档集合,其中,所述文档集合由多类主题文档组成,每类主题文档包括多个句子;
4、对所述多类主题文档对应的句子进行依存句法分析,得到与句子对应的依存句法图;
5、根据与多类主题对应的关系抽取规则与所述依存句法图对所述目标文本进行关系抽取。
6、可选地,在对所述多类主题文档对应的句子进行依存句法分析,得到依存句法图之前,所述方法还包括:
7、对所述文档集合中所述多类文档对应的句子进行分词处理,得到每个句子对应的多个词;
8、对所述每个句子进行词性标注,得到每个句子对应的每个词的词性;
9、对所述每个句子进行命名实体识别,得到所述每个句子包含的实体列表。
10、可选地,对所述多类主题文档对应的句子进行依存句法分析,得到与句子对应的依存句法图包括:
11、对所述多类主题文档对应的每个句子,根据所述每个句子对应的每个词的词性、所述每个句子的实体列表进行依存句法分析,得到所述每个句子的依存句法图,其中,所述依存句法图包括每个词的属性、每两个词之间的依存关系。
12、可选地,根据与多类主题对应的关系抽取规则与所述依存句法图对所述目标文本进行关系抽取包括:
13、从预先设置的关系抽取库中获取每类主题文档对应的多个关系抽取规则;
14、若从所述多个关系抽取规则中获取到每类主题文档对应的每个句子的句型对应的目标关系抽取规则,根据所述每个句子对应目标关系抽取规则与所述每个句子的依存句法图对所述每个句子进行关系抽取。
15、可选地,所述方法还包括:
16、若从所述多个关系抽取规则中未获取目标句子的句型对应的目标关系抽取规则,为所述目标句子的句型设置对应的目标关系抽取规则,根据所述目标关系抽取规则与所述目标句子的依存句法图对所述目标句子进行关系抽取,并将所述目标关系抽取规则与所述目标句子的句型的对应关系存储到所述规则库中。
17、可选地,在根据所述每个句子对应目标关系抽取规则与所述每个句子的依存句法图对所述每个句子进行关系抽取之后,所述方法还包括:
18、所述关系抽取结果为由头实体、关系、尾实体组成的三元组,对于每个句子,将所述多个关系抽取结果中的头实体、关系、尾实体进行合并,得到由头实体、关系、尾实体组成的所述目标关系抽取结果。
19、可选地,对于每个句子,将所述多个关系抽取结果中的头实体、关系、尾实体进行合并,得到由头实体、关系、尾实体组成的所述目标关系抽取结果包括:
20、在所述头实体、所述关系、所述尾实体在分词阶段被截断的情况下,依据原始分词结果以及规则匹配结果,将所述头实体、所述关系或所述尾实体进行合并,得到完整的头实体、完整的关系、完整的尾实体;
21、在所述头实体、所述关系、所述尾实体在分词阶段未被截断的情况下,将所述头实体、所述关系或所述尾实体进行合并,得到完整的头实体、完整的关系、完整的尾实体;
22、将所述完整的头实体、所述完整的关系、所述完整的尾实体组成所述目标关系抽取结果。
23、可选地,所述关系抽取规则为多个节点中的部分节点对应的一个或多个属性组成的子规则通过关系运算符连接得到的,其中,一个词为一个节点,一个节点对应一个子规则。
24、根据本发明的又一个实施例,还提供了一种文本关系抽取处理装置,包括:
25、分类模块,用于对目标文本进行主题分类,得到文档集合,其中,所述文档集合由多类主题文档组成,每类主题文档包括多个句子;
26、分析模块,用于对所述多类主题文档对应的句子进行依存句法分析,得到与句子对应的依存句法图;
27、抽取模块,用于根据与多类主题对应的关系抽取规则与所述依存句法图对所述目标文本进行关系抽取。
28、可选地,所述装置还包括:
29、分词模块,用于对所述文档集合中所述多类文档对应的句子进行分词处理,得到每个句子对应的多个词;
30、标注模块,用于对所述每个句子进行词性标注,得到每个句子对应的每个词的词性;
31、识别模块,用于对所述每个句子进行命名实体识别,得到所述每个句子包含的实体列表。
32、可选地,所述分析模块,还用于对所述多类主题文档对应的每个句子,根据所述每个句子对应的每个词的词性、所述每个句子的实体列表进行依存句法分析,得到所述每个句子的依存句法图,其中,所述依存句法图包括每个词的属性、每两个词之间的依存关系。
33、可选地,所述抽取模块包括:
34、获取子模块,用于从预先设置的关系抽取库中获取每类主题文档对应的多个关系抽取规则;
35、第一抽取子模块,用于若从所述多个关系抽取规则中获取到每类主题文档对应的每个句子的句型对应的目标关系抽取规则,根据所述每个句子对应目标关系抽取规则与所述每个句子的依存句法图对所述每个句子进行关系抽取。
36、可选地,所述装置还包括:
37、第二抽取子模块,用于若从所述多个关系抽取规则中未获取目标句子的句型对应的目标关系抽取规则,为所述目标句子的句型设置对应的目标关系抽取规则,根据所述目标关系抽取规则与所述目标句子的依存句法图对所述目标句子进行关系抽取,并将所述目标关系抽取规则与所述目标句子的句型的对应关系存储到所述规则库中。
38、可选地,所述装置还包括:
39、合并模块,用于所述关系抽取结果为由头实体、关系、尾实体组成的三元组,对于每个句子,将所述多个关系抽取结果中的头实体、关系、尾实体进行合并,得到由头实体、关系、尾实体组成的所述目标关系抽取结果。
40、可选地,所述合并模块包括:
41、第一合并子模块,用于在所述头实体、所述关系、所述尾实体在分词阶段被截断的情况下,依据原始分词结果以及规则匹配结果,将所述头实体、所述关系或所述尾实体进行合并,得到完整的头实体、完整的关系、完整的尾实体;
42、第二合并子模块,用于在所述头实体、所述关系、所述尾实体在分词阶段未被截断的情况下,将所述头实体、所述关系或所述尾实体进行合并,得到完整的头实体、完整的关系、完整的尾实体;
43、组成子模块,用于将所述完整的头实体、所述完整的关系、所述完整的尾实体组成所述目标关系抽取结果。
44、可选地,所述关系抽取规则为多个节点中的部分节点对应的一个或多个属性组成的子规则通过关系运算符连接得到的,其中,一个词为一个节点,一个节点对应一个子规则。
45、根据本发明的又一个实施例,还提供了一种计算机可读的存储介质,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。
46、根据本发明的又一个实施例,还提供了一种电子装置,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行上述任一项方法实施例中的步骤。
47、通过本发明,对目标文本进行主题分类,得到文档集合,其中,所述文档集合由多类主题文档组成,每类主题文档包括多个句子;对所述多类主题文档对应的句子进行依存句法分析,得到与句子对应的依存句法图;根据与多类主题对应的关系抽取规则与所述依存句法图对所述目标文本进行关系抽取,可以解决相关技术中有监督关系抽取需要投入大量人工标注成本的问题,避免投入大量人工标注成本,且能高效抽取实体间关系。