一种文本中知识领域识别方法及系统与流程

文档序号:12733642阅读:365来源:国知局
一种文本中知识领域识别方法及系统与流程

本发明涉及文本数据处理技术领域,特别涉及一种文本中知识领域识别方法及系统。



背景技术:

文本中实体间的语义关系的揭示是实现文本中领域知识发现的重要前提和保障。当前,对于社交媒体文本数据知识发现的研究多为对现有知识发现方法的应用和改进,鲜少有对文本内容中实体间语义关系的讨论,现有技术中,对文本中知识领域的识别仅通过对关键词的识别判定,识别效率不高,且对文本数据中领域知识的可靠性难以保证。

综上所述,如何提高文本中知识领域的识别效率是本领域技术人员目前需要解决的技术问题。



技术实现要素:

有鉴于此,本发明的目的在于提供一种文本中知识领域识别方法及系统,可以显著提高文本中知识领域的识别效率。其具体方案如下:

一种文本中知识领域识别方法,包括:

步骤S1:判断相关领域概念和目标领域概念是否出现在同一句子中,若是,则进行步骤S2,若否,则进行步骤S6;

步骤S2:判断所述相关领域概念的数量是否唯一,若是,则判定找到概念/关系对,若否,则进行步骤S3;

步骤S3:计算第一相关领域概念距离和第二相关概念领域距离之差的绝对值,得到第一相对距离,其中,所述第一相关领域概念距离为所述第一相关领域概念与所述目标领域概念之差的绝对值,所述第二相关领域概念距离为所述第二相关领域概念与所述目标领域概念之差的绝对值;

步骤S4:判断所述第一相对距离是否大于或等于第一阈值,若是,则进行步骤S5,若否,则根据语境进行分析,以得到概念/关系对;

步骤S5:判定所述第一相关领域概念距离和所述第二相关概念领域距离中的较小者相应的相关概念领域为概念/关系对;

步骤S6:判断步骤S1中所述相关领域概念在相邻句中是否唯一,若是,则判定找到概念/关系对,若否,则进行步骤S7;

步骤S7:计算第三相关领域概念距离和第四相关概念领域距离之差的绝对值,得到第二相对距离,其中,所述第三相关领域概念距离为所述第三相关领域概念与所述目标领域概念之差的绝对值,所述第四相关领域概念距离为所述第四相关领域概念与所述目标领域概念之差的绝对值;

步骤S8:判断所述第三相对距离是否大于或等于第二阈值,若是,则进行步骤S9,若否,则根据语境进行分析,以得到概念/关系对;

步骤S9:判定所述第三相关领域概念距离和所述第四相关概念领域距离中的较小者相应的相关概念领域为概念/关系对。

优选的,步骤S4中所述根据语境进行分析包括:

按照出现顺序获取所述第一相关领域概念、所述第二相关领域概念和所述目标领域的序列集合,根据所述序列集合进行分析。

优选的,所述文本中知识领域识别方法还包括:

若存在相关领域概念的数量大于2时,判断每一个相关领域概念是否曾被确认为所述目标领域概念的概念/关系对,若否,则判定为找到新概念/关系对,若是,则需要根据语境判断。

优选的,所述文本中知识领域识别方法还包括:

若存在相关领域概念的数量大于2时,判断每一个相关领域概念是否曾作为所述目标领域概念的结果出现,若否,则判定为找到新概念/关系对,若是,则需要根据语境判断。

本发明还公开了一种文本中知识领域识别系统,包括同句判断模块、第一数量判断模块、第一相对距离计算模块、第一阈值判断模块、第一距离确定模块、第二数量判断模块、第二相对距离计算模块、第二阈值判断模块和第二距离确定模块,其中:

所述同句判断模块,用于判断相关领域概念和目标领域概念是否出现在同一句子中,若是,则控制所述第一数量判断模块工作,若否,则控制第二数量判断模块工作;

所述第一数量判断模块,用于判断所述相关领域概念的数量是否唯一,若是,则判定找到概念/关系对,若否,则控制所述第一相对距离计算模块工作;

所述第一相对距离计算模块,用于计算第一相关领域概念距离和第二相关概念领域距离之差的绝对值,得到第一相对距离,其中,所述第一相关领域概念距离为所述第一相关领域概念与所述目标领域概念之差的绝对值,所述第二相关领域概念距离为所述第二相关领域概念与所述目标领域概念之差的绝对值;

所述第一阈值判断模块,用于判断所述第一相对距离是否大于或等于第一阈值,若是,则控制所述第一距离确定模块工作,若否,则根据语境进行分析,以得到概念/关系对;

所述第一距离确定模块,用于判定所述第一相关领域概念距离和所述第二相关概念领域距离中的较小者相应的相关概念领域为概念/关系对;

所述第二数量判断模块,用于判断所述同句判断模块中的所述相关领域概念在相邻句中是否唯一,若是,则判定找到概念/关系对,若否,则控制所述第二相对距离计算模块工作;

所述第二相对距离计算模块,用于计算第三相关领域概念距离和第四相关概念领域距离之差的绝对值,得到第二相对距离,其中,所述第三相关领域概念距离为所述第三相关领域概念与所述目标领域概念之差的绝对值,所述第四相关领域概念距离为所述第四相关领域概念与所述目标领域概念之差的绝对值;

所述第二阈值判断模块,用于判断所述第三相对距离是否大于或等于第二阈值,若是,则控制所述第二距离确定模块工作,若否,则根据语境进行分析,以得到概念/关系对;

所述第二距离确定模块,用于判定所述第三相关领域概念距离和所述第四相关概念领域距离中的较小者相应的相关概念领域为概念/关系对。

本发明公开了一种文本中知识领域识别方法,通过判断相关概念领域和目标概念领域的位置,若相关概念领域的数量唯一,则找到概念/关系对,若相关概念领域的数量不唯一,则对同句或相邻句中的相关概念领域和目标概念领域的相对距离进行计算,若相对距离大于或等于阈值,则距离目标概念领域更近的相关概念领域为概念/关系对,若小于阈值,则需要根据语境进行分析判断,可以较快速地处理文本中知识领域之间的匹配关系,从而提高了文本中知识领域的识别效率。

本发明还公开了一种文本中知识领域识别系统,具有与上述权利要求相同的技术效果,在此不再赘述。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。

图1为本发明公开的一种文本中知识领域识别方法的流程示意图;

图2为本发明公开的一种文本中知识领域识别系统的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

本发明实施例公开了一种文本中知识领域识别方法,参见图1所示,包括步骤S1至S9,其中:

步骤S1:判断相关领域概念和目标领域概念是否出现在同一句子中,若是,则进行步骤S2,若否,则进行步骤S6。

本发明对相关领域概念和目标领域概念的位置进行差异化判断,具体分为出现在同一个句子和出现在不同句子,步骤S2至S5为出现在同一句子,步骤S6至S9为出现在相邻句中。

可以理解的是,相关领域概念和目标领域概念出现在不相邻的句子中涵盖范围过大,例如相关领域概念和目标领域概念分别出现在全文第一段和最后一段,对于出现在不相邻的句子的情况,本发明不予考虑。

步骤S2:判断所述相关领域概念的数量是否唯一,若是,则判定找到概念/关系对,若否,则进行步骤S3;

步骤S3:计算第一相关领域概念距离和第二相关概念领域距离之差的绝对值,得到第一相对距离,其中,所述第一相关领域概念距离为所述第一相关领域概念与所述目标领域概念之差的绝对值,所述第二相关领域概念距离为所述第二相关领域概念与所述目标领域概念之差的绝对值;

步骤S4:判断所述第一相对距离是否大于或等于第一阈值,若是,则进行步骤S5,若否,则根据语境进行分析,以得到概念/关系对;

步骤S5:判定所述第一相关领域概念距离和所述第二相关概念领域距离中的较小者相应的相关概念领域为概念/关系对。

对于步骤S3至S5,一种具体的实施例为:

计算过程中的字符说明如下:

χ表示目标领域概念;

φ表示与目标领域概念有关系的第一相关领域概念;

τ表示与目标领域概念有关的第二相关领域概念;

Pχ表示目标领域概念在文本中出现的位置;

表示第一相关领域概念在文本中出现的位置;,

Pτ表示第二相关领域概念在文中出现的位置;

S表示包含目标领域概念的句子及其相邻句子组成的句子集合;

表示相关领域概念组成的集合;

χ表示目标领域概念的集合;

Dist(Si):句子中相关领域概念φ或相关领域概念τ与目标领域概念χ的距离,即第一相对距离。

表示是否找到相关领域概念φ与目标领域概念χ概念对(φ,χ)。

以下推理规则的构建是建立在包含目标领域概念的当前句子及其相邻句子中只出现一个目标领域概念的假设下的。

对于相关领域概念与目标领域概念都出现在同一句子中的情况,抽取实体语义关系的推理规则公式如下:

为定义计算符号,表示取或逻辑,左端表示存在的相关领域概念的数量唯一,右端表示第一相对距离大于或等于第一阈值3,且第一相关领域概念在文本中出现的位置比第二相关领域概念在文本中出现的位置Pτ更近;&表示与逻辑,在本式中表示同时满足第一相关领域概念在文本中出现的位置比第二相关领域概念在文本中出现的位置Pτ更近的结果和第一相对距离大于或等于第一阈值3;Sequence(Si)表示相关领域概念与目标领域概念的判定序列,其中判定序列包括第一相关领域概念构成概念/关系对和第二相关领域概念构成概念/关系对;R为相关领域概念与目标领域概念组成的序列集合;others表示运算的其他情况。

当然,第一阈值也可以其他值。

句子中相关领域概念φ或相关领域概念τ与目标领域概念χ的距离Dist(Si)的定义如下:

其中∞表示一定存在φ与χ构成的领域概念/关系对;表示相关领域概念φ和相关领域概念τ与目标领域概念χ的相对距离的差的绝对值。

根据以上定义,推理规则公式对应的推理规则为:

①若当前句子中只有相关领域概念φ,而没有相关领域概念τ,则认为φ即是要找的与目标领域概念组成实体语义关系的那个领域相关概念,即找到概念/关系对。

②若当前句子中同时出现相关领域概念φ和相关领域概念τ,则需分别计算相关领域概念φ和相关领域概念τ与目标领域概念χ的相对距离。当相对距离的差的绝对值大于等于某个预定的阀值,且相关领域概念φ与目标概念χ的距离更近(即)时,找到概念/关系对。

③当相对距离的差的绝对值小于某个预定的阀值时,由于相关领域概念φ和相关概念领域概念τ与目标领域概念χ的相对距离差别不大,因此需根据φ、χ、τ出现在文本中的顺序进行进一步分析。

对于步骤S4中所述根据语境进行分析包括:

按照出现顺序获取所述第一相关领域概念、所述第二相关领域概念和所述目标领域的序列集合,根据所述序列集合进行分析。

根据上述具体的实施例,定义φ、χ、τ出现在文本中的序列集合R,其中包含φ、χ、τ在文本中出现的所有可能的次序的组合排列。

前四种为第一相关领域概念构成概念/关系对,后两种为第二相关领域概念构成概念/关系对。

例如,判断同句子中的第一相关概念领域disease、第二相关概念领域drug和目标概念领域MedicalSign的序列集合,具体包括如下组合:

①在句子中出现的顺序依次为Drug name、MedicalSign、disease name;

②在句子中出现的顺序依次为Disease name、Drug name、MedicalSign;

③在句子中出现的顺序依次为MedicalSign、Drug name、disease name;

④在句子中出现的顺序依次为drug name、disease name、MedicalSign;

⑤在句子中出现的顺序依次为disease name、MedicalSign、drug name;

⑥在句子中出现的顺序依次为MedicalSign、disease name、drug name;

判断结果为:前四个是药物不良反应,后两个是疾病的症状。

对于根据φ、χ、τ出现在文本中的顺序不同组成的排列组合R,需要根据实际语境和语言习惯等进行综合判断。

步骤S6:判断步骤S1中所述相关领域概念在相邻句中是否唯一,若是,则判定找到概念/关系对,若否,则进行步骤S7;

步骤S7:计算第三相关领域概念距离和第四相关概念领域距离之差的绝对值,得到第二相对距离,其中,所述第三相关领域概念距离为所述第三相关领域概念与所述目标领域概念之差的绝对值,所述第四相关领域概念距离为所述第四相关领域概念与所述目标领域概念之差的绝对值;

步骤S8:判断所述第三相对距离是否大于或等于第二阈值,若是,则进行步骤S9,若否,则根据语境进行分析,以得到概念/关系对;

步骤S9:判定所述第三相关领域概念距离和所述第四相关概念领域距离中的较小者相应的相关概念领域为概念/关系对。

步骤S6至S9为相关领域概念和目标领域概念出现在不同句子中,即相邻句中。

需要说明的是,步骤S6至S9中出现的第三相关领域概念距离、第四相关概念领域距离和第二相对距离,与步骤S2至S5中出现的第一相关领域概念距离、第二相关概念领域距离和第一相对距离仅为防止本领域技术人员阅读时对判断语句内容产生误解而进行的区别,在实际判断中,对于目标语句,相关领域概念和目标领域概念出现的情况是确定的,所以步骤S2至S5和步骤S6至S9是排他的,因此,下述实施例中,仍用上述具体实施例一中的符号进行举例,即φ表示与目标领域概念有关系的第三相关领域概念;τ表示与目标领域概念有关的第四相关领域概念。由于判断文本相同因此第一阈值和第二阈值一般相同,即取3,当然也可以取其他值。

根据步骤S6至S9,具体的实施例二如下:

当相关领域概念φ和相关领域概念τ与目标领域概念χ不在同一句子当中时,抽取实体语义关系的推理规则公式如下所示。

其中表示包含目标领域概念的句子及其相邻句子组成的句子集合,Si代表当前句,Si-1和Si+1分别表示目标领域概念所在句子的前一句和后一句。

根据以上定义,推理规则公式对应的推理规则为:

①当相关领域概念φ出现在包含目标领域概念的句子的相邻句中,且相邻句中没有其他相关领域概念时,即认为找到概念/关系对。

②当相关领域概念φ和相关领域概念τ都在包含目标领域概念的句子的相邻句中时,分别计算相关领域概念φ和相关领域概念τ与目标领域概念χ的相对距离。当相关领域概念φ与目标概念χ的距离更近(即)时,找到概念/关系对。

为了提高本发明对存在多个目标领域概念情况的识别效率,所述文本中知识领域识别方法还包括:

若存在相关领域概念的数量大于2时,判断每一个相关领域概念是否曾被确认为所述目标领域概念的概念/关系对,若否,则判定为找到新概念/关系对,若是,则需要根据语境判断。

考虑到文本中内容之间的关系,可以对上述存在多个目标领域情况采取另一种判别方法,具体的,所述文本中知识领域识别方法还包括:

若存在相关领域概念的数量大于2时,判断每一个相关领域概念是否曾作为所述目标领域概念的结果出现,若否,则判定为找到新概念/关系对,若是,则需要根据语境判断。

对于存在多个相关领域概念的情况和存在多个目标领域概念的集合,具体的实施例三如下:

当存在多个相关领域概念或多个目标领域概念时,抽取实体语义关系的推理规则公式如下所示:

其中,表示取或,在本推理公式中左端表示多领域集合大于1且从没有被确认为所述目标领域概念的结果,右端表示多领域集合大于1且从没有被作为所述目标领域概念的结果出现,表示多个相关领域概念的集合,X=(x1,x2,...,xm)表示多个目标领域概念的集合,表示已被证明是所述目标领域概念的结果的概念/关系对集合,其中表示已被证明是所述目标领域概念的结果的概念/关系对,表示已确认作为所述目标领域概念的结果的集合。

上述推理规则公式对应的推理规则为:

①若存在多个相关领域概念,判断目标领域概念x是否曾经作为述目标领域概念的结果出现过,若没有,则认为找到新的概念/关系对,只是此时获得的概念/关系对可看作是“一对多”的形式,如

②对相关领域概念集合中的每个相关领域概念,都需要判断目标领域概念χ是否曾经与相关领域概念集合中任意一个相关领域概念以概念/关系对的形式被确认为述目标领域概念的结果,若没有,则可认为找到新的概念/关系对。

本发明还公开了一种文本中知识领域识别系统,包括同句判断模块11、第一数量判断模块12、第一相对距离计算模块13、第一阈值判断模块14、第一距离确定模块15、第二数量判断模块16、第二相对距离计算模块17、第二阈值判断模块18和第二距离确定模块19,其中:

所述同句判断模块,用于判断相关领域概念和目标领域概念是否出现在同一句子中,若是,则控制所述第一数量判断模块工作,若否,则控制第二数量判断模块工作;

所述第一数量判断模块,用于判断所述相关领域概念的数量是否唯一,若是,则判定找到概念/关系对,若否,则控制所述第一相对距离计算模块工作;

所述第一相对距离计算模块,用于计算第一相关领域概念距离和第二相关概念领域距离之差的绝对值,得到第一相对距离,其中,所述第一相关领域概念距离为所述第一相关领域概念与所述目标领域概念之差的绝对值,所述第二相关领域概念距离为所述第二相关领域概念与所述目标领域概念之差的绝对值;

所述第一阈值判断模块,用于判断所述第一相对距离是否大于或等于第一阈值,若是,则控制所述第一距离确定模块工作,若否,则根据语境进行分析,以得到概念/关系对;

所述第一距离确定模块,用于判定所述第一相关领域概念距离和所述第二相关概念领域距离中的较小者相应的相关概念领域为概念/关系对;

所述第二数量判断模块,用于判断所述同句判断模块中的所述相关领域概念在相邻句中是否唯一,若是,则判定找到概念/关系对,若否,则控制所述第二相对距离计算模块工作;

所述第二相对距离计算模块,用于计算第三相关领域概念距离和第四相关概念领域距离之差的绝对值,得到第二相对距离,其中,所述第三相关领域概念距离为所述第三相关领域概念与所述目标领域概念之差的绝对值,所述第四相关领域概念距离为所述第四相关领域概念与所述目标领域概念之差的绝对值;

所述第二阈值判断模块,用于判断所述第三相对距离是否大于或等于第二阈值,若是,则控制所述第二距离确定模块工作,若否,则根据语境进行分析,以得到概念/关系对;

所述第二距离确定模块,用于判定所述第三相关领域概念距离和所述第四相关概念领域距离中的较小者相应的相关概念领域为概念/关系对。

最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上对本发明所提供的一种文本中知识领域识别方法及系统进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1