中医药知识图谱及其建立方法以及计算机系统与流程

文档序号:11250996阅读:882来源:国知局
中医药知识图谱及其建立方法以及计算机系统与流程

本发明涉及中医药领域,更具体地讲,本发明涉及一种中医药知识图谱、一种建立中医药知识图谱的方法以及一种计算机系统。



背景技术:

知识图谱是在大数据的时代背景下产生的一种新型的海量知识管理与服务模式。它是以“语义网络”为骨架构建起来的巨型、网络化的知识系统,能够捕捉并呈现领域概念之间的语义关系。国内外互联网公司纷纷推出知识图谱以提升服务质量,如谷歌知识图谱、百度“知心”和搜狗的“知立方”。然而,在中医药领域,目前还没有能够提供类似功能的知识图谱。



技术实现要素:

本发明的各方面提供了一种中医药知识图谱、一种建立中医药知识图谱的方法以及一种计算机系统。

根据本发明的一方面,一种建立中医药知识图谱的方法,包括:

采集中医药数据库中的原始数据;

对所述原始数据进行处理,得到结构化数据;

从所述结构化数据中抽取实体和属性;以及

利用所述实体和所述属性构建中医药知识图谱。

可选地,所述实体包括用户感兴趣的条目或条目的取值,所述属性包括所述实体之间的关系。

可选地,所述实体包括:中药名称、病种、炮制方法、剂型、药性、药量的一种或多种。

可选地,所述属性包括:作用关系、相关关系、从属关系、取值关系的一种或多种。

可选地,所述作用关系表示实体之间的相互作用;所述相关关系根据实体在所述中医药数据库中的共现次数确定;所述从属关系表示一个实体从属于另一个实体;以及所述取值关系表示一个实体是另一个实体的取值。

可选地,所述相互作用包括:治疗、反畏、相须的一种或多种。

可选地,所述实体的取值包括:所述实体的绝对数量值、相对数量值或所述实体的性质。

可选地,所述中医药数据库包括:病例数据库、中药期刊数据库、中药专利数据库、中药专业词典的一种或多种。

可选地,对所述原始数据进行处理,得到结构化数据包括:采用自然语言处理技术对原始数据进行处理。

根据本发明的另一方面,一种中医药知识图谱,包括:

实体,所述实体来自于中医药数据库;以及

属性,所述属性来自于中医药数据库,

其中,所述实体和属性分别抽取自结构化数据,其中所述结构化数据通过处理从所述中医药数据库中采集的数据来产生。

根据本发明的另一方面,一种计算机系统,包括:

处理器;以及

存储器,存储有计算机可读指令,

其中,当存储器中存储的计算机可读指令被执行时,使得所述计算机系统执行根据本发明实施例的建立中医药知识图谱的方法。

利用根据本发明的中医药知识图谱、建立中医药知识图谱的方法以及计算机系统,采集中医药数据库中的原始数据;对所述原始数据进行处理,得到结构化数据;从所述结构化数据中抽取实体和属性;以及利用所述实体和所述属性构建中医药知识图谱。因此,能够将分散于各种数据库、文献库中的中医药知识资源汇集起来,建立中医药知识图谱,为中医药工作者和大众提供准确、全面的中医药知识。

附图说明

附图是用来提供对本发明的进一步理解,并且构成说明书的一部分,与下面的具体实施方式一起用于解释本发明,但并不构成对本发明的限制。在附图中:

图1是根据本发明一个实施例的建立中医药知识图谱的方法的流程图;

图2是根据本发明一个实施例的中医药知识图谱的示意图;以及

图3是根据本发明一个实施例的计算机系统的示意图。

具体实施方式

为使本领域的技术人员更好地理解本公开的技术方案,下面结合附图和具体实施方式对本公开所提供的一种中医药知识图谱、建立中医药知识图谱的方法以及计算机系统作进一步详细描述。

图1是根据本发明一个实施例的建立中医药知识图谱的方法的流程图。参照图1,根据本发明一个实施例的建立中医药知识图谱的方法包括以下步骤:

在步骤101,采集中医药数据库中的原始数据。在本实施例中,可以使用计算机系统采集中医药数据库中的原始数据。例如,可以通过互联网访问相应的数据库,以采集中医药数据库中的数据。然而本发明不限于此,也可以通过局域网、存储介质等来访问相应的数据库,以采集中医药数据库中的数据。

在本实施例中,采集的原始数据可以是文本数据,然而本发明不限于此。也可以采集其它形式的数据,例如图像数据、视频数据、音频数据等。在下文中,将以文本数据作为示例来更详细地解释本发明,然而本领域技术人员应当理解,其它形式的数据也可以利用相似的方式进行处理。

在一个实施例中,例如,中医药数据库可以包括:病例数据库、中药期刊数据库、中药专利数据库和/或中药专业词典等。

在步骤102,对所述原始文本数据进行处理,得到结构化文本数据。在一个实施例中,可以采用自然语言处理技术对原始文本数据进行处理,从而利用原始文本数据生成结构化文本数据。

自然语言处理技术是一种融语言学、计算机科学、数学于一体技术,其能够实现人与计算机之间用自然语言进行有效通信。目前,本领域中已经出现了各种基于自然语言处理技术来对文本进行处理的方法。在本实施例中,采用自然语言处理技术生成结构化文本数据主要包括以下两个步骤。首先,根据原始文本数据的文档结构进行段落结构划分,区分出标题、作者、配方、实验数据等段落,实现原始文本数据的段落结构划分。具体地,可以通过计算机系统进行语料训练,以形成语料库,依据语料库构建分类器模型,通过分类器模型对段落进行分类,以分类预测结果作为段落属性。然后,对划分出的各段落结构进行词法、语法和/或语义分析,得到结构化文本数据。本领域技术人员能够在本发明公开的方法的启示下,通过构建各种计算机系统以及提供各种计算机软硬件,来提供上述过程的具体计算机实现,因此在这里将不再赘述。

在信息领域中,信息可以划分为两大类。一类信息能够用数据或统一的结构加以表示,通常称之为结构化数据,如数字、符号;而另一类信息无法用数字或统一的结构表示,如文本、图像、声音、网页等,通常称之为非结构化数据。结构化数据是非结构化数据的特例。通常,结构化数据也可以被称为行数据,其可以被存储在数据库里,可以用二维表结构来逻辑表达实现。对于本领域技术人员而言,能够理解结构化数据和非结构化数据的,因此更详细的解释在这里将不再赘述。

在步骤103,从所述结构化文本数据中抽取实体和属性。例如,在一个实施例中,实体包括用户感兴趣的条目或条目的取值,所述属性包括所述实体之间的关系。用户感兴趣的条目可以根据用户对于中医药知识的关注点而改变,例如,在本发明的一个示例中,提供了一种中药药方:一种用于治疗肺癌的中药组合物,由如下质量份的原料药中的一种或者全部组成或者制成:生黄芪25-35份、炒党参15-25份、淮山药15-25份、麦冬10-20份、茯苓10-20份、山海螺25-35份、莪术5-15份、制半夏5-15份、三叶青10-20份、五味子3-7份。在该药方中,用户感兴趣的条目可能包括该组合物的各个组分(例如各个中药名称),还可能包括该药方能够治疗的疾病名称(例如肺癌)。另外,用户还可能感兴趣的是各个组分条目的取值(例如,对于条目生黄芪,其取值为25-35份)。另外,在本示例中,实体之间的关系可以包括“治疗”、“取值”等。例如,各个中药组分的实体(例如生黄芪等)与能够治疗的疾病名称(例如肺癌)之间的关系可以是“治疗”。另一方面,各个中药组分的实体(例如生黄芪等)与其用量的实体(例如25-35份)之间的关系可以是“取值”。

以上参照一个具体示例描述了实体与属性的示例,然而本领域技术人员应当理解,根据具体中医药数据内容,实体和属性还可以包括其它内容。例如,实体可以包括但不限于中药名称、病种、炮制方法、剂型、药性和/或药量。属性可以包括但不限于:作用关系、相关关系、从属关系和/或取值关系。

根据本发明的实施例,所述作用关系表示实体之间的相互作用;所述相关关系根据实体在所述中医药数据库中的共现次数确定;所述从属关系表示一个实体从属于另一个实体;以及所述取值关系表示一个实体是另一个实体的取值。

更具体地说,实体之间的相互作用可以包括但不限于:治疗、反畏和/或相须。例如,在前述示例中,生黄芪与肺癌之间能够产生相互作用“治疗”,即,生黄芪能够用于治疗肺癌。在其它示例中,例如,中草药之间存在相克或相生的现象,比如在中药典籍《本草纲目》有记载:“药有七情,独行者,单方不用辅也;相须者,同类不可离也,如人参、甘草、黄耆、知母之类;相使者,我之佐使也;相恶者,夺我之能也;相畏者,受彼之制也;相反者,两不相合也;相杀者,制彼之毒也”。因此,当两个实体均为中药名称时,它们之间的属性可以是“相须”、“反畏”等。例如,中药“乌头”与中药“半夏”之间的关系就可以是“反畏”。然而本发明不限于此,根据抽取的实体之间的具体关系,它们的相互作用可以是其它的关系。

相关关系可以根据实体在所述中医药数据库中的共现次数确定。具体地说,对于治疗某种疾病的多个不同的中药药方中,其中的某些中药药种可能重复地出现,两种中药在不同的药方中共同出现的次数(即共现次数)可以被用于确定两种中药的相关关系。

从属关系可以用于表示一个实体从属于另一个实体。例如,在某个中医药词典数据库中,记载了白花蛇舌草为茜草科耳草属植物。在这里,抽取的实体可以包括“白花蛇舌草”“茜草科”、“耳草属”。在这种情况下,这些实体之间的关系可以为从属关系,例如由“属”来表示。例如,“白花蛇舌草”属“茜草科”、“白花蛇舌草”属“耳草属”、“茜草科”属“耳草属”。

取值关系可以表示一个实体是另一个实体的取值。例如,在前述示例中,“生黄芪”与“25-35份”之间的关系可以是“取值”。在该实施例中,两个实体之间的取值为相对数量值(份数),然而本发明不限于此。例如,两个实体之间的取值也可以是绝对数量值,例如用“克”、“钱”等来表示中药的取值(例如生黄芪25克或者生黄芪5钱等)。在本发明的其它实施例中,取值关系并不限于具体的定量的“数值”,而是其他定性的结果也包括在取值关系中。例如,在其它实施例中,取值关系还可以是实体的性质。例如,某中药典籍中记载了“黄芪性温”,根据该记载,可以得到两个实体,即中药名称“黄芪”与药性“温”,在该示例中,虽然药性“温”并不是数值,但该中药名称与药性之间的关系也属于取值关系。

在步骤104中,利用所述实体和所述属性构建中医药知识图谱。在一个实施例中,构建的中医药知识图谱可以包括各个实体以及实体之间的属性。例如,各个实体可以用名称或图案显示,利用两个实体之间的连线以及连线上的标注来表示这两个实体之间的属性。然而本发明不限于上述中医药知识图谱的具体表现形式,可以利用其它的可视化技术来向用户展示各个实体以及属性,例如列表、树状图等。

利用根据本发明建立中医药知识图谱的方法,采集中医药数据库中的原始文本数据;对所述原始文本数据进行处理,得到结构化文本数据;从所述结构化文本数据中抽取实体和属性;以及利用所述实体和所述属性构建中医药知识图谱。因此,能够将分散于各种数据库、文献库中的中医药知识资源汇集起来,建立中医药知识图谱,为中医药工作者和大众提供准确、全面的中医药知识。

下面将参照具体实施例更详细地描述本发明。图2是根据本发明一个实施例的中医药知识图谱的示意图。参照图2,根据本发明的中医药知识图谱,包括:实体,所述实体来自于中医药数据库;以及属性,所述属性来自于中医药数据库。更具体地说,根据本发明的中医药知识图谱可以利用根据前述实施例的方法来构建,例如,所述实体和属性可以分别抽取自结构化数据,其中所述结构化数据可以通过处理从所述中医药数据库中采集的数据来产生。

例如,在图2中,实体包括:中药名称,例如白花蛇舌草、黄芪、半枝莲;以及病种,例如肺癌、胃癌。另外,实体还包括其它用户感兴趣的条目,例如耳草属、黄芪属、癌症等。在图2中的属性包括:治疗,例如白花蛇舌草与肺癌之间的关系、半枝莲与胃癌之间的关系等;从属,例如半枝莲与黄芪属之间的关系、白花蛇舌草与耳草属之间的关系、肺癌与癌症之间的关系等;相关,例如白花蛇舌草与黄芪均可治疗肺癌,其共现次数为146,在例如白花蛇舌草与半枝莲均可治疗胃癌,其共现次数为135。

已经参照图2详细地描述了本发明的中医药知识图谱的示例,然而本领域技术人员应当理解,本发明的中医药知识图谱不限于上述内容或形式,中医药知识图谱也可以采用列表、树状图等方式将实体以及属性的内容提供给用户。

图3是根据本发明一个实施例的计算机系统的示意图。参照图3,根据本实施例的计算机系统300可以包括:处理器310以及存储器320。其中,存储器320中存储有计算机可读指令,当该计算机可读指令被执行时,使得所述计算机系统300执行根据本发明前述实施例的构建中医药知识图谱的方法。

利用根据本发明的中医药知识图谱、建立中医药知识图谱的方法以及计算机系统,采集中医药数据库中的原始文本数据;对所述原始文本数据进行处理,得到结构化文本数据;从所述结构化文本数据中抽取实体和属性;以及利用所述实体和所述属性构建中医药知识图谱。因此,能够将分散于各种数据库、文献库中的中医药知识资源汇集起来,建立中医药知识图谱,为中医药工作者和大众提供准确、全面的中医药知识。

可以理解的是,以上实施方式仅仅是为了说明本发明的原理而采用的示例性实施方式,然而本发明并不局限于此。对于本领域内的普通技术人员而言,在不脱离本发明的精神和实质的情况下,可以做出各种变型和改进,这些变型和改进也视为本发明的保护范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1