一种中医古代文献半监督学习方法和系统与流程

文档序号:15462426发布日期:2018-09-18 18:29阅读:406来源:国知局

本发明涉及中医技术领域,具体涉及一种中医古代文献半监督学习方法和系统。



背景技术:

中医文献学是研究中医文献的学术源流,讨论整理和利用中医文献的方法及理论的一门学问。

公开号为CN104933026A的中国专利文献公开了一种中医针灸领域知识自动抽取的实现方法,包括步骤一)种子集构建、步骤二)语料库构建、步骤三)术语构建集的生成、步骤四)候选术语集的生成和步骤五)术语集的生成。该专利针对中医针灸领域文献的特点,研究并开发中医针灸领域术语抽取系统,从海量的中医针灸领域文献中快速有效地提取领域术语,形成结构化的数据并存入一个数据库,供用户查询和使用,填补了中医针灸领域知识自动抽取技术的空白。

公开号为CN106933985A的中国专利文献公开了一种核心方的分析发现方法,涉及中医专科专病、医家以及文献核心方大数据关联性研究技术领域,解决了现有技术基于关联规则的分析方法对于药物之间“关联”的定义较为模糊以及基于聚类的核心方关联研究方法在特征值提取和相似度度量方法上存在较大差异的问题。该核心方的分析发现方法在基于知识图谱的基础上利用深度学习技术赋予每个知识单元个体坐标映射,充分利用距离信息,体现他们之间的关联,可综合关联规则、样品聚类和复杂网络社团发现的优势,并达到上述传统方法不具备的优势,即多尺度知识图谱呈现和知识推理。用户可以自由设定社群数量,在常用药对语义检索、可视化中药社团发现,单味药、基础方关联性研究上有显著的优越性。

中医古代文献有着自己独特的语言结构和分词语料,目前现有的技术为计算机的无监督归纳以及人工识别标引法,单纯的无监督归纳通过设定字符长度以及标点符号断句等方法虽然效率高,但是识别质量差,难以准确的提取病案隐性内容。比如“日月”在中医文献中有时指太阳和月亮,有时指穴位,纯计算机的文字识别难以划分其定义,在医案提取时就会出现字段分类的识别错误。单纯的人为识别标引法如果想得到提取结果则需要消耗大量的时间和人员,并且人员水平的参差不齐会造成文献提取质量的巨大差异。



技术实现要素:

本发明的目的在于提供一种中医古代文献半监督学习方法和系统,用以解决中医古代医案深度学习时无监督学习的不确定性与纯人工监督的繁琐性。

为实现上述目的,本发明提供一种中医古代文献半监督学习方法,所述方法包括:

构建中医术语库,所述中医术语库中收录有中医语料;

对医学文本中归属于中医术语库的语料进行识别并在中医文本中标记;

接收中医术语库中未收录的中医语料的输入并收录于深度学习库和中医术语库中。

可选的,所述中医术语库和深度学习库均包括如下子术语库:

病名类子术语库,用于收录关于病名的术语;

症状类子术语库,用于收录关于症状的术语;

证型类子术语库,用于收录关于证型的术语;

中药类子术语库,用于收录关于中药的术语;

方剂类子术语库,用于收录关于方剂的术语;

穴位类子术语库,用于收纳关于穴位的术语。

可选的,所述在中医文本中标记的步骤包括:

赋予中医术语库中每个子术语库一种颜色;

将属于对应子术语库的语料在中医文本中采用对应的颜色进行标记。

可选的,在所述构建中医术语库的步骤之后,在所述对医学文本中归属于中医术语库的语料进行识别并在中医文本中标记的步骤之前,所述方法还包括:接收人工监督之后所输入的医学文本。

本发明还提供一种中医古代文献半监督学习系统,所述系统包括:

中医术语库,用于收录中医语料;

标记模块,用于对医学文本中归属于中医术语库的语料进行识别并在中医文本中标记;

收录模块和深度学习库,用于接收中医术语库中未收录的中医语料的输入并收录于深度学习库和中医术语库中。

可选的,所述中医术语库和深度学习库均包括如下子术语库:

病名类子术语库,用于收录关于病名的术语;

症状类子术语库,用于收录关于症状的术语;

证型类子术语库,用于收录关于证型的术语;

中药类子术语库,用于收录关于中药的术语;

方剂类子术语库,用于收录关于方剂的术语;

穴位类子术语库,用于收纳关于穴位的术语。

可选的,所述标记模块包括:

颜色赋予子模块,用于赋予中医术语库中每个子术语库一种颜色;

标记子模块,用于将属于对应子术语库语料在中医文本中采用对应的颜色进行标记。

可选的,所述系统还包括输入模块:用于接收人工监督之后所输入的医学文本。

本发明具有如下优点:

本发明结合计算机批量处理的速度优势以及人工干预的准确性,使中医病案深度学习的速度和质量都得到保障。

附图说明

图1是本发明方法一种具体实施方式的流程示意图。

图2是本发明系统一种具体实施方式的结构示意图。

具体实施方式

以下实施例用于说明本发明,但不用来限制本发明的范围。

图1是本发明方法一种具体实施方式的流程示意图。如图1所示,所述方法包括如下步骤。

构建中医术语库,所述中医术语库中收录有中医语料;所述中医术语库可以包括如下子术语库:病名类子术语库,用于收录关于病名的术语;症状类子术语库,用于收录关于症状的术语;证型类子术语库,用于收录关于证型的术语;中药类子术语库,用于收录关于中药的术语;方剂类子术语库,用于收录关于方剂的术语;穴位类子术语库,用于收纳关于穴位的术语。本领域技术人员根据需要也可设置其它子术语库,本发明不再赘述。该步骤可以接收人工监督之后所输入的医学文本,该医学文本可以采用现有的格式例如Word、Excel、Txt等格式自动导入,也可以通过手动输入。

对医学文本中归属于中医术语库的语料进行识别并在中医文本中标记;所述在中医文本中标记的步骤可以包括:赋予中医术语库中每个子术语库一种颜色;将属于对应子术语库的语料在中医文本中采用对应的颜色进行标记。例如,将病名类子术语库赋予蓝色,而当出现肾虚、气虚等病名时,该语料显示为蓝色。

接收中医术语库中未收录的中医语料的输入并收录于深度学习库和中医术语库中。例如一篇文章,研究者提取的内容为“治双乳蛾用皂荚二片,镬锈一钱,为末,冷水调,加清油数点灌下”。那么在数据经过无监督中医术语库时,病名库的“双乳蛾”和中药库的“皂荚”将会被自动被识别入库,并标记有颜色。“镬锈”通过人为观察前后文得出此条目疑似“中药类”的内容,经过查询确定,则添加“镬锈”于中药库中。自此病名“双乳蛾”,中药“镬锈”“皂荚”进入深度学习库。所述深度学习库可以包括如下子术语库:病名类子术语库,用于收录关于病名的术语;症状类子术语库,用于收录关于症状的术语;证型类子术语库,用于收录关于证型的术语;中药类子术语库,用于收录关于中药的术语;方剂类子术语库,用于收录关于方剂的术语;穴位类子术语库,用于收纳关于穴位的术语。本领域技术人员根据需要也可设置其它子术语库,本发明不再赘述。

本发明方法结合了现有监督和无监督两种方法的优势,通过现有的材料先建立基础词库和近义词词库并分类,词库的语料将在文献中按照类目分颜色被识别,研究人员选取完整的医案文本,系统就会进行数据库已有语料的智能提取以及分类,再由研究人员进行校验和人工补录完成深度学习条目,如果遇到新的术语可以再进行术语库的添加以便后续识别,有效提高了中医文献深度学习的准确性和效率。

图2是本发明系统一种具体实施方式的结构示意图,如图2所示,所述系统可以包括:

中医术语库,用于收录中医语料;

标记模块,用于对医学文本中归属于中医术语库的语料进行识别并在中医文本中标记;

收录模块和深度学习库,用于接收中医术语库中未收录的中医语料的输入并收录于深度学习库和中医术语库中。

由于本发明的方法与系统一一对应,本发明不再赘述。

虽然,上文中已经用一般性说明及具体实施例对本发明作了详尽的描述,但在本发明基础上,可以对之作一些修改或改进,这对本领域技术人员而言是显而易见的。因此,在不偏离本发明精神的基础上所做的这些修改或改进,均属于本发明要求保护的范围。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1