一种增量式的中医文本概念识别方法与流程

文档序号：17442580发布日期：2019-04-17 04:58阅读：425来源：国知局

本发明属于自然语言处理领域，尤其涉及一种增量式的中医文概念识别方法。
背景技术：
：传统的中医药运用了几千年，已经形成较为完备的知识体系，是我国传统文化的重要组成部分。在现代，方剂和药物数据被广泛应用于临床医学。然而，中医数千年临床实践积累下来海量的成方，以及临床实际应用中不断产生新的衍方，如果单纯靠手工进行查询、整理和分析，难免出现纰漏，如果能基于计算机技术，使用最先进的机器学习方法对中医古籍方剂数据集进行分析、挖掘，最终得到中医妇科方剂中有效信息，这对于中医古籍的传承以及利用会起到重要的作用。随着自然语言处理技术的不断发展和面向中文文本的研究热度的增加，近年来对中文的医学术语的识别研究也逐渐增多。然而针对中医领域的术语识别的研究依然非常少。中医医疗数据是中医学的主要知识资源，蕴藏着丰富的临床经验知识，这些经验多以文献的形式加以记录并传播，对中医医疗数据进行实体识别研究，能够进一步挖掘中医的文本知识，为中医知识的整合与创新做出巨大的贡献。在中医文本概念识别中，使用人工标注的训练语料来抽取命名实体性能最好，但是有监督的方法过于依赖于标注语料，大规模的人工标注耗费人力且会因为专家主观意识的不同人为的增加许多噪音。而全用无监督学习对样本分类通常会造成错误累积，造成性能下降。提出的增量式中医文本概念识别方法，通过投入少量的种子集合，迭代训练以获得更多的种子，逐步将种子集合的体量发展到一定规模，然后训练得到精化后的训练模型m。技术实现要素：针对现有技术对中医文本概念识别需要大量人工标注语料的不足，本发明提供一种增量式的中医文本识别方法。具体而言，是在少量人工标注语料的基础上，通过选取预测样本和其邻近样本置信度高的预测样本加入标注语料；选取预测样本置信度低且其具有较高贡献度的预测样本返回专家标注后加入标注语料，以此来增加标注样本的数量。为实现上述目的，本发明采用如下的技术方案：一种增量式的中医文本概念识别方法，包括以下步骤：步骤1：对初始中医文本数据集进行数据预处理；步骤2：多特征选取和crf模板重新定义；步骤3：准备标注集，使用自定义的特征模板将标注集在crf上训练，获得初始模型m；步骤4：选取预测样本和其邻近样本置信度高的前k个预测样本加入种子集；步骤5：选取预测样本和其邻近样本置信度最低的k个且其具有较高贡献度的预测样本返回专家标注后加入种子集；步骤6：使用每次迭代获得种子集不停的优化模型m，最后得到精化后的模型m。本发明所述的增量式的中医文本概念识别方法特征还包括：所述步骤1中，中医文本信息是古文形式多为单音词形式，又兼具通假字较多，所以首先要进行必要的数据清洗，去除“者”“乎”和一些语气等一些不影响上下文医学表达的停用词同时对一些通假字和识别错误的字词(如把繁体字识别为“？”)进行人工改正。所述步骤2中，针对中医文本行文简练、多省略，言文分离，一个字相当于一个词的特点和实体各部分的结构特征，选取了1)词性特征，在主治字段出现最多的是“n”+“a”、“n”+“v”结构，添加词性特征为实体的边界的识别提供了线索。2)身体部位指示词特征，该特征用于标记当前是否为身体部位相关的词语，这种词语在症状描述中经常出现。3)上下文特征，在词语组成的序列中，上下文之间存在相关性，即为crf模型中的边的特征，选用不同的窗口长度将对各种特征进行组合，形成新的特征。所述步骤2中，根据特征选择设计特征模板。采用固定格式％[row,col]的特征模板，其中row确定所描述词和当前词的相对位置，col用于确定该特征模板所描述的具体属性在预处理语料中所处的列数。在预处理语料文件中第0列表示中医文本本身，第1列代表词性特征，第2列代表身体部位特征，第3列代表上下文特征，即中医文本的状态标记。对每一列输入特征t(0～3)设置模板,包括两类形式:t1＝num:％x[index,t],(1)t2＝num:％x[index,t]/％x[index+1,t],(2)其中,num为模板的编号,index为窗口大小范围内的索引(0～2)，t2由特征t前后位置情况组合而成。所述步骤3中，准备标注集，使用自定义的特征模板将标注集在crf上训练，获得初始模型m。根据特征的选取，设计各个特征表示标签，按照crf输入的要求格式，设计标注集。根据设计好的标注集选择特征模板窗口大小。所述步骤4中，由初始模型m对未标注语料进行训练，得到初始预测样本。选取预测样本和其邻近样本置信度的预测样本加入种子集。选取方法如下：对于一个实体e所有词进行加权计算该实体的置信度，在计算该实体的置信度时还要考虑该实体邻近样本的置信度，选取置信度高的实体预测样本加入标注样本集进行重训练。假设是ht自学习迭代t次得到的分类器，那么在第t轮对于未标记样本池中的某实体ei为:其中，ht(xi，tag)代表实体所包含的各个词在分类器迭代t次给出的的置信度，ht(xn，tag)代表ei邻近样本在分类器迭代t次给出的置信度，θi表示实体概念中各个标签的权重，θi由实体ei中含有的词数决定。按confidence(ht，ei)升序排列选取前看k个加入标注集。所述步骤5中，算法的每次迭代，未标记样本池中的样本会越来越少，剩下的样本是分类置信度较小的，这类样本通常会被丢弃。这些分类置信度较低且邻近样本置信度相差较大的样本，如果和邻近样本被分为同一标签，则其误标记的概率增大；如果和邻近样本分为不同标签，则其处于决策边界的可能性很大，两种情况能对分类器能产生最大贡献度。获取这些贡献度大的标签返回给专家标注。选取方法如下:选取未标记池中分类置信度小且与邻近样本置信度相差较大的预测样本返回给专家标注。与已有技术相比，本发明有益效果在于：1、本发明分析了中医文本特点和实体结构，提取了多个特征以提高对中医文本概念识别的准确性。2、本发明采用少量种子集，通过筛选置信度高且邻近样本置信度也高的预测样本加入种子集以实现标注样本增量式训练，减少了人力投入。3、本发明通过筛选置信度低但是贡献度高预测样本的返回专家标注，从而缩减分类模型的规模和训练时间。附图说明结合附图，从下面对本发明实施例的详细描述，将更好地理解本发明，附图中类似的标号指示类似的部分，其中：图1为本发明增量式概念识别方法的流程图；具体实施方式本发明所述的增量式中医文本识别方法的具体实施采用基于条件随机场模型(crf)做基础分类器，用11000条中医文本做模型训练数据，其中4000条为已标注数据集，7000条为未标注数据集。用训练数据、选取的特征以及自定义的模板进行crf训练，并对未标注数据做预测，得到初始预测样本集，通过置信度决定预测样本是加入标注集还是返回人工标注后加入标注集。本实施例中：步骤一对中医文本进行数据清洗，类似文本“男子、妇人骨蒸劳气，肌？赢瘦，四肢无力，颊赤面黄，五心烦热，困倦心忪，或多盗汗，腹协有块，不欲饮食者。”中繁体“體”被识别成“？”，要把问好处理成“体”；结尾语气助词“者”也要去掉。步骤二，在实体识别阶段采取基于词的识别策略，分词工具采用结巴分词加入自定义词典的形式，对于选取的的词性特征使用结巴分词系统自带词条进行自动词性标注，如“四肢无力”被系统标注为“四肢/n无力/n”，其中n代表名词。身体部位特征用于指示当前词是否为身体部位(y/n)，身体部位的出现总是伴随症状实体的显示。在识别类别的基础上采用“bieso”法标记，其中b(beginning)表示术语的首字符，i(intermediate)表示术语的中间和e(end)表示结束字符，s表示单个术语字符。o(other)表示其他，非术语字符。状态词标签选用{b-symptom,i-symptom,e-symptom,s-symptom，b-pattern,i-pattern,e-pattern,s-pattern，o},分别症状、证型的第一个词、中间词、结尾词以及单术语字符和非术语词。然后用基于词典的正向最大匹配算法来实现对分词结果的匹配标注。步骤四：用初始模型m对未标注集进行中医概念识别预测，即对已有的观察序列xi，i＝1，2，...n，从七个状态标签中找到一个最优标记序列yi，使得条件概率p(y|x)最大，即max(p(y|x))＝p(yi|xi，m)，则p(yi|xi，m)即当做模型m对序列xi，预测的置信度。当p(yi|xi，m)越大的时候，说明模型m的对于观察序列xi，预测结果yi越有把握，当p(yi|xi，m)越小的时候，说明模型m的对于观察序列xi，预测结果yi越没有把握。crf训练选用crf++工具包来实现，crf++工具会在在每个预测样本后面显示其预测的置信度。根据公式计算预测实体的置信度。例如，第一次初始训练m的部分预测结果如下：词状态标签置信度，o0.999867肚腹b-symptom0.959049膨胀e-symptom0.958962，o0.999978头痛s-symptom0,804793目眩s-symptom0.431597预测实体肚腹膨胀的置信度为：肚腹膨胀实体含有2个，所以预测实体头痛的置信度为：头痛实体含有1个词，所以θ＝1，confidence(h1，头痛)＝0.999978+0.431597+1×0,804793＝2.236368对预测实体的置信度进行排序，选取前50个加入标注集。步骤五：在步骤四中已经对所有的实体进行了排序，选取置信度最低的100个样本，按照公式：选取50个贡献度高的返回给专家标注。可以理解的是，以上是为了阐述本发明的原理和可实施性的示例，本发明并不局限于此。对于本领域内的普通技术人员而言，在不脱离本发明的精神和实质的情况下，可以做出各种变型和改进，这些变型和改进也视为本发明的保护范围。当前第1页12

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：李建强;赵金珠
技术所有人：北京工业大学
我是此专利的发明人

上一篇：一种轨道车辆信号柜的安装结构的制作方法
上一篇：一种撒砂装置、中间车及动车组的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。