一种基于序列标注模型的学科术语抽取方法及系统的制作方法

文档序号：8473002阅读：309来源：国知局

一种基于序列标注模型的学科术语抽取方法及系统的制作方法
【技术领域】
[0001] 本发明涉及数据抽取技术领域，具体涉及一种基于序列标注模型的学科术语抽取方法及系统。
【背景技术】
[0002] 学科术语是一个领域中最基本的单元，为了更好地描述该领域的知识体系，需要得到该领域当中的所有学科术语。而随着互联网和信息技术的发展，同一个领域中知识快速膨胀，新的领域层出不穷，学科术语的抽取及应用也越来越被受重视，例如，很多在线教育公司（比如明博教育等等）利用用户正在阅读的语料，会为用户标注出其中语料中的学科术语，并可以根据这些学科术语为用户推荐相关的教育资源，更好的满足了用户的需求。随着学科知识不断增多，用户受教育的需求日益膨胀，获取对应领域当中的学科术语成为这些在线教育公司的基本任务。但随着知识量及新技术领域的不断增加，从对应的领域中找到相关的学科术语变得越来越困难。
[0003] 现有的学科术语抽取，通常使用专家标注的方法。专家凭借对相关领域知识的认知，书写领域当中的学科术语。这样的方法，具有很高的准确率，但是即使是专家也会遗漏掉很多术语，同时随着知识量的不断增加，专家的方法不具有好的持续性，现有的工作也很难迀移到其它领域。
[0004] 通过多年研宄，研宄人员提出了一些使用计算机完成的学科术语的抽取方法， KushalDave(可参考KushalDave,VasudevaVarma发表的论文"PatternBasedKeyword ExtractionforContextualAdvertising" ?CIKM' 10, 0ctober26 - 30.)提出了一种基于词语分块的N-gram(大词汇连续语音识别中常用的一种语言模型）关键词抽取模型，在模型当中，首先列举所有单词的分块，再利用每个单词的词性标注（P〇S-tagging)构造一个二元的朴素贝叶斯（Na'fveBayes)分类器，KushalDave将模型应用于广告关键词的抽取系统中，并取得了不错的效果。Steier和Belew(可参考Steier，A.M.，Belew，R. K.Exportingphrases:astatisticalanalysisoftopicallanguage.InProceedings ofSecondSymposiumonDocumentAnalysisandInformationRetrieval, 2010:pages 179-190.)两人提出了一种基于两个单词间互信息的方法来抽取学科术语；Wanget al.(可参考Wang，J.，Liu，J.andWang,C.KeywordextractionbasedonPageRank.In ProceedingsoftheIlthPacific-AsiaConferenceonKnowledgeDiscoveryand DataMining.Nanjing，China，2007:pages857-864.)提出了一种基于Page-Rank(网页排名）的短语评分算法，进一步来获取关键词；Matsuo和Ishizuka(可参考Matsuo,Y.and Ishizuka,M. .Keywordextractionfromasingledocumentusingwordco-occurrence statisticalinformation.InternationalJournalonArtificialIntelligence Tools. 2004:13(1)，157-169.)使用单词之间的共现次数的方法来抽取关键词。
[0005] 上述这些抽取方法节省了大量人力成本，但是这些方法都没有考虑术语出现的上下文信息，需要大量的数据来训练抽取器，而一些新兴的领域缺失相关语料，所以抽取结果相对较差；同时，这些方法都是在英语的基础上完成的，并不适应于各种语言；最后，在抽取出新的学科术语之后，没有考虑进一步的术语去噪，术语当中依然存在一些无关的单词。

【发明内容】

[0006] 针对现有技术中存在的缺陷，本发明的目的在于提供一种基于序列标注模型的学科术语抽取方法及系统，实现语料中学科术语的快速、准确的抽取，并能够实现已有知识结构体系的扩大、完善。
[0007] 为实现上述目的，本发明采用的技术方案如下：
[0008] -种基于序列标注模型的学科术语抽取方法，包括以下步骤：
[0009] (1)将某一学科领域的训练语料中的学科术语进行标注，得到标注语料；
[0010] (2)将所述标注语料按字切分，并对切分后的每个字设置一个标签t，得到标注序列，其中，tGT，T= {B，I，0}，B标签表示一个学科术语的开始，I标签表示一个学科术语的内部，〇标签表示非学科术语；
[0011] (3)将所述训练语料作为观察序列，将所述标注序列作为状态序列，利用条件随机场模型训练得到用于学科术语抽取的序列标注模型；
[0012] (4)根据所述序列标注模型初步抽取出所述学科领域中待抽取语料中的学科术语；
[0013] (5)筛选出初步抽取出的学科术语中属于所述学科领域的真正学科术语，包括：计算初步抽取出的学科术语与所述学科领域的已有知识结构体系中所有学科术语的相似度，判断计算出的最大相似度是否大于设定阈值，若是，则判定初步抽取出的学科术语为所述学科领域的真正学科术语；若否，则判定初步抽取出的学科术语为所述学科领域不相关的学科术语。
[0014] 进一步，如上所述的一种基于序列标注模型的学科术语抽取方法，步骤（4)中，根据序列标注模型初步抽取待抽取语料中的学科术语，包括：
[0015] (4. 1)将待抽取语料作为所述序列标注模型的输入，得到该待抽取语料对应的状态序列w，W= (W1,W2,W3,......，Wn}，n为待抽取语料的字长度，Wi为待抽取语料中第i个字的标签，WiGT，T= {B，I，0};
[0016] (4. 2)如果状态序列W中的标签同时满足以下三个条件，则标签{Wi，wi+1，…，界,}对应的词为初步抽取出的一个学科术语：
[0017]①Wi =B;
[0018] ②k>i，wi+1=…=wk=I，或k=i;
[0019] ③wk+1=0〇
[0020] 进一步，如上所述的一种基于序列标注模型的学科术语抽取方法，步骤（5)中，学科术语之间的相似度包括学科术语之间的表征相似度和语义相似度；所述表征相似度是指学科术语的构成上的相似度；
[0021] 计算初步抽取出的学科术语X与所述学科领域的已有知识结构体系中学科术语y 之间的相似度fatherProb(x，y)的计算公式为：
[0022] fatherProb(x,y) =ayXeditSimi(x,y) + 0yXsemanticFatherSimi(x,y)
[0023] ay+0y=I
[0024] 其中，editSimi(x,y)为学科术语x与学科术语y之间的表征相似度， semanticFatherSimi(X，y)学科术语X与学科术语y的所有子节点的学科术语之间的平均语义相似度，ay为表征相似度的权重，0y为平均语义相似度的权重；
[0025] 根据两个学科术语之间的编辑距离计算学科术语之间的表征相似度，学科术语X 与学科术语y之间的表征相似度editSimi(X，y)计算公式为：
【主权项】
1. 一种基于序列标注模型的学科术语抽取方法，包括w下步骤： (1) 将某一学科领域的训练语料中的学科术语进行标注，得到标注语料； (2) 将所述标注语料按字切分，并对切分后的每个字设置一个标签t，得到标注序列，其中，tGT，T=巧，I，0}，B标签表示一个学科术语的开始，I标签表示一个学科术语的内部，0标签表示非学科术语； (3) 将所述训练语料作为观察序列，将所述标注序列作为状态序列，利用条件随机场模型训练得到用于学科术语抽取的序列标注模型； (4) 根据所述序列标注模型初步抽取出所述学科领域中待抽取语料中的学科术语； (5) 筛选出初步抽取出的学科术语中属于所述学科领域的真正学科术语，包括：计算初步抽取出的学科术语与所述学科领域的已有知识结构体系中所有学科术语的相似度，判断计算出的最大相似度是否大于设定阔值，若是，则判定初步抽取出的学科术语为所述学科领域的真正学科术语；若否，则判定初步抽取出的学科术语为所述学科领域不相关的学科术语。
2. 根据权利要求1所述的一种基于序列标注模型的学科术语抽取方法，其特征在于，步骤（4)中，根据序列标注模型初步抽取待抽取语料中的学科术语，包括： (4. 1)将待抽取语料作为所述序列标注模型的输入，得到该待抽取语料对应的状态序列W，W= {w。W2,W3,……，W。}，n为待抽取语料的字长度，Wi为待抽取语料中第i个字的标签，WiET，T= {6, 1,0}; (4.。如果状态序列W中的标签同时满足^下立个条件，则标签k，Ww，…，wj对应的词为初步抽取出的一个学科术语： ① Wi=B; ② k>i，Ww=…=Wk=I，或k=i; 这)Wk+1= 0。
3. 根据权利要求1所述的一种基于序列标注模型的学科术语抽取方法，其特征在于，步骤巧）中，学科术语之间的相似度包括学科

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：杨硕;高飞;冯岩松;贾爱霞;赵东岩;卢作伟;王冬;
技术所有人：明博教育科技有限公司;北京大学;
我是此专利的发明人

上一篇：基于指纹多重哈希布隆过滤器的网络取证内容溯源方法
上一篇：一种知识点关联方法及系统的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。