一种从Web网页中获取汉语简称的方法

文档序号：6563929阅读：159来源：国知局

专利名称：一种从Web网页中获取汉语简称的方法
技术领域：
本发明涉及中文信息处理和信息检索领域的简称获取技术，尤其涉及一种从Web网页中获取汉语简称的方法，从Web网页上获取多学科、大规模、高准确率的汉语简称的方法。
背景技术：
自然语言处理是计算机科学领域与人工智能领域中的一个重要问题。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。随着计算机和互联网的广泛应用，计算机可处理的自然语言文本数量空前增长，面向海量信息的文本挖掘、信息提取、跨语言信息处理、人机交互等应用需求急速增长，自然语言处理的对象也从小规模受限语言处理转向大规模真实文本处理，其研究必将对人们的生活产生深远的影响。中文信息处理是研究如何利用计算机对汉语信息进行自动处理。汉语是一门意合语言，和西方语言相比，缺少显式的标记，语法、语义、语用方面也更加灵活，增加了计算机理解和处理的难度，要让计算机能够处理中文信息，尚有许多困难需要克服。目前，中文信息处理已经在语音识别、分词、机器翻译等领域取得了一些成果。中文信息自动化处理程度的提升，将对我国的科技、文化、经济、安全等带来可观的效益。信息检索研究如何从纷繁复杂的大量信息中快速、准确获取所需信息的技术。信息检索技术经过多年的发展，目前已经相当成熟，新型信息检索技术正朝智能化、动态化、多样化、个性化等方向发展。全称(Full Name,Fn)是对名称的完整称呼,简称(Abbreviation,An)是为了表达的简洁明快，而对全称进行精简压缩后得到的称呼，若Fn和An具有全简称关系，则称Fn为An的全称，An为Fn的简称，记作FA (Fn7An)0由全称到简称，可以看作是一个信息量的压缩过程，由简称到全称，则可以看作是一个解压的过程，例如对Cl= “中国科学院计算技术研究所”进行压缩，得到c2= “中国科学院计算所”，再对c2进行压缩，得到c3= “中科院计算所”，对c3解压得到c2，再对c2解压得到Cl。全称和简称都是相对的概念，比如在上例中，c2相对于Cl是简称，但相对于c3却是全称，单独讲c2是全称或简称都是没有意义的。全简称关系获取作为文本知识获取(Knowledge Acquisition from Text,KAT)和信息检索等应用中一个基本而又关键的问题，其获取方法可以分为两大类一类是基于模式的方法，主要利用语言学和自然语言处理技术，通过词法分析和语法分析提取关系模式，然后利用模式匹配获取全简称关系，该方法准确率依赖于语言学知识和模式库；另一类是基于统计的方法，主要基于语料库和统计语言模型，通过计算概念之间的关联度来获取全简称关系，该方法准确率和效率难以达到理想的实用要求。全简称关系的获取问题又可以从两个角度来看一个是挖掘的角度，就是在没有外界输入的条件下获取全简称对 ’另一个是查找的角度，就是已知全称找简称或已知简称找全称。本发明中所提到的“全称”或“简称”，如无特别说明，均指汉语全称或汉语简称。

发明内容
针对现有的全简称关系获取技术中具有的局限性或者准确率不高的缺陷，本发明提供一种准确率高且适用于多学科、超大规模的一种从Web网页中获取汉语简称的方法。为了解决上述问题，本发明提供了一种从Web网页中获取汉语简称的方法，包括一下步骤步骤I、输入一个给定的汉语全称Fn ；
步骤2、选择查询模式来构造查询项，将查询项提交到Google搜索引擎中搜索，保存前N项锚文本作为锚语料；
步骤3、通过正则表达式，从锚语料中获取出包含查询项的全简称关系的句子，保存下来作为全简称语料；
步骤4、利用简称提取算法EAN从全简称语料中提取出候选简称，形成候选简称集合；步骤5、对候选简称集合进行基于全简称关系约束的分类，从而形成带有类别标注的候选简称集合；
步骤6、对候选简称集合进行基于全简称关系约束和全简称关系图的联合验证，从而形成简称集合；
步骤7、对简称集合中同类型的简称进行优先级排序，从而形成带有类别标注的有序简称集合。上述技术方案中，在所述的步骤2中，所述的查询模式包括三种查询模式I :“Fn简称”，查询模式2 :“Fn*简称”，查询模式3 全称Fn”。查询模式2是对查询模式I的扩充，我们在“Fn”和“简称”之间加入了一个““”在Google查询中可以匹配任何一个词。因为网页中往往会出现“窦性心律(以下简称窦律)”之类的语料，这种语料用查询模式I无法检索到，但利用查询模式2就能检索到。我们以4000个汉语Fn做实验，其中用查询模式I能获取到An的占64. 65%，用查询模式2能获取到An的占61. 18%，用查询模式3能获取到An的占21. 02%，用查询模式I或查询模式2能获取到An的占82. 51%，用查询模式1、2、3能获取到An的占84. 10%。因此，为了提高查询效率，我们优先选择查询模式1，其次查询模式2，最后查询模式3。上述技术方案中，在所述的步骤4中，简称提取算法(EAN)包括两个算法CAEAl和CAEA2，当步骤2中选择查询模式I或查询模式2时，步骤4中采用CAEAl来提取An，当步骤2中选择查询模式3时，步骤4中采用CAEA2来提取An。上述技术方案中，在所述的步骤6中，若简称集合为空，且步骤2中还有查询模式可供选择，则重新执行步骤2—7 ;如果简称集合为空，同时步骤2中没有可供选择的查询模式，则退出，表明不能从Web上搜索到所给定全称的简称。上述技术方案中，在所述的步骤6中，全简称关系约束是一个四元组R= (Fn, An, F，A)，其中，Fn是全称，An是Fn的简称，F是Fn和An之间的约束函数集，A是Fn和An必须满足的约束公理集。约束函数集定量地表示Fn和An之间的约束，约束公理集定性地表示Fn和An之间的约束。下文中将进一步对这两种约束进行解释。上述技术方案中，在所述的步骤6中，全简称关系图FAG (Fullnameand Abbreviation Graph)是一个四兀组，即 FAG= (F，A, E, f),其中，
权利要求
1.一种从Web网页中获取汉语简称的方法，其特征在于包括一下步骤步骤I、输入一个给定的汉语全称Fn ；步骤2、选择查询模式来构造查询项，将查询项提交到Google搜索引擎中搜索，保存前N项锚文本作为锚语料；步骤3、通过正则表达式，从锚语料中获取出包含查询项的全简称关系的句子，保存下来作为全简称语料；步骤4、利用简称提取算法EAN从全简称语料中提取出候选简称，形成候选简称集合；步骤5、对候选简称集合进行基于全简称关系约束的分类，从而形成带有类别标注的候选简称集合；步骤6、对候选简称集合进行基于全简称关系约束和全简称关系图的联合验证，从而形成简称集合；步骤7、对简称集合中同类型的简称进行优先级排序，从而形成带有类别标注的有序简称集合。
2.根据权利要求I所述的一种从Web网页中获取汉语简称的方法，其特征在于在所述步骤2中，若Google返回的查询结果>100条，则N取100，否则N取Google返回的查询结果的条数。
3.根据权利要求I所述的一种从Web网页中获取汉语简称的方法，其特征在于上述步骤2中，所述的查询模式包括三种查询模式I :“Fn简称”，查询模式2 :“Fn*简称”，查询模式3 全称Fn” ;查询模式2是对查询模式I的扩充，在“Fn”和“简称”之间加入了一个在Google查询中可以匹配任何一个词；因为网页中往往会出现“窦性心律”之类的语料，这种语料用查询模式I无法检索到，但利用查询模式2就能检索到；查询顺序为先选择查询模式1，其次查询模式2，最后查询模式3。
4.根据权利要求I所述的一种从Web网页中获取汉语简称的方法，其特征在于上述步骤4中，简称提取算法EAN包括两个算法CAEAl和CAEA2，当步骤2中选择查询模式I或查询模式2时，步骤4中采用CAEAl来提取An ;当步骤2中选择查询模式3时，步骤4中采用CAEA2来提取An。
5.根据权利要求4所述的一种从Web网页中获取汉语简称的方法，其特征在于当步骤2选择查询模式I或查询模式2时，步骤4和步骤5执行以下步骤步骤A-1、利用算法CAEAl从全简称语料中提取带有tag的候选简称集；步骤A-2、利用An右边界词表再次确定候选简称集中的候选简称的右边界；在步骤A-2中，An右边界词表是由待验证的An右边界词表经过人工验证生成的，在算法CAEAl中对待验证的An右边界词表进行动态的添加；在上述步骤3中，全简称语料中全简称句子分为六种类型半标号型、后部分型、多合一型、标号对型、无前缀型和有前缀型；从这六种类型的全简称句子中提取出的候选简称，其类型为相应的全简称句子的类型；半标号型Can的左右两边只有一边有配对符号，说明该句子很可能不包含完整的An ；后部分型在全简称句子中，Fn是另一全称“*Fn”的后部分，故Can也是“*Fn”对应的简称“*Can”的后部分，由于过度缩减，Can很可能不是Fn的简称；多合一型Fn作为整体的成分与另外的全称一起出现，整体的简称是几个全称的合并式简称；这种语料的结构有一个明显特征Fn是整体的最后部分且Fn前有连接词；标号对型Fn前面无汉字，且Can被配对符号所标出，无需利用算法再确定Can的边界，直接提取；无前缀型Fn前面无汉字，且Can未被配对符号所标出，Can无需确定左边界，但需要定右边界；有前缀型Fn前面有汉字，Can需要确定左边界和右边界；在步骤A-I中，所述算法CAEAl的具体内容如下候选简称提取算法 I : (candidate abbreviation extract algorithm CAEAl) 输入全简称句子/a— 输出带类型标注的候选简称m/ 将fa—sent分解成before、fn和can_sent三部分，其中是已知的全称，知/bre是在全简称句子中位于/ 前面的汉字串，是在全简称句子中位于“简称”后面的汉字串; can—sent的单字表示为can—sent = P1P2…Pn，哀中Pi代表一个汉字；定艾can在can—sent中的左边界h/i=/和右边界定艾can的类型标记tag=null ； if can—sent左边是配对标号and右边不是对应的配对标号 then tag B半标号型 end if if before - null if tag - null then tag β无前缀型 end if 转 step6 end ifif before! = null and tag - null then tag β有前缀型end if if before的最后一个字是“和”或“与”或“及” then for each Pi ^ (P1P2......Pn} if Pi不在中出现 then tag β多合一型转 step5 end if end for each end if for each Pi ^ (P1P2......Pn}if Pi不在fn中出现and Pi在before中出现 then left β i+1 end ifif Λ.在命中出现 break; end if end for each if leftyi then tag β后部分型end if if m/ —被标号对标出and teg=无前缀型then tag β标号对型end iffor each Pi E {PleftPleft+1......Pn-] if Pi在/z 的最后一个分词中出现and Pi+1不在// 中出现then right 将Λ.右边的一个词加入到待验证的An右边界词表中 end if end for eachCan ^ PleftPleft+l......PrightReturn cano
6.根据权利要求4所述的一种从Web网页中获取汉语简称的方法，其特征在于当步骤2选择查询模式3时，步骤4和步骤5执行以下步骤步骤B-1、利用算法CAEA2从全简称语料中提取候选简称集；所述算法CAEA2的具体内容如下候选简称提取算法 2 : (candidate abbreviation extract algorithm CAEA2) 输入全简称句子/a— 输出候选简称m/ 将fa—sent分解成can_serrt、fn和behind三部分，其中/ 是已知的全称，can_sent是在全简称句子中位于“全称”前面的汉字串是在全简称句子中位于/ 后面的汉字串; 对和分别分词并且标注词性，分词结果为JP1P2......Pk}和(R1R2......Rj，定义乾can—sent中的一级左边界下标，二级左边界下标仏/泛二/，左边界下标h/i=/和右边界下标左；定义动词可截取标志flag—v=0，右边界根据词性可截取标志flag—right=0 ； for each Pi ^ (P1P2......Pj if PjPfn有相同的字 then flag—V β I;//Pi之后的动词都不可以作为左边界end ifif Pi和fn有相同的字and leftl - I then left2 β i ;// Pi可能是can的第一个分词end if if Pi的词性为“连词”或“介词”或“助词” then IeftlB i+1; end if if Pi的词性为“动词”and flag—v = O then IeftlB i+1; end ifend for each for each Pj ^ (PkP^1......P1I if Pj和色有相同的字 then flag—rightfi I;// Pj 可能是 can 的一个分词 end if if Pj的词性为“连词”或“介词”或“助词”或“动词” and flag—right = O then rightfi j_l; end if if Pj和behind有相同的字and Pj和色无相同的字 then rightfi j_l; end if if Pj为标点符号 then rightfi j_l;end ifend for eachif left2 <= right then left β left2 end if if leftl <= right then left β leftl end if return can β {Pleft......PrighJ。
7.根据权利要求I所述的一种从Web网页中获取汉语简称的方法，其特征在于上述步骤6中，若简称集合为空，且步骤2中还有查询模式可供选择，则重新执行步骤2至7 ;若简称集合为空，同时步骤2中没有可供选择的查询模式，则退出，表明不能从Web上搜索到所给定全称的简称。
8.根据权利要求I所述的一种从Web网页中获取汉语简称的方法，其特征在于上述步骤6中，全简称关系约束是一个四元组R= (Fn, An, F，A),其中,Fn是全称,An是Fn的简称，F是Fn和An之间的约束函数集，A是Fn和An必须满足的约束公理集；约束函数集定量地表示Fn和An之间的约束，约束公理集定性地表示Fn和An之间的约束；全简称关系图 FAG(Fullname and AbbreviationGraph)是一个四元组，即FAG=(F，A，E，f)，其中，F = (0 , 1 ,…，&ιη]是全称集，A = [3! , ! ,…，anm}是简称集，fu A是顶点集，E = Ce1…，e3j是无向边集，f是E到Fx A上的映射，即Vek € E,总存在顶点frii G F和a, G A,使得f(ek) =< fn^anj >成立,也就是说61{是连接^ii ^anj的无向边。
9.根据权利要求8所述的一种从Web网页中获取汉语简称的方法，其特征在于所述步骤6的具体实现步骤如下步骤6-1、利用约束公理集中的约束公理1-5验证候选简称集中的每个候选简称；步骤6-2、对候选简称集中的候选简称进行基于约束函数集的分类；步骤6-3、构建全简称关系图，利用全简称关系图对候选简称集中的每个候选简称进行验证；步骤6-4、由候选简称tag类别、分类类别以及约束函数集生成决策树，利用决策树对候选简称集中的候选简称进行分类，去除类别是“F”的候选简称，保留类别是“T”的候选简称；类别“F”的含义是错误，类别“T”的含义是正确；在上述的步骤6-1中，对于候选简称集中的每个候选简称Can，验证Fn与Can是否满足公理1-4的约束要求，如果不满足则该候选简称是错误的；在上述的步骤6-2中，分类的具体方法如下根据简称是否有异字或异序，分为普通型、异字型和异序型，普通型又根据语境是否相关分为强语境无关型、弱语境无关型和语境相关型，语境无关型再根据Fn在全称集中频度的相对高低分为高频型和低频型，语境相关型根据An对Fn的覆盖重心分为前向型、居中型和后向型；具体的分类标准和各类简称需要满足的条件为高频强语境无关的直观意义=Fn包含Can中的所有字且保持语序不变，Fn中的每个分词在Can中都有对应，且Can在候选简称集中频度最高；低频强语境无关的直观意义=Fn包含Can中的所有字且保持语序不变，Fn中的每个分词在Can中都有对应，且Can在候选简称集中频度不最高；高频弱语境无关的直观意义=Fn包含Can中的所有字且保持语序不变，Fn中的大部分分词在Can中都有对应，且Can在候选简称集中频度最高；低频弱语境无关的直观意义=Fn包含Can中的所有字且保持语序不变，Fn中的大部分分词在Can中都有对应，且Can在候选简称集中频度不最高；前向型语境相关的直观意义=Fn包含Can中的所有字且保持语序不变，Fn中被省略的分词大多在Fn的后半部分；居中型语境无关的直观意义=Fn包含Can中的所有字且保持语序不变，Fn中前后部分被省略的分词个数差不多；后向型语境相关的直观意义=Fn包含Can中的所有字且保持语序不变，Fn中被省略的分词大多在Fn的前半部分；异序型的直观意义=Fn包含Can中的所有字但语序有变，Can在候选简称集中频度最闻; 异字型的直观意义=Fn不包含Can中的所有字但Can的频度很高或在候选简称集中的相对频度很高；在上述的步骤6-3中，当输入是单个全称或输入的全称文档中全称的个数小于1000时，该步骤不执行，否则，按照全简称关系图的构图方法构造全简称关系图
10.根据权利要求要求8或9所述的一种从Web网页中获取汉语简称的方法，其特征在于所述约束函数集的具体含义为约束函数I =Can的字来自Fn中的比率 Can中的每个汉字都来自于Fn中，在候选简称集中，出现在Fn中的字的比率越高的候选简称的优先级越高；约束函数I的形式定义和计算如下
全文摘要
本发明涉及一种从Web网页中获取汉语简称的方法，包括输入已知全称，选择查询模式来构造查询项，提交查询项到Google中获取锚文本，再从锚文本中获取全简称语料，最后利用提取算法提取候选简称，并利用优先级综合函数对候选简称进行排序；其中涉及的查询模式有三种，对应的提取简称的提取算法有两种。本发明还定义了全简称关系的约束，包括一组约束公理和一组约束函数，其中约束公理定性地表示全称和简称之间的约束，约束函数集定量地表示了全称和简称之间的约束，并基于全简称约束提出了一种全简称的分类方法。本发明还定义了全简称关系图，提出了一种基于全简称关系图和全简称关系约束的联合验证方法。
文档编号G06F17/30GK102955819SQ20111025312
公开日2013年3月6日申请日期2011年8月31日优先权日2011年8月31日
发明者王石, 丁远钧, 符建辉, 王卫民申请人:镇江诺尼基智能技术有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：王石;丁远钧;符建辉;王卫民
技术所有人：镇江诺尼基智能技术有限公司
我是此专利的发明人

上一篇：一种平面插值和球面插值相结合的图像插值器及方法
上一篇：风力机叶片气动外形协同设计方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。