一种基于领域差异性的新词提取方法

文档序号：9727375阅读：466来源：国知局

一种基于领域差异性的新词提取方法
【技术领域】
[0001] 本发明涉及一种新词提取的方法，特别涉及一种基于领域差异性的新词提取的方法，属于自然语言处理应用技术领域。
【背景技术】
[0002] 网络新词是指伴随着互联网出现并流行使用的一些特殊语言或文字。通常来源于影视网络热门用语，或因某一社会现象而产生的一些为大家所接受的用词。网络新词在网络领域文本，如:贴吧、微博中频繁出现。统计发现，中国每年超过1 〇〇〇个新词出现在人们的日常生活中。根据相关研究成果，超过60 %的分词错误来自网络新词，新词识别的准确程度直接影响着智能信息处理系统的性能。例如:在智能信息处理的文本情感分析任务中，固定词组搭配能够体现出情感极性，对于新词词组，如果无法对其正确识别，会导致所判断出的情感极性失真。如："表达十分高大上"（这是一条产品的网友评论），这里"高大上"实际应该作为一个网络新词，整体来表示"高端大气上档次"的积极情感，然而目前几乎所有的应用系统中，分词处理后形成的标注序列为"表达/V十分/adv高/adj大/adj上/adv"，即：将该网络新词切分成单字，错误的分词处理使该句丢失了积极情感倾向的含义，对后续信息的智能分析产生了严重影响。因此对新词的有效识别在自然语言处理领域中有着非常重要的意义。
[0003] 目前，新词提取主要分为基于规则的方法和基于统计的方法两类。基于规则方法的主要思路是：着眼于新词的构词原理，将其作为理论依据并建立一个有助于识别新词的常用语料库;然后研究词语的自身语言特性，建造一个以词语的自然属性为基础的特殊构词规则库。基于规则的方法对新词的识别准确率较高，但需要极强的语言素养与相关领域知识背景。基于统计的方法实现新词识别主要有两种手段，一种是将新词提取作为分词必不可少的一部分，通过特定统计模型最终推断出最有可能的分隔点进而得到新词。经典的统计模型有条件随机场(Conditional Random Fields，CRF)、基于特征频率信息的梯度下降训练模型等。另一种手段是将新词提取作为一个单独的任务，通常需要做词性标注 (Part-0f-Spee Ch，P0S)的预处理。由于网络新词具有实时性，流通性强、动态变化等特点，因此纯粹的基于规则的方法往往效果不佳;而完全采用统计手段获取网络新词也存在训练数据稀疏、有效特征抽取困难等不足。目前大部分研究者使用规则和统计相结合的方法，以期发挥各自的优势，然而这些方法都忽略了语料库本身的信息特征优势，即：相同词在不同领域主题之间的信息（内涵)差异，具体体现为不同领域主题下相同词对应的词分布表现不同。

【发明内容】

[0004] 本发明针对网络中不断产生和使用的新词，提出一种基于领域差异性的新词提取方法，本方法充分利用不同领域语料自身的特性，在现有通用评价体系下，有效提高了新词识别的准确率。
[0005] 本发明的思想是通过比较不同领域间字分布的差异性，获得差异字种子，通过n-gram方式拓展差异字，构建候选词集，然后对候选词集合中每一个词，分别以领域差异值、凝合度，以及成词率作为衡量标准，进一步提取得到新词。
[0006] 本发明中涉及的相关定义如下：
[0007] 定义1:领域差异字，指能够体现领域差异性的单字，该单字能反映领域特征，其在不同领域语料中出现频率有很大区别。如，若单字C在网络语料中出现频率。*_^((3)与在新闻领域中出现频率fn_(C)之比超过阈值λ，则称C为领域差异字。对于单字成词的语言现象，若其能够体现出差异性。本发明亦认定其具有词分布的差异表现。
[0008] 定义2:重复词，当词WA和词WB满足条件％ C 14^ ,称WB和WA互为重复词。如："喜大普奔"（Wa)与"大普奔" (Wb)。
[0009] 定义3:领域差异值DV(DifferenCe Value)，领域差异性的度量，利用词W在网络语料出现频 internet (w)与新闻语料出现频率f (w)计算得出；其中f i nternet (w)表示词w在网络语料中出现频率，f_(w)表示词w在新闻语料中出现频率。
[00?0]定义4:凝合度CV(Concrete Value)，衡量词被正确切分的量化指标。如"电影院" 有"电影" + "院"和"电" + "影院"两种凝合方式。对任意词W=C1C2(其中，c^C2表示构成该词的字或者词），通过枚举其所有可能的凝合方式，计算对应权值，取其中最小值，作为该词凝合度。
[0011 ] 定义5:成词率NWP(New Word Probability)，判断某单字序列是否组成词语的指标。如："爱说"、"爱吃"均由单字组成，但NWP很低，即表示二者均不构成词。
[0012] 本发明的的目的是通过以下步骤实现的：
[0013] -种基于领域差异性的新词提取方法，包括以下步骤：
[0014] 步骤一，将待获取新词的某领域输入语料Si与其它领域语料32进行对比获取领域差异字种子；
[0015] 作为优选，通过以下步骤得到领域差异字种子：
[0016] (1)分别统计SjPS2中每一个字"c"出现的频率f sl (c)和f s2 (c);
[0017] (2)通过下述公式计算每个字在SdPS2中的差异值：
[0018] Dword-seg(C) =fsl(C)/l+fs2(C)
[0019 ] (3)设定阈值λ，如果字"C"的差异值Dwcird_se3g (c)超过阈值λ，将字"C"作为差异字种子。
[0020] 步骤二，拓展领域差异字种子，构建候选词集合Set_didate3;
[0021] 作为优选，通过以下步骤采用n-gram方式进行拓展，具体过程如下：
[0022] (1)在语料S!中，分别取η = 2，3，4，5，获取其对应的所有的n-gram词，对这些n- gram词，如果包含有任意差异字，则保留，并统计这些n-gram词出现频率，加入候选词集合 Set-candidate ；
[0023] (2)对候选词集合Setcandidate中所有候选词W，与预设阈值队比较，如果其词频 /)(Η〇 < ，在候选词集合Setcandidate中册IJ去W;
[0024]步骤三:根据候选词的领域差异大小去除候选词集合Set_dldate中的重复词；
[0025]作为优选，候选词W的领域差异可以通过以下公式计算：
[0026] DV(ff) = log(l+fsi(ff)/(l+fs2(ff)))
[0027] 其中fsl(W)表示W在语料Si*出现的频率，fs2(W)表示词W在语料S 2中出现的频率。
[0028] 进一步的，为了得到更好的去重效果，重复词的领域差异可以综合考虑凝合度与领域差异值得到，即根据定义2,找出候选词集合S etCandldate*所有的重复词，对重复词进行比较，选出重复词中权重较大的保留，较小的舍弃;重复该过程直到候选词集合S etCandldat(3 中不再含有重复词，具体过程如下：
[0029] (1)根据定义2，取n = 2，3，4，5，对SetCandidat冲所有词比较，找出所有重复词，η表示Set Candidate3集合的词中包含的单字个数；
[0030] (2)根据定义3、定义4计算每个重复词的凝合度CV(W)和领域差异值DV(W)，其计算公式分别如下：
[0031] 凝合度：
[0033] 领域差异值：
[0034] DV(ff) = log(l+fsi(ff)/(l+fs2(ff)))
[0035] 进一步地，对重复词两两比较如下公式所示加权后权值V大小，留下权值较大的词：
[0038]其中，a为参数，表示不同n-gram之间所允许的差异的度量，η表示词W中单字数目，Ci表示词W中第i个字或词，奶和《2为互为重复的两个词。
[0039] (3)重复进行步骤(1)、（2)，直到候选词集合中不再含有重复词。
[0040] 步骤四、去除SetCandldat(3中领域差异较低的候选词，将高于预设阈值丫的候选词加入新词集合Υ并输出得到所有新词。
[0041] 作为优选，候选词W的领域差异可以通过以下公式计算：
[0042] DV(ff) = log(l+fsi(ff)/(l+fs2(ff)))
[0043] 其中fsl(W)表示W在语料Si*出现的频率，fs2(W)表示词W在语料S 2中出现的频率。
[0044] 进一步的，所述领域差异可以通过对候选词集合Setcandld ate中的每一个候选词，分别根据定义3、4、5,计算其领域差异值(DV)，成词率(NWP)以及凝合度(CV)，并将其按一定的比例综合来表征，具体如下：
[0045] (1)根据下式计算候选词W差异值DV(W):
[0046] DV(ff)

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：史树敏;周新宇;黄河燕;史胜清;
技术所有人：北京理工大学;
我是此专利的发明人

上一篇：一种基于相似度学习的车辆检索方法
上一篇：信息分享方法及其电子设备的制造方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。