一种基于领域差异性的新词提取方法

文档序号:9727375阅读:466来源:国知局
一种基于领域差异性的新词提取方法
【技术领域】
[0001] 本发明涉及一种新词提取的方法,特别涉及一种基于领域差异性的新词提取的方 法,属于自然语言处理应用技术领域。
【背景技术】
[0002] 网络新词是指伴随着互联网出现并流行使用的一些特殊语言或文字。通常来源于 影视网络热门用语,或因某一社会现象而产生的一些为大家所接受的用词。网络新词在网 络领域文本,如:贴吧、微博中频繁出现。统计发现,中国每年超过1 〇〇〇个新词出现在人们的 日常生活中。根据相关研究成果,超过60 %的分词错误来自网络新词,新词识别的准确程度 直接影响着智能信息处理系统的性能。例如:在智能信息处理的文本情感分析任务中,固定 词组搭配能够体现出情感极性,对于新词词组,如果无法对其正确识别,会导致所判断出的 情感极性失真。如:"表达十分高大上"(这是一条产品的网友评论),这里"高大上"实际应该 作为一个网络新词,整体来表示"高端大气上档次"的积极情感,然而目前几乎所有的应用 系统中,分词处理后形成的标注序列为"表达/V十分/adv高/adj大/adj上/adv",即:将该网 络新词切分成单字,错误的分词处理使该句丢失了积极情感倾向的含义,对后续信息的智 能分析产生了严重影响。因此对新词的有效识别在自然语言处理领域中有着非常重要的意 义。
[0003] 目前,新词提取主要分为基于规则的方法和基于统计的方法两类。基于规则方法 的主要思路是:着眼于新词的构词原理,将其作为理论依据并建立一个有助于识别新词的 常用语料库;然后研究词语的自身语言特性,建造一个以词语的自然属性为基础的特殊构 词规则库。基于规则的方法对新词的识别准确率较高,但需要极强的语言素养与相关领域 知识背景。基于统计的方法实现新词识别主要有两种手段,一种是将新词提取作为分词必 不可少的一部分,通过特定统计模型最终推断出最有可能的分隔点进而得到新词。经典的 统计模型有条件随机场(Conditional Random Fields,CRF)、基于特征频率信息的梯度下 降训练模型等。另一种手段是将新词提取作为一个单独的任务,通常需要做词性标注 (Part-0f-Spee Ch,P0S)的预处理。由于网络新词具有实时性,流通性强、动态变化等特点, 因此纯粹的基于规则的方法往往效果不佳;而完全采用统计手段获取网络新词也存在训练 数据稀疏、有效特征抽取困难等不足。目前大部分研究者使用规则和统计相结合的方法,以 期发挥各自的优势,然而这些方法都忽略了语料库本身的信息特征优势,即:相同词在不同 领域主题之间的信息(内涵)差异,具体体现为不同领域主题下相同词对应的词分布表现不 同。

【发明内容】

[0004] 本发明针对网络中不断产生和使用的新词,提出一种基于领域差异性的新词提取 方法,本方法充分利用不同领域语料自身的特性,在现有通用评价体系下,有效提高了新词 识别的准确率。
[0005] 本发明的思想是通过比较不同领域间字分布的差异性,获得差异字种子,通过n-gram方式拓展差异字,构建候选词集,然后对候选词集合中每一个词,分别以领域差异值、 凝合度,以及成词率作为衡量标准,进一步提取得到新词。
[0006] 本发明中涉及的相关定义如下:
[0007] 定义1:领域差异字,指能够体现领域差异性的单字,该单字能反映领域特征,其在 不同领域语料中出现频率有很大区别。如,若单字C在网络语料中出现频率。*_^((3)与在 新闻领域中出现频率fn_(C)之比超过阈值λ,则称C为领域差异字。对于单字成词的语言现 象,若其能够体现出差异性。本发明亦认定其具有词分布的差异表现。
[0008] 定义2:重复词,当词WA和词WB满足条件% C 14^ ,称WB和WA互为重复词。如:"喜大 普奔"(Wa)与"大普奔" (Wb)。
[0009] 定义3:领域差异值DV(DifferenCe Value),领域差异性的度量,利用词W在网络语 料出现频 internet (w)与新闻语料出现频率f (w)计算得出;其中f i nternet (w)表示词w在网 络语料中出现频率,f_(w)表示词w在新闻语料中出现频率。
[00?0]定义4:凝合度CV(Concrete Value),衡量词被正确切分的量化指标。如"电影院" 有"电影" + "院"和"电" + "影院"两种凝合方式。对任意词W=C1C2(其中,c^C2表示构成该词 的字或者词),通过枚举其所有可能的凝合方式,计算对应权值,取其中最小值,作为该词凝 合度。
[0011 ] 定义5:成词率NWP(New Word Probability),判断某单字序列是否组成词语的指 标。如:"爱说"、"爱吃"均由单字组成,但NWP很低,即表示二者均不构成词。
[0012] 本发明的的目的是通过以下步骤实现的:
[0013] -种基于领域差异性的新词提取方法,包括以下步骤:
[0014] 步骤一,将待获取新词的某领域输入语料Si与其它领域语料32进行对比获取领域 差异字种子;
[0015] 作为优选,通过以下步骤得到领域差异字种子:
[0016] (1)分别统计SjPS2中每一个字"c"出现的频率f sl (c)和f s2 (c);
[0017] (2)通过下述公式计算每个字在SdPS2中的差异值:
[0018] Dword-seg(C) =fsl(C)/l+fs2(C)
[0019 ] (3)设定阈值λ,如果字"C"的差异值Dwcird_se3g (c)超过阈值λ,将字"C"作为差异字种 子。
[0020] 步骤二,拓展领域差异字种子,构建候选词集合Set_didate3;
[0021] 作为优选,通过以下步骤采用n-gram方式进行拓展,具体过程如下:
[0022] (1)在语料S!中,分别取η = 2,3,4,5,获取其对应的所有的n-gram词,对这些n- gram词,如果包含有任意差异字,则保留,并统计这些n-gram词出现频率,加入候选词集合 Set-candidate ;
[0023] (2)对候选词集合Setcandidate中所有候选词W,与预设阈值队比较,如果其词频 /)(Η〇 < ,在候选词集合Setcandidate中册IJ去W;
[0024]步骤三:根据候选词的领域差异大小去除候选词集合Set_dldate中的重复词;
[0025]作为优选,候选词W的领域差异可以通过以下公式计算:
[0026] DV(ff) = log(l+fsi(ff)/(l+fs2(ff)))
[0027] 其中fsl(W)表示W在语料Si*出现的频率,fs2(W)表示词W在语料S 2中出现的频率。
[0028] 进一步的,为了得到更好的去重效果,重复词的领域差异可以综合考虑凝合度与 领域差异值得到,即根据定义2,找出候选词集合S etCandldate*所有的重复词,对重复词进行 比较,选出重复词中权重较大的保留,较小的舍弃;重复该过程直到候选词集合S etCandldat(3 中不再含有重复词,具体过程如下:
[0029] (1)根据定义2,取n = 2,3,4,5,对SetCandidat冲所有词比较,找出所有重复词,η表 示Set Candidate3集合的词中包含的单字个数;
[0030] (2)根据定义3、定义4计算每个重复词的凝合度CV(W)和领域差异值DV(W),其计算 公式分别如下:
[0031] 凝合度:
[0033] 领域差异值:
[0034] DV(ff) = log(l+fsi(ff)/(l+fs2(ff)))
[0035] 进一步地,对重复词两两比较如下公式所示加权后权值V大小,留下权值较大的 词:
[0038]其中,a为参数,表示不同n-gram之间所允许的差异的度量,η表示词W中单字数 目,Ci表示词W中第i个字或词,奶和《2为互为重复的两个词。
[0039] (3)重复进行步骤(1)、(2),直到候选词集合中不再含有重复词。
[0040] 步骤四、去除SetCandldat(3中领域差异较低的候选词,将高于预设阈值丫的候选词加 入新词集合Υ并输出得到所有新词。
[0041] 作为优选,候选词W的领域差异可以通过以下公式计算:
[0042] DV(ff) = log(l+fsi(ff)/(l+fs2(ff)))
[0043] 其中fsl(W)表示W在语料Si*出现的频率,fs2(W)表示词W在语料S 2中出现的频率。
[0044] 进一步的,所述领域差异可以通过对候选词集合Setcandld ate中的每一个候选词,分 别根据定义3、4、5,计算其领域差异值(DV),成词率(NWP)以及凝合度(CV),并将其按一定的 比例综合来表征,具体如下:
[0045] (1)根据下式计算候选词W差异值DV(W):
[0046] DV(ff)
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1