一种决策级中文分词融合方法

文档序号:6631110阅读:268来源:国知局
一种决策级中文分词融合方法
【专利摘要】本发明公开了一种决策级中文分词融合方法,属于自然语言处理和智能信息处理领域。本方法首先利用三种分词工具对中文文本中的句子进行分词,并对分词结果进行预处理,利用整型数组保存每个分词工具的分词结果。然后采用决策级分词融合模型进行分词,决策级分词融合模型为分层的融合结构,包括特征级和决策级,最后采用一种基于Web的方法识别句子中的未登录词。本方法通过采用决策级融合方式进行分词结果融合,有效提高了分词结果的准确性。本发明在信息检索、文本分类、主题检测、网络内容监控等领域具有广阔的应用前景。
【专利说明】一种决策级中文分词融合方法

【技术领域】
[0001]本发明涉及一种决策级中文分词融合方法,属于自然语言处理、信息检索、问答系统和智能信息处理领域,适用于信息检索、文本分类、主题检测、网络内容监控等。

【背景技术】
[0002]汉语作为一种词根语,缺乏形态变化,词语之间的语法关系通过词序和虚词来表示。中文文本书写采用词标的形式,词语之间没有显式的形态界限。因此,汉语的这些特点使得针对英文等其他语言处理的方法不能完全适用于中文信息处理。中文分词是信息检索、信息提取、文本分类、自动文摘、问答系统等中文信息处理任务的基础。
[0003]现有的中文分词方法可以分为三大类:基于词典的方法、基于统计的方法以及混合的方法。其中,基于词典的分词方法,其匹配原则包括最大匹配、最小匹配、逐词匹配和最佳匹配,文本扫描顺序包括正向扫描、逆向扫描和双向扫描。基于统计的分词方法主要是利用词语之间的联合出现概率作为分词的依据,常用的统计量或统计模型包括互信息、神经网络模型、隐马尔科夫模型和最大熵模型等。
[0004]中文分词的两大困难是对未登录词的识别和切分歧义的消除。其中,未登录词可以分为两大类:一类是新词,即新出现的通用词汇或者专业术语等,例如“大数据”和“天宫一号”;另一类是专有名词,例如地名和组织机构名等。现有的未登录词识别方法包括基于规则的方法和基于语料学习的方法。基于规则的方法依赖于人工构建的规则。当将该方法移植到新领域时,需要重新构建规则以适用领域的变化。基于语料学习的方法依赖于经过人工构建的语料库,通过机器学习方法,从训练语料中学习未登录词识别的规则或统计模型,进而识别测试语料的未登录词。
[0005]信息融合是指对来自多数据源的数据进行检测、分析、识别和综合以完成所需的决策和估计任务而进行的信息处理过程。多源数据是信息融合的处理对象,综合优化是信息融合的核心。信息融合的基本原理是通过对多源信息的合理使用,把多源信息在空间或时间等方面的冗余或互补根据某种准则进行综合优化,以获得比单个数据源更准确和更全面的信息。信息融合可分为数据级融合、特征级融合,以及决策级融合。数据级融合是最低层次的融合,是指对多个信息源的原始数据不经过处理直接进行综合和分析。特征级融合是指对多源原始数据进行数据层信息的表示和提取,然后对提取的特征层信息进行综合分析和处理。决策级融合是最高层次的融合,是指分别对每个数据源的数据进行预处理、特征提取和识别,然后按照某种准则构建全局优化的决策。多数投票法是决策级信息融合的一种简单有效的方法。信息融合技术已广泛应用于智能检测、机器人、图像分析、目标检测与跟踪、自动目标识别等领域。


【发明内容】

[0006]本发明的目的是针对现有中文分词工具对不同中文文本分词效果不稳定,以及对未登录词识别准确率不高的问题,提出一种决策级中文分词融合方法。
[0007]本方法以多种分词工具为研究对象,通过构建决策级分词融合模型获得准确率更高和对不同文本分词效果更稳定的分词结果,进而提高分词的准确率。
[0008]本发明是由以下技术方案实现的。
[0009]—种决策级中文分词融合方法,包括以下步骤:
[0010]步骤一、利用任意三个中文分词工具分别对待处理文本中的句子进行分词。
[0011]所选用的中文分词工具可以是在本【技术领域】中已有的任意三个分词工具,也包括未来会出现的新的中文分词工具。
[0012]步骤二、对得到的三个分词结果进行预处理。具体如下:
[0013]将待处理句子保存为字符串数组{Sl,S2r",Sn}。其中,η为自然数,表示句子中所有字符的个数,每个数组元素sji = 1,2,-,η)表示单个汉字、标点符号、数字或英文字符。获取三个分词工具的分词结果,连续的两个词语之间用一个空格分隔。
[0014]同时,构建三个整型数组,分别记录三个分词结果中每个非空格字符的位置索引,SP,整型数组元素记录字符串数组中Si(i = 1,2,...,!!)在分词结果中的位置索引。
[0015]步骤三、对字符串数组{Sl,s2,…,sn}和三个整型数组,利用决策级分词融合方法进行分词。具体如下:
[0016]首先,设三个整型数组为A = {a” a2,…,aj、B = {b” b2,…,bj、C = {ο1; c2,...,cn},分别记录第一个、第二个、第三个分词结果中Sl,S2,…,sn的位置索引,设三个分词工具的准确率为Pi,P2,P3。
[0017]这三个整型数组具有如下三个技术特征:
[0018]第一,对于待处理句子的第i个字符Si和第i + Ι个字符si+1,在分词结果中二者之间要么存在词语分隔标记空格,要么不存在空格。以数组A为例,对于第i个和第i+Ι个字符在分词结果中的位置索引%和ai+1,只能满足下述关系之一:若第i个字符和第i+Ι个字符之间不存在空格,则ai+1 = ai+l ;若它们之间存在空格,则ai+1 = ai+2。
[0019]第二,对于第i个和第i+Ι个字符在三个分词结果中的位置索引ai;,b” Ci和ai+1, bi+1, ci+1,若ai =匕=ci;由于在分词结果中第i个字符与第i+Ι个字符之间只能存在空格或者不存在空格,因此ai+1,bi+1,ci+1中任意两者要么相等,要么差值为1。此外,ai+1, bi+1, ci+1中至少存在两者相等。
[0020]第三,在分词过程中,在判别第i(i = 1,2,-, η)个字符的位置索引后,将三个整型数组中记录该字符在三个分词结果中的位置索引都赋值为分词融合方法中第i个字符的位置索引。
[0021]然后,采用决策级分词融合方法进行分词。过程如下:
[0022]对于待处理句子的第一个字符81,有=匕=Cl = 1,则判别第1个字符的位置索引为a”
[0023]对于待处理句子的第i(i = 2,..., η)个字符,若ai =匕=ci;则判别第i个字符的位置索引为a”
[0024]若ai =匕=q不成立,根据整型数组的特征可知三个整型数组中记录三种分词结果的第i_l个字符的位置索引相同,即ag = bg = Ci_1;并且匕,Ci中存在两个数组元素的值相等。若% =匕,则第i个字符在分词融合结果中的位置索引为%的概率p =p1+p2+(l-p3)。若ai = ci;则第i个字符在分词融合结果中的位置索引为ai的概率p =p1+(l-p2)+p3o若匕=ci;则第i个字符在分词融合结果中的位置索引为h的概率p =
(l_Pi) +P2+P3。
[0025]当81 =匕时,若1)彡0.5,则判别第1个字符的位置索引为&1。根据整型数组的特征,可知%+1 = Ci。将第三个分词结果的整型数组中第i个元素至最后一个元素的值减1。若ai>Ci,根据整型数组的特征可知ai = Ci+l。将第三个分词结果的整型数组中第i个元素至最后一个元素的值加1,然后继续处理第i+Ι个字符。
[0026]当% =匕时,若p〈0.5,则判别第i个字符的位置索引为c”若ai〈Ci,根据整型数组的特征,可知%+1 = Ci。将第一个和第二个分词结果的两个整型数组中第i个元素至最后一个元素的值加1。若ai>Ci,根据整型数组的特征,可知ai = Ci+1。将第一个和第二个分词结果的两个整型数组中第i个元素至最后一个元素的值减1。继续处理第i+Ι个字符。
[0027]当% = Ci时,若p彡0.5,则判别第i个字符的位置索引为%。若%〈匕,根据整型数组的特征,可知%+1 = 将第二个分词结果的整型数组中第i个元素至最后一个元素的值减1。若apbi,根据整型数组的特征,可知ai = bi+l。将第二个分词结果的整型数组中第i个元素至最后一个元素的值加1,然后继续处理第i+Ι个字符。
[0028]当% = Ci时,若p〈0.5,则判别第i个字符的位置索引为若根据整型数组的特征,可知%+1 = 将第一个和第三个分词结果的两个整型数组中第i个元素至最后一个元素的值加1。若根据整型数组的特征,可知ai = bi+l。将第一个和第三个分词结果的两个整型数组中第i个元素至最后一个元素的值减1。继续处理第i+Ι个字符。
[0029]当匕=Ci时,若p > 0.5,则判别第i个字符的位置索引为若匕〈%,根据整型数组的特征,可知h+1 = %。将第一个分词结果的整型数组中第i个元素至最后一个元素的值减1。若bihi,根据整型数组的特征,可知bi = ai+l。将第一个分词结果的整型数组中第i个元素至最后一个元素的值加1,然后继续处理第i+Ι个字符。
[0030]当匕=Ci时,若p〈0.5,则判别第i个字符的位置索引为%。若匕〈%,根据整型数组的特征,可知bi+1 = %。将第二个和第三个分词结果的两个整型数组中第i个元素至最后一个元素的值加1。若匕>%,根据整型数组的特征,可知h = %+1。将第二个和第三个分词结果的两个整型数组中第i个元素至最后一个元素的值减1。继续处理第i+Ι个字符,重复上述过程直至处理完句子中所有字符。
[0031]步骤四、采用基于Web的方法,对未登录词进行识别。具体如下:
[0032]设k=l,k为整数。
[0033]第一步,在对句子分词的结果中,从第k个词语开始,分别将连续两个、三个、四个相邻的词语合并为候选未登录词Wp w2, w3。
[0034]第二步,将候选未登录词作为关键词提交到网络上搜索候选未登录词。
[0035]第三步,判断候选未登录词是否为有效的未登录词。
[0036]判断依据是候选未登录词在网络中存在相应的百科页面。具体而言,在网络页面返回结果的超文本标记语言Html源码中〈title〉标签包含候选未登录词。若《3为未登录词,则设置k = k+4,执行第四步,否则判断w2是否为未登录词。若w2为未登录词,则设置k=k+3,执行第四步,否则判断Wl是否为未登录词。若&为未登录词,则设置k = k+2,执行第四步,否则设置k = k+1,执行第四步。
[0037]第四步,若k〈n,则返回第一步执行,否则结束循环。
[0038]至此,就完成了本方法的全部过程。
[0039]有益效果
[0040]本发明方法,针对单个分词工具对不同中文文本分词效果不稳定的现状,引入数据融合思想,采用一种决策级分词融合方法进行分词。该方法将多个分词工具的分词结果在决策级进行融合,以降低单个分词工具处理不同文本时产生的分词准确率的波动,提高分词结果的准确率。
[0041](1)在决策级分词融合模型中,分层的融合结构一方面保持了每个分词工具的独立性,能够完成分词融合系统中多种分词工具的不同组合的分词融合。另一方面,降低了分词融合系统的复杂性,提高了分词融合系统的灵活性,可以动态地增加和更新分词工具。
[0042](2)本发明的决策级分词融合方法,不但利用了每个分词工具的优势,而且通过决策级分词融合模型避免了各个分词工具的不足,具有较强的鲁棒性。也就是,尽可能保留每个分词工具分词准确的地方,多个分词工具的群体智能能够避免单个分词工具的分词错误。
[0043](3)将分词融合系统应用于不同任务需要更高的准确性和实时性时,分层的融合结构可以通过分别改进单个分词工具的性能来提高全局分词融合系统的性能,即提高系统的准确性、灵活性和自适应性。
[0044](4)在未登录词识别方法中,选取互联网信息作为验证候选未登录词的来源,具有实时性和海量性的特点,能够识别不断增加的未登录词,从而提高分词的准确率。

【专利附图】

【附图说明】
[0045]图1为本发明方法的流程图。

【具体实施方式】
[0046]下面结合实施例对本发明方法进行详细说明。
[0047]实施例
[0048]本实施例以Eclipse为开发平台,Java为开发语言,使用JSoup网页解析工具。三个分词工具选用ICTCLAS、哈尔滨工业大学LTP、斯坦福大学Chinese Segment,它们均可通过网络下载获得。
[0049]一种决策级中文分词融合方法,包括以下步骤:
[0050]步骤一、将待处理句子分别提交给三个分词工具进行分词。
[0051]步骤二:对三个分词结果进行预处理。具体如下:
[0052]将待处理句子保存为字符串数组{Sl,S2r",Sn}。其中,η为自然数,表示句子中所有字符的个数,每个数组元素sji = 1,2,-,η)表示单个汉字、标点符号、数字或英文字符。获取三个分词工具的分词结果,连续两个词语之间用一个空格分隔。
[0053]同时,构建三个整型数组,分别记录三个分词结果中每个非空格字符的位置索引,SP,整型数组元素记录字符串数组中Si(i = 1,2,...,!!)在分词结果中的位置索引。
[0054]例如,对于句子“小李有一件皮大衣。”,它的一种分词结果为“小李Λ有Λ —件Α皮大衣Λ。”,其中“Λ”表示空格。保存该句子的字符串数组元素的值依次为“{小,李,有,一,件,皮,大,衣,。}”。记录句子字符在该分词结果中位置索引的整型数组元素的值依次为“ {1,2,4,6,7,9,10,11,13} ”。其中,表示字符“小”在分词结果中的位置索引为1,“李”的位置索引为2,“有”的位置索引为4,“一件”的位置索引分别为6和7,“皮大衣”的位置索引分别为9,10,11,句号“。”的位置索引为13。
[0055]步骤三、对字符串数组{Sl,s2,…,sn}和三个整型数组,利用决策级分词融合方法进行分词。具体如下:
[0056]首先,设三个整型数组为A = {a1; a2,…,aj、B = {b^ b2,..., bj > C = {q,c2,…,cn},分别记录第一种、第二种、第三种分词结果中Sl,s2,…,sn的位置索引,设三种分词工具的准确率为Pi,P2,P3。
[0057]这三个整型数组具有如下三个技术特征:
[0058]第一,对于待处理句子的第i个字符Si和第i+Ι个字符si+1,在分词结果中二者之间要么存在词语分隔标记空格,要么不存在空格。以数组A为例,对于第i个和第i+Ι个字符在分词结果中的位置索引%和ai+1,只能满足下述关系之一:若第i个字符和第i+Ι个字符之间不存在空格,则ai+1 = ai+l ;若它们之间存在空格,则ai+1 = ai+2。
[0059]第二,对于第i个和第i+Ι个字符在三个分词结果中的位置索引
ai+1, bi+1, ci+1,若ai =匕=ci;由于在分词结果中第i个字符与第i+Ι个字符之间只能存在空格或者不存在空格,因此ai+1,bi+1,ci+1中任意两者要么相等,要么差值为1。此外,ai+1, bi+1, ci+1中至少存在两者是相等的。
[0060]第三,在分词过程中,在判别第i(i = 1,2,-, η)个字符的位置索引后,将三个整型数组中记录该字符在三个分词结果中的位置索引都赋值为分词融合方法中第i个字符的位置索引。
[0061]然后,采用决策级分词融合方法进行分词。过程如下:
[0062]对于待处理句子的第一个字符81,有=匕=Cl = 1,则判别第1个字符的位置索引为a”
[0063]对于待处理句子的第i(i = 2,..., η)个字符,若ai =匕=ci;则判别第i个字符的位置索引为a”
[0064]若= bi = q不成立,根据整型数组的特征,可知三个整型数组中记录三种分词结果的第i_l个字符的位置索引相同,即ag = bg = Ci_1;并且a” bi; Ci中存在两个数组元素的值相等。若% =匕,则第i个字符在分词融合结果中的位置索引为%的概率p=Ρ!+Ρ2+(1-Ρ3) °若h = ci;则第i个字符在分词融合结果中的位置索引为ai的概率p =p1+(l-p2)+p3o若匕=ci;则第i个字符在分词融合结果中的位置索引为h的概率p =
(l_Pi) +P2+P3。
[0065]当% =匕时,若p彡0.5,则判别第i个字符的位置索引为%。若%〈(^,根据整型数组的特征,可知%+1 = Ci。将第三个分词结果的整型数组中第i个元素至最后一个元素的值减1。若ai>Ci,根据整型数组的特征可知ai = Ci+l。将第三个分词结果的整型数组中第i个元素至最后一个元素的值加1,然后继续处理第i+Ι个字符。
[0066]当&1 =匕时,若p〈0.5,则判别第i个字符的位置索引为Ci。若%〈(^,根据整型数组的特征,可知%+1 = Ci。将第一个和第二个分词结果的两个整型数组中第i个元素至最后一个元素的值加1。若ai>Ci,根据整型数组的特征可知ai = Ci+1。将第一个和第二个分词结果的两个整型数组中第i个元素至最后一个元素的值减1。继续处理第i+Ι个字符。
[0067]当% = Ci时,若p彡0.5,则判别第i个字符的位置索引为%。若%〈匕,根据整型数组的特征,可知%+1 = 将第二个分词结果的整型数组中第i个元素至最后一个元素的值减1。若apbi,根据整型数组的特征,可知ai = bi+l。将第二个分词结果的整型数组中第i个元素至最后一个元素的值加1,然后继续处理第i+Ι个字符。
[0068]当% = Ci时,若p〈0.5,则判别第i个字符的位置索引为若根据整型数组的特征,可知%+1 = 将第一个和第三个分词结果的两个整型数组中第i个元素至最后一个元素的值加1。若根据整型数组的特征,可知ai = bi+l。将第一个和第三个分词结果的两个整型数组中第i个元素至最后一个元素的值减1。继续处理第i+Ι个字符。
[0069]当匕=Ci时,若p > 0.5,则判别第i个字符的位置索引为若匕〈%,根据整型数组的特征,可知h+1 = %。将第一个分词结果的整型数组中第i个元素至最后一个元素的值减1。若bihi,根据整型数组的特征,可知bi = ai+l。将第一个分词结果的整型数组中第i个元素至最后一个元素的值加1,然后继续处理第i+Ι个字符。
[0070]当匕=Ci时,若p〈0.5,则判别第i个字符的位置索引为%。若匕〈%,根据整型数组的特征,可知bi+1 = %。将第二个和第三个分词结果的两个整型数组中第i个元素至最后一个元素的值加1。若匕>%,根据整型数组的特征,可知h = %+1。将第二个和第三个分词结果的两个整型数组中第i个元素至最后一个元素的值减1。继续处理第i+Ι个字符,重复上述过程直至处理完句子中所有字符。
[0071]例如,对于待处理句子“小李有一件皮大衣。”,它的三种分词结果为“小Λ李有Λ一件Λ皮大Λ衣Λ。”,“小李Λ有Λ — Λ件Λ皮Λ大Λ衣Λ。”,“小李Λ有Λ —件Λ皮大衣Λ。”。对于第一个字符“小”,三种分词结果中该字符的位置索引都为1,则分词融合方法判断第一个字符的位置索引为1,继续处理第二个字符。
[0072]对于第二个字符“李”在三种分词结果中的位置索引a2,b2, c2,有a2 = 3,b2 = 2,c2=2,由于b2 = c2,则分词融合方法中该字符在分词融合结果中的位置索引为b2的概率p=(l-p1)+p2+p3o (1)若p彡0.5,则分词融合方法判别字符s2的位置索引为b2。由于a2 =b2+l,则将整型数组A中第二个到最后一个元素的值减1。(2)若p〈0.5,则分词融合方法判另IJ字符s2的位置索引为a2。由于a2 = b2+l,则将整型数组B和C中从第二个到最后一个元素的值加1。依照此方法,直至处理完句子中的最后一个字符。
[0073]步骤四、采用基于Web的方法,对未登录词进行识别。具体如下:
[0074]设k=l,k为整数。
[0075]第一步,在分词融合方法对句子分词的结果中,从第k个词语开始,将连续两个、三个、四个相邻的词语合并为候选未登录词Wp w2, w3。
[0076]第二步,将候选未登录词作为关键词提交到网络(如互动百科网站)上搜索候选未登录词。
[0077]第三步,判断候选未登录词是否为有效的未登录词。
[0078]判断依据是候选未登录词在互动百科网站中存在相应的百科页面,具体而言,在互动百科网站返回结果的超文本标记语言Html源码中〈title〉标签包含候选未登录词。若w3为未登录词,则设置k = k+4,执行第四步,否则判断w2是否为未登录词。若w2为未登录词,则设置k = k+3,执行第四步,否则判断Wl是否为未登录词。若Wl为未登录词,则设置k=k+2,执行第四步,否则设置k = k+1,执行第四步。
[0079]第四步,若k〈n,η为句子中所有字符的个数,则返回第一步执行,否则结束循环。
[0080]本实施过程构建了含有约170万短语构成的文本集进行实验测试。这些短语来自百度百科的词条,分词过程中将一个短语看作一个句子进行处理。采用三个分词工具进行分词的效果如下:ICTCLAS的准确率为39.28 %,Chinese Segment的准确率为34.87 %,LTP的准确率为53.24%。本发明中,利用步骤三的分词方法的分词准确率为46.63%,进一步利用步骤四的未登录词识别方法的分词准确率为89.70%。通过实验表明,本发明提出的分词方法发挥了各个分词工具的优势,其准确率高于其他三个单独的分词工具,从而验证了其有效性。
【权利要求】
1.一种决策级中文分词融合方法,其特征在于包括以下步骤: 步骤一、利用任意三个中文分词工具分别对待处理文本中的句子进行分词; 步骤二、对得到的三个分词结果进行预处理,具体如下: 将待处理句子保存为字符串数组{Sl,S2,…,S1J,其中,η为自然数,表示句子中所有字符的个数,每个数组元素Si (i = 1,2,-,η)代表单个汉字、标点符号、数字或英文字符;获取三个分词工具的分词结果,连续的两个词语之间用一个空格分隔; 同时,构建三个整型数组,分别记录三个分词结果中每个非空格字符的位置索引,即,整型数组元素记录字符串数组(S1, S2,…,sn}中SiQ = I, 2,-,η)在分词结果中的位置索弓I ; 步骤三、对字符串数组Is1, S2,…,S1J和三个整型数组,利用决策级分词融合方法进行分词,具体如下:
首先,设三个整型数组为 A = {a” a2,...,aj、B = {b” b2,...,bj、C = Ic1, c2,...,cn},分别记录第一个、第二个、第三个分词结果中S1, S2,…,Sn的位置索引,设三个分词工具的准确率为P1, P2, P3 ; 对于待处理句子的第i个字符Si和第i+Ι个字符si+1,在分词结果中二者之间要么存在词语分隔标记空格,要么不存在空格;对于第i个和第i+Ι个字符在分词结果中的位置索引和ai+1,只能满足下述关系之一:若第i个字符和第i+Ι个字符之间不存在空格,则ai+1=ajl ;若它们之间存在空格,则ai+1 = a,+2 ; 对于第i个和第i+Ι个字符在三个分词结果中的位置索引a”,bi, Ci和aj” IdJ1, ci+1,若ai = bi = Ci,由于在分词结果中第i个字符与第i+Ι个字符之间只能存在空格或者不存在空格,因此ai+1,bi+1,ci+1中任意两者要么相等,要么差值为1,此外,ai+1,bi+1, ci+1中至少存在两者相等; 在分词过程中,在判别第i (i = 1,2,…,η)个字符的位置索引后,将三个整型数组中记录该字符在三个分词结果中的位置索引都赋值为分词融合方法中第i个字符的位置索引;然后,采用决策级分词融合方法进行分词;过程如下: 对于待处理句子的第一个字符S1,有ai = h = C1 = 1,则判别第I个字符的位置索引为B1 ; 对于待处理句子的第i (i = 2,..., η)个字符,若Si = IDi = Ci,则判别第i个字符的位置索引为Si ; 若ai = bi = Ci不成立,根据整型数组的特征可知三个整型数组中记录三种分词结果的第i_l个字符的位置索引相同,即an = Iv1 = Ci_1;并且a”,bi; Ci中存在两个数组元素的值相等;若Bi = Iv则第i个字符在分词融合结果中的位置索引为%的概率ρ = ρι+ρ2+(1-ρ3);若A = Ci,则第i个字符在分词融合结果中的位置索引为%的概率P = P1+(1-P2)+P3 ;若bi = Ci,则第i个字符在分词融合结果中的位置索引为h的概率P = (1-P1)+p2+p3 ; 当% =匕时,若P > 0.5,则判别第i个字符的位置索引为% ;若%〈(^,根据整型数组的特征,可知%+1 = Ci ;将第三个分词结果的整型数组中第i个元素至最后一个元素的值减I ;若ai>Ci,根据整型数组的特征可知ai = Ci+l ;将第三个分词结果的整型数组中第i个元素至最后一个元素的值加1,然后继续处理第i+Ι个字符; 当% =匕时,若p〈0.5,则判别第i个字符的位置索引为Ci ;若%〈(^,根据整型数组的特征,可知%+1 = Ci ;将第一个和第二个分词结果的两个整型数组中第i个元素至最后一个元素的值加1 ;若%>(^,根据整型数组的特征,可知ai = Ci+1 ;将第一个和第二个分词结果的两个整型数组中第i个元素至最后一个元素的值减1 ;继续处理第i+Ι个字符; 当% = Ci时,若p彡0.5,则判别第i个字符的位置索引为% ;若%〈1^,根据整型数组的特征,可知%+1 =匕;将第二个分词结果的整型数组中第i个元素至最后一个元素的值减1 ;若根据整型数组的特征,可知ai = h+1 ;将第二个分词结果的整型数组中第i个元素至最后一个元素的值加1,然后继续处理第i+Ι个字符; 当% = Ci时,若p〈0.5,则判别第i个字符的位置索引为匕;若根据整型数组的特征,可知%+1 =匕;将第一个和第三个分词结果的两个整型数组中第i个元素至最后一个元素的值加1 ;若根据整型数组的特征,可知ai = h+1 ;将第一个和第三个分词结果的两个整型数组中第i个元素至最后一个元素的值减1 ;继续处理第i+Ι个字符; 当h = Ci时,若p > 0.5,则判别第i个字符的位置索引为匕;若根据整型数组的特征,可知h+1 = a,;将第一个分词结果的整型数组中第i个元素至最后一个元素的值减1 ;若匕>%,根据整型数组的特征,可知匕=a,+l ;将第一个分词结果的整型数组中第i个元素至最后一个元素的值加1,然后继续处理第i+Ι个字符; 当h = Ci时,若p〈0.5,则判别第i个字符的位置索引为% ;若匕〈%,根据整型数组的特征,可知h+1 = a,;将第二个和第三个分词结果的两个整型数组中第i个元素至最后一个元素的值加1 ;若匕>%,根据整型数组的特征,可知匕=ai+l ;将第二个和第三个分词结果的两个整型数组中第i个元素至最后一个元素的值减1 ;继续处理第i+Ι个字符,重复上述过程直至处理完句子中所有字符; 步骤四、对未登录词进行识别,具体如下: 设k = 1, k为整数; 第一步,在对句子分词的结果中,从第k个词语开始,分别将连续两个、三个、四个相邻的词语合并为候选未登录词Wp w2, w3 ; 第二步,将候选未登录词作为关键词提交到网络上搜索候选未登录词; 第三步,判断候选未登录词是否为有效的未登录词; 判断依据是候选未登录词在网络中存在相应的百科页面;具体而言,在网络页面返回结果的超文本标记语言Html源码中〈title〉标签包含候选未登录词;若w3为未登录词,则设置k = k+4,执行第四步,否则判断《2是否为未登录词;若《2为未登录词,则设置k = k+3,执行第四步,否则判断Wl是否为未登录词;若Wl为未登录词,则设置k = k+2,执行第四步,否则设置k = k+l,执行第四步; 第四步,若k〈n,则返回第一步执行,否则结束循环。
【文档编号】G06F17/30GK104317882SQ201410564432
【公开日】2015年1月28日 申请日期:2014年10月21日 优先权日:2014年10月21日
【发明者】张春霞, 梁峰, 王树良, 金福生, 牛振东 申请人:北京理工大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1