基于旅游业特征词库的中文分词方法

文档序号:6332394阅读:669来源:国知局
专利名称:基于旅游业特征词库的中文分词方法
技术领域
本发明涉及一种中文分词方法,尤其涉及一种基于旅游业特征词库的中文分词方法。
背景技术
伴随信息的快速增长,人们想准确找到对自己有用的信息变得很困难,使搜索引擎成为人们查找信息的首选工具,谷歌、百度是大家共知的全文搜索引擎。随着搜索市场价值的不断增加,人们对信息准确性、实用性的要求越来越高,全文搜索引擎已经不能满足人们的需求,随之而来的垂直搜索引擎越来越受到人们的喜爱,垂直搜索专注于特定的搜索领域和搜索需求(例如酒店搜索、旅游搜索、火车票搜索等等),在其特定的搜索领域有更好的用户体验。垂直搜索需要的硬件成本低、用户需求特定、查询的方式多样。目前在中文搜索引擎领域,国内的搜索引擎已经和国外的搜索引擎效果上相差不远。之所以能形成这样的局面,有一个重要的原因就在于中文和英文两种语言自身的书写方式不同,这其中对于计算机涉及的就是中文分词技术。什么是中文分词英文是以词为单位的,词和词之间是靠空格隔开,而中文是以字为单位,句子中所有的字连起来才能描述一个意思。例如,英文句子I am astudent,用中文则为“我是一个学生”。计算机可以很简单通过空格知道student是一个单词,但是不能很容易明白“学”、 “生”两个字合起来才表示一个词。把中文的汉字序列切分成有意义的词,就是中文分词。 我是一个学生,分词的结果是我/是/ 一个/学生。中文分词和搜索引擎中文分词到底对搜索引擎有多大影响?对于搜索引擎来说,最重要的并不是找到所有结果,因为在大数据量下面所有结果没有太多的意义,没有人能看得完,最重要的是把最相关的结果排在最前面,展示给用户,这也称为相关度排序。中文分词的准确与否,常常直接影响到对搜索结果的相关度排序。中文分词技术中文分词技术属于自然语言处理技术范畴,对于一句话,人可以通过自己的知识来明白哪些是词,哪些不是词,但如何让计算机也能理解?其处理过程就是分词算法。现有的分词算法可分为三大类基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法。1、基于字符串匹配的分词方法这种方法又叫做机械分词方法,它是按照一定的策略将要分析的汉字串与一个 “充分大的”机器词库中的词语进行匹配,若在词库中找到某个字符串,则匹配成功(识别出一个词)。按照扫描方向的不同,串匹配分词方法可以分为正向匹配和逆向匹配;按照不同长度优先匹配的情况,可以分为最大(最长)匹配和最小(最短)匹配。常用的几种机械分词方法如下
1)正向最大匹配法(由左到右的方向);2)逆向最大匹配法(由右到左的方向);3)最少切分(使每一句中切出的词数最小)。2、基于理解的分词方法这种分词方法是通过让计算机模拟人对句子的理解,达到识别词的效果。其基本思想是在分词的同时进行句法、语义分析,利用句法信息和语义信息来处理歧义现象。3、基于统计的分词方法词是稳定的字的组合,因此在上下文中,相邻的字同时出现的次数越多,就越有可能构成一个词。因此字与字相邻共现的频率或概率能够较好的反映成词的可信度。可以对语料中相邻共现的各个字的组合的频度进行统计,计算它们的互现信息。定义两个字的互现信息,计算两个汉字X、Y的相邻共现概率。互现信息体现了汉字之间结合关系的紧密程度。当紧密程度高于某一个阈值时,便可认为此字组可能构成了一个词。这种方法只需对语料中的字组频度进行统计,不需要切分词库,因而又叫做无词库分词法或统计取词方法。分词中的难题1、歧义识别歧义是指同样的一句话,可能有两种或者更多的切分方法。例如表面的,因为“表面”和“面的”都是词,那么这个短语就可以分成“表面的”和“表面的”。这种称为交叉歧义。交叉歧义相对组合歧义来说是还算比较容易处理,组合歧义就必需根据整个句子来判断了。例如,在句子“这个门把手坏了”中,“把手”是个词,但在句子“请把手拿开”中, “把手”就不是一个词;在句子“将军任命了一名中将”中,“中将”是个词,但在句子“产量三年中将增长两倍”中,“中将”就不再是词。这些词计算机又如何去识别?如果交叉歧义和组合歧义计算机都能解决的话,在歧义中还有一个难题,是真歧义。真歧义意思是给出一句话,由人去判断也不知道哪个应该是词,哪个应该不是词。例如“乒乓球拍卖完了”,可以切分成“乒乓球拍卖完了”、也可切分成“乒乓球拍卖完了 ”,如果没有上下文其他的句子,恐怕谁也不知道“拍卖”在这里算不算一个词。2、新词识别新词,专业术语称为未登录词。也就是那些在词库中都没有收录过,但又确实能称为词的那些词。最典型的是人名,新词中除了人名以外,还有机构名、景点名、火车站名、商标名、简称、省略语等都是很难处理的问题,而且这些又正好是人们经常使用的词,因此对于搜索引擎来说,分词系统中的新词识别十分重要。目前新词识别准确率已经成为评价一个分词系统好坏的重要标志之一。分词准确性对搜索引擎来说十分重要,但如果分词速度太慢,即使准确性再高,对于搜索引擎来说也是不可用的,因为搜索引擎需要处理的数据量过大,如果分词耗用的时间过长,会严重影响搜索引擎内容更新的速度。因此对于搜索引擎来说,分词的准确性和速度,二者都需要达到很高的要求。

发明内容
本发明的目的就是为了解决现有技术中存在的上述问题,提供一种基于旅游业特
5征词库的中文分词方法。本发明的目的通过以下技术方案来实现基于旅游业特征词库的中文分词方法,其中建立初始旅游业特征词库,包括对行业内已经存在的旅游业特征词语的收集整理,再根据以前网站的系统运行日志,分析出一些旅游业特征词语,将两处收集到的旅游业特征词语进行合并,形成初始旅游业特征词库; 通过索引服务器定期建立索引库,为用户提供查询工作,将用户查询日志传给日志服务器; 对旅游业特征词库中的特征词语进行分词,包括词语首字哈希索引,既将旅游业特征词库中的词语首字取出后去除重复,通过一次哈希运算直接定位汉字的首字位置,配合以词为单位的有序表,建立旅游业特征词库正文;通过首字哈希索引表和旅游业特征词库配合,实现指定词在旅游业特征词库正文中的快速查找。上述的基于旅游业特征词库的中文分词方法,其中所述的旅游业特征词库在每个周期制定时间,将已经分析好的线上网站运行日志进行统计,将发现的新词放入新词库, 在新词库中停留一个月,之后将已经确定的新词库中的词转入旅游业特征词库;对于新形成的热点词语,直接录入旅游业特征词库。进一步地,上述的基于旅游业特征词库的中文分词方法,其中所述的索引服务器建立索引的过程为将用户需要的信息从存储介质中取出,作为输入源给中文分词系统,根据分出来的词存入索引库。更进一步地,上述的基于旅游业特征词库的中文分词方法,其中所述的首字哈希索引包括最大词长,在旅游业特征词库中的开始、结束行号,开始位置指针,指向以汉字为首字的所有词语在旅游业特征词库正文中的起始位置。更进一步地,上述的基于旅游业特征词库的中文分词方法,其中所述的旅游业特征词库中的特征词语进行分词时首先进行初始最大词长的选取,取出待分词字串中的每个汉字,在分词旅游业特征词库中查找以每个汉字为首字的词的最大词长,选出其中最大者与待分词字串的长度进行比较后,确定出最合适的初始最大词长。更进一步地,上述的基于旅游业特征词库的中文分词方法,其中所述的初始最大词长的选取为,从待分词字串的最后一个字η开始截取长度为i的字串,令它同旅游业特征词库中的词语依次匹配;如果在旅游业特征词库中找不到一个词语能同当前字串匹配, 就从第n-1个字开始截取长度为i的字串并重复以上过程;如果找不到,则依次从第n-2, n-3,...个字开始截取长度为i的字串进行匹配;如果在某一次匹配中查到表中确有这样一个i字词,则匹配成功,把这个字串作为一个词从待分词字串中切分出去,把原句中位于这个字串左右两边的部分视为两个新的句子,递归调用这一过程;如果所有的匹配都不成功,说明句子中没有长度为i的词,则开始寻找长度为i_l的词;重复这个过程直到整个句子被切分;所述的η代表句子中的最后一个字,1 < = i <=初始最大词长。更进一步地,上述的基于旅游业特征词库的中文分词方法,其中所述的索引服务器在接收用户查询之后,将用户的查询信息按照规定的格式记录下来并传给日志服务器; 日志服务器在特定时间通过定时任务运行来分析当天的日志,将结果持续化保存到存储介质中。更进一步地,上述的基于旅游业特征词库的中文分词方法,其中所述的比较分析服务器分析出新的旅游业特征词语的过程为,取出特征词语的首字,首先与停顿词库首字索引表进行一次哈希运算,得到此首字开始词语在停顿词库正文中的起始和结束位置,从起始位置开始遍历;如果找到对应的词,将其从新词库中剔除,如果没有发现,直到词语在停顿词库正文的结束位置点时停止循环,以此循环整个过程;接着,取出词语的首字,首先与旅游业特征词库首字索引表进行一次哈希运算,得到以此首字开始词语在旅游业特征词库正文中的起始和结束位置,从起始位置开始遍历,如果找到对应的词,将其从新词库中剔除,如果没有发现,直到词语在旅游业特征词库正文的结束位置点时停止循环,以此循环整个过程;最后在停顿词库与旅游业特征词库对比结束之后,新词库中的所有词语同步到线上新词库中,此时的新词处在待观察期,通过人工筛选和用户反馈,过至少一个月之后把已经形成的新词加入到旅游业特征词库。再进一步地,上述的基于旅游业特征词库的中文分词方法,其中所述的旅游业特征词库结构为“词语,相关词词相关词语I……”词语与相关词语之间用逗号分开,相关词语之间用竖线分开,当切分的词在旅游业特征词库中找到相对应是词之后,再查找是否有相关词语,如果有相关词语,将相关词语作为一个词返回。旅游业特征词库,它是指初始收集的旅游业特征词语和不断从新词库中补充过来的新词共同组成的词库。停顿词库,放一些出现频率比较高,但不是词的词语,如我的,他的寸。本发明技术方案的优点主要体现在解决新词识别难题,对于新词能很好的识别, 同时解决歧义识别难题。并且,解决用户精准查找信息的需求,使用垂直搜索引擎的人,对于需求的信息非常明确。为本领域的技术进步拓展了空间,实施效果好。


本发明的目的、优点和特点,将通过下面优选实施例的非限制性说明进行图示和解释。这些实施例仅是应用本发明技术方案的典型范例,凡采取等同替换或者等效变换而形成的技术方案,均落在本发明要求保护的范围之内。这些附图当中,图1是本基于旅游业特征词库的中文分词方法的整体施示意图;图2是逆向最大匹配算法的示意图;图3是新词发现示意图;图4是旅游业特征词库的划分示意图。图中各附图标记的含义如下1索引服务器2旅游业特征词库3比较分析服务器 4新词库5日志服务器
具体实施例方式如图1 4所示的基于旅游业特征词库2的中文分词方法,其特别之处在于建立初始旅游业特征词库2,包括对行业内已经存在的特征词语的收集整理,并根据以前网站的系统运行日志,分析出新的旅游业特征词语,将两个特征词语进行合并,形成初始旅游业特征词库2。并且,通过索引服务器1定期建立索引库,为用户提供查询工作,将用户查询日志传给日志服务器5。同时对旅游业特征词库2中的特征词语进行分词。具体来说,包括词语首字哈希(Hash)索引,既将旅游业特征词库2中的词语首字取出后去除重复,通过一次哈希运算直接定位汉字的首字位置,配合以词为单位的有序表,建立词库正文。再者,通过首字哈希索引表和旅游业特征词库2配合,实现指定词在词库正文中的快速查找。就本发明一较佳的实施方式来看,采用的旅游业特征词库2在每个周期制定时间如每个月月初,将已经分析好的线上网站运行日志进行统计,将发现的新词放入新词库4。 并且,让新词在新词库4中停留一个月,之后将已经确定的新词转入旅游业特征词库2。与之对应的是,对于新发现的热点词语,可通过快速反应机制,直接录入旅游业特征词库2。具体来说,快速反应机制旅游业特征词库2维护人员发现一些词语,这些词语被搜索的频率非常的高,并且旅游业特征词库2中不存在此词语,可以初步界定为新发现的热点词语,上报到项目经理,由项目经理召开短暂的讨论会,确定是否为热点词语,如果是则下任务给旅游业特征词库2维护人员,让他们通过程序后台将热点词语直接添加到旅游业特征词库2 当中。由于此过程非常消耗性能,为不影响正常服务,所以定为快速反应机制,并对使用频率做严格限制。同时,索引服务器1建立索引的过程为将用户需要的信息从存储介质,如硬盘上的文本文件、数据库等中取出,作为输入源给中文分词系统,根据分出来的词存入索引库。进一步来看,传统分词词库有以下缺点一个是数据没有经过有效的组织、内容查找的计算复杂度为Ο(η) (η为旅游业特征词库2中词语数);另一个是最大匹配长度确定不合理,中文词的字数以2为主,但存在长度不一的现象,此时最大的长度很难确定,如果以旅游业特征词库2中最大词的长度,则每次分词都有很多次无意义的循环,效率不高,处理时间过长;如果最大的长度定得比较短,则会有一些词分不出来。并且旅游业特征词库2中会不断的增加新词,旅游业特征词库2中的最大词长也是动态在变。因此,本发明所述的首字哈希索引包括最大词长,在旅游业特征词库2中的开始、结束行号,开始位置指针,指向以汉字为首字的所有词语在旅游业特征词库2正文中的起始位置。具体来说,现有的分词方法中往往会采用逆向最大匹配算法遵循“长词优先”的原则,即认为同一个句子,切分所得的词数量少时是最佳切分结果。但是,这一原则虽然会引发一些切分错误首先,两个算法都是以分词旅游业特征词库2中最大词语所含的汉字个数η为匹配的初始最大词长,这样的做法会造成很多无用的循环匹配,效率低。其次,“长词优先”这一原则都是在局部范围内进行的,即每次最大匹配的范围都是最后i个字符,这样并没有充分体现“长词优先”的原则,例如句子1 当中华人民共和国成立的时候。句子2 当他看到小孩子时。逆向最大匹配算法进行分词,第1个句子的结果是当/中华人民共和国/成立/ 的/时候,切分是正确的,但第2个句子的结果是当/他/看到/小孩/子时,显然切分时错误的。可以看到此算法存在歧义切分。这里歧义产生的原因是没有充分体现“长词优先” 的原则。中华人民共和国和小孩子都是句子里最长的词,但是在某些情况下被切分开来。为了更合理的确定初始最大词长以及避免上述一些歧义切分,必须在整个句子的范围内实现“长词优先”的原则。为此,本发明采用提出了改进的逆向最大匹配方式。具体来说,所述的旅游业特征词库2中的特征词语进行分词时首先进行初始最大词长的选取,取出待分词字串中的每个汉字,在分词词库中查找以每个汉字为首字的词的最大词长,选出其中最大者与待分词字串的长度进行比较后,确定出最合适的初始最大词长。并且,初始最大词长的选取为,从待分词字串的最后一个字η开始截取长度为i的字串, 令它同旅游业特征词库2中的词语依次匹配。如果在旅游业特征词库2中找不到一个词语能同当前字串匹配,就从第n-1个字开始截取长度为i的字串并重复以上过程。如果找不到,则依次从第n-2,n-3,…个字开始截取长度为i的字串进行匹配。如果在某一次匹配中查到表中确有这样一个i字词,则匹配成功,把这个字串作为一个词从待分词字串中切分出去,把原句中位于这个字串左右两边的部分视为两个新的句子,递归调用这一过程。如果所有的匹配都不成功,说明句子中没有长度为i的词,则开始寻找长度为i_l的词;重复这个过程直到整个句子被切分。η代表句子中的最后一个字;1 <= i<=初始最大词长。为了更好的实现分词后的更新,本发明采用的索引服务器1在接收用户查询之后,将用户的查询信息按照规定的格式记录下来并传给日志服务器5。日志服务器5在特定时间如每天,通过定时任务运行来分析当天的日志,将结果持续化保存到存储介质中。这些存储介质可以为硬盘上的文本文件或是数据库等。由此,可确保每个月会有定时的新词发现程序进行分析找出新词。结合本发明实际分析出新的旅游业特征词语的过程来看,比较分析服务器3取出特征词语的首字,首先与停顿词库首字索引表进行一次哈希运算,得到此首字开始词语在词库正文中的起始和结束位置,从起始位置开始遍历。在后续过程中,如果找到对应的词, 将其从新词库中剔除。如果没有发现,直到词语在词库正文的结束位置点时停止循环,以此循环整个过程。接着,取出词语的首字,首先与旅游业特征词库首字索引表进行一次哈希运算,得到以此首字开始词语在词库正文中的起始和结束位置,从起始位置开始遍历。在此期间,如果找到对应的词,则将其从新词库中剔除。如果没有发现,则直到词语在词库正文的结束位置点时停止循环,以此循环整个过程。最后在停顿词库与旅游业特征词库对比结束之后,新词库中的所有词语同步到线上新词库中,此时的新词处在待观察期,通过人工筛选和用户反馈,过至少一个月之后把已经形成的新词加入到旅游业特征词库。以此类推,旅游业特征词库会不断的得到完善,解决新词识别的难题。再结合本发明的具体实施过程来看,将本基于旅游业特征词库的中文分词方法与垂直搜索引擎相结合,可实现用户需求明确,搜索条件明确,选择过虑的丰富的功能。以火车票查询为例用户需要输入出发站和到达站,用户点击输入框时会有提示,用来正确引导用户输入,系统也会根据用户输入的信息时时查找已有的信息,引导用户正确输入,这样就很好的解决了词语歧义的问题。以火车时刻表查询为例,以下是五家行业内火车票查询比较有名的网站,以此作为实施结果的对比 用户在搜索关键词为“泰安”时,除“同程网火车票频道”以外,其它频道全部搜索http://www. huoche. com. cn/http//www. 12306. cn/http//search, huochepiao. com/http://huoche.kuxun.cn/http://www.17u.com/train/
火车网
中国铁路客户服务中心
火车票网酷讯网
同程网火车票频道
9不出来。此时,使用者也许会质疑——是不是泰安没有火车站?其实是有的,只是火车站名叫做“泰山”,通过地理知道我们知道泰山位于山东省中部,隶属于泰安市,所以泰安也就应该是有火车站的,但是为什么其它网站搜索不出来,原因是他们都是基于数据库的。具体来说,数据库内的数据更新慢且无法做到精确的分词匹配。而本发明能够将“泰安”进行有效的分词,并与旅游业特征词库相配合,得到泰安与泰山的关系。实现方式如下在建立索引的过程中将词语进行切分并与旅游业特征词库中词语进行对比,匹配成功则作为一个词语存入索引库,之后再查找相关词语,找到之后也作为词语存入索引库;以泰山和泰安为例,建立索引时切分出泰山一词,并到旅游业特征词库中对比,匹配成功,将泰山作为一个词语存入索引库,查找相关词语泰安匹配成功,将泰安作为一个词语也存入索引库。这样泰山和泰安对应的就是一条相同的记录,当用户搜索泰安或者是泰山的时候都会找到想要的数据。同样的,用户在搜索“抚顺城”除“同程网火车票频道”以外,其它频道全部搜索不出来。查找原因发现抚顺城站已于2009年6月沈日更名为“抚顺北站”。新抚顺北站在原来抚顺城站站址上重建,对站台进行了改造,具备了通行动车的能力。利用旅游业特征词库的中文分词技术很好的解决了这一问题,为习惯于搜索“抚顺城”老火车站名的用户提供的极大的方便。其原理同泰安与泰山的查找相同。解决新词识别难题,传统全文搜索引擎涉及的面大、量多、变化不确定等因素,对于新词不能很好的识别,如对网友新发明的词语、突发事件中的词语等。而基于旅游业的旅游业特征词库就不存在这些问题,因为新词出现的频率比较低、大多数都能固化下来,也比较容易识别。同时解决歧义识别难题,传统全文搜索引擎一个输入框,让用户输入一些词语搜索,但是往往用户输入一句话,有时是有歧义的一句话,这样给歧义识别造成了很大的困难。而垂直搜索引擎对于输入框中要输入的内容明确,并且大多数都有提示引导用户正确输入。并且,解决用户精准查找信息的需求,使用垂直搜索引擎的人,对于需求的信息非常明确。通过上述的文字表述并结合附图可以看出,采用本发明后解决新词识别难题,传统全文搜索引擎涉及的面大、量多、变化不确定等因素,对于新词不能很好的识别,如对网友新发明的词语、突发事件中的词语等。而基于旅游业的旅游业特征词库就不存在这些问题,因为新词出现的频率比较低、大多数都能固化下来,也比较容易识别。同时解决歧义识别难题,传统全文搜索引擎一个输入框,让用户输入一些词语搜索,但是往往用户输入一句话,有时是有歧义的一句话,这样给歧义识别造成了很大的困难。而垂直搜索引擎对于输入框中要输入的内容明确,并且大多数都有提示引导用户正确输入。并且,解决用户精准查找信息的需求,使用垂直搜索引擎的人,对于需求的信息非常明确。
权利要求
1.基于旅游业特征词库的中文分词方法,其特征在于建立初始旅游业特征词库,包括对行业内已经存在的旅游业特征词语的收集整理,再根据以前网站的系统运行日志,分析出一些旅游业特征词语,将两处收集到的旅游业特征词语进行合并,形成初始旅游业特征词库;通过索引服务器定期建立索引库,为用户提供查询工作,将用户查询日志传给日志服务器;对旅游业特征词库中的特征词语进行分词,包括词语首字哈希索引,既将旅游业特征词库中的词语首字取出后去除重复,通过一次哈希运算直接定位汉字的首字位置,配合以词为单位的有序表,建立旅游业特征词库正文;通过首字哈希索引表和旅游业特征词库配合,实现指定词在旅游业特征词库正文中的快速查找。
2.根据权利要求1所述的基于旅游业特征词库的中文分词方法,其特征在于所述的旅游业特征词库在每个周期制定时间,将已经分析好的线上网站运行日志进行统计,将发现的新词放入新词库,在新词库中停留一个月,之后将已经确定的新词库中的词转入旅游业特征词库;对于新形成的热点词语,直接录入旅游业特征词库。
3.根据权利要求1所述的基于旅游业特征词库的中文分词方法,其特征在于所述的索引服务器建立索引的过程为将用户需要的信息从存储介质中取出,作为输入源给中文分词系统,根据分出来的词存入索引库。
4.根据权利要求1所述的基于旅游业特征词库的中文分词方法,其特征在于所述的首字哈希索引包括最大词长,在旅游业特征词库中的开始、结束行号,开始位置指针,指向以汉字为首字的所有词语在旅游业特征词库正文中的起始位置。
5.根据权利要求1所述的基于旅游业特征词库的中文分词方法,其特征在于所述的旅游业特征词库中的特征词语进行分词时首先进行初始最大词长的选取,取出待分词字串中的每个汉字,在分词旅游业特征词库中查找以每个汉字为首字的词的最大词长,选出其中最大者与待分词字串的长度进行比较后,确定出最合适的初始最大词长。
6.根据权利要求5所述的基于旅游业特征词库的中文分词方法,其特征在于所述的初始最大词长的选取为,从待分词字串的最后一个字η开始截取长度为i的字串,令它同旅游业特征词库中的词语依次匹配;如果在旅游业特征词库中找不到一个词语能同当前字串匹配,就从第n-1个字开始截取长度为i的字串并重复以上过程;如果找不到,则依次从第 n-2, n-3,...个字开始截取长度为i的字串进行匹配;如果在某一次匹配中查到表中确有这样一个i字词,则匹配成功,把这个字串作为一个词从待分词字串中切分出去,把原句中位于这个字串左右两边的部分视为两个新的句子,递归调用这一过程;如果所有的匹配都不成功,说明句子中没有长度为i的词,则开始寻找长度为i_l的词;重复这个过程直到整个句子被切分;所述的η代表句子中的最后一个字,1 < = i <=初始最大词长。
7.根据权利要求1所述的基于旅游业特征词库的中文分词方法,其特征在于所述的索引服务器在接收用户查询之后,将用户的查询信息按照规定的格式记录下来并传给日志服务器;日志服务器在特定时间通过定时任务运行来分析当天的日志,将结果持续化保存到存储介质中。
8.根据权利要求1所述的基于旅游业特征词库的中文分词方法,其特征在于所述的比较分析服务器分析出新的旅游业特征词语的过程为,取出特征词语的首字,首先与停顿词库首字索引表进行一次哈希运算,得到此首字开始词语在停顿词库正文中的起始和结束位置,从起始位置开始遍历;如果找到对应的词,将其从新词库中剔除,如果没有发现,直到词语在停顿词库正文的结束位置点时停止循环,以此循环整个过程;接着,取出词语的首字,首先与旅游业特征词库首字索引表进行一次哈希运算,得到以此首字开始词语在旅游业特征词库正文中的起始和结束位置,从起始位置开始遍历,如果找到对应的词,将其从新词库中剔除,如果没有发现,直到词语在旅游业特征词库正文的结束位置点时停止循环,以此循环整个过程;最后在停顿词库与旅游业特征词库对比结束之后,新词库中的所有词语同步到线上新词库中,此时的新词处在待观察期,通过人工筛选和用户反馈,过至少一个月之后把已经形成的新词加入到旅游业特征词库。
9.根据权利要求1所述的基于旅游业特征词库的中文分词方法,其特征在于所述的旅游业特征词库结构为“词语,相关词语I相关词语I……”词语与相关词语之间用逗号分开,相关词语之间用竖线分开,当切分的词在旅游业特征词库中找到相对应是词之后,再查找是否有相关词语,如果有相关词语,将相关词语作为一个词返回。
全文摘要
本发明涉及一种基于旅游业特征词库的中文分词方法,特点是建立初始旅游业特征词库,分析出一些旅游业特征词语,将两处收集到的旅游业特征词语进行合并,形成初始旅游业特征词库。通过索引服务器定期建立索引库,对旅游业特征词库中的特征词语进行分词,通过一次哈希运算直接定位汉字的首字位置,配合以词为单位的有序表,建立旅游业特征词库正文。通过首字哈希索引表和旅游业特征词库配合,实现指定词在旅游业特征词库正文中的快速查找。由此,对于新词能很好的识别,同时解决歧义识别难题。并且,解决用户精准查找信息的需求,使用垂直搜索引擎的人,对于需求的信息非常明确。为本领域的技术进步拓展了空间,实施效果好。
文档编号G06F17/30GK102411568SQ20101028753
公开日2012年4月11日 申请日期2010年9月20日 优先权日2010年9月20日
发明者吴剑, 吴志祥, 张海龙, 王专, 郭凤林, 靳彩娟, 马和平 申请人:苏州同程旅游网络科技有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1