一种个性化并行分词处理系统及其处理方法

文档序号:6614889阅读:165来源:国知局
专利名称:一种个性化并行分词处理系统及其处理方法
一种个性化并行分词处理系统及其处理方法技术领域
本发明属于移动搜索和中文信息处理领域,具体涉及一种个性化并行分词处理系统及其处理方法。
背景技术
词是具有一定语义的最小单位,所谓分词,就是把一个句子按照其中词的含义进行切分。由于自然语言理解与处理一般是基于词汇进行,而中文文本在书面表达或计算机内部表示时,是以字为基本书写单位,词与词之间没有明确的界限,因此,中文分词是中文信息处理的基本环节,也是文本分类、信息检索、信息过滤、文献自动标引、摘要自动生成等中文信息处理中的关键技术及难点。
衡量分词算法性能的优劣主要考虑以下几个方面分词的速度和准确性、歧义识别、新词识别、是否需要语料库或规则库、算法的复杂性、技术的成熟度和实施难度。目前常用的中文分词算法概括起来分为四类基于词典的字符串匹配分词算法、基于统计的分词算法、基于理解的分词算法、组合分词算法。其中,基于词典的字符串匹配分词算法是按照一定的策略将待分词的汉字串与一个充分大的机器词典中的词条进行匹配,若在词典中找到某个字符串,则匹配成功,从而识别出一个词。这类分词算法处理简单,分词速度较快,效率较高,但分词准确性较差,而且对词典结构的依赖性非常强,词典结构的好坏往往直接影响到分词的速度、词典的空间利用率和维护词典的开销。基于统计的分词算法认为词是稳定的汉字的组合,在上下文中汉字与汉字相邻共现的概率能较好地反映成词的可信度,因此,对语料中相邻共现的汉字的组合频度进行统计,计算它们的统计信息(如词频、互信息、 七_测试差等)并用作分词的依据。这类分词算法分词准确性较高,分词速度一般,但需要大规模语料库的支持。基于理解的分词算法是在分词的同时进行句法和语义分析,利用句法信息和语义信息来处理歧义现象,这类分词算法需要使用大量语言知识和信息,分词准确性高,但分词速度慢,算法复杂度大,很难实施。
上述分词算法在桌面系统和互联网环境中已逐渐发展成熟,但未必完全适用于移动互联网的巨大市场。随着移动互联网的发展,用户使用移动终端在互联网上获取信息将成为大势所趋。但在移动搜索中,客户端对查询实时性的要求较高,若采用上述基于词典的字符串匹配分词处理方式,会存在较大的查询延迟,用户查询体验较差。其次,用户通过移动终端访问网络的现象通常集中在几个特定时段,当大量用户同时进行移动搜索时,都需要先依赖词典进行分词处理,势必大大增加分词处理模块在特定时段的负载,从而进一步增加查询延迟,降低用户体验度。
大量查询历史记录表明,在一个确定的时间段内,移动用户的查询关键词相对集中在一定范围内,因此,可利用这种集中性为每个终端用户单独开辟一小块存储区域,存储用户历史查询内容中包含的词,形成一个针对用户的个性化分词词典。在分词过程中,同时基于单个用户的个性化分词词典和所有用户共用的总分词词典进行双路并行分词处理,可极大地提高用户查询内容的分词效率,有效地弥补了传统的基于词典的字符串匹配分词技术应用于移动搜索领域时表现出的不足。发明内容
本发明所解决的技术问题是提出一种满足移动搜索中用户高效的查询处理和个性化查询需求,提高用户的查询体验的个性化并行分词处理系统及其处理方法。
为解决上述的技术问题,本发明采取的技术方案一种个性化并行分词处理系统,其特殊之处在于包括分词请求模块、基于个性化分词词典的分词模块、基于总分词词典的分词模块、控制模块、高速分词处理模块;分词请求模块是将用户查询内容同步、并行发送至基于个性化分词词典的分词模块和基于总分词词典的分词模块进行分词处理,同时接收控制模块回送的分词结果及开始下次分词处理的相关触发信息;基于个性化分词词典的分词模块是将用户查询内容的子串与个性化分词词典中的词条进行匹配,完成分词处理过程,其中,个性化分词词典中存放用户在一段时间内的查询关键词,于用户第一次使用时创建,随着用户的使用而逐渐增加词条,词条数目少;基于总分词词典的分词模块是将用户查询内容的子串与总分词词典中的词条进行匹配,完成分词处理过程,其中,总分词词典中存放所有用户共用的所有词条,信息完善,词条数量庞大;控制模块用于同步两个分词模块的处理过程,以及本次分词处理结束后,控制模块向分词请求模块回送分词结果及触发信息,触发下次分词处理过程;用户的分词请求经分词请求模块同时发送至基于个性化分词词典的分词模块、基于总分词词典的分词模块,基于个性化分词词典的分词模块、基于总分词词典的分词模块的处理信息发送至控制模块,控制模块再将分词结果及触发信息会送至分词请求模块;基于个性化分词词典的分词模块、基于总分词词典的分词模块之间连接高速分词处理模块。
一种个性化并行分词处理方法,其特殊之处在于用户的分词请求同时发送给基于个性化分词词典的分词模块和基于总分词词典的分词模块,基于个性化分词词典的分词模块如果命中,则将分词处理结果通过控制模块返回至分词请求模块,同时中断分词请求模块对基于总分词词典的分词模块的分词请求;否则,根据基于总分词词典的分词模块的分词处理结果,通过控制模块按照最早最少使用原则对个性化分词词典进行动态更新。
上述的个性化并行分词处理方法,具体步骤如下步骤I:在基于个性化分词词典的分词模块中判断接收到的用户查询词是否存在于个性化分词词典中,若存在,则转至步骤2,否则转至步骤3 ;步骤2:更新个性化分词词典中命中的查询词的访问频率及最近访问时间等相关信息,转至步骤4;步骤3 :通过控制模块将基于总分词词典的分词模块分词处理所得到的词条发送至基于个性化分词词典的分词模块,并将这些词条添加至个性化分词词典中,并初始化其相关信息;若个性化分词词典已满,则根据最早最少使用原则淘汰某些词条;步骤4 :控制模块将基于个性化分词词典的分词模块或基于总分词词典的分词模块反馈的当前分词结果及下次分词处理开始位置信息返回至分词请求模块,开始下轮分词处理过程。
上述的个性化分词词典的动态更新方法,具体步骤如下步骤I :判断词条是否存在于个性化分词词典中,若存在,则执行步骤2,否则执行步骤3 ;步骤2 :将个性化分词词典中该词条所对应的访问频率增加1,执行步骤6 ;步骤3 :判断个性化分词词典容量是否已达到阈值,若是,则执行步骤4,否则执行步骤5 ;步骤4 :删除个性化分词词典中访问时间最早且访问频率最低的词;步骤5 :将词条添加至个性化分词词典中相应位置,并将其访问频率初始化为1,同时用当前时间初始化其最近访问时间;步骤6 :处理完毕,完成一个词条在个性化分词词典中的更新处理。
与现有技术相比,本发明的有益效果本发明采用个性化分词词典进行分词处理时,具备较高的命中率和分词效率,而本发明提出的个性化并行分词处理方法可在满足分词准确率的同时极大地提高系统的分词效率,满足了移动用户高效的查询需求,同时,由于所述的个性化分词词典针对不同用户,保存了用户最近及访问频率最高的查询词,因此,无需学习即可通过该词典直接获取用户的兴趣所在,便于从中提取用户兴趣模型,同时也为用户兴趣迁移的挖掘提供了可靠的依据。
具体实施方式
下面对本发明作进一步地详细说明。
本发明的处理系统包括分词请求模块、基于个性化分词词典的分词模块、基于总分词词典的分词模块、控制模块、高速分词处理模块。
分词请求模块是将用户查询内容同步、并行发送至基于个性化分词词典的分词模块和基于总分词词典的分词模块进行分词处理,同时接收控制模块回送的分词结果及开始下次分词处理的相关触发信息;基于个性化分词词典的分词模块是将用户查询内容的子串与个性化分词词典中的词条进行匹配,完成分词处理过程。其中,个性化分词词典中存放用户在一段时间内的查询关键词,于用户第一次使用时创建,随着用户的使用而逐渐增加词条,词条数目少;基于总分词词典的分词模块是将用户查询内容的子串与总分词词典中的词条进行匹配,完成分词处理过程。其中,总分词词典中存放所有用户共用的所有词条,信息完善,词条数量庞大;控制模块用于同步两个分词模块的处理过程,具体包括当词条在个性化分词词典中命中时,基于个性化分词词典的分词模块通过控制模块向基于总分词词典的分词模块发送中断信号,以便中断基于总分词词典的分词模块对当前词串的分词处理;当词条不存在于个性化分词词典中时,控制模块将根据基于总分词词典的分词模块的分词处理结果对个性化分词词典按照最早最少使用原则进行更新;本次分词处理结束后,控制模块向分词请求模块回送分词结果及触发信息,触发下次分词处理过程;用户的分词请求经分词请求模块同时发送至基于个性化分词词典的分词模块、基于总分词词典的分词模块,基于个性化分词词典的分词模块、基于总分词词典的分词模块将处理信息发送至控制模块,控制模块再将分词结果及触发信息会送至分词请求模块;基于个6性化分词词典的分词模块、基于总分词词典的分词模块之间连接高速分词处理模块。
个性化并行分词处理方法为用户的分词请求同时发送给基于个性化分词词典的分词模块和基于总分词词典的分词模块,基于个性化分词词典的分词模块如果命中,则将分词处理结果通过控制模块返回至分词请求模块,同时中断分词请求模块对基于总分词词典的分词模块的分词请求;否则,根据基于总分词词典的分词模块的分词处理结果,通过控制模块按照最早最少使用原则对个性化分词词典进行动态更新。
上述的个性化并行分词处理方法,具体步骤如下步骤I:在基于个性化分词词典的分词模块中判断接收到的用户查询词是否存在于个性化分词词典中,若存在,则转至步骤2,否则转至步骤3 ;步骤2:更新个性化分词词典中命中的查询词的访问频率及最近访问时间等相关信息,转至步骤4;步骤3 :通过控制模块将基于总分词词典的分词模块分词处理所得到的词条发送至基于个性化分词词典的分词模块,并将这些词条添加至个性化分词词典中,并初始化其相关信息;若个性化分词词典已满,则根据最早最少使用原则淘汰某些词条;步骤4 :控制模块将基于个性化分词词典的分词模块或基于总分词词典的分词模块反馈的当前分词结果及下次分词处理开始位置信息返回至分词请求模块,开始下轮分词处理过程。
上述的个性化分词词典的动态更新方法,具体步骤如下步骤I :判断词条是否存在于个性化分词词典中,若存在,则执行步骤2,否则执行步骤3;步骤2 :将个性化分词词典中该词条所对应的访问频率增加1,执行步骤6 ;步骤3 :判断个性化分词词典容量是否已达到阈值,若是,则执行步骤4,否则执行步骤5 ;步骤4 :删除个性化分词词典中访问时间最早且访问频率最低的词;步骤5 :将词条添加至个性化分词词典中相应位置,并将其访问频率初始化为1,同时用当前时间初始化其最近访问时间;步骤6 :处理完毕,完成一个词条在个性化分词词典中的更新处理。
所述的基于总分词词典的分词模块可在保证系统分词准确率的同时,为个性化分词词典的更新提供依据,该模块所使用的总分词词典为所有用户共享,包含分词所需的常用词汇。
所述的个性化分词词典的更新策略确保了个性化分词词典始终存储用户访问频率最高并且最近查询的词,便于提取用户兴趣模型,同时为用户兴趣迁移的挖掘提供了可靠的依据。同时,由于个性化分词词典针对不同用户,存储其在某一时期内的历史查询词, 内容基本保持稳定,若用户在这一时期内的兴趣未发生较大迁移,则分词处理时基于个性化分词词典的分词模块将具备极高的命中率,因此,基于该词典的分词处理效率远高于基于总分词词典的分词处理;总分词词典涵盖了所有用户分词所需要的常用词汇信息,其查全率优于基于个性化分词词典的分词处理,因而,采用本发明提出的双路并行分词处理方式,兼顾了两者的优点,同时又克服了两者的不足,在保证分词准确率的同时有效地提高了分词处理效率。
权利要求
1.一种个性化并行分词处理系统,其特征在于包括分词请求模块、基于个性化分词词典的分词模块、基于总分词词典的分词模块、控制模块、高速分词处理模块; 分词请求模块是将用户查询内容同步、并行发送至基于个性化分词词典的分词模块和基于总分词词典的分词模块进行分词处理,同时接收控制模块回送的分词结果及开始下次分词处理的相关触发信息; 基于个性化分词词典的分词模块是将用户查询内容的子串与个性化分词词典中的词条进行匹配,完成分词处理过程; 其中,个性化分词词典中存放用户在一段时间内的查询关键词,于用户第一次使用时创建,随着用户的使用而逐渐增加词条,词条数目少; 基于总分词词典的分词模块是将用户查询内容的子串与总分词词典中的词条进行匹配,完成分词处理过程; 其中,总分词词典中存放所有用户共用的所有词条,信息完善,词条数量庞大; 控制模块用于同步两个分词模块的处理过程,以及本次分词处理结束后,控制模块向分词请求模块回送分词结果及触发信息,触发下次分词处理过程; 用户的分词请求经分词请求模块同时发送至基于个性化分词词典的分词模块、基于总分词词典的分词模块,基于个性化分词词典的分词模块、基于总分词词典的分词模块的处理信息发送至控制模块,控制模块再将分词结果及触发信息回送至分词请求模块;基于个性化分词词典的分词模块、基于总分词词典的分词模块之间连接高速分词处理模块。
2.根据权利要求I所述的一种个性化并行分词系统的处理方法,其特征在于用户的分词请求同时发送给基于个性化分词词典的分词模块和基于总分词词典的分词模块,基于个性化分词词典的分词模块如果命中,则将分词处理结果通过控制模块返回至分词请求模块,同时中断分词请求模块对基于总分词词典的分词模块的分词请求;否则,根据基于总分词词典的分词模块的分词处理结果,通过控制模块按照最早最少使用原则对个性化分词词典进行动态更新。
3.根据权利要求I或2所述的一种个性化并行分词系统的处理方法,其特征在于所述的个性化并行分词处理方法,具体步骤如下 步骤I :在基于个性化分词词典的分词模块中判断接收到的用户查询词是否存在于个性化分词词典中,若存在,则转至步骤2,否则转至步骤3 ; 步骤2:更新个性化分词词典中命中的查询词的访问频率及最近访问时间等相关信息,转至步骤4; 步骤3 :通过控制模块将基于总分词词典的分词模块分词处理所得到的词条发送至基于个性化分词词典的分词模块,并将这些词条添加至个性化分词词典中,并初始化其相关信息;若个性化分词词典已满,则根据最早最少使用原则淘汰某些词条; 步骤4,控制模块将基于个性化分词词典的分词模块或基于总分词词典的分词模块反馈的当前分词结果及下次分词处理开始位置信息返回至分词请求模块,开始下轮分词处理过程。
4.根据权利要求3所述的一种个性化并行分词系统的处理方法,其特征在于所述的个性化分词词典的动态更新方法,具体步骤如下 步骤1,判断词条是否存在于个性化分词词典中,若存在,则执行步骤2,否则执行步骤.3 ; 步骤2,将个性化分词词典中该词条所对应的访问频率增加1,执行步骤6 ; 步骤3 ,判断个性化分词词典容量是否已达到阈值,若是,则执行步骤4,否则执行步骤.5 ; 步骤4,删除个性化分词词典中访问时间最早且访问频率最低的词; 步骤5,将词条添加至个性化分词词典中相应位置,并将其访问频率初始化为1,同时用当前时间初始化其最近访问时间; 步骤6,处理完毕,完成一个词条在个性化分词词典中的更新处理。
全文摘要
本发明涉及一种个性化并行分词处理系统及其处理方法。本发明包括分词请求模块、基于个性化分词词典的分词模块、基于总分词词典的分词模块、控制模块、高速分词处理模块,用户的分词请求同时发送给基于个性化分词词典的分词模块和基于总分词词典的分词模块,基于个性化分词词典的分词模块如果命中,则将分词处理结果通过控制模块返回至分词请求模块,同时中断分词请求模块对基于总分词词典的分词模块的分词请求;否则,根据基于总分词词典的分词模块的分词处理结果,通过控制模块按照最早最少使用原则对个性化分词词典进行动态更新。本发明可在满足分词准确率的同时极大地提高系统的分词效率,满足了移动用户高效的查询需求。
文档编号G06F17/30GK102982099SQ20121043550
公开日2013年3月20日 申请日期2012年11月5日 优先权日2012年11月5日
发明者王忠民, 贺炎, 齐静娜, 张 荣, 宋辉, 范琳 申请人:西安邮电大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1