一种基于串操作的数字类检索串的转换方法与流程

文档序号:13143913阅读:212来源:国知局
技术领域本发明涉及一种互联网领域的方法,具体讲涉及一种基于串操作的数字类检索串的转换方法。

背景技术:
检索结果召回率为用户提供比用户输入的检索串所能匹配到的文档更多的有关文档。检索串扩展(queryexpansion)技术是搜索引擎提高其检索结果召回率的有效手段,通过将与用户输入的检索串中某些词或词组相关的若干其他词加入检索串并以新的检索串进行检索来完成。由于汉语缺乏词语的形态变化,因此汉语检索串扩展主要以同义词和简称为主。汉语检索串扩展中的一个重要问题就是数字的扩展,因为汉语文档尤其是互联网文档中通常不会对使用阿拉伯数字或汉语数字进行严格限制,而是任选一种甚至两种并用,这就导致了对用户输入的数字串进行扩展成为提高含数字类文档检索结果召回率的必要途径。对数字串进行扩展,最核心的问题就是汉语数字串与阿拉伯数字串之间的相互转换。现有技术中,大多系统所采用的转换方法通常为两步走的策略,即先求原始数字串所对应的数字值然后再将该数字值转换为与原始串相对的目的串。另外,小数的转换可以先将小数分为整数部分和小数部分,因为小数部分汉语数字和阿拉伯数字具有按位一一对应的关系,因此采取直接映射的方法就可以得到,而整数部分的转换则属于先求值再转换的范畴。如图1所示,图1为先求值再转换方法的基本过程,以汉语数字转为阿拉伯数字为例,阿拉伯数字转汉语数字的过程只是该过程的逆过程而已。求值过程负责将汉语字符串转变为一个整型值,而转换过程负责将该整型值重写为一个字符串型的阿拉伯数字。求值算法通常采用递归实现,其递归函数可描述如下:f(S)=f(S_l)*v(S_max)+f(S_r);若S={零,...,九
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1