将词组索引技术应用在互联网搜索引擎中的方法

文档序号:6611717阅读:224来源:国知局
专利名称:将词组索引技术应用在互联网搜索引擎中的方法
技术领域
本发明主要涉及互联网搜索引擎的底层关键技术一--"文本索引"方式的 创新以及为完善此技术而需要的前端处理的一些创新。本发明是将词组索引的 理论实际应用到互联网搜索引擎的索引构成中。由于词组索引可以大幅提高检 索内容与被检索内容之间语意的相关性,因而也可以说是为互联网搜索引擎提 供的一种智能化的检索方法。
背景技术
互联网搜索引擎(以下简称搜索引擎)是搜索网页及网站的工具。目前的 搜索引擎的基本原理是通过网站或网页的收集程序,从互联网上自动搜集网页地 址及其文本,然后将搜集到的网页文本交给索引和检索系统,由计算机扫描文本 中每一个词,建立以词为单位的倒排文件,检索程序根据用户给出的检索词在文 本中出现的频率和概率,对包含这些检索词的文本进行排序,最后输出网页及网 站的排序结果。
这种搜索方法存在以下几点严重的缺陷
第一,无用的(或者对于检索词不相关或相关性低的)搜索结果过多。这是
因为单一检索词在文本中出现的概率和频率并不完全代表检索词与文本内容的 相关性的值。
第二,这种搜索引擎的查询方式实质上是基于关键词,对于输入完整的句子 进行査询的效果很不理想,这种按关键词出现的频率或者点击次数一类的网页排 序方法所排出的顺序,在输入句子查询的情况下,不能很好的体现检索句与文本 内容相关性的高低,见图l。
第三、'现存的搜索引擎对査询的关键词匹配是模糊的,这样有利于得到更 多结果,但是却导致很多无用的结果充斥进来,甚至干扰到较好的结果的出现 位置,而且这些搜索引擎对问句没有做特殊处理,效果相对不好,见图2。
第四、现存的搜索引擎中没有限制多个关键词同时出现的范围,所有的词 组生成工作不限于在当前句内,有可能出现将不同句子包含的关键词组合到一起的情况,例如我们搜索"中国情人节的礼物"这句话,使用目前流行的搜 索引擎得出的结果很可能是像这样
"…与西方情人节不同…还具有深厚的中国文化底蕴,…且看我们为你准备 的礼物攻略…",完全不能体现査询语句的整体意思,见图3。

发明内容
本发明的目的是在于将词组索引技术应用在互联网的搜索引擎中,可以避 免上述缺陷,使搜索引擎更具人性化,从而获得更具合理性的结果(即合乎用 户搜索意图的结果更靠前)。
本发明将词组索引技术应用在互联网搜索引擎中的方法,包括以下几个步

步骤一:自动积累网页信息
首先,通过网页收集程序,自动地通过超链分析,取得互联网上大量的原 始网页文本;在取得这些文本的同时,通过分词程序将该网页文本分解成一个 个独立的词语,用词频统计程序统计词频,将词频超过阈值的词标注为关键 词;然后,利用词组生成程序,以每个关键词为中心,在其前和后分别附加若 干别的词,组合成包含词语数量不等、搭配不同的一系列词组,得到用于索引 的词组集,并按词组长短排序,连同这些词组来源的信息,插入或更新到倒排 表的索引文件中;
步骤二、处理用户的査询信息
首先,.由搜索引擎的用户界面接受用户的査询信息;由分词程序将用户的 查询信息分解成一个个独立的词语,并标识每个词的词性;再利用词组生成程 序,把分词得到的词语以每个实词为中心,在其前和后附加上若干别的词,组 合成包含词语数量不等、搭配不同的一系列词组,得到用于检索的词组集,并 存放到内存中。
步骤三、检索匹配并获得搜索结果
首先,由匹配程序将用于检索的词组集中的词组依次与倒排表的索引文件 中的词组进行精确匹配,得到匹配的项,将其对应的网页id检出,依次存放到 结果网页集中;然后,对结果集中对应相同网页id的项进行合并,按照与存入 结果网页集相同的先后次序遍历结果网页集,取出对应的网页链接以及其它相 关信息,从而获得搜索结果。
在搜索引擎分析网页文本时,把网页文本切分为若干关键词,并把这些词 排列成为词语组合的形式,将其以"词组-〉网页idl,网页id2,…"这样的倒 排表的形式记录到磁盘或内存中的索引文件里。
在搜索引擎分析网页文本时,所有的词组生成工作都限于在当前句内,不 同句子中包含的关键词不能组合到一起。
在搜索引擎处理用户的查询信息时,利用问句模式匹配程序,将用户的査 询信息的问句转换成陈述句。
将用于索引和检索的词组集,按词组长短排序,长的在前短的在后。
在获得索引和检索的词组集的过程中,去除一些无意义的组合,所述的无 意义的组合是指虚词组合。
本发明在建立索引文件的存储信息要素上与传统搜索引擎不同,传统搜索 引擎的索引文件类似于"关键词(keyword)—〉网页idl,词频,网页id2…"这样 的格式,而本发明把"关键词"这个要素扩展成词语组合的形式,以"词组一 〉网页idl,网页id2,…"这样的形式记录到磁盘或内存中的索引文件里。
本发明在具体建立索引时,令词语组合的操作局限在一个句子内,以每个 关键词为中心词,在其前和后附加上若干别的词组成词组,并将索引按词组长 短进行排序,词组长的排在前面,短的在后,所有的词组生成工作都限于在当 前句内,不出现将不同句子包含的关键词组合到一起的情况。由于对搜索引擎 限制了多个关键词同时出现的范围,可以避免把本来无关的两句话,甚至两段 话的内容串到一起,从而产生太多无用信息。
在用户提交查询信息时,本发明利用分词程序提取出査询中的实词(根据 词性标注),将这些词进行所有合理和可能的组合在所有的组合中去除不合 理的组合,由此得到一系列词组以用于检索,然后搜索引擎用这些词组,先精 确匹配其中较长的词组,即用查询中生成的较长的词组,去匹配网页文本经过 处理后生成的索引中相对应的词组,这样检索到的就是包含査询中关键词多的 网页文本。
本发明在搜索引擎处理用户提交的查询信息时,先利用问句模式匹配程 序,通过一些简单的模式匹配将用户査询信息的问句转换成陈述句,再交给后 面的步骤处理,使得问句式的查询能够以接近原意的陈述句的形式来表述和处 理,使得在能够保证效果的前提下,査询更易于处理。
由于本发明建立在词组索引基础上,所以本发明对查询内容并非精确匹 配,而是对査询句子进行了处理后生成多个词组才用于检索,虽然这样不一定 能得到和查询句子完全相同或者包含全部査询关键词的网页内容,但这样的好 处是生成多个词组可以扩大搜索语意的范围,获得更多的备选网页,同时又利 用生成的词组与索引进行精确匹配,反过来縮小了语意范围,获得更为精准的 语意匹配结果。相较与传统搜索引擎的关键词模糊匹配,由于关键词组合的词 组在表达语意方面明显要强于单个的关键词(自然语言中表达语意的完整程度 的单位从大到小依次是句子〉词组〉词语〉单字,目前使用机器直接处理句子并 不理想),使得搜索的结果更精确的体现查询者的可能意图。


图1为习有搜索引擎査询"中国的西部大学"获得的结果网页; 图2为习有搜索引擎查询"艺妓回忆录的导演是谁?"获得的结果网页; 图3为习有搜索引擎查询"中国情人节的礼物"获得的结果网页; 图4为本发明自动积累网页信息的流程框图5为本发明査询"艺妓回忆录的导演是谁?"所获得的结果网页; 图6为本发明査询"中国情人节的礼物"所获得的结果网页;
具体实施例方式
本发明主要通过以下步骤实现 步骤一自动积累网页信息,见图4:
首先,通过网页收集程序,如爬虫(crawler)或蜘蛛(spider)程序,自 动地通过超链分析,取得互联网上大量的原始网页文本;在取得这些文本的同 时,通过分词程序将该网页文本分解成一个个独立的词语,用词频统计程序统 计词频,将词频超过阈值的词标注为关键词;然后,利用词组生成程序,以每 个关键词为中心,在其前和后分别附加若干别的词,组合成包含词语数量不 等、搭配不同的一系列词组,在组合的过程中,根据分词程序标注的词性,去 除一些无意义的组合,例如一些虚词组合等,得到用于索引的词组集,并按词 组长短排序,长的在前短的在后,连同这些词组来源的信息,按"词组一〉网 页idl,网页id2,…"的对应表的形式插入或更新到磁盘或内存的倒排表的索引 文件中。
步骤二、处理用户的查询信息-首先,由搜索引擎的用户界面接受用户的查询信息;由分词程序将用户的 查询信息分解成一个个独立的词语(一般对于英文来说,分词这一歩可以简单 的按空格划分),在分词的过程中同时把每个词的词性标识出来,也是由分词 程序处理;再利用词组生成程序,把分词得到的词语以每个实词为中心,在其 前和后附加上若干别的词,组合成包含词语数量不等、搭配不同的一系列词 组,在组合的过程中,根据分词程序标注的词性,去除一些无意义的组合,例 如一些虚词组合等,得到用于检索的词组集,并按词组长短排序,长的在前短 的在后,存放到内存中。
步骤三、检索匹配并获得搜索结果-
首先,由匹配程序将用于检索的词组集中的词组依次与磁盘或内存中的倒 排表的索引文件中的词组进行精确匹配,得到匹配的项,将其对应的网页id检 出,依次存放到结果网页集中;然后,对结果集中对应相同网页id的项进行合 并,词组长度按其中出现最长的词组的长度计,即把这些项归并到最先匹配得到 的项中;通过按照与存入结果网页集相同的先后次序(优先匹配长词组)遍历 结果网页集,取出对应的网页链接以及其它相关信息,反馈给搜索引擎的用户 界面,将搜索结果呈现给用户。
所述的倒排索引表的具体结构为-
倒排索引表的结构是每个词组对应一个网页id列表,存储方式可以灵活使 用,例如可在每个词组后记录一个指向对应网页id列表的指针,以这样的二元 组方式来实现。
词组字符串
网页id列表

词组字符串
指针
网页id列表
本发明对用户査询信息中的问句进行了一些简单预处理,将问句转换成了 陈述语序,然后再进行搜索,针对有限的疑问词,这个很容易做到。
例如为什么太阳是圆的?
太阳是圆的原因 太阳是圆的缘由 太阳是圆的缘故
该如何提高孩子的自理能力?
提高孩子的自理能力方法 提高孩子的自理能力技巧 提高孩子的自理能力注意事项
本发明的搜索引擎查询"艺妓回忆录的导演是谁?"所获得的结果网页, 见图5,与图2比较,所得到的结果内容比较符合查询目的。
目前合法的词组形式有
1. 名词+名词
2. 形容词+名词
3. 名词+动词
4. 副词+动词
5. 动词+名词
6. 以上形式词组的任意组合
本规则可以被扩充或被删减,可在具体实现时做进一步细化考虑。
生成词组方式的示例-
假设正在分析的网页中有这样一句话
"北京2008年奥运会的吉祥物正式揭晓仪式" 分词与词性标注的结果
北京/n 2008年/t奥运会/n的/1吉祥物/n正式/a揭晓/v仪式/n 假设正在分析的所获取的网页的关键词是"奥运会"(通过词频分析可以 得到),那么利用本发明的方法可以重新组合出的词组为
2008年奥运会 (将关键词前的词与关键词组合) 北京2008年奥运会 (将关键词前的词与关键词组合) 北京奥运会 (将关键词前的词与关键词组合) 奥运会的吉祥物 (将关键词后的词与关键词组合)
奥运会的吉祥物正式揭晓
(将关键词后的词与关键词组合)
奥运会的吉祥物正式揭晓仪式
(将关键词后的词与关键词组合)
奥运会吉祥物揭晓
(将关键词后的词与关键词组合)
奥运会吉祥物仪式
(将关键词后的词与关键词组合)
不可能出现"吉祥物的奥运会" 一类顺序颠倒的词组。 这一个网页将会以这样的一些词组来作为索引,同时本发明也把用户输 入的査询信息,经过分词和分析生成这样的一些词组;然后使用这些词组来匹 配搜索。因为一个句子可以生成很多短语,所以,本发明的检索会进行多次 (也可并发执行),但每一次检索,都是精确匹配。
另外,之所以在生成词组时要限制关键词在一句之内,是为了避免把两句 话,甚至两段话的本来无关的内容串到一起。下面将举例说明
例如我们搜索"中国情人节的礼物"这句话,使用目前流行的搜索引擎 得出的结果很可能是像这样
"…与西方情人节不同…还具有深厚的中国文化底蕴,…且看我们为你准备 的礼物攻略…",完全不能体现查询语句的整体意思。
相反,使用本发明搜索这句话,得出的结果一般会像这样"…中国情人 节别出心裁的礼物…中国传统…选好礼物…",与查询语句的原意的相关性大为 增加,且相关性越好的结果出现得越靠前,见图6。
权利要求
1、将词组索引技术应用在互联网搜索引擎中的方法,其特征在于包括以下几个步骤步骤一自动积累网页信息首先,通过网页收集程序,自动地通过超链分析,取得互联网上大量的原始网页文本;在取得这些文本的同时,通过分词程序将该网页文本分解成一个个独立的词语,用词频统计程序统计词频,将词频超过阈值的词标注为关键词;然后,利用词组生成程序,以每个关键词为中心,在其前和后分别附加若干别的词,组合成包含词语数量不等、搭配不同的一系列词组,得到用于索引的词组集,并按词组长短排序,连同这些词组来源的信息,插入或更新到倒排表的索引文件中;步骤二、处理用户的查询信息首先,由搜索引擎的用户界面接受用户的查询信息;由分词程序将用户的查询信息分解成一个个独立的词语,并标识每个词的词性;再利用词组生成程序,把分词得到的词语以每个实词为中心,在其前和后附加上若干别的词,组合成包含词语数量不等、搭配不同的一系列词组,得到用于检索的词组集,并存放到内存中。步骤三、检索匹配并获得搜索结果首先,由匹配程序将用于检索的词组集中的词组依次与倒排表的索引文件中的词组进行精确匹配,得到匹配的项,将其对应的网页id检出,依次存放到结果网页集中;然后,对结果集中对应相同网页id的项进行合并,按照与存入结果网页集相同的先后次序遍历结果网页集,取出对应的网页链接以及其它相关信息,从而获得搜索结果。
2、 如权利要求1所述的将词组索引技术应用在互联网搜索引擎中的方法, 其特征在于在搜索引擎分析网页文本时,把网页文本切分为若干关键词,并 把这些词排列成为词语组合的形式,将其以"词组-〉网页idl,网页id2,…"这样的倒排表的形式记录到磁盘或内存中的索引文件里。
3、 如权利要求1所述的将词组索引技术应用在互联网搜索引擎中的方法, 其特征在于在搜索引擎分析网页文本时,所有的词组生成工作都限于在当前 句内,不同句子中包含的关键词不能组合到一起。
4、 如权利要求1所述的将词组索引技术应用在互联网搜索引擎中的方法, 其特征在于在搜索引擎处理用户的査询信息时,利用问句模式匹配程序,将 用户的查询信息的问句转换成陈述句。
5、 如权利要求1所述的将词组索引技术应用在互联网搜索引擎中的方法, 其特征在于将用于索引和检索的词组集,按词组长短排序,长的在前短的在 后。
6、 如权利要求l所述的将词组索引技术应用在互联网搜索引擎中的方法, 其特征在于在获得索引和检索的词组集的过程中,去除一些无意义的组合。
7、 如权利要求6所述的将词组索引技术应用在互联网搜索引擎中的方法,其特征在于所述的无意义的组合是指虚词组合。
全文摘要
本发明是将词组索引技术应用到互联网搜索引擎中,把网页文件中的句子分解成词语,以每个关键词为中心词,在其前和后附加上若干别的词组成索引词组集,以词组为单位生成网页内容的索引文件;将用户提交的查询信息,利用分词程序提取出查询信息中的实词,将这些词进行所有合理和可能的组合,得到用于检索的词组集;由匹配程序将用于检索的词组集中的词组依次与索引文件中的词组进行精确匹配,获得搜索结果;由于词组在表达语意方面要强于单个的词,使得搜索的结果更精确的体现查询者的可能意图。
文档编号G06F17/30GK101196898SQ20071014302
公开日2008年6月11日 申请日期2007年8月21日 优先权日2007年8月21日
发明者波 周, 森 张, 潘 张, 戴云川, 胡显如, 詹天荣, 邓剑波, 潮 高 申请人:新百丽鞋业(深圳)有限公司;邓亚丽
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1