一种索引数据更新方法、系统及搜索引擎的制作方法

文档序号:9911231阅读:433来源:国知局
一种索引数据更新方法、系统及搜索引擎的制作方法
【技术领域】
[0001] 本发明涉及互联网搜索技术领域,尤其是一种索引数据更新方法、系统及搜索引 擎。
【背景技术】
[0002] 随着互联网技术的日益发展,用户产生大量的信息资讯需求,由此专业的资讯类 网站迅速发展壮大,站内外资讯的整合和快速专业的检索也变得迫切,基于传统的网页检 索技术或数据库检索已变得难以满足需要。为处理庞大且更新数据极快的资讯数据,快速 准确地满足用户的资讯检索定位,就需要提高对这些海量动态变化的资讯数据建立索引的 速度,因此,实时索引构建技术一直是互联网搜索技术研究的重点。
[0003] 目前常见的一种索引数据更新方法是基于结构化的数据文档进行索引并提供检 索服务。在拟定的数据组织结构下采集网页数据或由第三方推送结构化的数据,以全量+增 量的索引方式,定期更新索引。故而更新频率一般都是在十分钟以上,不能实现实时索引且 及时呈现资讯,尤其对于一些实时性要求高的检索需求,这种索引更新方案显然是不够的。

【发明内容】

[0004] 为此,本发明提供一种索引数据更新方法、系统及搜索引擎,以力图解决或者至少 缓解上面存在的问题。
[0005] 根据本发明的一个方面,提供一种索引数据更新方法,方法包括步骤:接收第三方 推送中心推送的索引数据更新消息,更新消息按"数据ID+数据字符串+消息类型+消息数据 版本"的格式封装,其中,数据ID唯一地标识更新消息,数据字符串包括由待更新数据的字 段名称和字段值构成的结构化数据;保存更新消息;以及根据消息数据版本解析更新消息, 根据数据字符串对索引库中的原始索引文件进行与消息类型相对应的更新操作。
[0006] 可选地,在根据本发明的索引数据更新方法中,与消息类型相对应的更新操作包 括:对索引库中原始索引文件的增加、删除、修改、条件更新操作。
[0007] 可选地,在根据本发明的索引数据更新方法中,数据字符串是json字符串。
[0008] 可选地,在根据本发明的索引数据更新方法中,保存更新消息的步骤包括:按照消 息时间保存更新消息。
[0009] 可选地,在根据本发明的索引数据更新方法中,还包括步骤:当接收到回放信号 时,根据消息时间定位到对应的更新消息。
[0010] 可选地,在根据本发明的索引数据更新方法中,解析更新消息的步骤之前,还包括 步骤:通过调用预置的Hook函数,对索引库中的更新消息进行适配处理。
[0011] 可选地,在根据本发明的索引数据更新方法中,适配处理包括:对属于论坛索引库 的更新消息进行检验;以及实时计算文章索引库中索引文件的重要性。
[0012] 可选地,在根据本发明的索引数据更新方法中,当与消息类型相对应的更新操作 为条件更新操作时,数据字符串中还包括更新条件,解析更新消息还包括:通过数据字符串 获取更新条件。
[0013] 可选地,在根据本发明的索引数据更新方法中,条件更新包括批量更新操作。
[0014] 根据本发明的另一方面,提供一种索引数据更新系统,系统包括:输入接口,适于 接收由第三方推送中心推送的索引数据更新消息,更新消息按"数据ID+数据字符串+消息 类型+消息数据版本"的格式封装;缓存装置,适于保存接收到的更新消息;索引库,适于存 储原始索引文件;更新控制装置,适于解析更新消息,根据数据字符串对索引库中的原始索 引文件进行与消息类型相对应的更新操作;其中,数据ID唯一地标识更新消息,数据字符串 是由待更新数据的字段名称和字段值构成的结构化数据。
[0015] 可选地,在根据本发明的索引数据更新系统中,更新控制装置适于根据消息类型 对原始索引文件进行包括增加、删除、修改、条件更新的操作。
[0016] 可选地,在根据本发明的索引数据更新系统中,数据字符串是json字符串。
[0017] 可选地,在根据本发明的索引数据更新系统中,缓存装置还适于按照消息时间保 存更新消息。
[0018] 可选地,在根据本发明的索引数据更新系统中,缓存装置还适于在接收到回放信 号后,根据消息时间定位到对应的更新消息。
[0019] 可选地,在根据本发明的索引数据更新系统中,还包括:预处理装置,适于在解析 更新消息之前,调用预置的Hook函数,对索引库中的更新消息进行适配处理。
[0020] 可选地,在根据本发明的索引数据更新系统中,预处理装置适于对属于论坛索引 库的更新消息进行检验,还适于实时计算文章索引库中索引文件的重要性。
[0021 ]可选地,在根据本发明的索引数据更新系统中,更新控制装置还适于在解析得到 消息类型对应的更新操作是条件更新时,通过数据字符串获取更新条件。
[0022] 可选地,在根据本发明的索引数据更新系统中,条件更新包括批量更新操作。
[0023] 根据本发明的又一方面,提供了一种搜索引擎,具有如上所述的索引数据更新系 统。
[0024] 由上述技术方案可见,在本发明中,以统一的消息格式封装更新数据,不仅保证了 各种异构数据的兼容处理,还可确保更新消息自推送进来至呈现给用户仅存在秒级的延 迟,实现了在搜索引擎中实时更新索引数据的需求。
[0025] 进一步地,通过增加的适配处理、回放定位、批量条件更新等处理逻辑,大大提高 更新的时效性和兼容性,在一些数据要求很高的场景下也能保证用户搜索的良好体验。
【附图说明】
[0026] 为了实现上述以及相关目的,本文结合下面的描述和附图来描述某些说明性方 面,这些方面指示了可以实践本文所公开的原理的各种方式,并且所有方面及其等效方面 旨在落入所要求保护的主题的范围内。通过结合附图阅读下面的详细描述,本公开的上述 以及其它目的、特征和优势将变得更加明显。遍及本公开,相同的附图标记通常指代相同的 部件或元素。
[0027] 图1示出了根据本发明一个实施例的搜索引擎100在进行信息搜索时的工作原理 框图;
[0028]图2示出了根据本发明一个实施例的索引数据更新方法200的流程图;以及
[0029] 图3示出了根据本发明一个实施例的索引数据更新系统300的示意图。
【具体实施方式】
[0030] 下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开 的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例 所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围 完整的传达给本领域的技术人员。
[0031] 图1为根据本发明的一个实施方式的搜索引擎100在进行信息搜索时的工作原理 框图。参照图1,第三方推送中心20将结构化数据以预定的形式主动提交给搜索引擎100,从 而搜索引擎100可响应客户端30的浏览器32请求而提供数据搜索的服务。这里,推送索引消 息的第三方推送中心20可以是数据库、推送作业,由它们向搜索引擎100提供结构化数据; 当然,也可以包含爬虫系统,由其提供网页数据给搜索引擎100。根据一种实现方式,搜索引 擎100可以包括一个或多个用来存储和管理数据、并响应搜索请求的网络服务器实体。客户 端30可以包括一个或多个用户终端设备,如个人计算机、笔记本电脑、无线电话、个人数字 处理(PDA)、或其它计算机装置和通信装置。
[0032]这些服务器和终端设备在架构上都包含一些基本组件,如总线、处理装置、存储装 置、一个或多个输入/输出装置、和通信接口等。总线可以包括一个或多个导线,用来实现服 务器或终端设备各组件之间的通信。处理装置包括各类型的用来执行指令、处理进程或线 程的处理器或微处理器。存储装置可以包括存储动态信息的随机访问存储器(RAM)等动态 存储器,和存储静态信息的只读存储器(ROM)等静态存储器,以及包括磁或光学记录介质与 相应驱动的大容量存储器。输入装置供用户输入信息到服务器或终端设备,如键盘、鼠标、 手写笔、声音识别装置、或生物测定装置等。输出装置包括用来输出信息的显示器、打印机、 扬声器等。通信接口用来使服务器或终端设备与其它系统或装置进行通信。通信接口之间 可通过有线连接、无线连接、或光连接连接到网络中,使搜索引擎100、客户端10能够通过网 络实现相互间的通信。网络可以包
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1