疑难字搜索方法及搜索系统的制作方法

文档序号:6353449阅读:402来源:国知局
专利名称:疑难字搜索方法及搜索系统的制作方法
技术领域
本发明涉及搜索引擎技术,尤其涉及一种疑难字搜索方法及搜索系统。
背景技术
随着互联网上信息的飞速增长,网络上充斥了越来越多的冗余信息,而对于在网 络上搜寻自己所需要信息的互联网用户而言,面对这些漫无边际的信息无疑像大海捞针。 搜索引擎的出现无疑在一定程度上为用户的搜索需求带来了很大便利。搜索引擎是一种在 网络上应用的软件系统,其以一定的策略在网络上搜集和发现信息,并在对信息进行处理 和组织后,为用户提供互联网上的信息搜索服务。通常,这种软件系统提供一个网页界面, 让用户在客户端通过浏览器软件提交搜索词,然后很快返回一个可能和用户输入的搜索内 容相关的信息列表。这个列表通常会包括上万个条目,每个条目代表一篇搜索到的相关网 页。过去十几年以来,相应地,众多的互联网搜索引擎及对应的网站应运而生,这中 间的佼佼者包括百度公司的百度搜索(WWW. baidu. com)和谷歌公司的谷歌搜索(www. google, cn)。搜索引擎的一重要应用在于,当用户有疑问需要解答时,搜索引擎可帮助用户快 速的搜索问题答案,而无须如以前一般,用户需要翻阅大量书籍、字典、网站等才可能找到 相应答案。特别的,对于中文用户而言,搜索疑难字更是需要经常用到的人们在遇到疑难字不知怎么读或者印象中记得疑难字的组成部分但不知其结构 时,经常会在搜索引擎中输入类似“三个雷怎么读”、“男女男念什么”、“开火是什么字”这样 的查询指令。然而,一般地,现有搜索引擎只专注于用户所输入查询指令的字面本身,通过 对用户输入的查询指令进行切词,按切词后得到的字符进行检索,造成了对用户的真正需 求了解不深刻,以致检索结果不能很好的满足用户需求,检索效率较低,网络流量较大。例 如用户在搜索引擎中输入“三个雷怎么读”的查询指令,其想要搜索的并不是含有“三个”、 “雷”、“怎么读”等字符的内容,而是想要搜索与“纛”这个字相关的内容。为了解决查询疑难字的问题,现有技术已经公开了一些系统和方法,例如中国专 利申请第200810000783. 8号,发明名称为“基于计算机网络通过汉字结构查询汉字的系统 及其方法”,其系统包括安装了数据库的服务器端以及客户端,客户端设有结构查字条件选 择装置,数据库由包括简体汉字和繁体汉字及属性库组成,服务器端设有用于客户端用户 将查询指令通过网络发送到服务器端查询汉字的查询装置、用于汉字和汉字属性加工处理 的工作平台、用于以网站形式将数据库内容发布公开供用户使用的发布平台、用于监控管 理加工平台和发布平台的管理平台。其方法包括当客户端用户进入服务器查询装置时,结 构查字条件选择装置显示在用户的界面上供用户进行结构选择,得到查询初步结果,并通 过排序或筛选得到目标汉字及相关信息。然而,上述的查字系统和方法是通过用户选择字 形结构进行查询的,且还需对查询初步结果进行排序和筛选,才能得到目标汉字,其查询效 率较低、网络流量较大;另外,上述的查字系统和方法并不基于用户输入的查询指令,不适
5用于搜索引擎。

发明内容
本发明的目的在于提供一种改进的疑难字搜索方法,其可通过对用户输入的查询 指令进行分析,判断用户的疑难字需求,并查找出用户需要了解的疑难字相关信息。本发明的目的还在于提供一种实现上述疑难字搜索方法的疑难字搜索系统。为实现上述发明目的之一,本发明的一种疑难字搜索方法的一实施方式,包括以 下步骤Si、接收查询指令;S3、通过查询指令分析模块分析所述查询指令中的疑难字片段;S4、将所述疑难字片段在疑难字数据存储模块中进行检索,得到查询指令检索结 果;S6、输出所述查询指令检索结果。作为本发明的进一步改进,在所述Sl步骤后,还包括步骤S2 判断所述查询指令是否为具有疑难字需求的查询指令;若是,则进入所述S3步 骤;若否,则进入步骤S5 在普通搜索引擎索引中对所述查询指令进行搜索。作为本发明的进一步改进,所述S3步骤具体包括S31、用户表达方式及疑难字片段挖掘模块输入用户表达模板和疑难字片段至所 述查询指令分析模块;S32、通过查询指令分析模块分析所述查询指令中的疑难字片段。作为本发明的进一步改进,所述用户表达模板和疑难字片段的挖掘方法包括S100、设定已知的疑难字片段表述种子词;S101、从接收到的查询指令日志中挖掘包含所述表述种子词的查询指令;S102、从所述查询指令中将所述疑难字片段去除,生成用户表达模板;S103、根据所述用户表达模板从查询指令日志中挖掘疑难字片段;S104、判断是否有新疑难字片段;若有,则进入步骤S105、若无,则进入步骤S106 ;S105、将所述新疑难字片段作为新种子词,并重复SlOl S104步骤;S106、结束挖掘。作为本发明的进一步改进,所述疑难字数据存储模块存储的包括疑难片段对应 疑难字及疑难字相关信息。作为本发明的进一步改进,所述疑难字数据存储模块为映射表。作为本发明的进一步改进,所述疑难字相关信息包括读音、部首、笔画、笔顺、四 角号码、字义。为实现上述发明目的之一,本发明的一种疑难字搜索方法的另一实施方式,包括 以下步骤Sl 1、接收查询指令;S13、通过查询指令分析模块分析所述查询指令中的疑难字片段;S14、将所述疑难字片段在所述疑难字数据存储模块和普通搜索引擎索引中进行 检索,得到查询指令检索结果;
S16、输出所述查询指令检索结果。作为本发明的进一步改进,在所述Sll步骤后,还包括步骤S12 判断所述查询指令是否为具有疑难字需求的查询指令;若是,则进入所述S13步 骤;若否,则进入步骤S15 在普通搜索引擎索引中对所述查询指令进行搜索。作为本发明的进一步改进,所述S13步骤具体包括S131、用户表达方式及疑难字片段挖掘模块输入用户表达模板和疑难字片段至所 述查询指令分析模块;S132、通过查询指令分析模块分析所述查询指令中的疑难字片段。作为本发明的进一步改进,所述用户表达模板和疑难字片段的挖掘方法包括S100、设定已知的疑难字片段表述种子词;S101、从接收到的查询指令日志中挖掘包含所述表述种子词的查询指令;S102、从所述查询指令中将所述疑难字片段去除,生成用户表达模板;S103、根据所述用户表达模板从查询指令日志中挖掘疑难字片段;S104、判断是否有新疑难字片段;若有,则进入步骤S105、若无,则进入步骤S106 ;S105、将所述新疑难字片段作为新种子词,并重复SlOl S104步骤;S106、结束挖掘。作为本发明的进一步改进,所述疑难字数据存储模块存储的包括疑难片段对应 疑难字及疑难字相关信息。作为本发明的进一步改进,所述疑难字数据存储模块为映射表。作为本发明的进一步改进,所述疑难字相关信息包括读音、部首、笔画、笔顺、四 角号码、字义。相应地,作为实现上述另一目的,本发明的一种疑难字搜索系统包括UI模块,用于接收查询指令,且所述UI模块还用于接收搜索模块返回的搜索结 果,并将所述搜索结果拼装为结果页面后输出;查询指令分析模块,用于分析所述查询指令中的疑难字片段;搜索模块,用于将所述疑难字片段在疑难字数据存储模块中进行检索,得到查询 指令检索结果;以及疑难字数据存储模块,用于存储疑难字片段与其对应的疑难字及其疑难字相关信 肩、ο作为本发明的进一步改进,所述疑难字搜索系统还包括web服务模块,用于通过网络协议接收客户端发出的查询指令,并将所述查询指令 转到所述UI模块,且所述web服务模块还用于接收所述UI模块返回的结果页面,并将所述 结果页面返回至所述客户端。作为本发明的进一步改进,所述查询指令分析模块还用于判断所述查询指令是否 为具有疑难字需求的查询指令。作为本发明的进一步改进,所述搜索模块还用于并将非疑难字需求的查询指令在 普通搜索引擎索引中进行检索,得到查询指令检索结果。作为本发明的进一步改进,所述搜索模块还用于将所述疑难字片段在普通搜索引 擎索引中进行检索,得到查询指令检索结果。
作为本发明的进一步改进,所述疑难字搜索系统还包括用户表达方式及疑难字片段挖掘模块,用于挖掘用户表达模板和疑难字片段;以 及疑难字数据挖掘模块,用于挖掘疑难字片段与其对应的疑难字及其疑难字相关信 肩、ο作为本发明的进一步改进,所述用户表达方式及疑难字片段挖掘模块通过EM迭 代算法对用户表达模板和疑难字片段进行挖掘。作为本发明的进一步改进,所述疑难字数据挖掘模块通过网络问答系统web资源 对疑难字片段与疑难字及其疑难字相关信息进行挖掘。作为本发明的进一步改进,所述疑难字数据挖掘模块通过用户点击日志对疑难字 片段与疑难字及其疑难字相关信息进行挖掘。作为本发明的进一步改进,所述疑难字数据挖掘模块通过暗网资源对疑难字片段 与疑难字及其疑难字相关信息进行挖掘。作为本发明的进一步改进,所述疑难字数据存储模块为映射表。作为本发明的进一步改进,所述疑难字相关信息包括读音、部首、笔画、笔顺、四 角号码、字义。与现有技术相比,本发明的有益效果是本发明可对用户在搜索引擎中输入的查 询指令进行分析,判断用户的疑难字需求,并查找出用户需要了解的疑难字相关信息,提高 用户检索效率,节约网络流量,提升用户使用体验。


图1是本发明疑难字搜索系统与客户端实现互动的工作原理图;图2是本发明疑难字搜索系统一实施方式的模块图;图3是本发明疑难字搜索方法一实施方式的流程图;图4是本发明疑难字搜索方法另一实施方式的流程图;图5是本发明用户表达方式及疑难字片段挖掘方式的流程图;图6是通过本发明疑难字搜索方法与搜索系统搜索出的结果页面;图7是点击图6中首条搜索结果后弹出的相应页面。
具体实施例方式以下将结合附图所示的各实施方式对本发明进行详细描述。但这些实施方式并不 限制本发明,本领域的普通技术人员根据这些实施方式所轻易做出的结构、方法、或功能上 的变换均包含在本发明的保护范围内。图1所示的本发明的疑难字搜索系统10与客户端20实现互动的工作原理图。本 实施方式中,该客户端20包括一浏览器,客户可通过该浏览器打开搜索引擎,并在搜索引 擎中输入查询指令,一般的,该输入的查询指令为文本信息,当然,该查询指令还可以为图 片信息、视频信息等等。所述疑难字搜索系统10通过网络接收客户输入至所述浏览器中的 查询指令,并对该查询指令进行搜索后,将搜索结果返回至该浏览器。其中,该疑难字搜索 系统10可以包括一台或多台服务器,该客户端20可以包括一个或多个用户终端设备,如个人计算机、笔记本电脑、无线电话、个人数字处理(PDA)、或其它计算机系统和通信系统。这些服务器和终端设备在架构上都包含一些基本组件,如总线、处理系统、存储系 统、一个或多个输入/输出系统、和通信接口等。总线可以包括一个或多个导线,用来实现 服务器或终端设备各组件之间的通信。处理系统包括各类型的用来执行指令、处理进程或 线程的处理器或微处理器。存储系统可以包括存储动态信息的随机访问存储器(RAM)等动 态存储器,和存储静态信息的只读存储器(ROM)等静态存储器,以及包括磁或光学记录介 质与相应驱动的大容量存储器。输入系统供用户输入信息到服务器或终端设备,如键盘、鼠 标、手写笔、声音识别系统、或生物测定系统等。输出系统包括用来输出信息的显示器、打印 机、扬声器等。通信接口用来使服务器或终端设备与其它系统或系统进行通信。通信接口 之间可通过有线连接、无线连接、或光连接连接到网络中,使疑难字搜索系统10、客户端20 间能够通过网络实现相互间的通信。网络可以包括局域网(LAN)、广域网(WAN)、电话网络 如公共交换电话网(PSTN)、企业内部的互联网、因特网、或上述这些网络的结合等。服务器和终端设备上均包含有用来管理系统资源、控制其它程序运行的操作系统 软件,以及用来实现特定功能模块的应用软件。如图2所示,在本发明一实施方式中,所述 疑难字搜索系统10可分为两部分,疑难字搜索部分和数据挖掘部分。其中,所述疑难字搜 索部分包括了 web服务模块101、与web服务模块101交互通信的UI模块102,与所述UI 模块102交互通信的查询指令分析模块103,与所述查询指令分析模块103和所述UI模块 102通信的搜索模块104,以及与所述搜索模块104通信的疑难字数据存储模块105 ;所述 数据挖掘部分包括了与所述查询指令分析模块103通信的用户表达方式及疑难字片段挖 掘模块106,以及与所述用户表达方式及疑难字片段挖掘模块106和所述疑难字数据存储 模块105通信的疑难字数据挖掘模块107。值得一提的是,这些模块即可存储并运行于同一 服务器中,也可存储并运行在多台服务器中。所述web服务模块101用于通过网络协议接收从客户端20传来的查询指令,并将 该查询指令转到UI模块102,另外,该web服务模块101还用于接收所述UI模块102返回 的结果页面,并将所述结果页面返回至客户端20。所述UI模块102用于接收所述web服务模块101传送的查询指令,并将该查询指 令发送至所述查询指令分析模块103 ;另外,所述UI模块102还用于接收所述搜索模块104 返回的搜索结果,并将所述搜索结果拼装为结果页面后,返回所述结果页面至所述web服 务模块101。所述查询指令分析模块103用于分析所述查询指令是否为一疑难字需求,若是, 其疑难字片段为何。具体的,该查询指令分析模块103可接收所述用户表达方式及疑难字 片段挖掘模块106输入的用户表达模板和疑难字片段,并根据所述用户表达模板和所述疑 难字片段分析所述查询指令,以判断所述查询指令是否为一疑难字需求,以及其疑难字片 段为何。例如用户输入的查询指令是“三个雷念什么? ”,而用户表达方式及疑难字片段挖 掘模块106挖掘到的用户表达模板中包括“疑难字片段表述念什么”,挖掘到的疑难字片 段包括“三个雷”,则可根据所述用户表达模块和所述疑难字片段分析出用户输入的查询指 令是一个疑难字需求,且疑难字片段为“三个雷”。关于怎样通过用户表达方式及疑难字片 段挖掘模块106挖掘用户表达模板,以及挖掘疑难字片段,将会结合下述关于数据挖掘部 分进行详细介绍。
所述搜索模块104用于对所述查询指令进行搜索。优选地,若所述查询指令分析 模块103分析出的查询指令并非一疑难字需求,则所述搜索模块104即在普通搜索引擎索 引中对该查询指令进行搜索,并返回搜索结果至所述UI模块102,其中,所述搜索模块104 在普通搜索引擎索引中对查询指令进行搜索已是本领域公知技术,本领域普通技术人员已 能熟练掌握,在此不再赘述;若所述分析模块103分析出的查询指令是一疑难字需求,则所 述搜索模块104即在所述疑难字数据存储模块105中进行搜索,并返回搜索结果至所述UI 模块102 ;值得一提的是在更多的实施方式中,若所述分析模块103分析出的查询指令是 一疑难字需求,所述查询模块104即在偏普通搜索引擎索引中队该查询指令进行搜索,输 出搜索结果至所述UI模块102,也在所述疑难字数据存储模块105中进行搜索,并输出搜索 结果至所述UI模块102,UI模块102将这些搜索结果拼装为结果页面输出,优选地,在所述 疑难字数据存储模块105中进行搜索的搜索结果排在所有搜索结果的前面。所述疑难字数据存储模块105用于存储疑难字片段与其对应的疑难字及其疑难 字相关信息。优选地,所述疑难字数据存储模块105存储的为一映射表,即将疑难片段与 其对应的疑难字及疑难字相关信息建成一个映射表,在搜索模块104对所述疑难字数据存 储模块105进行搜索时,可通过所述映射表查询获得疑难片段对应疑难字及疑难字相关信 息,在本发明最佳实施方式中,所述疑难字相关信息包括读音、部首、笔画、笔顺、四角号码、 字义等,如下表所示
权利要求
1.一种疑难字搜索方法,其特征在于,所述疑难字搜索方法包括以下步骤 Si、接收查询指令;S3、通过查询指令分析模块分析所述查询指令中的疑难字片段;S4、将所述疑难字片段在疑难字数据存储模块中进行检索,得到查询指令检索结果; S6、输出所述查询指令检索结果。
2.根据权利要求1所述的疑难字搜索方法,其特征在于,在所述Sl步骤后,还包括步骤S2 判断所述查询指令是否为具有疑难字需求的查询指令;若是,则进入所述S3步骤;若 否,则进入步骤S5 在普通搜索引擎索引中对所述查询指令进行搜索。
3.根据权利要求1所述的疑难字搜索方法,其特征在于,所述S3步骤具体包括S31、用户表达方式及疑难字片段挖掘模块输入用户表达模板和疑难字片段至所述查 询指令分析模块;S32、通过查询指令分析模块分析所述查询指令中的疑难字片段。
4.根据权利要求3所述的疑难字搜索方法,其特征在于,所述用户表达模板和疑难字 片段的挖掘方法包括S100、设定已知的疑难字片段表述种子词;S101、从接收到的查询指令日志中挖掘包含所述表述种子词的查询指令;S102、从所述查询指令中将所述疑难字片段去除,生成用户表达模板;S103、根据所述用户表达模板从查询指令日志中挖掘疑难字片段;S104、判断是否有新疑难字片段;若有,则进入步骤S105、若无,则进入步骤S106;S105、将所述新疑难字片段作为新种子词,并重复SlOl S104步骤;S106、结束挖掘。
5.根据权利要求1至4中任意一项所述的疑难字搜索方法,其特征在于,所述疑难字数 据存储模块存储的包括疑难片段对应疑难字及疑难字相关信息。
6.根据权利要求5所述的疑难字搜索方法,其特征在于,所述疑难字数据存储模块为 映射表。
7.根据权利要求6所述的疑难字搜索方法,其特征在于,所述疑难字相关信息包括读 音、部首、笔画、笔顺、四角号码、字义。
8.—种疑难字搜索方法,其特征在于,所述疑难字搜索方法包括以下步骤 S11、接收查询指令;S13、通过查询指令分析模块分析所述查询指令中的疑难字片段;S14、将所述疑难字片段在所述疑难字数据存储模块和普通搜索引擎索引中进行检索, 得到查询指令检索结果;S16、输出所述查询指令检索结果。
9.根据权利要求8所述的疑难字搜索方法,其特征在于,在所述Sll步骤后,还包括步 骤 S12 判断所述查询指令是否为具有疑难字需求的查询指令;若是,则进入所述S13步骤;若 否,则进入步骤S15 在普通搜索引擎索引中对所述查询指令进行搜索。
10.根据权利要求8所述的疑难字搜索方法,其特征在于,所述S13步骤具体包括S131、用户表达方式及疑难字片段挖掘模块输入用户表达模板和疑难字片段至所述查 询指令分析模块;S132、通过查询指令分析模块分析所述查询指令中的疑难字片段。
11.根据权利要求10所述的疑难字搜索方法,其特征在于,所述用户表达模板和疑难 字片段的挖掘方法包括S100、设定已知的疑难字片段表述种子词;S101、从接收到的查询指令日志中挖掘包含所述表述种子词的查询指令;S102、从所述查询指令中将所述疑难字片段去除,生成用户表达模板;S103、根据所述用户表达模板从查询指令日志中挖掘疑难字片段;S104、判断是否有新疑难字片段;若有,则进入步骤S105、若无,则进入步骤S106;S105、将所述新疑难字片段作为新种子词,并重复SlOl S104步骤;S106、结束挖掘。
12.根据权利要求8至11中任意一项所述的疑难字搜索方法,其特征在于,所述疑难字 数据存储模块存储的包括疑难片段对应疑难字及疑难字相关信息。
13.根据权利要求12所述的疑难字搜索方法,其特征在于,所述疑难字数据存储模块 为映射表。
14.根据权利要求13所述的疑难字搜索方法,其特征在于,所述疑难字相关信息包括 读音、部首、笔画、笔顺、四角号码、字义。
15.一种疑难字搜索系统,其特征在于,所述疑难字搜索系统包括UI模块,用于接收查询指令,且所述UI模块还用于接收搜索模块返回的搜索结果,并 将所述搜索结果拼装为结果页面后输出;查询指令分析模块,用于分析所述查询指令中的疑难字片段; 搜索模块,用于将所述疑难字片段在疑难字数据存储模块中进行检索,得到查询指令 检索结果;以及疑难字数据存储模块,用于存储疑难字片段与其对应的疑难字及其疑难字相关信息。
16.根据权利要求15所述的疑难字搜索系统,其特征在于,所述疑难字搜索系统还包括web服务模块,用于通过网络协议接收客户端发出的查询指令,并将所述查询指令转到 所述UI模块,且所述web服务模块还用于接收所述UI模块返回的结果页面,并将所述结果 页面返回至所述客户端。
17.根据权利要求16所述的疑难字搜索系统,其特征在于,所述查询指令分析模块还 用于判断所述查询指令是否为具有疑难字需求的查询指令。
18.根据权利要求15所述的疑难字搜索系统,其特征在于,所述搜索模块还用于并将 非疑难字需求的查询指令在普通搜索引擎索引中进行检索,得到查询指令检索结果。
19.根据权利要求15所述的疑难字搜索系统,其特征在于,所述搜索模块还用于将所 述疑难字片段在普通搜索引擎索引中进行检索,得到查询指令检索结果。
20.根据权利要求15所述的疑难字搜索系统,其特征在于,所述疑难字搜索系统还包括用户表达方式及疑难字片段挖掘模块,用于挖掘用户表达模板和疑难字片段;以及疑难字数据挖掘模块,用于挖掘疑难字片段与其对应的疑难字及其疑难字相关信息。
21.根据权利要求20所述的疑难字搜索系统,其特征在于,所述用户表达方式及疑难 字片段挖掘模块通过EM迭代算法对用户表达模板和疑难字片段进行挖掘。
22.根据权利要求20所述的疑难字搜索系统,其特征在于,所述疑难字数据挖掘模块 通过网络问答系统web资源对疑难字片段与疑难字及其疑难字相关信息进行挖掘。
23.根据权利要求20所述的疑难字搜索系统,其特征在于,所述疑难字数据挖掘模块 通过用户点击日志对疑难字片段与疑难字及其疑难字相关信息进行挖掘。
24.根据权利要求20所述的疑难字搜索系统,其特征在于,所述疑难字数据挖掘模块 通过暗网资源对疑难字片段与疑难字及其疑难字相关信息进行挖掘。
25.根据权利要求15至M中任意一项所述的疑难字搜索系统,其特征在于,所述疑难 字数据存储模块为映射表。
26.根据权利要求25所述的疑难字搜索系统,其特征在于,所述疑难字相关信息包括 读音、部首、笔画、笔顺、四角号码、字义。
全文摘要
本发明提供一种疑难字搜索方法,包括以下步骤接收查询指令;通过查询指令分析模块分析所述查询指令中的疑难字片段;将所述疑难字片段在疑难字数据存储模块中进行检索,得到查询指令检索结果;输出所述查询指令检索结果。与现有技术相比,本发明的有益效果是本发明可对用户在搜索引擎中输入的查询指令进行分析,判断用户的疑难字需求,并查找出用户需要了解的疑难字相关信息,提高用户检索效率,节约网络流量,提升用户使用体验。
文档编号G06F17/30GK102073736SQ20111002291
公开日2011年5月25日 申请日期2011年1月20日 优先权日2011年1月20日
发明者刘建柱, 柴春光 申请人:百度在线网络技术(北京)有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1