一种搜索信息的方法及系统的制作方法

文档序号:6563343阅读:96来源:国知局
专利名称:一种搜索信息的方法及系统的制作方法
技术领域
本发明涉及计算机及通信领域,特别是一种搜索信息的方法及系统。
技术背景随着互联网的发展,网络已成为人们获取信息的主要来源之一。用户大都 使用搜索引擎来获得想要查找的相关信息。目前现有技术是,请参阅图1,用户在浏览器上输入欲获取信息的关键词,例如输入"我送什么生日礼物给好朋友",发送到搜索引擎;搜索引擎对用户输入的关键词进行分词,将上例分成我/送/什么/生日/ 礼物/给/好/朋友;然后剔除少量的常见过滤词,如"我"、"好"等,将剩下 的词进行搜索,上例中剩下的词有"生日"、"礼物"和"朋友";将剩下的词进行"或"运算关系处理,可能出现的结果包括"生日/礼物"、 "生日/朋友"或"生日/礼物/朋友",根据运算结果到信息索引库中进行搜索, 显然根据"生日/礼物"搜索到的结果较贴近主题,根据"生曰/朋友"得到的 结果距离主题较远。运营商通过信息乾故装置来进行信息的拔故,并且为了可以有较多的用户 搜索到此信息,需要列举大量的可能性关键词发送到信息索引库,其中大量关 键词与此信息主题无关。可见,采用上述方案会搜索到大量偏离主题的信息,并且这些信息可能被 排在信息序列的前面,而用户最关心的信息被排在后面,给用户带来很大不便; 同时搜索这些信息给搜索引擎带来较大的负担,并且影响搜索速度,占用大量 网络资源。由于目前技术会将搜索到的结果直接以网页的形式展现给用户,如 果是偏离主题的信息会给用户带来很大困扰。运营商需要列举大量用户可能输 入的与信息主题无关的词语,每个词都需要繳纳一笔费用,增加了运营商的运
营成本。 发明内容本发明提供一种搜索方法及系统,用以解决现有技术中存在搜索的大量信 息偏离主题,以及搜索引擎负担过重,速度较慢的问题。本发明提供以下技术方案 一种搜索信息的方法,包括步骤 根据词性对用户输入的信息进行分词;将分词后得到的各词语与主题关键词库中预定义的主题关键词进行匹配, 并将所述分词后得到的词语中匹配成功的词语确定为主题关键词; 根据所述主题关键词搜索信息,并输出搜索结果。在进行匹配前,根据词语的词性从分词后得到的词语中过滤掉与主题无关 的词语,再将保留的各词语与所述主题关键词库中的词语进行匹配。进一步将部分或全部未能与所述主题关键词库中预定义的主题关键词匹 配成功的词语补充到该主题关键词库中。在匹配成功后,进一步确定主题关键词的同义词,并将该同义词加入到主 题关键词中。在搜索信息时,对各主题关键词按"或,,运算关系进行处理。搜索信息时,将主题关键词与信息库中的关键词匹配,获取所有匹配成功 的关键词所对应的信息。在搜索到信息后,根据主题相关性对所述搜索到的各信息排序,将包含全 部所述主题关键词的信息排在信息序列的前面。一种用于搜索信息的装置,包括分词4莫块,用于才艮据词性对用户输入的信息进行分词;过滤模块,用于将所述分词模块分词后得到的各词语与主题关键词库中预 定义的主题关键词进行匹配,并将所述分词后得到的词语中匹配成功的词语确 定为主题关键词; 搜索引擎,用于根据所述过滤模块确定的主题关键词搜索信息,并输出搜 索结果。所述过滤模块根据词语的词性从分词后得到的词语中过滤掉与主题无关配。所述过滤模块进一步确定所述主题关键词的同义词,将同义词加入到主题 关键词中。所述搜索引擎在搜索信息时,对各主题关键词按"或,,运算关系进行处理。一种用于搜索信息的系统,其特征在于,包括 主题关键词库,用于存储主题关键词;浏览器,用于为用户提供搜索界面和信息展示,将用户输入的信息发送到 搜索装置和从搜索装置获取搜索结果;搜索装置,用于对接收到的信息分词,将分词后的各词语与所述主题关键 词库中预定义的主题关键词进行匹配,并将所述分词后得到的词语中匹配成功 的词语确定为主题关键词,根据所述主题关键词搜索信息。该系统还包括信息投放装置,用于控j文信息内容和对应的关键词; 信息库,用于存储所述信息内容和对应的关键词,并将关键词传送给所述 主题关键词库,以及为所述搜索装置提供信息资源和搜索接口 。 所述搜索装置包括分词模块,用于根据词性对用户输入的信息进行分词;过滤模块,用于将分词后得到的各词语与主题关键词库中预定义的主题关 键词进行匹配,并将所述分词后得到的词语中匹配成功的词语确定为主题关键 词;搜索引擎,用于根据所述过滤模块确定的主题关键词搜索信息,并输出搜 索结果。本发明有益效果如下本发明利用主题关键词库对用户输入的关键词进行预处理,筛选出主题关 键词,搜索出与用户期望主题接近的相关信息,避免搜索出较多偏离主题的信 息,减少了对用户的干扰,同时也减少了搜索引擎的负担,进而提高了搜索速 度。本发明进一步将搜索出的信息根据主题相关性进行排序,使用户清楚看到 最贴近主题的信息,用户体验较好。相应的,运营商不再需要列举大量主题无 关词来吸引用户搜索,从而降低了其运营成本,同时也为信息索引库节省大量 空间。本发明定期更新主题关键词库,使用户能够更方便的搜索到其关注的相 关信息。


图1为现有技术中搜索系统结构图;图2A为本发明实施例中搜索系统结构图;图2B为本发明实施例中搜索方法的基本流程图;图3为本发明实施例中搜索装置的结构示意图;图4为本发明实施例中搜索方法的具体流程图;图5为本发明实施例中更新主题关键词库的方法流程图。
具体实施方式
本发明通过对用户输入的关键词进行分词,过滤掉与主题无关的词,再将 剩下的关键词与主题关键词库中的词语匹配,4艮据筛选出主题关键词搜索信 息,使搜索时的关键词更加贴近主题,减少无关信息。参见图2A,本实施例中用于搜索信息的系统结构包括用户浏览器21、搜 索装置22、主题关键词库23、信息索引库24和信息投放装置25。主题关键词库23存储主题关键词,并保持定期更新。用户浏览器21为用 户提供搜索界面和信息展示,将用户输入的关键词发送到搜索装置22。搜索装 置22对接收到的关键词分词,将分解后的关键词与主题关键词库23中的主题
关键词进行匹配,并将匹配后的主题关键词进行"或,,运算关系处理,根据处理结果到信息索引库24中搜索信息,以及定期或不定期将匹配失败的词补充 到主题关键词库23中作为主题关键词。信息索引库24为搜索装置22提供资 源和搜索接口,以及接收信息投放装置25发送的信息内容和对应的信息关键 词;信息索引库24将所述信息关键词与主题关键词库23中的主题关键词进行 匹酉己,保留匹配成功的信息关键词,每个匹配后的信息关键词与信息建立链接; 同时信息索引库24还会对信息投放装置25发送的信息关键词进行分词提取, 确定新的主题关键词并将其定期和不定期的补充到主题关键词库23。信息投放 装置25为运营商提供信息投放的平台,并向信息索引库24发送运营商招〕故的 信息内容,以及为信息内容设定的信息关键词。参见图2B,本实施例中搜索信息的基本流程如下步骤210:根据词性,将用户输入的关键词进行分词。步骤220:从分得的词中过滤掉明显与搜索信息主题无关的词。步骤230:将剩余的保留词与主题关键词库23中的词进行匹配,确定匹配 成功的词为主题关键词。步骤240:在主题关键词库23中查询主题关键词的同义词,并将同义词加 入到主题关键词中。步骤250:根据确定的所有主题关键词在信息索引库24中搜索信息,并将 搜索结果输出到用户浏览器21。参见图3,本实施例中搜索装置22包括通信接口 301、分词模块302、过 滤模块303和搜索引擎304。通信接口 301接收用户通过用户浏览器21发送的关键词,将其转发给分 词模块302,并向用户发送信息搜索结果;分词才莫块302将用户输入的关键词 根据词性进行分词(如使用现有的分词工具YWS (Yahoo Word Segmentation Yahoo,分词系统)进行分词);过滤模块303根据分词模块302的分词结果, 对分解后的词逐个进行分析。首先过滤掉主题无关词,然后将剩下的保留词与 主题关键词库23中的主题关键词进4亍匹配,同时查4戈匹配成功的主题关键词 的同义词并将其作为主题关键词,然后将所有主题关键词按"或"运算关系发 送到搜索引擎304。搜索引擎304根据过滤模块303过滤后的结果到信息索引 库24中搜索与此结果匹配的信息关键词,进一步搜索到链接的信息,并将所 述信息进行"与"运算关系处理,然后对搜索结果进行主题相关性排序,即包 括最多主题关键词的信息排在前面。最后用户浏览器21通过通信接口 301获 取排列好的信息。在本实施例中,主题无关词包括动词、形容词和副词等,即去掉这些词 后不会影响信息的搜索范围,也不会偏离用户的搜索主题。参阅图4所示,以用户输入的关键词"我送什么生日礼物给好朋友"为例 搜索相关信息的具体流程如下步骤401:分词模块302采用分词工具将通信接口 301接收的用户输入的 关键词"我送什么生日礼物给好朋友"根据词性进行分词,分词结果为我/ 送/什么/生日/礼物/给/好/朋友。步骤402:过滤模块303过滤掉主题无关词,例1中过滤掉的有"我"、"送"、 "什么"、"给"和"好"。步骤403:从剩余的未处理的词中取一个词与主题关键词库23中的主题关 键词进行匹配,例如剩余词有"生日"、"礼物,,和"朋友,,,从中取词"朋友,, 进4亍匹配。步骤404:判断该词是否属于主题关键词,若是,则执行步骤405,否则 执行步骤406。步骤405:将匹配成功的词确定为主题关键词,继续步骤407。 步骤406:删除不属于主题关键词的词(例如删除的词是"朋友"),进一 步执行步骤407。步骤407:判断是否有剩余的词没有与主题关键词库23中的主题关键词进 行匹配,若是,则执行步骤404,否则执行408。
例如还有词i吾"生日,,和"4L物,,;殳有匹配,那么才丸4亍步骤404,再一次 取词"生日"。步骤408:在主题关键词库23中查找确定的主题关键词的同义词,并将其 加入到主题关键词中。如"礼物"的同义词"礼品",将"礼品"也作为主题 关键词。步骤409:将筛选出的主题关键词进行"或"运算关系处理,得到处理结 果。例l中主题关键词为"生日,,和"礼物",以及同义词"礼品",处理结果 为"生日/礼物,,和"生日/礼品,'。搜索引擎304到信息索引库24中搜索与运 算结果相匹配的信息关键词。如"生日礼物"、"生日礼品"、"生日"、"礼物" 和"礼品"。根据匹配到的信息关键词与信息的链接,搜索出所有包含信息关 键词的信息,将信息进行"与"运算关系处理,即,使所有搜索出的信息被放 在同一页面下。步骤410:根据信息关键词与主题的相关性对搜索出的信息进行排序。例 如,"生日礼物"与用户的意图最接近,故将根据"生日礼物"搜索出的信息 排在最前面,以此类推。步骤411:用户浏览器21从搜索装置22处获取排列好顺序的信息展现给 用户,包括用户信息的标题,简介和用户网站页面的链接。产生新的主题词条来扩充主题关键词库23的一种方式是搜索装置22每次 对用户输入的关键词进行筛选时,将具有主题性但不属于主题关键词的词保留 (即保留前述步骤406中欲删除的词);然后,定期对保留的词进行审核后生 成主题词条,并将主题词条加入到主题关键词库23中。通过这种方式,可以 发现新生成的词汇,比如"超女,,等。另外一种方式是信息索引库24分析来 自信息乾故装置25的信息关键词,提取出新的主题关键词,生成主题词条并 补充到主题关键词库23,比如品牌名词"美的"等。参见图5,本实施例中根据关键词生成主题词条并补充到主题关键词库中 的具体步稞如下 步骤501:选择合适的分词工具,并将一定量的专用词汇补充到分词工具 的基本词典中,使得分词工具遇到这些字的组合时可以将其分成一个词。例如 词语"生日",不希望将其分成"生,,和"日"。步骤502:使用分词工具对需要补充到词库中的关键词进行分词,生成基 本词条。步骤503:对基本词条进行筛选,筛选出没有实际意义的词,例如"我"。步骤504:对篩选后的基本词条进行词性分析,对副词、形容词和动词等 进行审核,滤除不具主题性的词,如"送"和"好,,等。步骤505:将剩余具有主题性的词定为主题关键词并保留,生成主题词条, 一般为各类名词,如地名。步骤506:将与主题关键词同义的词存入该主题词条中。步骤507:将主题词条保存到所述主题关键词库中。主题关键词库可以应 用类似于多级倒排表索引结构。本发明利用主题关键词库对用户输入的关键词进行预处理,筛选出主题关 键词,搜索出与用户期望主题接近的相关信息,从而避免了搜索出较多偏离主 题的信息,减少了对用户的干扰,同时也减少搜索引擎的负担,进而提高了搜 索速度。本发明进一步将搜索出的信息根据主题相关性进行排序,使用户能够 清楚看到最贴近主题的信息,从而为用户带来更好的体验。相应的,运营商不 再需要列举大量主题无关词来吸引用户搜索,减少了其运营成本,同时也为信 息索引库节省大量空间。本发明定期更新主题关键词库,使用户能够更方便的 搜索到其关注的相关信息。显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发 明的精神和范围。这样,倘若对本发明的这些修改和变型属于本发明权利要求 及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
权利要求
1、 一种搜索信息的方法,其特征在于,包括以下步骤 根据词性对用户输入的信息进行分词;将分词后得到的各词语与主题关键词库中预定义的主题关键词进行匹配,并将所述分词后得到的词语中匹配成功的词语确定为主题关键词; 根据所述主题关键词搜索信息,并输出搜索结果。
2、 如权利要求1所述的搜索信息的方法,其特征在于,在进行匹配前, 根据词语的词性从分词后得到的词语中过滤掉与主题无关的词语,再将保留的 各词语与所述主题关键词库中的词语进行匹配。
3、 如权利要求2所述的搜索信息的方法,其特征在于,进一步将部分或 全部未能与所述主题关键词库中预定义的主题关键词匹配成功的词语补充到 该主题关键词库中。
4、 如权利要求1所述的搜索信息的方法,其特征在于,在匹配成功后, 进一步确定主题关键词的同义词,并将该同义词加入到主题关键词中。
5、 如权利要求1至4任一项所述的搜索信息的方法,其特征在于,在搜 索信息时,对各主题关键词按"或"运算关系进行处理。
6、 如权利要求5所述的搜索信息的方法,其特征在于,搜索信息时,将主题关键词与信息库中的关键词匹配,获取所有匹配成功的关键词所对应的信 自
7、 如权利要求6所述的搜索信息的方法,其特征在于,在搜索到信息后, 根据主题相关性对所述搜索到的各信息排序,将包含全部所述主题关键词的信 息排在信息序列的前面。
8、 一种用于搜索信息的装置,其特征在于,包括 分词模块,用于根据词性对用户输入的信息进行分词;过滤模块,用于将所述分词模块分词后得到的各词语与主题关键词库中预 定义的主题关键词进行匹配,并将所述分词后得到的词语中匹配成功的词语确定为主题关键词;搜索引擎,用于根据所述过滤模块确定的主题关键词搜索信息,并输出搜 索结果。
9、 如权利要求8所述的用于搜索信息的装置,其特征在于,所述过滤模 块根据词语的词性从分词后得到的词语中过滤掉与主题无关的词语,再将保留 的各词语与所述主题关键词库中预定义的主题关键词进行匹配。
10、 如权利要求8所述的用于搜索信息的装置,其特征在于,所述过滤模 块进一步确定所述主题关键词的同义词,将同义词加入到主题关键词中。
11、 如权利要求8至10中任一项所述的用于搜索信息的装置,其特征在 于,所述搜索引擎在搜索信息时,对各主题关键词按"或"运算关系进行处理。
12、 一种用于搜索信息的系统,其特征在于,包括 主题关键词库,用于存储主题关键词;浏览器,用于为用户提供搜索界面和信息展示,将用户输入的信息发送到 搜索装置和从搜索装置获取搜索结果;搜索装置,用于对接收到的信息分词,将分词后的各词语与所述主题关键 词库中预定义的主题关键词进行匹配,并将所述分词后得到的词语中匹配成功 的词语确定为主题关键词,根据所述主题关键词搜索信息。
13、 如权利要求12所述的用于搜索信息的系统,其特征在于,还包括 信息投放装置,用于投放信息内容和对应的关键词;信息库,用于存储所述信息内容和对应的关键词,并将关键词传送给所述 主题关键词库,以及为所述搜索装置提供信息资源和搜索接口 。
14、 如权利要求12或13所述的用于搜索信息的系统,其特征在于,所述 搜索装置包括分词模块,用于梯^据词性对用户输入的信息进行分词;过滤模块,用于将分词后得到的各词语与主题关键词库中预定义的主题关键词进4亍匹配,并词;搜索引擎,用于根据所迷过滤模块确定的主题关键词搜索信息,并输出搜 索结果。
全文摘要
本发明公开了一种通信领域中搜索信息的方法及系统,用以解决现有技术中存在搜索的信息偏离主题较远,且搜索引擎负担过重,速度较慢的问题。本发明对用户输入的关键词与主题关键词库中的词语进行匹配,确定主题关键词,根据主题关键词搜索出与用户意图较接近的相关信息,并将所述信息排序,使用户清楚看到最接近其意图的信息。同时定期或不定期的更新主题关键词库。搜索系统包括用户浏览器、搜索装置、主题关键词库、信息索引库以及信息投放装置;其中搜索装置包括通信接口、分词模块、过滤模块和搜索引擎。
文档编号G06F17/30GK101145153SQ200610154148
公开日2008年3月19日 申请日期2006年9月13日 优先权日2006年9月13日
发明者余斯恒, 孔维青, 张立中, 磊 王 申请人:阿里巴巴公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1