一种语用关键词通用模板的生成、应用方法与装置的制作方法

文档序号:6374663阅读:119来源:国知局
专利名称:一种语用关键词通用模板的生成、应用方法与装置的制作方法
技术领域
本发明涉及计算机及通信领域,特别是涉及生成、应用语用关键词模版的方法及
>J-U ρ α装直。
背景技术
目前,全文关键词搜索是互联网信息搜索的基本方法,但是,全文关键词实际上有两种完全不同的应用功能。例如,当用户在全文关键词检索输入栏中输入“NBA篮球比赛直播时间”时,一种需求是想检索到与“NBA篮球比赛直播时间”相关的所有信息,这时,“时间” 一词是揭示目标信息主题的语义关键词之一。另一种需求则是只想检索到NBA篮 球比赛直播的具体时间,如“ NBA篮球比赛直播9-30-20:30 ”,这时,“时间” 一词则是指示“9-30-20:30”功能与效用的语用关键词。显然,用户输入同一检索关键词的这两种不同应用功能需求,所指向的目标信息有巨大差别。因此,在关键词搜索中区别语义关键词和语用关键词,对提高关键词检索的精准度具有重要价值。问题在于,虽然语用关键词和语义关键词同是组织信息的基本要素,但如果没有语用关键字标签导航模版,信息发布方往往会忽略提供语用关键词,或者不知道应该提供什么语用关键词,或者发布方和检索方提供的语用关键词不一致。其结果是,关键词检索的非目标信息很可能在检索结果中排序在前,而目标信息排序在后。例如,按照关键字命中率排序,“NBA篮球比赛直播时间太晚”、“没时间看NBA比赛直播了 ”等信息会排序在前,而检索用户真正需要的目标信息“NBA篮球比赛直播9-30-20:30”则由于发布信息中没有“时间” 一词,只能排序在后。更为关键的问题是,即使发布用户提供了语用关键字,目前的全文关键字搜索服务实际上也无法判别,当搜索用户输入同一关键字时到底是要的其语义功能,还是语用功能?因此,目前的全文关键字检索实际上是一种不区分关键字语义功能和语用功能的模糊检索。也因此,无论加上多少辅助性技术手段,也无法根本改善全文关键字检索的效率。与此同时,为了提高信息搜索的效率,互联网上提供了上万种不同的结构化信息发布、检索模版(如购物、订票等结构化信息发布、检索模版),以引导用户在结构化标签下发布、检索信息。但是,各类结构化模版均不具有通用性,因此,在提高信息检索效率的同时,也大大增加了用户的使用难度。简言之,目前的关键词信息搜索方法仍然处在查精则不能查全,查全则不能查精的困境中。但是,经过我们的统计和研究,互联网信息中的语用关键词具有以下双十定律输入任意关键字,其相关信息的高频应用语用关键词在10X10范围以内。例如,输入任意搜索关键字(如NBA、国家发改委、智能手机、云计算、韩寒、欧美
大片......),其相关信息的通用且常用分类包括新闻、告示、知识、论坛、产品、服务、人
际交往、点播\下载、博客\微博、大黄页。而各类新闻的通用语用关键词包括标题、行为主体、行为、时间、地点、背景、综述......;各类人际交往(无论是征婚、交友、招聘、应聘......)的语用关键词均包括标题、交往目的、性别、年龄、职业.......依据上述双十定律,本发明提供一种语用关键词通用模版的生成、应用方法与装置,用于实现语义关键词和语用关键词的区别检索,以根本改善互联网信息发布、检索效率。

发明内容
一种语用关键词通用模版的生成、应用方法与装置,用于实现语义关键词和语用关键词的区别检索,以根本改善互联网信息发布、检索效率。一种语用关键词通用模版的生成方法,其主要流程步骤如下
采用随机抽样的方法获得任意关键词的检索结果;统计检索结果中的各类语用关键词的应用频率;调用高频语用关键词生成语用关键词通用模版;一种统计检索结果中的各类语用关键词的应用频率的方法,其特征在于,包括以下步骤统计结构化数据、半结构数据中的结构标签的应用频率;统计无结构信息中标点符号冒号与关键词形成的固定搭配的应用频率;统计语用关键词的嵌套关系及应用频率;统计不同发布主体分类下的语用关键词应用频率;统计不同语义关键词与语用关键词的关联应用频率;统计在语用关键词模版中由用户自由扩展的语用关键词使用频率。一种调用高频语用关键词生成语用关键词通用模版的方法,其步骤包括当没有获得用户选择的主体分类时,生成或调用不区分发布信息主体的、包括嵌套语用关键词的语用关键词通用模版;当获得用户选择的主体分类时,生成或调用区分发布信息主体的、包括嵌套语用关键词的语用关键词通用模版;当获得用户输入的语义关键词时,根据该语义关键词与语用关键词的关联应用频率,生成或调用不同语义关键词输入结果下的通用语用关键词模版;一种采用语用关键词模版发布信息的方法,其步骤包括从发布信息中获得语义关键词;生成或调用包括嵌套语用关键词语用关键词通用模版;获得用户点击的语用关键词;将该语用关键词添加语用关键词标示符后插入到任意文件中,或者,在该语用关键词对应的信息输入框中获得语义关键词;一种采用语用关键词模版检索信息的方法,其步骤包括调用检索语用关键词的通用模版;获得用户输入的检索用语义关键词和在语用关键词模版中选择的语用关键词;用用户输入的语义关键词和选择的语用关键词匹配发布信息中的语义关键词和语用关键词;调用并显示语义关键词和该语用关键词匹配成功的对应发布信息。
—种语用关键词通用模版生成和应用装置,包括统计模块,用于统计语用关键词各类应用频率;存储模块,用于存储含有嵌套语用关键词的语用关键词通用模版及不同主体选择结果、不同关键词输入结果下的语用关键词通用模版;接口模块,用于用户调用通用语用关键词模版,并在语用关键词模版导航下发布、检索相关信息。本发明的目的是,通过统计任意关键词的语用关键词应用频率,生成一个可以适用于各类信息发布、检索的语用关键词通用模版,通过语义关键词和语用关键词的组合发布、检索,根本改善互联网信息的发布、检索效率。


图I为生成语用关键词通用模版的主要方法流程2为语用关键词通用模版示意3为不同信息主体语用关键词通用模版示意图;图4为嵌套语用关键词模版示意5A为不同语义关键词输入结果下的语用关键词模版示意图I图5B为不同语义关键词输入结果下的语用关键词模版示意图2图6为语用关键词及对应信息发布的主要方法流程7为为语义关键词结构化输入框示意8为在网页信息中添加语用关键词的操作结果示意9为可以由用户自由添加语用关键词的语用关键词发布模版示意10为语用关键词及对应信息检索的主要方法流程流程11为语义关键词与语用关键词组合检索模版示意12为检索结果显示界面示意13为相关装置结构示意图
具体实施例方式本发明通过统计任意关键词的语用关键词应用频率,生成一个可以适用于各类信息发布、检索的语用关键词通用模版,通过语义关键词和语用关键词的组合发布、检索,根本改善互联网信息的发布、检索效率。本实施例中的“语义关键词”是指指示目标信息主题的关键词。并且,语义关键词可以是词、组合词、句子、文本段落。本实施例中的“语用关键词”是指指示语义关键词相关信息的功能与效用的关键词。本实施例中的“语用关键词”既包括结构化数据的结构标签,也包括非结构化信息中的固定搭配语用关键词,如,任意语用关键词和标点符号“”组合形成的固定搭配语用关键词“产品说明”。本实施例中的“语用关键词通用模版”,是指在全文关键词检索和结构化信息检索栏中随机输入任意关键词,获得检索结果链接网页,在网页信息中统计语用关键词使用频率,从统计结果中抽取高频语用关键词,用分类集成方法显示的可以适用于任意关键词及相关信息发布、检索的语用关键词模版(参见图2)。在图2中,顶行是语义关键字输入区,第2行是供用户选择的发布、检索信息主体分类,第三行是语用关键词分类结果,以下各行是分类下的语用关键词。在语用关键词同格内的符号“ O ”,是与该语用关键词的相关信息输入栏示意;语用关键词分类中的“其它”和分类下的语用关键词中的“其它”,是指可以自由填入内容的语用关键词标签。在图3中的“发布信息主体分类”是指发布方的主体属性分类。例如,中央电视台的主体属性是“新闻媒体”,国务院的主体属性是“机构”,中国移动公司的主体属性是“企业”.......在图4中,语用关键词“产品成分”、“产品型号”、“产品应用方法”等语用关键词是语用关键词“产品说明”的下层嵌套语用关键词。在图5A、图5B中的语用关键词,是根据用户输入的语义关键词调用的常用语用关键词。 如图5A,当获得语用关键词模版中的“人际交往”分类下的语用关键词“交往目的”标签下的输入框内输入的语义关键词是“招聘”时,调用相关高频应用语用关键词“工薪报酬”;当获得语用关键词模版中的“人际交往”类中的“交往目的”标签下的输入框内输入的语义关键词是“征婚”时,则调用相关高频应用语用关键词“居住条件”。参见图I、图2,本实施例中生成语用关键词通用模版的主要方法流程,其步骤包括步骤101 :采用随机抽样的方法获得任意关键词的检索结果;具体的,在任意关键词搜索服务平台的搜索关键词输入框内随机输入任意关键词(如NBA、国家发改委、智能
手机、云计算、韩寒、欧美大片......),获得全文关键词搜索和结构化信息搜索结果中的语
用关键词;步骤102 :统计检索结果中的各类语用关键词的应用频率;具体的,统计结构化数据、半结构数据中的结构标签的应用频率;统计无结构信息中标点符号冒号与关键词形成的固定搭配的应用频率;统计语用关键词的嵌套关系及应用频率;统计不同发布主体分类下的语用关键词应用频率;统计不同语义关键词与语用关键词的关联应用频率;统计在语用关键词模版中由用户自由扩展的语用关键词使用频率。统计在语用关键词模版中由用户自由扩展的语用关键词使用频率(如图9);图9中的加粗黑框中的词为用户自由添加的语用关键词分类和语用关键词。步骤103 :调用高频语用关键词生成语用关键词通用模版;具体的,参见图2,当没有获得用户选择的主体分类时,生成或调用不区分发布信息主体的、包括嵌套语用关键词的语用关键词通用模版;参见图3,当获得用户选择的主体分类时,根据不同发布主体分类下的语用关键词应用频率统计结果,提取相关高频语用关键词,生成或调用区分发布信息主体的、包括嵌套语用关键词的语用关键词通用模版;例如,在“机构”类的语用关键词模版中,调用模版中不包括低应用频率的产品类语用关键词。
参见图4,根据语用关键词的嵌套关系及应用频率统计结果,提取可嵌套于上层语用关键词的下层高频语用关键词,生成语用关键词通用模版的下层嵌套模版;例如,在“产品”分类下的语用关键词“产品说明”中,嵌套“产品成分、产品型号”等下层语用关键词;参见图5,根据不同语义关键词与语用关键词的关联应用频率统计结果,提取相关高频语用关键词,生成不同语义关键词输入结果下 的通用语用关键词模版;例如,当语用关键词分类“人际交往”下的语用关键词“交往目的”的语义关键词输入栏中获得的语用关键词是“招聘”时,提取的“人际交往”分类下的高频语用关键词包括“薪资待遇”;当语用关键词分类“人际交往”下的语用关键词“交往目的”的语义关键词输入栏中获得的语用关键词是“交友”时,提取的相关高频语用关键词不包括“薪资待遇”,而是“是否已婚”。一种采用语用关键词模版发布信息的方法,其步骤包括参见图6、图7、图8,步骤601 :从发布信息中获得语义关键词;具体的,如图7、图8所示,从语义关键词输入框或者从各类信息的自动分词结果中获得语义关键词;图7为用于输入语义关键词的语义关键词结构化输入框步骤602 :生成或调用包括嵌套语用关键词语用关键词通用模版;具体的,当没有获得用户选择的主体分类时,生成或调用不区分发布信息主体的、包括嵌套语用关键词的语用关键词通用模版;当获得用户选择的主体分类时,生成或调用区分发布信息主体的、包括嵌套语用关键词的语用关键词通用模版;当获得用户输入的语义关键词时,根据该语义关键词与语用关键词的关联应用频率,生成或调用不同语义关键词输入结果下的通用语用关键词模版;步骤603 :获得用户点击的语用关键词;步骤604:将该语用关键词添加语用关键词标示符后,插入到任意文件中,或者,在该语用关键词对应的信息输入框中获得语义关键词;图8为步骤604在文本中添加有特殊标示符的语用关键词的结果示意图。其中的带括号的词为该语用关键词,括号“ O ”为添加语用关键词标示符。一种采用语用关键词模版检索信息的应用方法,其步骤包括参见图10、图11,步骤1001 :根据用户的主体分类选择结果,获得检索对象的主体分类,调用相应的语用关键词通用模版;具体的,该模板中的语用关键词分类、语用关键词、调用步骤与发布信息相同。步骤1002 :获得用户输入的检索用语义关键词和在语用关键词模版中选择的语用关键词;具体的,在检索语义关键词的输入框中获得用户输入的检索用语义关键词;本实施例中的“检索语义关键词的输入框”即包括独立提供的关键词输入框,也包括不同语用关键词标签下的语义关键词输入框。例如,图11中顶部的输入框为独立提供的关键词输入框,以下的语用关键词下的关键词输入框“ O ”为不同语用关键词标签下的语义关键词输入框。
步骤1003 :用用户输入的语义关键词和选择的语用关键词匹配发布信息中的语义关键词和语用关键词;并且可在语义关键词匹配成功后再匹配语用关键词。例如,当获得的检索关键词包括语义关键词输入框中的“NBA篮球比赛直播”和语用关键词模版上的选择结果“时间”时,先匹配语义关键词“NBA篮球比赛直播”,当“NBA篮球比赛直播”在发布信息中匹配成功后,再匹配语用关键词“时间”。步骤1004 :调用并显示语义关键词和该语用关键词匹配成功的对应发布信息。具体的,如果语用关键词也匹配成功,则既可以调用在语用关键词通用模版中输入的语义关键词和语用关键词对应的发布信息,也可以调用并显示文本或其他形式数据中的语义关键词、语用关键词及对应发布信息。在步骤1004中,用用户输入的语义关键词时,即包括匹配任意文件中的关键词分词结果,也包括语用关键词下的语义关键词分词结果在步骤1004中,用用户选择的语用关键词匹配发布信息中匹配发布信息中的语 用关键词时,既包括匹配语用关键词结构标签,也包括匹配非结构化信息中的固定搭配语用关键词。在步骤1004中,当在步骤1003中获得的检索用户语用关键词是语用关键词分类标签,则调用该分类下的整条发布信息。例如,如图11第三行所示,当获得的语用关键词标签是“新闻□”,则调用新闻分类下所有语用关键词的对应信息。例如,如图12所示,调用并显示该语用关键词对应的发布信息,既可以是如图12中的“检索结果I、2”,也可以如图12中的“检索结果3”。参见图13,一种语用关键词模版的生成、应用装置,包括统计模块,用于统计语用关键词各类应用频率;存储模块,用于存储含有嵌套语用关键词的语用关键词通用模版及不同主体选择结果、不同关键词输入结果下的语用关键词通用模版;接口模块,用于用户调用通用语用关键词模版,并在语用关键词模版导航下发布、检索相关信息。从上述实施例中可以看出,本发明通过统计与任意语义关键词相关的各类语用关键词的应用频率、发布信息主体分类、语用关键词的嵌套关系和不同语义关键词输入结果下语用关键词的应用频率,提供了一个可以适用于各类信息发布、检索的语用关键词通用模版。与提供千差万别的结构化模版相比,可以在尽可能低的用户操作难度下实现海量信息的高效发布、检索效率。同时,该语用关键词通用模版中的语用关键词即可以添加到发布信息文件中,也可以直接在语用关键词模版的导航下直接发布相关信息。因此,可以同时满足各类结构化数据和非结构化数据的组合检索需求。第三,通过该语用关键词模板进行语义关键词和语用关键词的组合检索,可以明确区别信息检索时所输入的关键词是语义关键词还是语用关键词,从而根本改善海量信息的检索效率。最后,在语用关键词模板导航下发布的数据可以作为互联网信息的通用核心数据,通过自由链接各类云存储文件(文本、图片、视频、音频、结构化数据),解决互联网网站信息云存储服务的关键性瓶颈,实现互联网信息云存储服务的大规模普及应用。本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。 这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
权利要求
1.一种语用关键词通用模版的生成、应用方法与装置,其特征在于, 统计网页信息检索结果中的各类语用关键词的应用频率; 调用高频语用关键词生成语用关键词通用模版; 采用语用关键词通用模版发布信息; 采用语用关键词通用模版检索信息;
2.如权利要求I所述的统计检索结果中的各类语用关键词的应用频率的 方法,其特征在于,包括以下步骤 统计结构化数据、半结构数据中的结构标签的应用频率; 统计无结构信息中标点符号冒号与关键词形成的固定搭配的应用频率; 统计语用关键词的嵌套关系及应用频率; 统计不同发布主体分类下的语用关键词应用频率; 统计不同语义关键词与语用关键词的关联应用频率; 统计在语用关键词模版中由用户自由扩展的语用关键词使用频率。
3.如权利要求I所述的调用高频语用关键词生成语用关键词通用模版的方法,其特征在于,包括以下步骤 当没有获得用户选择的主体分类时,生成或调用不区分发布信息主体的、包括嵌套语用关键词的语用关键词通用模版; 当获得用户选择的主体分类时,生成或调用区分发布信息主体的、包括嵌套语用关键词的语用关键词通用模版; 当获得语义关键词时,根据该语义关键词与语用关键词的关联应用频率,生成或调用不同语义关键词输入结果下的通用语用关键词模版;
4.如权利要求I所述的一种采用语用关键词通用模版发布信息的方法, 其特征在于,包括以下步骤 从发布信息中获得语义关键词; 调用语用关键词通用模版; 获得用户点击的语用关键词; 将该语用关键词加上语用关键词标示符添加到任意文件中,或者, 在该语用关键词对应的信息输入框中获得语义关键词;
5.如权利要求I所述的一种采用语用关键词通用模版检索信息的方法,其特征在于,包括以下步骤 调用检索语用关键词的通用模版; 获得检索用语义关键词和语用关键词; 用用户输入的语义关键词和选择的语用关键词匹配发布信息中的语义关键词和语用关键词; 调用并显示语义关键词和该语用关键词匹配成功的对应发布信息。
6.如权利要求5所述的一种采用语用关键词通用模版的信息检索方法,其特征在于,用用户输入的语义关键词匹配发布信息中的的语义关键词,即包括匹配任意文件中的关键词分词结果,也包括匹配语用关键词下的语义关键词分词结果。
7.如权利要求5所述的一种采用语用关键词通用模版的信息检索方法,其特征在于,用用户选择的语用关键词匹配发布信息中的语用关键词,既包括匹配语用关键词结构标签,也包括匹配非结构化信息中的语用关键词。
8.如权利要求5所述的一种采用语用关键词通用模版的信息检索方法,其特征在于,在语义关键词匹配成功后再匹配语用关键词。
9.如权利要求5所述的一种采用语用关键词通用模版的信息检索方法,其特征在于,当获得的检索语用关键词是语用关键词分类标签,则调用该分类下的整条发布信息。
10.如权利要求I所述的语用关键词导航模版的生成和应用方法的装置,其特征在于,包括统计模块、存储模块、接口模块;其中 统计模块,用于统计语用关键词各类应用频率; 存储模块,用于存储含有嵌套语用关键词的语用关键词通用模版及不同主体选择结果、不同关键词输入结果下的语用关键词通用模版; 接口模块,用于用户调用通用语用关键词模版,并在语用关键词模版导航下发布、检索相关信息。
全文摘要
本发明公开了一种语用关键词模版的生成、应用方法和装置,用于提高搜索信息的准确度。所述方法通过统计与任意语义关键词相关的语用关键词应用频率,生成一个可以适用于各类信息发布、检索的语用关键词通用模版,通过语义关键词和语用关键词的组合发布、检索,根本改善互联网信息的发布、检索效率。
文档编号G06F17/27GK102902711SQ20121028141
公开日2013年1月30日 申请日期2012年8月9日 优先权日2012年8月9日
发明者刘莎 申请人:刘莎
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1