网络资源的泛搜索方法和装置与流程

文档序号:12177377阅读:560来源:国知局
网络资源的泛搜索方法和装置与流程
本发明涉及网络资源搜索领域,尤其涉及一种网络资源的泛搜索方法和装置。
背景技术
:目前的网络资源(例如网页、文本、音乐、图片、视频等)垂直搜索基本上是对明确的实体词进行命中,对泛搜索词几乎不命中,或者命中的泛搜索词很少,只有一些大类别的泛搜索词可以展现出结果。以视频搜索为例,在利用例如电影、电视剧等的大类别的泛搜索词进行搜索的情况下,可以展现出结果;而在利用例如小清新电影、90年代小清新电影、励志电影、泰语电影、挪威电影、经典电影、迈克尔摩尔电影、90年代电视剧等的一些细分标签泛搜索词进行搜索的情况下,则无法命中到,从而无法展现出结果。技术实现要素:技术问题有鉴于此,本发明要解决的技术问题是,如何精确地进行网络资源的泛搜索。解决方案为了解决上述技术问题,根据本发明的一实施例,提供了一种网络资源的泛搜索方法,包括:对泛搜索词进行分词处理,以得到各分词结果;在预先建立的数据库中查找,以得到与各所述分词结果相对应的网络资源;以及将与各所述分词结果相对应的网络资源进行组合。对于上述方法,在一种可能的实现方式中,还包括:预先建立标签标准词库,在所述标签标准词库中,按照不同的属性分类存储关键词,并存储与该关键词相对应的数字编号;以及预先建立资源索引库,在所述资源索引库中,存储网络资源与该网络资源的各关键词相对应的数字编号。对于上述方法,在一种可能的实现方式中,在预先建立的数据库中查找,以得到与各所述分词结果相对应的网络资源,包括:在所述标签标准词库中查找,以得到与各所述分词结果相对应的数字编号;以及在所述资源索引库中查找,以得到与各所述数字编号相对应的网络资源。对于上述方法,在一种可能的实现方式中,将与各所述分词结果相对应的网络资源进行组合包括:取与各所述分词结果相对应的网络资源的交集。对于上述方法,在一种可能的实现方式中,所述属性包括:地区、人物、排序、常用词、同义词、时间、标签、节目类型和语言中的至少一项。为了解决上述技术问题,根据本发明的另一实施例,提供了一种网络资源的泛搜索装置,包括:分词模块,用于对泛搜索词进行分词处理,以得到各分词结果;查找模块,与所述分词模块连接,用于在预先建立的数据库中查找,以得到与各所述分词结果相对应的网络资源;以及组合模块,与所述查找模块连接,用于将与各所述分词结果相对应的网络资源进行组合。对于上述装置,在一种可能的实现方式中,还包括:第一创建模块,用于预先建立标签标准词库,在所述标签标准词库中,按照不同的属性分类存储关键词,并存储与该关键词相对应的数字编号;以及第二创建模块,用于预先建立资源索引库,在所述资源索引库中,存储网络资源与该网络资源的各关键词相对应的数字编号。对于上述装置,在一种可能的实现方式中,所述查找模块包括:第一查找单元,用于在所述标签标准词库中查找,以得到与各所述分词结果相对应的数字编号;以及第二查找单元,用于在所述资源索引库中查找,以得到与各所述数字编号相对应的网络资源。对于上述装置,在一种可能的实现方式中,所述组合模块具体用于:取与各所述分词结果相对应的网络资源的交集。对于上述装置,在一种可能的实现方式中,所述属性包括:地区、人物、排序、常用词、同义词、时间、标签、节目类型和语言中的至少一项。有益效果通过对泛搜索词进行分词处理,然后在预先建立的数据库中查找,并将与各所述分词结果相对应的网络资源进行组合,根据本发明实施例的网络资源的泛搜索方法和装置能够较为精确地命中用户在输入泛搜索词时所期望的网络资源,从而实现了精确地进行网络资源的泛搜索。根据下面参考附图对示例性实施例的详细说明,本发明的其它特征及方面将变得清楚。附图说明包含在说明书中并且构成说明书的一部分的附图与说明书一起示出了本发明的示例性实施例、特征和方面,并且用于解释本发明的原理。图1示出根据本发明一实施例的网络资源的泛搜索方法的流程图;图2示出根据本发明另一实施例的网络资源的泛搜索方法的流程图;图3示出根据本发明一实施例的网络资源的泛搜索装置的结构框图;图4示出根据本发明另一实施例的网络资源的泛搜索装置的结构框图;图5示出根据本发明又一实施例的网络资源的泛搜索装置的结构框图。具体实施方式以下将参考附图详细说明本发明的各种示例性实施例、特征和方面。附图中相同的附图标记表示功能相同或相似的元件。尽管在附图中示出了实施例的各种方面,但是除非特别指出,不必按比例绘制附图。在这里专用的词“示例性”意为“用作例子、实施例或说明性”。这里作为“示例性”所说明的任何实施例不必解释为优于或好于其它实施例。另外,为了更好的说明本发明,在下文的具体实施方式中给出了众多的具体细节。本领域技术人员应当理解,没有某些具体细节,本发明同样可以实施。在一些实例中,对于本领域技术人员熟知的方法、手段、元件和电路未作详细描述,以便于凸显本发明的主旨。实施例1图1示出根据本发明一实施例的网络资源的泛搜索方法的流程图。如图1所示,该网络资源的泛搜索方法主要包括:步骤S100、对泛搜索词进行分词处理,以得到各分词结果;步骤S200、在预先建立的数据库中查找,以得到与各所述分词结果相对应的网络资源;以及步骤S300、将与各所述分词结果相对应的网络资源进行组合。其中,网络资源可以是例如网页、文本、音乐、图片、视频等的可以利用互联网获取到的资源。以视频为例,明确的实体词可以是想要搜索的视频的标题;而泛搜索词则可以是小清新电影、悬疑电视剧等具有笼统含义的词语。举例而言,在用户输入泛搜索词“小清新电影”的情况下,在步骤S100中对该泛搜索词“小清新电影”进行分词处理,得到分词结果“小清新”和“电影”。然后,在步骤S200中,分别针对分词结果“小清新”和“电影”在预先建立的数据库中查找,该数据库中可以预先存储有网络资源与用于表征该网络资源的属性的关键词之间的对应关系,从而能够得到与分词结果“小清新”相对应的网络资源,以及与分词结果“电影”相对应的网络资源。最后,在步骤S300中,将与分词结果“小清新”相对应的网络资源、以及与分词结果“电影”相对应的网络资源进行组合,之后推送给用户。其中,在符合条件的网络资源为多个的情况下,可以按照网络资源的发布时间、点击量、或者评分的顺序来展现。尽管以网络资源为“视频”、泛搜索词为“小清新电影”作为示例介绍了根据本发明上述实施例的网络资源的泛搜索方法如上,但本领域技术人员能够理解,在网络资源为其它资源、泛搜索词为其它词语的情况下,按照同样的方法同样能够得到期望的网络资源。这样,通过对泛搜索词进行分词处理,然后在预先建立的数据库中查找,并将与各所述分词结果相对应的网络资源进行组合,根据本发明上述实施例的网络资源的泛搜索方法能够较为精确地命中用户在输入泛搜索词时所期望的网络资源,从而实现了精确地进行网络资源的泛搜索。实施例2图2示出根据本发明另一实施例的网络资源的泛搜索方法的流程图。图2中标号与图1相同的步骤具有相同的功能,为简明起见,省略对这些步骤的详细说明。如图2所示,本实施例的网络资源的泛搜索方法在实施例1所述的网络资源的泛搜索方法的基础上,还包括:步骤S400、预先建立标签标准词库,在所述标签标准词库中,按照不同的属性分类存储关键词,并存储与该关键词相对应的数字编号,其中,所述属性可以包括:地区、人物、排序、常用词、同义词、时间、标签、节目类型和语言中的至少一项;以及步骤S500、预先建立资源索引库,在所述资源索引库中,存储网络资源与该网络资源的各关键词相对应的数字编号。在一种可能的实现方式中,所述步骤S400具体可以通过如下所述的数据处理的过程来实现,其中不仅建立了标签标准词库,还对标签标准词库进行了完善:1.建立标签标准词库:收集创建地区、人物、排序、常用词、同义词、时间、标签、节目类型、语言等数据词库,并对各种数据进行唯一编号处理。2.爬取节目标签并与主库数据关联:通过爬虫抓取互联网节目(也即上述的网络资源)及节目对应标签,一方面标签可以补充标准词库数据,另一方面可以通过爬取节目对应的标签数据填补主库(也即上述的资源索引库)的资源对应标签,这一步需要爬去节目与主库节目进行比对处理。3.整合节目标签数据创建索引:根据节目及其标签和统计日志的节目命中数进行索引的创建,不同标签类型创建到不同的字段中,例如地区、人物、时间等标签数据分开创建到不同字段中,这些字段存储的是标签的数字编号,不进行文字索引创建;其中命中数字段是索引查询结果进行排序使用的。举例而言,仍以网络资源是视频为例,标签标准词库可以如表1所示,优选地,该标签标准词库将相同属性(或者说相同类型)的关键词存储到相同的字段中,并为不同属性的关键词分配不同的字段,以提高步骤S200的查找速度。表1标签标准词库示例属性(地区)数字编号属性(标签)数字编号属性(节目类型)数字编号…中国101小清新201电影301…美国102悬疑202电视剧302…日本103励志203娱乐节目303…韩国104经典204MV304…………………另外,在一种可能的实现方式中,资源索引库可以如表2所示,在该资源索引库中,存储了网络资源与用于表征该网络资源的属性的各关键词相对应的数字编号,关键词即如表1中所示的具有属性的词语,例如“小清新”、“悬疑”、“电影”等,其中,在“网络资源”这一字段,用“A”、“B”、“C”、“D”、“E”示出了网络资源所对应的标题,根据该标题能够索引到相对应的网络资源。表2中按照表征网络资源的属性分配了字段,但是本领域技术人员应当能够理解,本发明不限于此,也可以不用按照属性来分配字段。另外,网络资源所对应的某个属性还有可能存在多个关键词,例如网络资源“B”的标签有“202”所对应的“悬疑”以及“204”所对应的“经典”。表2资源索引库示例网络资源属性(地区)属性(标签)属性(节目类型)属性(年代)…A101201301401…B102202、204301402…C101203303403…D101201302403E103201301404………………这样,在上述实现方式中,可以利用如下所述的数据展示处理来向用户展示结果:1.请求query分词处理:对请求的query进行分词,分词词库使用标签标准词库,分词字段按标签标准词库里面不同类型进行分开处理,并且分词结果为标签不同类型的数字编号。2.分词结果索引查询并返回结果:拿到分词结果,根据分词字段不同类别的标签数据进行组合,到资源索引库中对应的字段中条件查找符合的数据结果,并返回给前端展示结果。换言之,步骤S200、在预先建立的数据库中查找,以得到与各所述分词结果相对应的网络资源,可以包括:在如表1所示的标签标准词库中查找,以得到与各所述分词结果相对应的数字编号;以及在如表2所示的资源索引库中查找,以得到与各所述数字编号相对应的网络资源。举例而言,同样以泛搜索词为“小清新电影”为例,则通过在如表1所示的标签标准词库中查找,可以得到与泛搜索词为“小清新电影”的分词结果“小清新”相对应的数字编号“201”,与分词结果“电影”相对应的数字编号“301”。然后在如表2所示的资源索引库中查找,可以得到与数字编号“201”相对应的网络资源“A”、“D”和“E”,与数字编号“301”相对应的网络资源“A”、“B”和“E”。在一种可能的实现方式中,步骤S300、将与各所述分词结果相对应的网络资源进行组合包括:取与各所述分词结果相对应的网络资源的交集。例如,在如上所述根据泛搜索词“小清新电影”的分词结果分别得到相对应的网络资源组{“A”、“D”和“E”}和{“A”、“B”和“E”}的情况下,取这两个网络资源组的交集,即得到网络资源“A”和“E”,然后将这两个网络资源推送给用户。其中,可以按照网络资源的发布时间、点击量、或者评分的顺序来展现。尽管以网络资源为“视频”、泛搜索词为“小清新电影”作为示例介绍了根据本发明上述实施例的网络资源的泛搜索方法如上,但本领域技术人员能够理解,在网络资源为其它资源、泛搜索词为其它词语、对泛搜索词进行分词得到了三个以上的分词结果的情况下,按照同样的方法同样能够得到期望的网络资源。这样,通过对泛搜索词进行分词处理,然后在预先建立的数据库中查找,并将与各所述分词结果相对应的网络资源进行组合,根据本发明上述实施例的网络资源的泛搜索方法能够较为精确地命中用户在输入泛搜索词时所期望的网络资源,从而实现了精确地进行网络资源的泛搜索。如在
背景技术
中所述,现有的泛搜索词命中率太低,几乎不命中;并且,即使命中之后所展现的网络资源也少,排序不好;人工维护成本太高。而根据本发明上述实施例的网络资源的泛搜索方法对泛节目搜索词进行归类聚合,根据不同的泛节目搜索词提供相应的分类节目聚合结果,提升了用户体验,增加了用户点击量;并且,本方案标签的获取和节目比对及索引创建的整个过程均为程序自动完成,无需人工支持,减少了人力成本。实施例3图3示出根据本发明一实施例的网络资源的泛搜索装置100的结构框图。如图3所示,该网络资源的泛搜索装置100主要包括:分词模块110、查找模块120和组合模块130。其中,分词模块110用于对泛搜索词进行分词处理,以得到各分词结果;查找模块120与分词模块110连接,用于在预先建立的数据库中查找,以得到与各所述分词结果相对应的网络资源;组合模块130与查找模块120连接,用于将与各所述分词结果相对应的网络资源进行组合。分词模块110、查找模块120和组合模块130的具体实现机理可以参考实施例1中针对步骤S110至S130的描述,并且,根据本发明上述实施例的网络资源的泛搜索装置100能够取得与实施例1所述的网络资源的泛搜索方法相同的有益效果,这里不再赘述。图4示出根据本发明另一实施例的网络资源的泛搜索装置200的结构框图。图4中标号与图3相同的组件具有相同的功能,为简明起见,省略对这些组件的详细说明。如图4所示,本实施例的网络资源的泛搜索装置200在网络资源的泛搜索装置100的基础上,还包括:第一创建模块140和第二创建模块150。其中,第一创建模块140用于预先建立标签标准词库,在标签标准词库中,按照不同的属性分类存储关键词,并存储与该关键词相对应的数字编号,所述属性可以包括:地区、人物、排序、常用词、同义词、时间、标签、节目类型和语言中的至少一项;第二创建模块150用于预先建立资源索引库,在所述资源索引库中,存储网络资源与该网络资源的各关键词相对应的数字编号。另外,在一种可能的实现方式中,在本实施例的网络资源的泛搜索装置200中,查找模块120可以包括:第一查找单元121和第二查找单元122。其中,第一查找单元121用于在所述标签标准词库中查找,以得到与各所述分词结果相对应的数字编号;第二查找单元122用于在所述资源索引库中查找,以得到与各所述数字编号相对应的网络资源。当然,也不可以不对查找模块120进行如上所述的细分,而直接将查找模块120配置为在标签标准词库和资源索引库中进行查找。在一种可能的实现方式中,在本实施例的网络资源的泛搜索装置200中,组合模块130具体用于:取与各所述分词结果相对应的网络资源的交集。第一创建模块140和第二创建模块150的具体实现机理、以及查找模块120的可能实现方式可以参考实施例2中针对步骤S140至S150的描述、以及对步骤S120的进一步说明,并且,根据本发明上述实施例的网络资源的泛搜索装置200能够取得与实施例2所述的网络资源的泛搜索方法相同的有益效果,这里不再赘述。实施例4图5示出了本发明的又一实施例的一种网络资源的泛搜索装置1100的结构框图。所述网络资源的泛搜索装置1100可以是具备计算能力的主机服务器、个人计算机PC、或者可携带的便携式计算机或终端等。本发明具体实施例并不对计算节点的具体实现做限定。所述网络资源的泛搜索装置1100包括处理器(processor)1110、通信接口(CommunicationsInterface)1120、存储器(memory)1130和总线1140。其中,处理器1110、通信接口1120、以及存储器1130通过总线1140完成相互间的通信。通信接口1120用于与网络设备通信,其中网络设备包括例如虚拟机管理中心、共享存储等。处理器1110用于执行程序。处理器1110可能是一个中央处理器CPU,或者是专用集成电路ASIC(ApplicationSpecificIntegratedCircuit),或者是被配置成实施本发明实施例的一个或多个集成电路。存储器1130用于存放文件。存储器1130可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatilememory),例如至少一个磁盘存储器。存储器1130也可以是存储器阵列。存储器1130还可能被分块,并且所述块可按一定的规则组合成虚拟卷。在一种可能的实施方式中,上述程序可为包括计算机操作指令的程序代码,该程序具体可用于实现上述实施例1-2中所述的网络资源的泛搜索的方法所包括的各步骤。具言之,该程序具体可用于:对泛搜索词进行分词处理,以得到各分词结果;在预先建立的数据库中查找,以得到与各所述分词结果相对应的网络资源;以及将与各所述分词结果相对应的网络资源进行组合。并且,上述程序具体还可用于:预先建立标签标准词库,在所述标签标准词库中,按照不同的属性分类存储关键词,并存储与该关键词相对应的数字编号,其中,所述属性包括:地区、人物、排序、常用词、同义词、时间、标签、节目类型和语言中的至少一项;以及预先建立资源索引库,在所述资源索引库中,存储网络资源与该网络资源的各关键词相对应的数字编号。并且,上述程序具体还可用于:在所述标签标准词库中查找,以得到与各所述分词结果相对应的数字编号;以及在所述资源索引库中查找,以得到与各所述数字编号相对应的网络资源。并且,上述程序具体还可用于:取与各所述分词结果相对应的网络资源的交集。本领域普通技术人员可以意识到,本文所描述的实施例中的各示例性单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件形式来实现,取决于技术方案的特定应用和设计约束条件。专业技术人员可以针对特定的应用选择不同的方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。如果以计算机软件的形式来实现所述功能并作为独立的产品销售或使用时,则在一定程度上可认为本发明的技术方案的全部或部分(例如对现有技术做出贡献的部分)是以计算机软件产品的形式体现的。该计算机软件产品通常存储在计算机可读取的非易失性存储介质中,包括若干指令用以使得计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各实施例方法的全部或部分步骤。而前述的存储介质包括U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,RandomAccessMemory)、磁碟或者光盘等各种可以存储程序代码的介质。以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本
技术领域
的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。当前第1页1 2 3 
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1