多媒体资源纠错检索方法、多媒体资源服务器及系统的制作方法

文档序号:6522706阅读:198来源:国知局
多媒体资源纠错检索方法、多媒体资源服务器及系统的制作方法
【专利摘要】本申请公开了多媒体资源纠错检索方法、服务器及系统,其中,所述方法包括:对关键词进行切分处理以获得两个关键词字段;分别根据关键词字段在资源索引名称库中匹配,对每个关键词字段,获取匹配的资源索引名称;对关键词与匹配的资源索引名称进行相似度分析,选定相似度最高的资源索引名称作为目标资源索引名称;根据目标资源索引名称,结合资源索引名称库中每个资源索引名称与多媒体资源的关联关系,获取与目标资源索引名称对应的多媒体资源。通过获取与关键词部分匹配的资源索引名称,在部分匹配的资源索引名称中获取与关键词相似度最高的资源索引名称,进而获取关联的多媒体资源,用户即使出现输入错误,也能够检索到关联的多媒体资源。
【专利说明】多媒体资源纠错检索方法、多媒体资源服务器及系统
【技术领域】
[0001]本申请涉及检索【技术领域】,具体涉及一种多媒体资源纠错检索方法、多媒体资源服务器及系统。
【背景技术】
[0002]随着互联网技术的普及和发展,用户越来越多的在互联网上检索自己喜爱的音乐或视频等多媒体资源。例如,在影视类网站上,用户可以在检索框中输入要检索的节目名称或者演员姓名等对自己想观看的视频资源进行检索,在很多情况下,用户可能不能完整而准确的记住视频资源的名称,或者因为误操作而输入了错误的视频资源名称,这时影视类网站往往无法准确匹配到适合的视频资源提供给用户观看。类似的,在用户在音乐网站上,对某一首歌进行检索时,也可能由于无法输入该首歌完整而准确的歌曲名称,导致无法准确匹配到适合的歌曲提供给用户收听。
[0003]在实际应用中,用户输入的资源索引名称,可以称之为一组文字数据,该文字可以包括汉字、数字、字母等类型,或者其组合,通常可以定义当一位文字数据错误输入或漏输入、多输入时,称为编辑距离为1,在二位文字数据错误输入或漏输入时,称为编辑距离为2,以此类推,统计表明,编辑距离为I的情形占文字数据错误输入或漏输入的95%以上的比例。
[0004]目前,在现有技术的音乐或影视类网站上,都存在由于用户输入了错误或不完整的资源索引名称而无法匹配到合适的多媒体资源的问题,导致服务器对该类多媒体资源进行检索的成功率低。

【发明内容】

[0005]本申请所要解决的技术问题在于提供多媒体资源纠错检索方法、多媒体资源服务器及系统,将关键词进行切分得到两个以上的关键词字段,根据关键词字段与资源索引名称进行匹配,通过对匹配的资源索引名称和关键词进行相似度分析,获取与所述关键词相似度最高的资源索引名称,作为用户真正想输入的目标资源索引名称,根据该目标资源索引名称获取关联的多媒体资源,能够极大地提高用户检索的成功率,并大大提高服务器的资源纠错检索速度。
[0006]为了解决上述问题,本申请揭示了多媒体资源纠错检索方法,包括:对所述关键词进行切分处理以获得至少两个关键词字段;分别根据所述至少两个关键词字段在资源索引名称库中进行匹配,对于每个关键词字段,获取相匹配的资源索引名称;对所述关键词与所述匹配的资源索引名称进行相似度分析,选定与所述关键词相似度最高的资源索引名称作为目标资源索引名称;根据所述目标资源索引名称,结合所述资源索引名称库中每个资源索引名称与多媒体资源之间的关联关系,获取与所述目标资源索引名称对应的多媒体资源。
[0007]进一步地,所述对所述关键词进行切分处理以获得至少两个关键词字段的操作,具体包括:对所述关键词采用折半方式进行切分处理以获得两个关键词字段。
[0008]进一步地,所述资源索引名称库为预先配置,其中保存有资源索引名称以及每个资源索引名称与多媒体资源之间的关联关系;配置所述资源索引名称库时,对在预设时间段内接收到的关键词进行统计,获取在所述预设时间段内接收次数超过第一预设阈值的关键词,将所述接收次数超过第一预设阈值的关键词作为资源索引名称保存在所述资源索引名称库中。
[0009]进一步地,所述方法还包括:根据所述资源索引名称库中的每个资源索引名称的历史接收次数以及在预设时间段内的接收次数进行加权处理,获取每个资源索引名称的权重值;在获取的与所述关键词相似度最高的资源索引名称为两个以上时,选定其中与所述关键词相似度最高且权重值最高的资源索引名称作为目标资源索引名称。
[0010]进一步地,所述方法还包括:向客户端发送与所述关键词对应的多媒体资源和所述多媒体资源的描述信息,并通过所述客户端展现所述多媒体资源和所述多媒体资源的描述信息;或向客户端发送与所述关键词对应的多媒体资源,并通过所述客户端展现所述多媒体资源;或向客户端发送与所述关键词对应的多媒体资源的描述信息,并通过所述客户端展现所述描述信息。
[0011]为了解决上述问题,本申请还揭示了多媒体资源服务器,包括:资源索引名称库,用于保存资源索引名称以及每个资源索引名称与多媒体资源之间的关联关系;切分模块,用于对所述关键词进行切分处理以获得至少两个关键词字段;匹配模块,用于分别根据所述至少两个关键词字段在所述资源索引名称库中进行匹配,对于每个关键词字段,获取相匹配的资源索引名称;相似度分析模块,用于对所述关键词与所述匹配的资源索引名称进行相似度分析,选定与所述关键词相似度最高的资源索引名称作为目标资源索引名称;资源获取模块,用于根据所述目标资源索引名称,结合所述资源索引名称库中每个资源索引名称与多媒体资源之间的关联关系,获取与所述目标资源索引名称对应的多媒体资源。
[0012]进一步地,所述切分模块,具体用于对所述关键词采用折半方式进行切分处理以获得两个关键词字段。
[0013]进一步地,所述装置还包括:配置模块,用于预先配置所述资源索引名称库,对在预设时间段内接收到的关键词进行统计,获取在所述预设时间段内接收次数超过第一预设阈值的关键词,将所述接收次数超过第一预设阈值的关键词作为资源索引名称保存在所述资源索引名称库中;关联关系建立模块,用于建立所述资源索引名称库中每个资源索引名称与多媒体资源之间的关联关系,并将所述关联关系保存在所述资源索引名称库中。
[0014]进一步地,所述装置还包括:加权处理模块;所述加权处理模块,用于根据所述资源索引名称库中的每个资源索引名称的历史接收次数以及在预设时间段内的接收次数进行加权处理,获取每个资源索引名称的权重值,将每个资源索引名称的权重值对应保存在所述资源索引名称库中;所述资源索引名称库,还用于保存每个资源索引名称的权重值;所述相似度分析模块,用于在获取的与所述关键词相似度最高的资源索引名称为两个以上时,选定其中与所述关键词相似度最高且权重值最高的资源索引名称作为目标资源索引名称。
[0015]为了解决上述问题,本申请还揭示了多媒体资源纠错检索系统,包括:若干客户端以及多媒体资源服务器,其中,所述多媒体资源服务器,包括前述的多媒体资源服务器;所述客户端,用于获取输入的关键词并发送至所述多媒体资源服务器,并接收所述多媒体资源服务器发来的与所述关键词关联的多媒体资源和/或多媒体资源的描述信息并展现。
[0016]与现有技术相比,本申请可以获得包括以下技术效果:
[0017]I)通过在用户输入的关键词无法与资源索引名称完全匹配的情况下,对关键词进行切分处理以获得至少两个关键词字段,根据上述的关键词字段在资源索引名称库中进行匹配,即获取与关键词部分匹配的资源索引名称,该获取到的资源索引名称可能包括多个,则进一步的进行相似度分析,获取与关键词相似度最闻的资源索引名称,进而获取关联的多媒体资源,能够使得用户即使出现输入错误,也能够检索到关联的多媒体资源,能够极大地提高用户检索的成功率,并大大提高服务器的资源纠错检索速度。
[0018]2)本申请进一步的,获取所述关键词的历史接收次数,根据所述关键词的历史接收次数,以及在预设时间段内的接收次数进行加权处理,获取所述资源索引名称的权重值,上述的加权处理时可以侧重考虑预设时间段内的接收次数。使得即使获取的与所述关键词相似度最高的资源索引名称为两个以上,也能够根据权重值,侧重选择最近的一段时间内接收次数更多的资源索引名称,进一步提高检索多媒体资源的成功率。
[0019]当然,实施本申请的任一产品必不一定需要同时达到以上所述的所有技术效果。
【专利附图】

【附图说明】
[0020]此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
[0021]图1是本申请实施例的方法流程图;
[0022]图2是本申请实施例的装置结构图一;
[0023]图3是本申请实施例的装置结构图二 ;
[0024]图4是本申请实施例的系统架构图。
【具体实施方式】
[0025]以下将配合附图及实施例来详细说明本申请的实施方式,藉此对本申请如何应用技术手段来解决技术问题并达成技术功效的实现过程能充分理解并据以实施。
[0026]如在说明书及权利要求当中使用了某些词汇来指称特定组件。本领域技术人员应可理解,硬件制造商可能会用不同名词来称呼同一个组件。本说明书及权利要求并不以名称的差异来作为区分组件的方式,而是以组件在功能上的差异来作为区分的准则。如在通篇说明书及权利要求当中所提及的“包含”为一开放式用语,故应解释成“包含但不限定于”。“大致”是指在可接收的误差范围内,本领域技术人员能够在一定误差范围内解决所述技术问题,基本达到所述技术效果。此外,“耦接”一词在此包含任何直接及间接的电性耦接手段。因此,若文中描述一第一装置耦接于一第二装置,则代表所述第一装置可直接电性耦接于所述第二装置,或通过其他装置或耦接手段间接地电性耦接至所述第二装置。说明书后续描述为实施本申请的较佳实施方式,然所述描述乃以说明本申请的一般原则为目的,并非用以限定本申请的范围。本申请的保护范围当视所附权利要求所界定者为准。
[0027]本申请的丰要思想
[0028]通过分析,用户在进行多媒体资源检索时输入的关键词,可能是关键词的一部分文字输入发生错误,此时在关键词和资源索引名称未能够完全匹配一致时,将关键词进行切分,得到两个以上的关键词字段,根据关键词字段与资源索引名称进行匹配,对于每个关键词字段,获取相匹配的资源索引名称,有可能有的关键词字段获取不到任何相匹配的资源索引名称,有的关键词字段获取到一个或多个相匹配的资源索引名称,将这些匹配到的资源索引名称汇总,此时汇总得到的资源索引名称与用户输入的关键词部分匹配,可以认为上述方式查找到的资源索引名称中必然存在用户真正想输入的资源索引名称。在此情形下,通过对上述汇总的资源索引名称和关键词进行相似度分析,获取与所述关键词相似度最高的资源索引名称,作为用户真正想输入的目标资源索引名称,根据该目标资源索引名称获取关联的多媒体资源,能够极大地提高用户检索的成功率,并大大提高服务器的资源纠错检索速度。
[0029]在此基础上,可以统计关键词的历史接收次数,根据所述关键词的历史接收次数,以及在预设时间段(本申请中所述预设时间段一般是距当前时刻较近的一段时间内)内的接收次数进行加权处理,获取每个资源索引名称的权重值。上述权重值的加权处理更侧重于对预设时间段内的接收次数给予更高的加权,使得若通过上述方式获取的相似度最高的资源索引名称即使仍有两个以上,则也可以根据权重值的大小,选择最近一段时间内经常接收到的资源索引名称来获取结果,进一步提高多媒体资源检索的成功率。
[0030]本串请的应用场景
[0031]在用户通过Web浏览器,或音乐播放器进行歌曲检索时,用户可以在搜索框内输入关键词进行检索,该关键词可以是歌曲名称或演唱者、演唱乐队的名称等资源索引名称,后台服务器在接收到上述Web浏览器或音乐播放器发送过来的关键词进行多媒体资源检索时,可以适用于本申请的方案;
[0032]在用户通过Web浏览器,或视频播放器进行视频资源检索时,上述视频资源可以包括电视剧、电影、综艺类电视节目或体育类电视节目等,用户可以在搜索框内输入关键词进行检索,该关键词可以是片源名称或主要演员姓名等资源索引名称,后台服务器在接收到上述Web浏览器或视频播放器发送过来的关键词进行多媒体资源检索时,可以适用于本申请的方案;
[0033]在用户通过Web浏览器,进行文本资源检索时,该文本资源可以为网络上的电子书,或一篇文章等,用户可以在搜索框内输入关键词进行检索,该关键词可以是书籍、文章名称或作者姓名等资源索引名称,后台服务器在接收到上述Web浏览器发送过来的关键词进行多媒体资源检索时,可以适用于本申请的方案;
[0034]当然,本申请并不限于以上应用场景,还存在其他适用的场景,尤其是所要检索的多媒体资源具有一准确名称,然而用户在进行检索输入时可能会出现部分内容错误输入的情形,都可以利用本申请的技术方案以提高检索的成功率。
[0035]实施例描沭
[0036]下面以一实施例对本申请方法的实现作进一步说明。如图1所示,为本申请实施例的方法流程图,包括:
[0037]步骤S11,根据接收到的关键词,在资源索引名称库中进行匹配,在未匹配到一致的资源索引名称时,执行步骤S12 ;
[0038]本步骤中,客户端可以为具有检索框的Web浏览器、音乐播放器或视频播放器,上述各客户端可以抓取用户在检索框中输入关键词,检索音频资源、视频资源或文本资源等内容,其中的音频资源可以为歌曲,视频资源可以为电视剧、电影、综艺类电视节目或体育类电视节目等内容,文本资源可以为电子书或文章类内容。客户端在获取到用户输入的关键词后,会将关键词发送给后台服务器,后台服务器接收客户端发来的关键词;
[0039]后台服务器在接收到客户端发送的关键词后,会根据该关键词,与资源索引名称库所存储的资源索引名称一一进行匹配,直到匹配到一致的资源索引名称,则说明用户输入的关键词完整且准确,匹配到一致的资源索引名称时,可以根据该资源索引名称获取关联的多媒体资源。优选的,在上述资源索引名称库中,不仅记录资源索引名称,还记录与该资源索引名称对应的多媒体资源的标识,例如该多媒体资源的URL地址,或TAG标签,使得在匹配成功后,可以直接获取对应的多媒体资源。如果匹配完所有的资源索引名称后,仍未匹配成功,则执行步骤S12。
[0040]具体的,以用户搜索视频资源为例,用户通过本地Web浏览器打开影视类网站,在网站的检索框中输入了一段关键词并点击检索,则本地Web浏览器向影视类网站的后台服务器发起了一次会话(session),会话中承载关键词(queryN)。后台服务器识别关键词,在资源索引名称库中遍历,没有命中,说明没有相关的视频资源,或者是用户输错了,通常情况下,用户输错的可能性很大。
[0041]步骤S12,对所述关键词进行切分处理以获得至少两个关键词字段,分别根据所述至少两个关键词字段在所述资源索引名称库中进行匹配,对于每个关键词字段,获取相匹配的资源索引名称;
[0042]本步骤中,用户输入的关键词可以是汉字、字符、拼音,或者其组合,在无法匹配成功时,可以对关键词进行切分处理,获得至少两个关键词字段,并根据所述至少两个关键词字段,在资源索引名称库中进行匹配,对于每个关键词字段,获取相匹配的资源索引名称,将这些匹配到的资源索引名称汇总。其中在对关键词进行切分获得关键词字段时,可以是对关键词尽量平均分配,而不是按照关键词的语义进行切分。
[0043]优选的,可以对所述关键词采用折半方式进行切分处理,以获得两个关键词字段,该折半处理方式也可称为hash (哈希)方式。该方式可以按照如下的分割原则进行,例如:如果关键词为偶数个文字、字符或拼音,从中间位置平均分为前后两个关键词字段;如果关键词为奇数个文字、字符或拼音,找出处于关键词正中间位置的文字、字符或拼音,从其前或者后的位置将关键词分为前后两个关键词字段。需要说明的是,该切分不考虑关键词的自然语义。
[0044]具体的,在用户输入关键词时,如果用户输入的关键词中,输错了一位,称为编辑距离为I。如果输错了两位,称为编辑距离为2。本申请的技术方案对编辑距离为I的情形具有更佳的效果。通过上面的切分处理后,对于编辑距离为I的情况,输错的一位必然会存在于前部分的关键词字段或者后部分的关键词字段,换言之,如果存在于前部分的关键词字段,那么后部分的关键词字段就是输入正确的,如果存在于后部分的关键词字段,那么前部分的关键词字段就是输入正确的。对于编辑距离为3的情况,可以切分为三个关键词字段。根据这一原理,我们进行下一步骤的操作。
[0045]依据上述切分结果,可以在资源索引名称库中进行遍历分析。将关键词划分为前部分的关键词字段和后部分的关键词字段后,分别在资源索引名称库中进行遍历,前部分的关键词字段和后部分的关键词字段两者之一必然会发生命中,当然,也有可能前部分的关键词字段和后部分的关键词字段都发生命中。
[0046]具体的,如果前部分的关键词字段在资源索引名称库中发生命中,而后部分的关键词字段没有命中,说明用户输入的前部分的关键词字段是正确的,而后部分的关键词字段存在输错的情况,此时将前部分的关键词字段命中的资源索引名称抽出;同理,如果后部分的关键词字段在资源索引名称库中发生命中,而前部分的关键词字段没有命中,说明用户输入的后部分的关键词字段是正确的,而前部分的关键词字段存在输错的情况,此时将后部分的关键词字段命中的资源索引名称抽出;如果前部分的关键词字段在资源索引名称库中发生命中,而后部分的关键词字段也命中,说明前部分的关键词字段、后部分的关键词字段都有可能存在输错的情况,此时可以将前部分的关键词字段命中的资源索引名称以及后部分的关键词字段命中的资源索引名称抽出后汇总。
[0047]步骤S13,对所述关键词与所述匹配的资源索引名称进行相似度分析,选定与所述关键词相似度最高的资源索引名称作为目标资源索引名称;
[0048]具体的,通过步骤S12获得了一个或多个可能的资源索引名称,此时可以根据用户输入的关键词进行相似度分析,在步骤S12获得多媒体准确资源名称中选择相似度最高的资源索引名称,例如与关键词仅存在一个位置上的区别,即编辑距离为I的资源索引名称,通过该步骤的筛选,可以得到非常接近用户真正想输入的资源索引名称,该步骤得到的资源索引名称通常为I个,在有些情况下也可能出现多个。对于多个的情况,可以通过权重值进行筛选,后面的实施例中会对这部分内容加以讨论。
[0049]步骤S14,根据所述目标资源索引名称,结合所述资源索引名称库中每个资源索引名称与多媒体资源之间的关联关系,获取与所述目标资源索引名称对应的多媒体资源。
[0050]在后台服务器中,可以在所述资源索引名称库中预先建立资源索引名称与多媒体资源的关联关系,获得目标资源索引名称后,可以直接根据上述关联关系获取对应的多媒体资源。并进一步地,可以向客户端发送与所述关键词对应的多媒体资源和/或所述多媒体资源的描述信息,并通过所述客户端展现所述多媒体资源和/或所述多媒体资源的描述信息,例如可以将检索到的多媒体资源的URL地址,或者是多媒体资源的TAG标签发送给客户端,并由客户端向用户展现。
[0051]本申请上述实施例中的步骤10-步骤14可以以在线的方式实现对多媒体资源的检索,另外在执行上述在线的多媒体资源检索方法之前,优选的可以通过离线的方式预先配置所述资源索引名称库:对在预设时间段内接收到的关键词进行统计,获取所述预设时间段内接收次数超过第一预设阈值的关键词,这种关键词被绝大部分用户所认可,所以其当然可以作为该多媒体资源的准确名称,因此将该关键词作为资源索引名称,保存在所述资源索引名称库中,还会建立所述资源索引名称库中每个资源索引名称与对应的多媒体资源的关联关系,并将所述关联关系保存在所述资源索弓I名称库中。
[0052]具体的,后台服务器可以获取在检索多媒体资源时接收到关键词的离线记录。例如以用户通过Web浏览器检索视频资源为例,用户在每一次通过本地Web浏览器打开影视类网站时,会在网站的检索框中输入一段文字数据作为关键词,并点击开始检索,则本地Web浏览器会向影视类网站的后台服务器发起了一次会话(session),会话中承载的文字数据被称为query,也就是用户输入的关键词。在一次会话中,可以放入一个或多个query。而影视类网站的后台服务器会对这些会话和会话中承载的query进行记录,从而形成日志数据可以供离线查看。日志数据可以参考如下的结构:
[0053]Sessionl (queryK query2、query3…)
[0054]Session2 (query2、query4、query5…)
[0055]Session3 (queryl、query2、query3…)
[0056]Session4 (queryl、query6、query5...)
[0057]其中,queryl代表用户输入的一个关键词,例如可以是文字、字符或拼音,queryN(N= 2, 3,4, 5,6……)代表该用户输入的其他关键词。
[0058]可以统计预设时间段内的日志数据,统计该时间段内所有会话中qUeryl、qUery2、
query3、query4、query5、query6......的被搜索的总次数,即接收次数。获取接收次数大于
第一预设值的关键词,该第一预设值可以设为100万次,若统计到queryl的接收次数超过100万次,则说明该queryl被非常多的用户使用,则可以认为该queryl为资源索引名称,此时可以将关键词存入到资源索引名称库中,类似的,如果其他关键词的输入次数也大于上述第一预设值,则也可以将该关键词存入到资源索引名称库中。在上述资源索引名称库中,除记录资源索引名称外,还可以记录其与对应的多媒体资源的关联关系,即将多媒体资源的URL地址,或TAG标签记录到资源索引名称库,并与资源索引名称关联。
[0059]进一步的,在本申请的实施例中,还可以获取所述资源索引名称的历史接收次数以及在预设时间段内的接收次数,根据所述资源索引名称库中的每个资源索引名称的历史接收次数以及在预设时间段内的接收次数进行加权处理,获取每个资源索引名称的权重值。
`[0060]即除在上述的实施例中统计各关键词预设时间段内的接收次数,还获取所述资源索引名称的历史接收次数。针对上述实施例中统计到预设时间段内queryl的接收次数超过100万次,被识别为是资源索引名称,另外还需要统计queryl的历史接收次数,例如200万次。即相当于分别统计queryl的热度(预设时间段内接收次数)和频度(历史接收次数),对queryl的热度和频度进行加权处理获得权重值,例如频度的加权值为30%,热度的加权值为70%,则权重值=(200万次*30% + 100万次*70%) / (200万次+ 100万次),上述是关键词的热度的加权值大于频度的加权值,可以使得权重值更侧重于考虑最近一段时间内的接收次数。上述各资源索引名称的权重值也可以存储在资源索引名称库中。
[0061]在获取的与所述关键词相似度最高的资源索引名称为两个以上时,选定其中与所述与关键词相似度最高且权重值最高的资源索引名称作为目标资源索引名称,根据所述目标资源索引名称,结合所述资源索引名称库中每个资源索引名称与多媒体资源之间的关联关系,获取与所述目标资源索引名称关联的多媒体资源。
[0062]本申请的应用实施例一
[0063]在近一个星期内,有1.5亿个用户通过本地Web浏览器打开影视类网站,在网站的检索框输入“helloworld”并点击检索;在近一个星期内,有1.2亿个用户通过本地Web浏览器打开影视类网站,在网站的检索框输入“hellokitty”并点击检索;在近一个星期内,有1.8亿个用户通过本地Web浏览器打开影视类网站,在网站的检索框输入“hellovenus”并点击检索;在近一个星期内,有1.9亿个用户通过本地Web浏览器打开影视类网站,在网站的检索框输入“hello小姐”并点击检索。[0064]在上述会话(session)中,共存在4 个 query,分别是 helloworld、hellokitty、hellovenus和hello小姐。影视类网站的后台服务器会对这些会话和query进行记录,从而形成日志数据可以供离线查看。
[0065]后台服务器统计近一个星期内的日志数据,发现helloworld、hellokitty、hellovenus和hello小姐被用户输入的次数远远大于门限200万次。所以可以认为它们就是视频资源的准确名称,将helloworld、hellokitty、hellovenus和hello存放到资源索引名称库中,在该词库中将其分别于对应的视频资源的标识关联,其中视频资源的标识可以是视频资源的URL地址,或者视频资源的TAG标签。同时统计获得上述资源索引名称的历史接收次数,并计算得到helloworld、hellokitty、hellovenus和hello的权重值分别为
a、b、c 和 d,其中 a>b>c>d。
[0066]如果有用户通过本地Web浏览器打开影视类网站,在网站的检索框输入了“helloword”并点击检索,则本地Web浏览器向影视类网站的后台服务器发起了一次会话(session), session 中承载的关键词是“helloword”。
[0067]后台服务器识别“helloword”,在资源索引名称库中进行遍历,没有命中,自动通过折半方式对关键词进行切分处理,将其分为hello和word。
[0068]后台服务器分别用hello和word在多媒体准确名称词库进行遍历,发现用hello遍历发生了命中,命中了 helloworld、hellokitty、hellovenus和hello小姐,将这4个命中资源索引名称抽出。
[0069]后台服务器使用用户输入的“helloword”,分别与helloworld、hellokitty、hellovenus和hello小姐进行相似性分析,发现只有helloworld的相似度最高,编辑距离为I,则确定用户真正想输入的关键词是“helloworld”,随后可以获取与“helloworld”对应视频资源,同时还可以将该检索结果反馈给本地Web浏览器,并本地Web浏览器进行呈现。本应用实施例中相似度最高资源索引名称只有一个,因此可以不再使用其权重值进行判断。
[0070]本申请的应用实施例二
[0071]在近一个星期内,有1.5亿个用户通过本地Web浏览器打开影视类网站,在网站的检索框输入“helloworld”并点击检索;在近一个星期内,有1.2亿个用户通过本地Web浏览器打开影视类网站,在网站的检索框输入“hellokitty”并点击检索;在近一个星期内,有1.8亿个用户通过本地Web浏览器打开影视类网站,在网站的检索框输入“hellovenus”并点击检索;在近一个星期内,有1.9亿个用户通过本地Web浏览器打开影视类网站,在网站的检索框输入“hello小姐”并点击检索;在近一个星期内,有I亿个用户通过本地Web浏览器打开影视类网站,在网站的检索框输入“hellword”并点击检索。
[0072]这些会话(session)中,存在了 5个关键词(query),分别是helloworld、hellokitty、hellovenus、hello小姐和hellword。影视类网站的后台服务器会对这些会话和关键词进行记录,从而形成日志数据可以供离线查看。
[0073]后台服务器统计近一个星期内的日志数据,发现helloworld、hellokitty、hellovenus、hello小姐和hellword小姐都被输入的次数远远大于门限200万次。所以可以认为它们就是资源索引名称,将helloworld、hellokitty、hellovenus、hello小姐和hellword存放入资源索引名称库中,并在该词库中将其分别与对应的视频资源的标识关联,其中视频资源的标识可以是视频资源的URL地址,或者视频资源的TAG标签。
[0074]同时,通过统计获得上述资源索引名称的历史接收次数,并计算得到helloworld、hellokitty> hellovenus、hello 小姐和 hellword 的权重值分别为 a、b、C、d 和 e,其中a>b>c>d>e。
[0075]用户通过本地Web浏览器打开影视类网站,在网站的检索框输入了 “helloword”并点击检索,则本地浏览器向影视类网站的后台服务器发起了一次会话(session),会话中承载的关键词是“helloword”。
[0076]后台服务器识别“helloword”,在资源索引名称库中进行遍历,没有命中,自动通过折半方式对关键词进行切分,将其分为hello和word。
[0077]后台服务器分别用hello和word在资源索引名称库中进行遍历,发现用hello遍历发生了命中,命中了 helloworld、hellokitty、hellovenus和hello小姐,将这4个命中的资源索引名称抽出。而发现用word遍历也发生了命中,命中了 hellword,将这个命中的资源索引名称也抽出。
[0078]后台服务器使用用户输入的“helloword”,分别与helloworld、hellokitty、hellovenus、hello小姐和hellword进行相似性分析,发现helloworld和hellword的相似度最高,编辑距离都为I但是helloworld的权重值a高于hellword,则确定用户真正想输入的关键词是“helloworld”,将“helloworld”对应的视频资源作为检索结果,同时可以将该检索结果反馈给本地Web浏览器,并在本地Web浏览器进行呈现。
[0079]本实施例中,如果helloworld的权重等于hellword,则将helloworld和hellword对应的视频源,均作为检索结果。
[0080]本申请上述两个应用实施例中,用户输入的关键词是英文,或者英文与汉字的组合,另外还可以拼音、字符等,或者是其任意组合,同样可以按照本申请的实现方式去实现。
[0081]如图2所示,是本申请实施例的装置结构图一。多媒体资源服务器包括:
[0082]资源索引名称库9,用于保存资源索引名称以及每个资源索引名称与多媒体资源之间的关联关系;
[0083]切分模块1,用于对所述关键词进行切分处理以获得至少两个关键词字段;
[0084]匹配模块2,与切分模块I和资源索引名称库9耦接,用于分别根据所述至少两个关键词字段在所述资源索引名称库中进行匹配,对于每个关键词字段,获取相匹配的资源索引名称;
[0085]相似度分析模块3,与匹配模块2耦接,用于对所述关键词与所述匹配的资源索引名称进行相似度分析,选定与所述关键词相似度最高的资源索引名称作为目标资源索引名称;
[0086]资源获取模块4,分别与所述相似度分析模块3和资源索引名称库9耦接,用于根据所述目标资源索引名称,结合所述资源索引名称库中每个资源索引名称与多媒体资源之间的关联关系,获取与所述目标资源索引名称对应的多媒体资源。
[0087]进一步的,上述切分模块I,具体用于对所述关键词采用折半方式进行切分处理以获得两个关键词字段。
[0088]如图3所示,是本申请实施例的装置结构图二。多媒体资源服务器包括连接关系与功能与图3所示实施例相同的切分模块1、匹配模块2、相似度分析模块3、资源获取模块4和资源索引名称库9。
[0089]还可以包括:检索模块5,与资源索引名称库9耦接,用于接收客户端发来的关键词,根据所述关键词在所述资源索引名称库9中进行匹配,在没有匹配到相应的资源索引名称时,通知所述切分模块I启动。
[0090]还可以包括:配置模块6和关联关系建立模块7 ;
[0091]配置模块6,与资源索引名称库9耦接,用于预先配置所述资源索引名称库9,对在预设时间段内接收到的关键词进行统计,获取在所述预设时间段内接收次数超过第一预设阈值的关键词,将所述接收次数超过第一预设阈值的关键词作为资源索引名称保存在所述资源索引名称库9中;
[0092]关联关系建立模块7,与所述资源索引名称库9耦接,用于建立所述资源索引名称与多媒体资源之间的关联关系,并将所述关联关系保存在所述资源索引名称库9中。
[0093]还可以包括:加权处理模块8 ; [0094]加权处理模块8,与所述资源索引名称库9耦接,用于根据所述资源索引名称库9中的每个资源索引名称的历史接收次数以及在预设时间段内的接收次数进行加权处理,获取每个资源索引名称的权重值,将每个资源索引名称的权重值对应保存在所述资源索引名称库9中;
[0095]资源索引名称库9,还用于保存每个资源索引名称的权重值;
[0096]相似度分析模块3,与所述资源索引名称库9耦接,用于在获取的与所述关键词相似度最闻的资源索引名称为两个以上时,选定其中与所述关键词相似度最闻且权重值最闻的资源索引名称作为目标资源索引名称。
[0097]所述装置与前述的方法流程描述对应,不足之处参考上述方法流程的叙述,不再
--赘述。
[0098]本申请的实施例还提供了一种多媒体资源纠错检索系统。如图4所示,是本申请实施例的系统架构图,该多媒体资源纠错检索系统包括若干客户端20以及多媒体资源服务器10。若干客户端20位于用户本地侧,多媒体资源服务器10位于网络侧,若干客户端20通过有线网络或者无线网络与多媒体资源服务器10相连。
[0099]所述多媒体资源服务器10如上述图2或图3所示的多媒体资源服务器。上述的多媒体资源服务器10可以设置在后台服务器中。
[0100]所述客户端20,均用于获取输入的关键词并发送至所述多媒体资源服务器10,并接收所述多媒体资源服务器10发来的与所述关键词关联的多媒体资源和/或多媒体资源的描述信息并展现。
[0101]还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者系统中还存在另外的相同要素。
[0102]本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
[0103]以上所述仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。
【权利要求】
1.一种多媒体资源纠错检索方法,其特征在于,包括: 对所述关键词进行切分处理以获得至少两个关键词字段; 分别根据所述至少两个关键词字段在资源索引名称库中进行匹配,对于每个关键词字段,获取相匹配的资源索引名称; 对所述关键词与所述匹配的资源索引名称进行相似度分析,选定与所述关键词相似度最高的资源索引名称作为目标资源索引名称; 根据所述目标资源索引名称,结合所述资源索引名称库中每个资源索引名称与多媒体资源之间的关联关系,获取与所述目标资源索引名称对应的多媒体资源。
2.如权利要求1所述的多媒体资源纠错检索方法,其特征在于,所述对所述关键词进行切分处理以获得至少两个关键词字段的操作,具体包括: 对所述关键词采用折半方式进行切分处理以获得两个关键词字段。
3.如权利要求1所述的多媒体资源纠错检索方法,其特征在于, 所述资源索引名称库为预先配置,其中保存有资源索引名称以及每个资源索引名称与多媒体资源之间的关联关系; 配置所述资源索引名称库时,对在预设时间段内接收到的关键词进行统计,获取在所述预设时间段内接收次数超过第一预设阈值的关键词,将所述接收次数超过第一预设阈值的关键词作为资源索引名称保存在所述资源索引名称库中。
4.如权利要求3所述的多媒体资源纠错检索方法,其特征在于,所述方法还包括: 根据所述资源索引名称库中的每个资源索引名称的历史接收次数以及在预设时间段内的接收次数进行加权处理,获取每个资源索引名称的权重值; 在获取的与所述关键词相似度最高的资源索引名称为两个以上时,选定其中与所述关键词相似度最高且权重值最高的资源索引名称作为目标资源索引名称。
5.如权利要求1所述的多媒体资源纠错检索方法,其特征在于,所述方法还包括: 向客户端发送与所述关键词对应的多媒体资源和所述多媒体资源的描述信息,并通过所述客户端展现所述多媒体资源和所述多媒体资源的描述信息;或 向客户端发送与所述关键词对应的多媒体资源,并通过所述客户端展现所述多媒体资源;或 向客户端发送与所述关键词对应的多媒体资源的描述信息,并通过所述客户端展现所述描述信息。
6.—种多媒体资源服务器,其特征在于,包括: 资源索引名称库,用于保存资源索引名称以及每个资源索引名称与多媒体资源之间的关联关系; 切分模块,用于对所述关键词进行切分处理以获得至少两个关键词字段; 匹配模块,用于分别根据所述至少两个关键词字段在所述资源索引名称库中进行匹配,对于每个关键词字段,获取相匹配的资源索引名称; 相似度分析模块,用于对所述关键词与所述匹配的资源索引名称进行相似度分析,选定与所述关键词相似度最高的资源索引名称作为目标资源索引名称; 资源获取模块,用于根据所述目标资源索引名称,结合所述资源索引名称库中每个资源索引名称与多媒体资源之间的关联关系,获取与所述目标资源索引名称对应的多媒体资源。
7.如权利要求6所述的多媒体资源服务器,其特征在于, 所述切分模块,具体用于对所述关键词采用折半方式进行切分处理以获得两个关键词字段。
8.如权利要求6所述的多媒体资源服务器,其特征在于,所述装置还包括: 配置模块,用于预先配置所述资源索引名称库,对在预设时间段内接收到的关键词进行统计,获取在所述预设时间段内接收次数超过第一预设阈值的关键词,将所述接收次数超过第一预设阈值的关键词作为资源索引名称保存在所述资源索引名称库中; 关联关系建立模块,用于建立所述资源索引名称库中每个资源索引名称与多媒体资源之间的关联关系,并将所述关联关系保存在所述资源索引名称库中。
9.如权利要求8所 述的多媒体资源服务器,其特征在于,所述装置还包括:加权处理模块; 所述加权处理模块,用于根据所述资源索引名称库中的每个资源索引名称的历史接收次数以及在预设时间段内的接收次数进行加权处理,获取每个资源索引名称的权重值,将每个资源索引名称的权重值对应保存在所述资源索引名称库中; 所述资源索引名称库,还用于保存每个资源索引名称的权重值; 所述相似度分析模块,用于在获取的与所述关键词相似度最高的资源索引名称为两个以上时,选定其中与所述关键词相似度最高且权重值最高的资源索引名称作为目标资源索引名称。
10.一种多媒体资源纠错检索系统,其特征在于,包括:若干客户端以及多媒体资源服务器,其中, 所述多媒体资源服务器,包括如权利要求6-9任一所述的多媒体资源服务器; 所述客户端,用于获取输入的关键词并发送至所述多媒体资源服务器,并接收所述多媒体资源服务器发来的与所述关键词关联的多媒体资源和/或多媒体资源的描述信息并展现。
【文档编号】G06F17/30GK103678560SQ201310658802
【公开日】2014年3月26日 申请日期:2013年12月6日 优先权日:2013年12月6日
【发明者】关涛 申请人:乐视网信息技术(北京)股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1