一种音乐资源聚合搜索的方法_4

文档序号:9524266阅读:来源:国知局
rm= 1. 0/(numTerms'O. 5),
[0105] 改进后的
numTerms表示每个文档中词项的数量,及 文档长度。有实验结果可W看出,改进前和改进后的lengthNorm随着numTerms的增大之 间趋于平稳,但在改进后的算法的前期中文档长度对于评分的影响明显低于改进前的算法 在前期时文档长度对于评分影响远,从而整体降低了文档长度对于用户捜索结果评分的评 分权重影响,相对地增强了用户查询关键词匹配命中率的影响,增强捜索引擎的查准性。
[0106] 针对上述算法改进,我们进行了TF/IDF捜索模型与基于BM25的改进的捜索模型 的捜索结果对比实验,该实验采用在网上随机抽取与音乐相关的网页20个。对于每个捜索 的关键词,检查能否W关键词为中屯、的百科、主页类型的网页排在结果最上面,若捜索结果 都不是W关键词为中屯、,检查其能否按照匹配数个数由大到小排列。 阳107] TF/IDF捜索模型与WBM25为基础的改进的捜索模型的捜索结果对比列表如表1 所 阳10引表1TF/IDF捜索模型与WBM25为基础的改进的捜索模型的捜素结果对比列表 阳 109]
[0110] 由上述实验结果可W看出,原TF^DF模型在相关性排序上存在一定误差,由于文 档长度对于评分的影响很大,因此导致结果并未按照匹配的命中频率进行排序。尤其在试 验3中,对于歌手的捜索结果里,甚至该歌手某首歌曲的页面的命中率在极低的情况下,排 在了关键词命中率很高的歌手主页前面,运是非常不符合音乐捜索类用户需求的排序结 果。在改进后的WBM25为基础的改进的捜索模型的捜索结果中,由于降低了文档长度对评 分机制所造成的影响,捜索结果明显按照了其命中程度由高到低进行排序,更加严格按照 其相关性进行排序,包括页面自身的文本相关及其URL相关性,使得排序结果更能满足用 户广域性捜索的要求,W获得更加全面的信息。 阳111] 聚合捜索方案:由于互联网音乐信息与本地音乐资源在数据结构方面存在不一致 性,所W在资源聚合的过程中采取了分别存储的原则,即互联网音乐信息与本地音乐资源 分别存储的原则。互联网音乐信息在爬取处理后,建立全文索引存入互联网音乐信息库,用 于后期改进的BM25捜索算法模型的查询需要。本地音乐资源主要W数据库的表的形式(歌 手表、歌曲表、专辑表等)W及媒体文件(如MP3、WMA等格式)存储,数据库的表的在存储 后建立了全文索引,用于后期本地数据资源中的查询。
[0112] 用户在捜索时,对输入的关键词也会进行中文分词处理,在检索时会分别对互联 网音乐信息与本地音乐资源进行捜索,互联网音乐信息部分采用改进的BM25捜索算法模 型进行捜索,会根据关键词匹配数、文档匹配数等方面进行智能排序,W标题、摘要、url等 形式反馈给用户,同时也有一部分会利用互联网接口对于实时更新率要求较高的互联网信 息(如新闻、微博等)进行调用,W弥补互联网音乐信息索引库空间的空间制约的限制;对 于本地音乐资源库进行捜索时,主要是对歌手、歌曲或者专辑的有关信息反馈给用户。在反 馈给用户的聚合捜索的信息中,会进行分类,如新闻、视频、音乐、微博等模块,易于用户W 最快的速度找到其最想获取的信息。
[0113] 系统的整体流程中,互联网音乐信息部分的爬取、建立索引与本地音乐资源的全 文索引是并行的。互联网音乐信息模块中,首先对注入的根U化建立列表,并W此列表按层 次爬取,每个U化最多限定爬取100000个超链接,在爬取过程中,系统会对爬取下来的文档 进行中文分词、网页去重和U化超链接过滤的处理,待全部互联网音乐信息爬取完成后,对 所爬取处理后的文档建立倒排索引。在本地音乐资源库方面,需要实现对于本地库的表中 相应的列建立全文索引,W实现超大数据量数据的快速查询。在互联网音乐信息部分的爬 取、建立索引与本地音乐资源的全文索引全部完成后,用户可W进行音乐资源的聚合捜索。
[0114] 用户在输入捜索关键词后,系统会对用户的关键词进行中文分词,在聚合捜索时, 对于互联网音乐信息模块使用改进的BM25捜索模型算法进行捜索,结果W标题、摘要、U化 方式呈现给用户;对于本地音乐资源模块进行全文索引检索,结果W音乐列表、歌手资料等 形式呈现给用户。
[0115] 本发明能够针对音乐捜索类的用户运一特定捜索群体,将互联网上的音乐方面的 相关信息W及本地媒体数据库的资源进行聚合,并且对捜索结果进行捜索结果排序优化、 捜索结果冗余信息过滤和对关键字进行中文分词等处理,W-种更加专业、更加全面、更加 清晰、更加优化的捜索结果呈献给用户,能够极大地提高音乐捜索类运一特定类型用户捜 索结果的专业性、查准率W及满意度。
[0116] 上面对本专利的较佳实施方式作了详细说明,但是本专利并不限于上述实施方 式,在本领域的普通技术人员所具备的知识范围内,还可W在不脱离本专利宗旨的前提下 作出各种变化。
【主权项】
1. 一种音乐资源聚合搜索的方法,其特征在于,具体步骤如下: (1) 将互联网中的音乐信息进行爬取; (2) 在爬取过程中进行URL过滤、中文分词处理,并分别对互联网中的音乐信息及本地 库的音乐资源建立全文索引; (3) 在检索时以改进后BM25算法进行聚合搜索,将互联网中的音乐资源与本地库中的 音乐资源聚合后呈现给用户。2. 根据权利要求1所述的音乐资源聚合搜索的方法,其特征在于, 所述互联网中的音乐资源来自于互联网音乐信息模块,所述本地库中的音乐资源来自 于本地库音乐资源模块,所述互联网音乐信息模块和本地库音乐资源模块均包括聚合搜索 模块,所述互联网音乐信息模块还包括互联网信息爬取模块、中文分词模块、网页URL过滤 模块、网页去重模块和改进的BM25搜索结果排序算法模块,所述本地库音乐资源模块还包 括全文索引模块。3. 根据权利要求1所述的音乐资源聚合搜索的方法,其特征在于, 所述步骤(1)中进行音乐信息爬取的具体步骤如下: 1) 首先注入初始的URL地址并建立爬取信息列表,让网页爬取模块有根地址做起点; 2) 以初始的URL为依据,对每个网页的外连接进行筛选,选取链入数高的网页作为有 限爬取对象进行爬取; 3) 在爬取时对URL进行解析,并进行URL过滤、中文分词处理; 4) 将处理之后的网页数据存入互联网音乐信息模块,并检查是否为爬取的最后一层, 若不是继续执行步骤2),若是则执行步骤5); 5) 对所有存入互联网音乐信息模块的数据统一建立全文倒排索引。4. 根据权利要求1所述的音乐资源聚合搜索的方法,其特征在于,所述改进的BM25搜 索结果排序算法模块的公式模型如下:其中,numTerms表示每个文档中词项的数量。
【专利摘要】本发明公开了一种音乐资源聚合搜索的方法,具体步骤如下:将互联网中的音乐信息进行爬取;在爬取过程中进行URL过滤、中文分词处理,并分别对互联网中的音乐信息及本地库的音乐资源建立全文索引;在检索时以改进后BM25算法进行聚合搜索,将互联网中的音乐资源与本地库中的音乐资源聚合后呈现给用户。本发明能够针对音乐搜索类的用户这一特定搜索群体,将互联网上的音乐方面的相关信息以及本地媒体数据库的资源进行聚合,对搜索结果进行排序优化、冗余信息过滤和对关键字进行中文分词处理,以一种更加专业、更加全面、更加清晰、更加优化的搜索结果呈献给用户,能够极大地提高音乐搜索类这一特定类型用户搜索结果的专业性、查准率以及满意度。
【IPC分类】G06F17/30
【公开号】CN105279231
【申请号】CN201510604883
【发明人】李建飞, 李樱, 沙飞, 吕志胜, 王永滨
【申请人】中国传媒大学
【公开日】2016年1月27日
【申请日】2015年9月22日
当前第4页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1