一种音乐资源聚合搜索的方法

文档序号:9524266阅读:978来源:国知局
一种音乐资源聚合搜索的方法
【技术领域】
[0001] 本发明设及计算机信息检索领域,具体是一种音乐资源聚合捜索的方法。
【背景技术】
[0002] 传统捜索引擎的技术虽然在日趋完善,并作为一个强大的功能模块也被应用在了 多种类型的网站中,如音乐网站的检索功能等,但由于用户的需求的不断发展和细化,传统 的捜索引擎不足W满足特定用户群体,如音乐信息捜索类用户的捜索需求,因此在音乐信 息采集和捜索运一特定领域,传统捜索引擎凸显出了许多不足之处:
[0003] (1)传统的捜索引擎由于只是单方面的从互联网上爬取信息,所有信息均来自于 互联网;而主流的音乐网站对音乐的检索资源均来自于网站本地数据库的资源,不包含任 何互联网的信息,包含信息量相对较少,而且信息更新速度较低。二者均未实现对于音乐资 源的聚合式捜索,即本地媒体资源与互联网信息的聚合捜索,导致捜索的信息浅表片面,无 法同时满足音乐用户对于信息的专业性和实时性的需求。
[0004] (2)在用户需求特性方面,捜索引擎的用户群体基数较大,个体之间的需求层次差 异也比较明显,因此对于捜索结果的侧重点也不尽相同。比如,一个艺人既是音乐人又是作 家,用户想要侧重捜索运个艺人作为音乐人身份的相关信息,但传统捜索引擎的捜索结果 W广度捜索为主,呈现出的结果既有该艺人作为音乐人身份的信息,又有作为作家身份的 信息,运就导致捜索结果部分无法满足用户深度垂直捜索的需求。 阳0化](3)由于各国的语言差异,分词也成为了一个重要的障碍。例如,中文句子是由多 个单字组成,单字之间没有英文中的空格标识,并且中文用户在输入捜索关键词时,也很少 有输入空格将关键词进行划分的习惯。因此,中文分词及语义识别成为中文捜索引擎开发 改进的重要课题,运不仅关系到关键词的提取,还会影响整个捜索结果的查准率。
[0006] (4)在信息源与目标页面特性方面,互联网上目前存在大量的僵尸网络、重复信 息、广告信息,随着自助建站成本的降低,有不少网站往往采用采集别人站点的内容加上广 告,直接投入到了互联网使用的情况,运些网页中充斥着大量冗余信息干扰着捜索引擎的 工作,例如网页的U化超链接、编辑人员的注释、版权声明、广告信息等。同时,运些冗余信 息也会影响捜索结果内容的呈现,譬如用户目标捜索某一关键字,在关键字出现的地方周 围可能存在冗余信息,运就会导致冗余信息和关键字一并呈现给用户,致使捜索结果的查 准率大幅降低。
[0007] (5)传统的捜索引擎由于信息量过大,对于关键词设及的各个领域的侧重点无法 有效权衡,比如一个关键词可能设及音乐、政治、经济等领域,相对于音乐捜索类用户,排在 最前面的不一定是音乐领域的结果,运就导致了捜索结果无法满足特定用户的排序需要; 此外,有些商业捜索引擎可能出于利益需要,将自己本网站的结果强制至于靠前位置或采 取竞价排序等方式,运些排序方式都极大地降低了用户捜索的查准率和公平性。
[0008] (6)由于某些网站存在动态的U化,传统的捜索引擎中在捜索时可能误W为不同 的U化隶属于不同的网页,因而导致捜索的结果中出现雷同重复的网页,内容大致相同, u化不同,运也会降低捜索引擎查准率,使得捜索引擎性能降低。

【发明内容】

[0009] 本发明的目的在于提供一种专业性强、查准率高的音乐资源聚合捜索的方法,W 解决上述【背景技术】中提出的问题。
[0010] 为实现上述目的,本发明提供如下技术方案:
[0011] 一种音乐资源聚合捜索的方法,具体步骤如下:
[0012] (1)将互联网中的音乐信息进行爬取;
[0013] (2)在爬取过程中进行U化过滤、中文分词处理,并分别对互联网中的音乐信息及 本地库的音乐资源建立全文索引;
[0014] 做在检索时W改进后BM25算法进行聚合捜索,将互联网中的音乐资源与本地库 中的音乐资源聚合后呈现给用户。
[0015] 作为本发明进一步的方案:所述互联网中的音乐资源来自于互联网音乐信息模 块,所述本地库中的音乐资源来自于本地库音乐资源模块,所述互联网音乐信息模块和本 地库音乐资源模块均包括聚合捜索模块,所述互联网音乐信息模块还包括互联网信息爬取 模块、中文分词模块、网页U化过滤模块、网页去重模块和改进的BM25捜索结果排序算法模 块,所述本地库音乐资源模块还包括全文索引模块。
[0016] 作为本发明进一步的方案:所述步骤(1)中进行音乐信息爬取的具体步骤如下:
[0017] 1)首先注入初始的U化地址并建立爬取信息列表,让网页爬取模块有根地址做起 占.
[0018] 2)W初始的U化为依据,对每个网页的外连接进行筛选,选取链入数高的网页作 为有限爬取对象进行爬取;
[0019] 3)在爬取时对U化进行解析,并进行U化过滤、中文分词处理;
[0020] 4)将处理之后的网页数据存入互联网音乐信息模块,并检查是否为爬取的最后一 层,若不是继续执行步骤2),若是则执行步骤5);
[0021] 5)对所有存入互联网音乐信息模块的数据统一建立全文倒排索引。
[0022] 作为本发明再进一步的方案:所述改进的BM25捜索结果排序算法模块的公式模 型如下:
[0023]
[0024] 其中,
[00巧]fieldNo;rm(t,d) =doc.ge1:Boost0 ·lengthNorm·nf.ge1:Boost0 (公式 2), 阳0%] 其中
(公式3),
[0027] numTerms表示每个文档中词项的数量。
[0028] 与现有技术相比,本发明的有益效果是:
[0029] 本发明能够针对音乐捜索类的用户运一特定捜索群体,将互联网上的音乐方面的 相关信息W及本地媒体数据库的资源进行聚合,并且对捜索结果进行捜索结果排序优化、 捜索结果冗余信息过滤和对关键字进行中文分词等处理,W-种更加专业、更加全面、更加 清晰、更加优化的捜索结果呈献给用户,能够极大地提高音乐捜索类运一特定类型用户捜 索结果的专业性、查准率W及满意度。
【附图说明】
[0030] 图1为本发明的模块示意图。
[0031] 图2为本发明进行音乐信息爬取的流程示意图。
[0032] 图3为本发明中i壯改进前后的实验对比图。
[0033] 图4为本发明中tf改进前后的实验对比图。
[0034] 图5为本发明中lengthNorm改进前后的实验对比图。
【具体实施方式】
[0035] 下面结合【具体实施方式】对本专利的技术方案作进一步详细地说明。
[0036] 请参阅图1-5,一种音乐资源聚合捜索的方法,具体步骤如下:
[0037] (1)将互联网中的音乐信息进行爬取;
[00測 似在爬取过程中进行U化过滤、中文分词处理,并分别对互联网中的音乐信息及 本地库的音乐资源建立全文索引;
[0039] (3)在检索时W改进后BM25算法进行聚合捜索,将互联网中的音乐资源与本地库 中的音乐资源聚合后呈现给用户。
[0040] 所述互联网中的音乐资源来自于互联网音乐信息模块,所述本地库中的音乐资源 来自于本地库音乐资源模块,所述互联网音乐信息模块和本地库音乐资源模块均包括聚合 捜索模块,所述互联网音乐信息模块还包括互联网信息爬取模块、中文分词模块、网页U化 过滤模块、网页去重模块和改进的BM25捜索结果排序算法模块,所述本地库音乐资源模块 还包括全文索引模块。
[0041] 所述步骤(1)中进行音乐信息爬取的具体步骤如下:
[0042] 1)首先注
当前第1页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1