一种音乐资源聚合搜索的方法_3

文档序号:9524266阅读:来源:国知局
度就会降低,其重要程度也 就随之降低。
[0080] 在
中,q代表每个查询中捜索关键词出现的次数,典型值为 1,化eq为关键词在某个文档中出现的词频,常量ki决定了化eq增减时原TF部分词项的权 重的变化情况。若ki= 0,则词频部分对对TF的计算部分无影响,随着k1的增大,其影响 程度逐渐升高,并呈线性增长趋势,其典型值为1. 2。常量k2在查询项权重中也有着相似的 影响,但k2较之k1对排序的敏感性低,其典型值为1。参数K的详细公式为 阳0川
(公式10),
[0082] 参数K代表文档长度对于TF结果的影响,公式中dl为被检索的某个文档的长度, avdl为文档集中的平均长度,b为调节参数W调节文档长度对于TF结果的影响。由于前文 提到在捜索歌手时,用户可能期待的结果是是将百科、音乐网站的个人主页等结果至于前 面的位置,运些网页普遍的特点是是被匹配的捜索关键词频率高且文档长度大的特点,但 整体来说还是匹配数占主要影响,而文档长度占次要影响,因此可W降低系数b的值已达 到降低文档长度对于评分结果的影响的作用。
[0083] fieldNo;rm(t,d)中的lengthNorm= 1. 0/(numTe;rms~0.巧,
[0084] numTerms表示每个文档中词项的数量。由于前文提到需要降低文档长度对于总得 分的影响,因此在此会适当更改其权重,将其置另
[0085] 聚合捜索模块:传统的捜索引擎由于只是单方面的从互联网上爬取信息,所有信 息均来自与互联网,运种信息在检索时没有针对性,无法满足特定的用户群体,如音乐捜索 的用户的捜索需求,而主流的音乐网站对音乐的检索资源均来自与网站本地数据库的资 源,不包含任何互联网的信息,包含信息量相对较少,而且信息更新速度较低,信息没有实 时性。本系统根据互联网音乐信息与本地音乐资源互补的特性,对二者进行了聚合。
[0086] 由于二者在数据结构方面存在不一致性,所W在整合的过程中采取分开处理的原 贝1J,即互联网音乐信息与本地音乐资源分别存储的原则。互联网音乐信息,如百科、主页、 新闻等在爬取后,经由中文分词模块、URL过滤模块、网页去重模块处理后,建立倒排索引存 入互联网音乐信息库,主要由索引(Index)、段(Segment)、文档值ocument)、域(Field)和 词(Term)五个部分组成,既保存了正向信息,又保存了反向信息,有利于后期利用改进的 BM25捜索算法模型的查询需要。
[0087] 本地音乐资源主要W数据库的表的形式如歌手表、歌曲表、专辑表等W及媒体文 件如MP3、WMA等格式存储,数据库的表的在存储后建立了全文索引,W提高本地库在海量 本地数据资源中的查询效率。
[0088] 用户在捜索时,对输入的关键词也会进行分词处理,在检索时会分别对互联网音 乐信息与本地音乐资源进行捜索,互联网音乐信息部分采用改进的BM25捜索算法模型进 行捜索,会根据关键词匹配数、文档匹配数等方面进行智能排序,W标题、摘要、url等形式 反馈给用户,同时也有一部分会利用互联网接口对于实时更新率要求较高的互联网信息, 如新闻、微博等进行调用,W弥补互联网音乐信息索引库空间的空间制约的限制;对于本地 音乐资源库进行捜索时,主要是对歌手、歌曲或者专辑的有关信息反馈给用户,由于之前对 本地音乐资源库建立了全文索引,因此在查询效率上会显著提高。
[0089] 在反馈给用户的聚合捜索的信息中,会进行分类,如新闻、视频、音乐、微博等模 块,易于用户W最快的速度找到其最想获取的信息,用W满足音乐捜索类用户对于信息的 聚合性、专业性和实时性的需求。
[0090] 全文索引模块:对于千万级的海量本地音乐资源来说,快速检索信息需要是对数 据库进行全文索引的建立。其原理是先指定一个词料库,而后在文档中检索每一个词组 (term)出现的频率和位置,将该词的频率和位置数据依照词料库的次序整理,并对表中的 各个列建立了一个W词料库为目录的全文索引,捜索关键词的时候就可W快速定位关键词 的所在位置。 阳0川 实施例1
[0092] 本实施例中计算机为"DE化计算机,Intel(R)Core灯M)2DuoCP肥7500@2.92細z, 4GB内存,320G硬盘"。采用化va编程实现。
[0093] 互联网音乐信息爬取:通过对注入的U化建立爬取列表,对爬取时按照层次爬取, 每层限定爬取100000个网页,对于爬取处理过的网页建立全文索引,整合到互联网音乐信 息索引库。
[0094] 中文分词:在网页爬取的过程中,可W对爬取后的文档进行中文分词处理,用户在 捜索时对于输入的关键词也进行中文分词处理,W提高捜索时的查准率、满足中文音乐捜 索用户需求。
[0095] 网页U化超链接过滤:在网页爬取的过程中,可W爬取后的文档进行U化超链接进 行过滤处理,对错标签中进行正则匹配,将含有"虹ef"等超链接的标签连同其子标签进行 过滤,W达到去除网页文档的冗余超链接的目的。
[0096] 网页去重:在网页爬取的过程中,会存在爬取网页重复的情况。爬取后的网页进行 U化和文本CRC的双重校验,如果二者有其中之一存在相同,则被视为是统一网页,将其中 一页重复网页删除,如果都不相同,则可W视为不同网页,不做去重处理。
[0097] 全文索引:在网页全部爬取处理完毕后,需要对爬取的网络音乐信息库建立全文 索引。在指定了一个词料库后,检索文档中每一个词组出现的频率和位置,将该词的频率 和位置数据依照词料库的次序整理,并对表中的各个列建立了一个W词料库为目录的词语 /文档编号的索引,对于不同列根据不同的查询需要分别建立全文索引,有利于提高查询效 率。 阳09引改进的BM25捜索排序模型算法:Lucene的原排序模型TF^DF模型会将匹配文档 长度作为很大的权重参与评分,导致捜索关键词频率高且文档长度越大的网页很难排在靠 前的位置,反而像一些歌词类的网页由于文档长度低且被匹配的关键词所占的比例高,其 匹配个数比百科类的网页低,运就会导致排序结果并非用户所需求的结果。因为本系统是 音乐资源相关的网页捜索,文档长度相对普通网页较短,因此应当降低文档长度对于评分 影响,增强关键词匹配程度的影响。改进后的BM25捜索排序模型算法可W起到降低了匹配 文档长度在评分权重中的影响、增强了关键词匹配数的影响的作用,主要是对i壯、tfW及 lengthNormS个因子的修改,W下将W实验说明修改前后的对比情况。
[0099] 图3为改进前后对idf因子的影响程度,改进前的
[0100] idf(t) =log(numDocs/(docRreq+l)+l,
[0101] 改进后於 numDocs是语料 9 库文档总数,doc化eq是包含该捜索关键词的文档数,此实验中numDocsW100为例。从结 果可W看出,随着doc化eq的增加,改进后的算法在计算包含该捜索关键词的文档数的影 响方面比原来要小,并且改进后的算法主要增加了相关因子R与r,因此在文档相关性的评 分方面要比原来的算法更加灵活。
[0102] 图4为改进前后对tf因子的影响程度,改进前的tf=化eq~0. 5,改进后的
化eq为关键词在某个文档中出现的词频,q代表每个查询中捜 索关键词出现的次数,运里取典型值1,常量kl、k2分别取典型值1. 2、100。由实验结果可W看出,在相同化eq的情况下,改进后的算法要比原算法得分高很多,增强了文档中关键 词词频的影响程度,即增大了关键词在文档中的匹配权重,进而增强了用户对于关键词检 索的查全率。
[0103] 图5是改进前后对lengthNorm因子的影响程度,改进前的 阳 104] lengthNo
当前第3页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1