数据处理方法、推荐源信息组织和信息推荐方法及装置的制造方法_3

文档序号:8922583阅读:来源:国知局
为别名集合(湖人队,湖人,洛 杉矶湖人队,洛杉矶湖人)的代表词,并且在推荐系统中(湖人队,湖人,洛杉矶湖人队,洛杉 矶湖人)用湖人来代替。例如,若从用户浏览的一篇文章中抽取的特征词有"洛杉矶湖人队" 或"湖人队",则在推荐系统中,可以标注用户对"湖人"相关的信息感兴趣。将(湖人队,湖 人,洛杉矶湖人队,洛杉矶湖人)统一为"湖人"使推荐系统在组织推荐源信息时更方便。
[0072] 通过数据库获取上述实体词在所属类别下的别名后,对实体词以及实体词的别名 进行扩展。通过前述步骤S102对特征词的抽取处理,只有达到预设条件的词才确定为特征 词,因此可能会有一些特征词未抽取到,该步骤通过对特征词在所属类别下的扩展来作为 辅助抽取,使从样本数据中抽取的特征词更全面。在优选实施例中,对抽取的实体词及实 体词的替代词进行扩展,通过计算样本数据中未被抽取作为特征词的词与抽取的实体词或 实体词的替代词在同一类别(topic)下的同现概率来进行实现词的扩展。具体实现时,可 以获得前述样本数据中未被抽取作为特征词的词与步骤S103中区分出来的实体词在同一 类别中的同现概率,即将未被抽取的每个词与抽取的实体词或实体词的替代词两两之间进 行同现概率的计算。实体词或实体词的替代词的扩展的一个优选实施例,在同一类别下的 wordi与wordj的同现概率可以记为corate(wordi,wordj),其中,wordi为前述样本数据 中未被抽取作为特征词的词,wordj为步骤S103区分出来的实体词或实体词的替代词。当 corate(wordi,wordj) >预设的阈值,且与wordi在同一类别下同现的实体词wordj的个数 达到一定阈值时,可以将wordi纳入该类别(topic)的实体词词集中。例如,通过计算前述 样本数据标题中未被抽取作为特征词的词与抽取出来的实体词之间的同现概率,得到如下 的数据:
[0073]张朝阳(古永锹:0? 75080633 王小川:0? 7415418 丁磊:0? 7347989 马化 腾:0. 72546184曹国伟:0. 7231274周鸿祎:0. 71726304..),由于王小川、丁磊、马化腾、曹 国伟和周鸿祎在前述步骤S102和S103中归为互联网这一类别中的实体词,张朝阳与上述 人物的同现概率高于阈值〇. 7,且上述人物的个数超过阈值4,因此将张朝阳也归为互联网 这一类别的实体词。
[0074] 需要说明的是,上述获取了从样本数据中抽取的实体词在所属类别中的替代词 (也称别名),并对实体词和实体词的替代词在所属类别下进行了词的扩展,在此处,将抽取 的实体词、实体词的替代词以及扩展出来的词均作为所属类别的实体词,为描述方便,下面 所述的实体词包括抽取的实体词、实体词的替代词以及扩展出来的词。
[0075] S104、存储各类别与特征词(尤其是实体词)的对应关系,并利用类别与特征词(尤 其是实体词)的对应关系组织推荐源信息,进一步的,本发明实施例还可以将推荐源信息中 与用户感兴趣的类别及实体词相同的类别及实体词相关的信息(即内容资源信息)推荐给 用户。
[0076] 具体的,根据前述步骤获取了多个用户的行为记录数据经过过滤后的样本数据中 的标题的类别以及标题中的特征词,并对特征词中的实体词和领域词进行了区分。由于前 述通过url模板对用户的行为记录数据进行类别过滤,但通过url模板过滤获得的样本数 据只是用户的行为记录数据中的一部分,用户的行为记录数据中的剩下的不符合url模板 的一部分没有进行类别过滤,此时可以通过已经抽取的领域词和实体词对用户的行为记录 数据中的剩余部分进行类别分类。具体的,提取用户的行为记录数据中的剩余部分的url 中对应的标题中的领域词和实体词,由于通过过滤获取的样本数据中抽取的领域词和实体 词带有类别,因此将这些提取的领域词和实体词与前述通过过滤获取的样本数据中抽取的 领域词和实体词对比,就能够确定用户的行为记录数据中剩余部分的url的类别。当对用 户的行为记录数据进行了分类之后,就可以组织推荐源信息,即对推荐源信息进行分类,此 处,推荐源信息可以是用户的行为记录数据(包括URL及URL对应的标题)对应的信息,推荐 源信息还可以包括网页或者文本文件等各种网络资源。具体的,在组织推荐源信息时,将推 荐源信息按照类别与实体词进行分类,比如,将推荐源信息中与体育类别及李娜相关的信 息分为一类,将推荐源信息中与体育类别及科比相关的信息分为另一类,这样,根据实体词 对同一类别下的信息进一步细化,使推荐源信息更精细化,从而推荐系统给用户推荐的信 息具有更高的准确性。对推荐系统中的推荐源信息进行分类后,推荐系统可以采用多种方 式将推荐源信息推荐给用户。例如,可以根据事先确定出的每个用户感兴趣的类别及实体 词,将推荐源信息中与该类别及实体词相关的信息推荐给相应的用户。具体的,确定每个用 户感兴趣的类别和实体词的方法以及推荐方法,例如可以抽取用户的行为记录数据中的实 体词,若用户对某些实体词访问的频率高,则认为该实体词为用户感兴趣的实体词,该实体 词所属类别则为用户感兴趣的类别。比如,若分析出某个用户对体育类别下与湖人相关的 信息感兴趣,则将推荐源信息中体育类别下与湖人相关的信息推荐给此用户。
[0077] 本实施例也可以根据用户当前关注的信息所属的类别及信息中包含的实体词决 定给用户推荐哪些信息。若检测到用户当前关注的信息属于体育类别且存在"湖人"的特 征词,推荐系统就将推荐源信息中与体育类别及"湖人"相关的信息推荐给用户。
[0078] 在本实施例中,领域词的作用包括:辅助进行推荐源信息类别的判断以及用户感 兴趣内容的类别的判断。
[0079]实施例二、一种包括数据处理装置和推荐源信息组织装置在内的信息推荐装置。 下面结合图7对本发明提供的装置进行详细说明。
[0080] 图7中,本发明提供的信息推荐装置包括:样本数据获取模块701、特征词抽取模 块702、特征词区分模块703、存储模块704、组织模块705和信息推荐模块706。
[0081] 样本数据获取模块701用于对收集到的多个用户的行为记录数据进行过滤,以从 收集到的行为记录数据中获取带类别的样本数据。
[0082] 具体的,用户通过浏览器客户端进行网络访问时,浏览器客户端会将用户进行网 络访问的行为记录数据上报给相应的网络侧设备如浏览器的管理设备(即浏览器服务端), 这样,样本数据获取模块701(如设置于浏览器的管理设备中的样本数据获取模块701)就会 收集到多个用户的行为记录数据。在优选实施例中,浏览器的管理设备中的样本数据获取 模块701可以收集到网络中所有使用浏览器客户端的用户进行网络访问的行为记录数据。
[0083] 在优选实施例中,样本数据获取模块701采用模板过滤的方法从用户的行为记录 数据中抽取高质量的样本数据,其中,模板具有一定的规则,且带有一定的类别,可以将符 合模板类别的用户的行为记录数据过滤出来。具体的,样本数据获取模块701采用模板主 要对用户浏览日志和/或收藏夹中的URL进行过滤,在优选实施例中,样本数据获取模块 701包含有三种URL模板:带类别的refer页url模板(可以简称为refer页url模板)、带 类别的最终页的url模板(可以简称为最终页的url模板)和通用的最终页的url模板。样 本数据获取模块701采用模板进行过滤的例子如上述方法实施例中的描述,在此不再重复 说明。
[0084] 对用户访问的当前页面的url符合带类别的最终页模板,样本数据获取模块701 获取该url对应的标题,并通过规则过滤掉获取的标题中的前后缀。在此,样本数据获取模 块701通过规则过滤掉标题中的前后缀是指删除与url内容无关的信息,这些信息对特征 词的抽取来说属于噪音数据。当用户访问的当前页面的前一页面的url符合refer页url 模板、该当前页面的url不具有类别且当前页面的url满足通用最终页的模板,样本数据 获取模块701获取用户访问的refer页的url对应的anchor,并通过正则规则过滤获取的 anchor,比如,去掉"更多"、"下一页"、"上一章"等这类与url内容无关的信息,使样本数据 获取模块701获取的anchor与url所属的类别更相关。样本数据获取模块701将过滤处 理后的标题和anchor合并,并作去重处理,得到各种类别的样本数据,作为后续的抽取特 征词之用。
[0085] 特征词抽取模块702用于针对各个带类别的样本数据,对各个带类别的样本数据 分别进行特征词抽取。
[0086] 具体的,特征词抽取模块702可以采用多种方式对样本数据进行特征词的抽取, 在优选实施例中,特征词抽取模块702考虑样本数据中每个词在所属类别中的5个属性值, 根据这5个属性值的情况来判断该词是否为所属类别的特征词。
[0087] 具体实现时,特征词抽取模块702对获得的各类别(topic)的样本数据进行分词 (也称为切词)处理,得到各类别对应的词集合,即每一类别分别对应有包含有若干个词的 词集合;然后,特征词抽取模块702以类别为单位,计算词集合中的每个词在所属类别中的 5个属性值,分别为:
[0088] (1)词在所属类别中的tfidf,其中,tfidf是一种统计方法,用于评估一字词对于 一个文件集或一个样本数据库中的一个文件的重要性。在本实施例中,词在所属类别中的 词频-逆向文件频率记为tfidf(word/topic),词的tfidf值的计算公式如下:
[0089]tfidf(word|topic)=p(word|topic) /log(topicCount(topic) / topicCount(topic|word));
[0090] 其中,P(word|topic)指词在所属类别(topic)中的分布,分布的具体含义是 count(word|topic)/count(word),count(word)指词在样本数据中出现的总的次数, count(word|topic)指词在该topic下出现的次数;topicCount(topic)指上述步骤S101 中获取的样本数据的类别总数;topicCount(topic|word)指词出现的类别数,即有多少个 类别中出现过该词。
[0091] (2)词在所属类别中出现的次数wordCount(word/topic);
[0092] (3)词在所属类别中出现的次数与词在样本数据(即语料)中出现的总的次数的比 例,也可以称为词在所属类别中的分布P(word/topic),即该词在所属类别中出现的位置 分布;
[0093] (4 )词在所属类别中作为独立搜索词及非独立搜索词的比例query(word) / splitquery(word),即该词在所属类别中作为独立搜索词出现的次数与该词在所属类别中 作为非独立搜索词出现的次数之比;
[0094] (5)词作为独立搜索词与从用户群体角度讲的输入频率的比例query(word)/ ime(word),从用户群体角度讲输入频率高的词通常为:是、我、你、他、的……。
[0095] 其中,上述5个属性值中,word指词集中的词,topic指词集所属的类别。当对词 的上述5个属性值计算完成后,通过上述5个属性值的情况判断该词是否为
当前第3页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1