文件推荐系统及方法

文档序号:6508026阅读:290来源:国知局
文件推荐系统及方法
【专利摘要】本发明提供一种文件推荐方法,该方法利用聚类演算法将用户划分为不同的群组,相同群组内的所有用户阅读的文件进行互相推荐。该方法包括:将文件解析为具有标题和正文的文字信息,并对文字信息进行断词和过滤断词结果;收集所有用户在一段时间内的阅读行为,每个用户作为一个采样样本,计算每个用户在该时间段内的阅读习惯和标题词的频数;根据聚类演算法对所有样本进行演算,将所有样本划分为不同群组;根据用户所在群组,将同群组内所有用户阅读的文件进行相互推荐。此外,本发明还提供一种文件推荐系统。
【专利说明】文件推荐系统及方法

【技术领域】
[0001] 本发明涉及文字采矿和信息挖掘技术,尤其涉及一种文件推荐系统及方法。

【背景技术】
[0002] 借助于互联网的快速普及,人们每天通过网络可以浏览各种信息资讯。然而信息 资讯日益膨胀,庞大的信息量反而会导致人们无法从过多的网页或文件中快速筛选到符合 个人需求的信息。
[0003] 目前大多数的新闻门户网站或是资讯类系统,根据用户已经阅读的网页或是文件 中的关键词,利用关键词找出该用户的阅读需求以推送出相关新闻或文件。该方法是分析 单一用户的阅读行为,以关键词作为推送的依据,推送的新闻或文件具有一定局限性。


【发明内容】

[0004] 鉴于上述内容,有必要提供一种文件推荐系统及方法,可以充分利用并分析所有 用户的阅读行为,划分用户群组,以群组为依据推送文件给用户。
[0005] 所述文件推荐系统,该系统包括:文本处理模块,用于将文件解析为具有标题和正 文的文字信息,并对文字信息进行断词和过滤断词结果;样本采集模块,用于收集所有用户 在一段时间内的阅读行为,每个用户作为一个采样样本,计算每个用户在该时间段内的阅 读习惯和标题词的频数;群组划分模块,用于根据聚类演算法对所有样本进行演算,将所有 样本划分为不同群组;及文件推荐模块,用于根据用户所在群组,将同群组内所有用户阅读 的文件进行相互推荐。
[0006] 所述文件推荐方法,该方法包括步骤:将文件解析为具有标题和正文的文字信息, 并对文字信息进行断词和过滤断词结果;收集所有用户在一段时间内的阅读行为,每个用 户作为一个采样样本,计算每个用户在该时间段内的阅读习惯和标题词的频数;根据聚类 演算法对所有样本进行演算,将所有样本划分为不同群组;根据用户所在群组,将同群组内 所有用户阅读的文件进行相互推荐。
[0007] 相比于现有技术,本发明中所述文件推荐系统及方法,分析所有用户的阅读行为, 利用聚类演算法将所有用户划分为不同群组且不同群组存在明显差异,相同群组内的所有 用户阅读的文件进行互相推荐。

【专利附图】

【附图说明】
[0008] 图1是本发明所述文件推荐系统的较佳实施例的运行环境图。
[0009] 图2是本发明所述文件推荐系统的较佳实施例的功能模块图。
[0010] 图3是本发明所述文件推荐方法的方法流程图。
[0011] 图4是本发明中文件断词表的示意图。
[0012] 图5是对所有用户一段时间内的阅读行为采样后的样本示意图。
[0013] 主要元件符号说明

【权利要求】
1. 一种文件推荐系统,运行于服务器中,其特征在于,该系统包括: 文本处理模块:用于将文件解析为具有标题和正文的文字信息,并对文字信息进行断 词和过滤断词结果; 样本采集模块:用于收集所有用户在一段时间内的阅读行为,每个用户作为一个采样 样本,计算每个用户在该时间段内的阅读习惯和标题词的频数; 群组划分模块:用于根据聚类演算法对所有样本进行演算,将所有样本划分为不同群 组;及 文件推荐模块:用于根据用户所在群组,将同群组内所有用户阅读的文件进行相互推 荐。
2. 如权利要求1所述的文件推荐系统,其特征在于,该系统还包括一个定期更新模块, 用于设定周期性的群组更新排程,每间隔一定时间周期,抓取该时间周期内的所有用户的 阅读行为,重新采样及利用聚类演算法对采样样本重新进行群组划分。
3. 如权利要求1所述的文件推荐系统,其特征在于,所述样本采集模块通过如下方式 进行采样: 汇总所有用户在一个时间段内阅读文件的所有标题词作为样本的标题词特征; 以每个用户作为采样单位,计算每个用户在该时间段内阅读文件中各标题词的频数, 作为每个样本中对应标题词特征的特征值; 以每个用户的阅读习惯的各习惯变量作为样本的习惯特征,计算每个用户在该时间段 内各习惯变量的变量值,作为每个样本中对应习惯特征的特征值; 保存所有用户采样的样本,该样本包括用户ID、标题词特征的特征值和习惯特征的特 征值。
4. 如权利要求3所述的文件推荐系统,其特征在于,所述阅读习惯的习惯变量包括:平 均每日阅读时长、平均每日阅读时段和平均阅读速度。
5. -种文件推荐方法,其特征在于,该方法包括: 文本处理步骤:将文件解析为具有标题和正文的文字信息,并对文字信息进行断词和 过滤断词结果; 样本采集步骤:收集所有用户在一段时间内的阅读行为,每个用户作为一个采样样本, 计算每个用户在该时间段内的阅读习惯和标题词的频数; 群组划分步骤:根据聚类演算法对所有样本进行演算,将所有样本划分为不同群组; 及 文件推荐步骤:根据用户所在群组,将同群组内所有用户阅读的文件进行相互推荐。
6. 如权利要求5所述的文件推荐方法,其特征在于,该方法还包括定期更新步骤:设定 周期性的群组更新排程,每间隔一定时间周期,抓取该时间周期内的所有用户的阅读行为, 重新采样及利用聚类演算法对采样样本重新进行群组划分。
7. 如权利要求5所述的文件推荐方法,其特征在于,所述样本采集步骤包括: 汇总所有用户在一个时间段内阅读文件的所有标题词作为样本的标题词特征; 以每个用户作为采样单位,计算每个用户在该时间段内阅读文件中各标题词的频数, 作为每个样本中对应标题词特征的特征值; 以每个用户的阅读习惯的各习惯变量作为样本的习惯特征,计算每个用户在该时间段 内各习惯变量的变量值,作为每个样本中对应习惯特征的特征值; 保存所有用户采样的样本,该样本包括用户ID、标题词特征的特征值和习惯特征的特 征值。
8.如权利要求7所述的文件推荐方法,其特征在于,所述阅读习惯的习惯变量包括平 均每日阅读时长、平均每日阅读时段和平均阅读速度。
【文档编号】G06F17/30GK104391843SQ201310360154
【公开日】2015年3月4日 申请日期:2013年8月19日 优先权日:2013年8月19日
【发明者】强振雄, 林奇玲, 李建纬, 李宜臻 申请人:捷达世软件(深圳)有限公司, 鸿海精密工业股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1