一种基于关键字匹配的内容推荐方法

文档序号:6374498阅读:198来源:国知局
专利名称:一种基于关键字匹配的内容推荐方法
技术领域
本发明涉及互联网应用技术领域,特别涉及一种网站中自动为用户推荐用户感兴趣的相关内容的方法。
背景技术
随着网络的发展及普及,互联网上的信息资料呈指数增长,用户在浏览网站时从大量的网络信息中挑选自己需要的信息将会花费大量时间。如何帮助用户更快更方便的找到需要的信息一直是关注的焦点。 目前,很多网站是采用自己对信息进行筛选然后推荐到网站首页让用户浏览,这样用户就需要在网站进行逐条查找自己感兴趣的信息,这样的方法造成用户只能看到网站推荐给他的一些最新的信息,这些信息并非都是用户感兴趣的信息,而以前用户感兴趣的相关的信息则看不到,所以这种方法是网站按照自己的主观意愿筛选的信息,不能够满足所有用户的需求。这就需要一种能够为用户精准的推荐信息内容的方法。

发明内容
本发明针对上述现有技术中存在的不足,提供了一种在网站中为用户浏览节约时间,并可精确为用户推荐用户感兴趣的内容的方法。本发明的技术方案是这样实现的一种基于关键字匹配的内容推荐方法,包括以下步骤步骤一 Web服务器根据用户的登录名或者浏览时所用的IP获取用户在网站中经常浏览的信息,并把获取到的信息数据存储在数据库中;步骤二 Web服务器分别对获取到的每条信息进行内容分析,分析方法为把信息内容正向拆分成多个关键字,然后统计每个关键字的数量,并计算该条信息中每个关键字数量在所有关键字的数量总和中占的比例,然后根据分词词典把存在于分词词典中并且在该条信息中所占比例最高的关键字获取到,最后把从这些信息中取到的关键字形成用户关键字集合;步骤三:Web服务器对数据库中所有的信息进行分析,分析方法同步骤二中的分析方法一致,得到每条信息的关键字,形成系统关键字集合;步骤四Web服务器把从用户经常浏览信息得到的用户关键字集合在系统关键字集合中进行匹配,把系统关键字集合中与用户关键字集合中相同的关键字形成推荐关键字集合;步骤五Web服务器根据推荐关键字集合从数据库中所有的信息里得到对应的推荐信息,然后把用户浏览过的信息去除并按照信息的发布时间倒序排列生成信息推荐列表,并在网页中特定的区域推荐给用户;步骤六用户再次根据用户名登录网站或者使用相同的IP地址访问该网站时,在上述特定区域就会看到更多相关的内容。
作为优选,在步骤二中,如果出现多个关键字在信息中占的比例都是最高时,则按照如下方法确定关键字把信息内容正向拆分成多个关键字,然后根据每个关键字在信息中的位置从头到尾标注序号,并取这些比例最高的关键字中序号最小的关键字做为该信息的关键字。采用了上述技术方案的本发明的原理及有益效果是本发明的核心思想是通过关键字把所有具有相同关键字的信息串联起来,Web服务器获取用户经常浏览的、感兴趣的信息,并在数据库中匹配查找类似的信息并将用户没有浏览过的类似信息推荐给用户,为用户浏览信息提供方便,用户在浏览需要的信息时只需要在特定的推荐区域查看相关信息就可以获取到整个网站中与正在浏览的信息相关的内容,而且系统能够保证推荐的内容是用户从未浏览过的,是用户感兴趣的内容,不为用户推荐无关的信息,为用户节省时间。


图I为本发明根据用户浏览信息得到用户关键字集合的流程图;图2为根据数据库中所有的信息得到系统关键字集合的流程图;图3为根据用户关键字集合在系统关键字集合中匹配得到推荐关键字集合的流程图;图4为根据推荐关键字集合生成信息推荐列表最终推荐给用户的流程图。
具体实施例方式本发明的具体实施方式
如下实施例本发明的一种基于关键字匹配的内容推荐方法,包括以下步骤步骤一 Web服务器根据用户A的登录名或者浏览时所用的IP地址获取用户A在网络中经常浏览的信息Xp X2、X3,并把获取到的信息数据存储在数据库中。步骤二 Web服务器对获取到的信息XpX2、X3进行分析,得到每条信息对应的关键字分别为甲、乙、丙,形成用户关键字集合{甲、乙、丙}。以获取关键字“甲”为例,该获取关键字的方法为把信息X1正向拆分为N个关键字,不论是否重复,并根据每个关键字在信息中的位置从头到尾标注序号,其中关键字甲出现了 M次,序号分别为O:、02、…、0M(O1 < O2〈…< 0M);关键字甲!出现了 M1次,序号分别为P” P2,…、PM1 (P1 < P2〈…< Pmi);关键字甲2出现了 M2次,序号分别为Q1' Q2'…、Qm2 (Q1 < Q2〈…< Qm2),若只有关键字甲和甲2存在于分词词典中并且(M/N) > (M2/N)则取关键字甲为信息X1的关键字,若关键字甲和甲2存在于分词词典中并且(M/N) = (M2/N)时则根据关键字的序号来取序号小的关键字为信息X1的关键字,因为中文信息都是在内容前段表明信息主题,所以当P1 < Q1时则信息X1的关键字为关键字甲。上述中文分词词典,可以从迈点网站上下载到,下载页面为http://papers.meadin. com/document/detail/9e2f3662-431e-4eal-b431-a9c77188e7bd ;该文档上传日期2012-05-17,资源大小776KB ;资源类型文档;该中文分词词典收录了大多数词汇,并排除了诸如“的”、“地” “得”等没有实质意义的定语词汇。
步骤三:Web服务器以相同的方法对数据库中所有的信息进行分析得到每条信息对应的关键字,其中对应关键字甲的信息有500条,对应关键字乙的信息有600条,对应关键字丙的信息有800条,对应关键字丁的信息有700条,对应关键字戊的信息有400条。Web服务器把数据库中所有信息对应的关键字形成系统关键字集合{甲、乙、丙、丁、戊}。步骤四Web服务器把从用户A经常浏览信息得到的用户关键字集合中的关键字甲、乙、丙在系统关键字集合{甲、乙、丙、丁、戊}中进行匹配,把系统关键字集合中与用户关键字集合中相同的关键字甲、乙、丙形成推荐关键字集合{甲、乙、丙}。步骤五Web服务器根据推荐关键字集合{甲、乙、丙}得到对应的信息,然后进行去重排序生成信息推荐列表X,在网页中特定的区域推荐给用户A。

步骤六用户A在浏览信息时就可以看到系统推荐的信息列表X,从而更方便快捷的得到大量需要的信息。通过本方法用再从大量的网络信息中挑选自己需要的信息将会方便快捷,并且保证获取到的信息的精准。用户在浏览信息时就可以看到更多相关的内容,系统并且能够保证推荐给用户的是用户从未浏览过的最新最及时的信息。从而用户能够更方便快捷的得到大量需要的信息。
权利要求
1.一种基于关键字匹配的内容推荐方法,其特征是包括以下步骤 步骤ー Web服务器根据用户的登录名或者浏览时所用的IP获取用户在网站中经常浏览的信息,并把获取到的信息数据存储在数据库中; 步骤ニ Web服务器分别对获取到的每条信息进行内容分析,分析方法为把信息内容正向拆分成多个关键字,然后统计每个关键字的数量,并计算该条信息中每个关键字数量在所有关键字的数量总和中占的比例,然后根据分词词典把存在于分词词典中并且在该条信息中所占比例最高的关键字获取到,最后把从这些信息中取到的关键字形成用户关键字集合; 步骤三:Web服务器对数据库中所有的信息进行分析,分析方法同步骤ニ中的分析方法一致,得到每条信息的关键字,形成系统关键字集合; 步骤四Web服务器把从用户经常浏览信息得到的用户关键字集合在系统关键字集合中进行匹配,把系统关键字集合中与用户关键字集合中相同的关键字形成推荐关键字集合; 步骤五Web服务器根据推荐关键字集合从数据库中所有的信息里得到对应的推荐信息,然后把用户浏览过的信息去除并按照信息的发布时间倒序排列生成信息推荐列表,并在网页中特定的区域推荐给用户; 步骤六用户再次根据用户名登录网站或者使用相同的IP地址访问该网站时,在上述特定区域就会看到更多相关的内容。
2.根据权利要求I所述的ー种基于关键字匹配的内容推荐方法,其特征是 在步骤ニ中,如果出现多个关键字在信息中占的比例都是最高时,则按照如下方法确定关键字把信息内容正向拆分成多个关键字,然后根据每个关键字在信息中的位置从头到尾标注序号,并取这些比例最高的关键字中序号最小的关键字做为该信息的关键字。
全文摘要
本发明公开了一种基于关键字匹配的内容推荐方法,包括Web服务器获取用户经常浏览的信息,进行分析并从这些信息中取到关键字形成用户关键字集合;再对数据库中所有的信息进行分析,形成系统关键字集合;Web服务器把用户关键字集合在系统关键字集合中进行匹配,把两个集合中相同的关键字形成推荐关键字集合;再根据推荐关键字集合从数据库中得到对应的推荐信息,把用户浏览过的信息去除并生成信息推荐列表,在网页中推荐给用户。本发明是通过关键字把所有具有相同关键字的信息串联起来,Web服务器获取用户经常浏览的、感兴趣的信息,并在数据库中匹配查找类似的信息并将用户没有浏览过的类似信息推荐给用户,为用户浏览信息提供方便。
文档编号G06F17/30GK102768685SQ20121027689
公开日2012年11月7日 申请日期2012年7月24日 优先权日2012年7月24日
发明者万仁良, 蒯斌毅 申请人:杭州东方网升科技有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1