一种基于用户行为的信息推荐方法

文档序号：6526780阅读：277来源：国知局

一种基于用户行为的信息推荐方法
【专利摘要】本发明涉及一种基于用户行为的信息推荐方法，方法步骤为：步骤（1）数据来源；通过网络爬虫爬取了网络上的网页信息，并使用最大块密度算法抽取了网页中的正文，使用IKAnalyzer进行分词，使用聚类算法将词进行聚类，最终通过多个类形成了一个索引网；步骤（2）用户行为处理：系统会自动为用户分配一个唯一的用户号；会自动记录用户的搜索内容和与搜索结果的交互情况下来并存入；步骤（3）进行推荐：以现有数据为基础，用基于内容推荐的算法为用户推荐。本发明添加相应的推荐算法，为用户推荐感兴趣的信息供用户进行选择，并在一定程度上影响搜索结果的排名，使得排名更符合不同用户的兴趣。
【专利说明】一种基于用户行为的信息推荐方法
【技术领域】
[0001]本发明涉及为使用搜索引擎的用户进行相关内容的推荐，具体涉及推荐用户感兴趣的内容并在一定程度上通过用户的上网行为影响搜索结果的排序。
【背景技术】
[0002]随着互联网的快速发展，人们正处于一个信息爆炸的时代。相对于过去的信息匮乏，面对现阶段海量的信息数据，对信息的筛选和过滤成为了衡量一个系统好坏的重要指标。同时，一个具有良好用户体验的系统，会将海量信息进行筛选和过滤，并将用户最感兴趣的信息展现在用户面前。在一定程度上，这大大增加了系统工作的效率，另一方面也节省了用户筛选信息的时间。搜索引擎的出现在一定程度上解决了信息筛选问题，但仅仅是搜索引擎是不够的。虽然搜索引擎可以帮助用户在输入关键词之后对海量信息进行筛选，从而在搜索结果中找寻所需的内容。以Google、Baidu为代表的搜索引擎已为人们熟知，它们都具有基于关键字、通用性较强等特点。但当用户无法准确描述自己的需求时，搜索引擎的搜索效果将受到很大影响，而用户将自己的需求和意图转化成关键词的过程本身就是一个并不轻松的过程。因此，推荐系统在一定程度上具有良好的引导和帮助用户找到所需内容的作用，使得用户在使用搜索系统的过程中具有良好的体验。
[0003]同时，记录不同用户的搜索行为，并根据不同用户的行为进行推荐将在一定程度上使得推荐内容更能满足不同用户的需求。不同的用户行为不仅仅影响了推荐内容，也会影响搜索结果的排名。例如两个不同的用户都输入“旅游”一词进行搜索，但一位是想搜索探险类的旅游，而另一位是想搜索休闲类的旅游，根据这两位不同的用户搜索引擎会根据用户的行为进行不同的推荐，否则会返回相同的结果让用户自行选择需要的内容，在一定程度上使得用户的体验感下降。

【发明内容】

[0004]本发明针对以上存在的问题，在已有的搜索引擎中添加相应的推荐算法，为用户推荐感兴趣的信息供用户进行选择，并在一定程度上影响搜索结果的排名，使得排名更符合不同用户的兴趣。
[0005]本发明给出的技术技术方案:
一种基于用户行为的信息推荐方法，其特征在于，方法步骤为:
步骤(I)数据来源，具体为:
通过网络爬虫爬取了网络上的网页信息，并使用最大块密度算法抽取了网页中的正文，使用IKAnalyzer进行分词，使用聚类算法将词进行聚类，最终通过形成了多个类，同时在每个类中都有一个中心词用于较好地刻画这个类，如此网络中的海量词语就形成了一个索引网。
[0006]步骤(2)用户行为处理,具体为:
当用户使用搜索引擎进行搜索时，系统会自动为该用户分配一个唯一的用户号。当用户登录后，系统会自动把用户的搜索内容和与搜索结果的交互情况记录下来，并存入数据库中。所述数据库使用了一维向量来刻画用户的搜索行为。当用户登录系统之后，输入关键字进行搜索，那么就使用向量〈ID, word, num, class〉(ID表示用户ID, word表示关键词，num表示搜索该关键词的次数，class表示该关键词所属的类)来记录用户的搜索行为。当呈现了搜索结果之后，如果用户点击了相应的搜索内容，则同样记录用户点击行为，即使用向量〈ID, class, count〉(ID表示用户ID, class表示点击内容所属的类，count表示点击该类的次数)来表示。
[0007]步骤(3)进行推荐，具体为:
推荐算法是以现有数据为基础，采用基于内容推荐的算法为用户进行推荐。在每个搜索结果的呈现中都会展示这个结果属于哪个类，那么就可以在此基础上推荐这个类中的相应内容和与这个类有关的类。在已构建的词关联网上，根据用户行为建立的数据表，按照某个类中num (用户点击次数)的大小选取前K个进行推荐。而类之间的推荐则根据count (这个类被某个用户所选择的次数)的大小取前M个进行推荐。
[0008]与现有的搜索引擎相比，添加了推荐算法在很大程度上满足了不同用户的不同搜索需求，同时也为用户呈现了更多的适应于用户兴趣的信息供用户选择，为用户的不确定搜索和搜索更多所需内容提供了方便。本发明技术方案创新点体现在:
I)记录用户的行为将相应的数据存入数据库中，并将用户行为与推荐内容进行结合，根据用户行为提供给用户偏爱的某一类的相关推荐词。
[0009]2)根据用户行为和已记录的数据，影响搜索结果的排序，将用户偏爱的结果排在搜索结果的前面，在一定程度上为用户使用搜索引擎带来便利也根据个性化。
【专利附图】

【附图说明】
[0010]图1词关联网；
图2推荐系统流程图。
【具体实施方式】
[0011]数据来源:通过网络爬虫爬取了网络上的网页信息，并使用最大块密度算法抽取了网页中的正文，使用IKAnalyzer进行分词，使用聚类算法将词进行聚类，最终通过形成了多个类，同时在每个类中都有一个中心词用于较好地刻画这个类。这样网络中的海量词语就形成了一个索引网，从而词与词、类与类之间就存在一定的关系(如图1所示)。在图1中，黑点表示词，多个词通过聚类算法形成了一个个类，例如图1中的ABCD就是形成的类。而类与类之间的关系通过连线进行表示，当类与类之间的连线距离越短则表示两个类之间的关系越紧密。
[0012]通过图2所示可以看到用户在整个搜索过程中的具体行为，以及对于推荐系统的影响。在用户进行搜索之前，所有的数据通过网络爬虫爬取了网络上的网页信息，并使用最大块密度算法抽取了网页中的正文，使用IKAnalyzer进行分词，使用聚类算法将词进行聚类，最终通过形成了多个类，同时在每个类中都有一个中心词用于较好地刻画这个类。当用户与搜索引擎进行交互之后就形成了用户行为，当达到一定的使用次数之后就会对搜索引擎的推荐形成影响，下面就具体的步骤进行阐述: I获取用户行为信息:获取的用户行为的信息主要来自于用户登录系统之后与系统的一系列交互的过程，通过交互过程中的用户行为将相应的内容存入数据库中用于之后的推荐。当每次用户打开搜索引擎开始搜索时，通过每个用户的不同的ID号记录用户的搜索内容，即搜索词和查看网页的类，以方便之后的使用。
[0013]2将用户信息存入数据库:当用户登录后，系统会自动把用户的搜索内容和与搜索结果的交互情况记录下来，并存入数据库中。在这里使用了一维向量来刻画用户的搜索行为。当用户登录系统之后，输入关键字进行搜索，那么就使用向量〈ID, word, num, class〉(ID表示用户ID, word表示关键词，num表示搜索该关键词的次数，class表示该关键词所属的类)来记录用户的搜索行为。同时，当某个class被使用之后，相对应的另一个记录class的表中的一维向量〈ID, class, count〉中的count值也有所增加。当呈现了搜索结果之后，如果用户点击了相应的搜索内容，则同样记录用户点击行为，即改变记录某个类的信息的表，使用向量〈ID, class, count〉(ID表示用户ID, class表示点击内容所属的类，count表示点击该类的次数)来表示。
[0014]3形成推荐:推荐算法是以现有数据为基础，在已有的词关联网络的基础之上，采用基于内容推荐的算法为用户进行推荐。也就是说在这里不是基于用户间的信息进行推荐，而是只是基于单个用户进行的特定推荐，根据每个用户的搜索行为进行相应的推荐，使得推荐更加个性化。根据某个用户在开启搜索引擎之后的用户行为，将以保存的用户行为中的常用搜索词和常用搜索类进行排序，并将这些内容排在所有搜索结果的最前面或者是作为主要推荐内容呈现。
[0015]4产生结果:在每个搜索结果的呈现中都会展示这个结果属于哪个类，那么就可以在此基础上推荐这个类中的相应词和与这个类有关的类。在已构建的关联词网的基础上，根据用户行为建立的数据表，即用于记录搜索词的表格(〈ID, word,num, class〉)和用于记录类的表格(〈ID, class, count〉),进行推荐。简单的说,就是推荐词的推荐按照某个类中num的大小选取前K个进行推荐。而类之间的推荐则根据count的大小取前M个进行推荐(K，M的大小根据实际情况具体限定)。
【权利要求】
1.一种基于用户行为的信息推荐方法，其特征在于，方法步骤为: 步骤(I)数据来源，具体为: 通过网络爬虫爬取了网络上的网页信息，并使用最大块密度算法抽取了网页中的正文，使用IKAnalyzer进行分词，使用聚类算法将词进行聚类，最终通过形成了多个类，同时在每个类中都有一个中心词用于较好地刻画这个类，如此网络中的海量词语就形成了一个索引网；步骤(2)用户行为处理，具体为: 当用户使用搜索引擎进行搜索时，系统会自动为该用户分配一个唯一的用户号；当用户登录后，系统会自动把用户的搜索内容和与搜索结果的交互情况记录下来，并存入数据库中；所述数据库使用了一维向量来刻画用户的搜索行为；当用户登录系统之后，输入关键字进行搜索，那么就使用向量<ID,word,num, class〉(ID表示用户ID,word表示关键词，num表示搜索该关键词的次数，class表示该关键词所属的类)来记录用户的搜索行为；当呈现了搜索结果之后，如果用户点击了相应的搜索内容，则同样记录用户点击行为，即使用向量〈ID, class, count〉(ID表示用户ID, class表示点击内容所属的类，count表示点击该类的次数)来表示；步骤(3)进行推荐，具体为: 推荐算法是以现有数据为基础，采用基于内容推荐的算法为用户进行推荐。
2.在每个搜索结果的呈现中都会展示这个结果属于哪个类，那么就可以在此基础上推荐这个类中的相应内容和与这个类有关的类；在已构建的词关联网上，根据用户行为建立的数据表，按照某个类中num(用户点击次数)的大小选取前K个进行推荐；而类之间的推荐则根据count (这个类被某个用户所选择的次数)的大小取前M个进行推荐。
【文档编号】G06F17/30GK103678710SQ201310747338
【公开日】2014年3月26日申请日期:2013年12月31日优先权日:2013年12月31日
【发明者】蒋昌俊, 陈闳中, 闫春钢, 丁志军, 王鹏伟, 何源, 陈雨忱申请人:同济大学

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：蒋昌俊;陈闳中;闫春钢;丁志军;王鹏伟;何源;陈雨忱;
技术所有人：同济大学;
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。