一种兴趣信息的识别方法及装置与流程

文档序号:11155095阅读:573来源:国知局
一种兴趣信息的识别方法及装置与制造工艺

本发明涉及信息技术领域,尤其涉及一种兴趣信息识别的方法及装置。



背景技术:

随着信息技术的快速发展,用户的兴趣爱好和关注点受到商家越来越多的关注,通过识别用户的兴趣爱好和关注点标签,可以增加互联网营销的精准性。通常,由于互联网用户不会主动填写和提交此类信息,只能通过被动采集互联网用户的行为数据获取用户的兴趣爱好和关注点等兴趣信息信息。其中,用户的行为数据包括用户访问的访问页URL(Uniform Resource Locator,URL,即统一资源定位符)、访问页域名、访问页标题等信息。

目前,通常通过域名标签系统对用户兴趣信息进行识别。具体是通过从域名标签系统中获取与用户访问的网页域名信息对应的标签信息作为用户兴趣信息。但是,由于域名标签系统中保存的网页域名信息局限性较大,无法对所有网页域名信息进行覆盖,从而造成现有兴趣信息的识别精度较低。



技术实现要素:

有鉴于此,本发明实施例提供一种兴趣信息的识别方法及装置,主要目的是提高兴趣信息的识别精度。

依据本发明一个方面,提供了一种兴趣信息的识别方法,包括:

获取用户的页面访问记录信息,所述页面访问记录信息包括网页标题信息;

从预置存储位置获取与所述网页标题信息对应的标签信息,所述预置存储位置保存有不同网页标题信息分别对应的标签信息;

将所述标签信息配置为所述用户的兴趣信息。

依据本发明一个方面,提供了一种兴趣信息的识别装置,包括:

获取单元,用于获取用户的页面访问记录信息,所述页面访问记录信 息包括网页标题信息;

所述获取单元,还用于从预置存储位置获取与所述网页标题信息对应的标签信息,所述预置存储位置保存有不同网页标题信息分别对应的标签信息

配置单元,用于将所述标签信息配置为所述用户的兴趣信息。

借由上述技术方案,本发明实施例提供的技术方案至少具有下列优点:

本发明实施例提供的一种兴趣信息的识别方法及装置,首先获取用户的页面访问记录信息,所述页面访问记录信息包括网页标题信息;然后从预置存储位置获取与所述网页标题信息对应的标签信息,所述预置存储位置保存有不同网页标题信息分别对应的标签信息;将所述标签信息配置为所述用户的兴趣信息。与目前通过域名标签系统识别用户兴趣信息相比,本发明通过网页标题信息识别用户兴趣信息,可以避免由于域名标签系统中保存的域名信息局限性较大,无法对所有域名信息进行覆盖造成的兴趣信息的识别精度较低的问题,进而可以提高识别兴趣信息的识别精度。

上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:

图1为本发明实施例提供的一种兴趣信息的识别方法流程图;

图2为本发明实施例提供的另一种兴趣信息的识别方法流程图;

图3为本发明实施例提供的一种兴趣信息的识别装置的方框图;

图4为本发明实施例提供的另一种兴趣信息的识别装置的方框图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开 而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。

本发明实施例提供一种兴趣信息的识别方法,如图1所示,所述方法包括:

101、获取用户的页面访问记录信息。

其中,所述页面访问记录信息包括网页标题信息,所述网页标题信息根据用户访问的访问页面获取,网页标题信息可以为电影、新闻、游戏,本发明实施例不做具体限定。其中,可以通过WD系统(Gridsum Web Dissector,即在线营销效果优化和用户行为分析系统)获取页面访问记录信息。例如,用户浏览WD系统监测的某网站,当用户点击新闻图标时,WD系统自动获取该用户访问的网页标题信息。

对于本发明实施例,所述获取用户的页面访问记录信息具体可以为:首先,启动WD系统监测用户预访问的网站;其次,WD系统自动获取用户的页面访问记录信息,其中,用户的页面访问记录信息包含网页标题信息。例如,WD系统正在监测某电影类网站,用户浏览电影时讯网页时,WD系统自动对“电影时讯”的网页标题信息进行采集。

102、从预置存储位置获取与所述网页标题信息对应的标签信息。

其中,所述预置存储位置保存有不同网页标题信息分别对应的标签信息。所述标签信息为可以反应网页标题信息特征的信息。例如,对于电影购票网页标题信息,标签信息可以为电影。

对于本发明实施例,可以通过预置算法对预置存储位置中的网页标题信息进行分类,并按类别为网页标题信息配置对应的标签信息。其中,预置存储位置中保存的分类器模型可以为支持向量机、逻辑回归等分类算法,本实施例不做具体限定。例如,首先爬取指定类别的网站标题信息:“易车网”、“51汽车网”,爬取下来的网页标题信息自动配置为“汽车”标签,存储在预置存储位置中;然后根据已知“汽车”标签的网页标题信息训练分类器,将训练后的分类器存储在预置存储位置中;当用户访问58二手车时,将访问的网页标题信息输入已训练好的分类器中,分类器输出“汽车”标 签。

103、将所述标签信息配置为所述用户的兴趣信息。

其中,兴趣信息具体可以为反应用户兴趣爱好和关注点的信息。

进一步地,对于本发明实施例,当将用户访问的所有网页标题信息均输入分类器分类后获取多个标签,确认最终用户兴趣标签,其中,确认方法可以根据业务要求决定,包括确认所有标签为用户的兴趣标签,或对标签出现次数进行排序,确认出现次数最多的为用户兴趣标签,本发明实施例不做具体限定。例如,从分类器获取的标签包括“汽车”、“家电”、“游戏”,根据业务要求将所有用户访问的网页标题信息产生的标签均确认为用户的兴趣标签,则用户的兴趣标签为“汽车”、“家电”、“游戏”。

对于本发明实施例,具体的应用场景可以如下所示,但不限于此,包括:如关注标签为财经和汽车,如“财经网”、“和讯网”、“网易财经”、“汽车之家”、“太平洋汽车网”,通过爬虫爬取汽车类网页标题信息和财经类网页标题信息,通过输入给支持向量机分类器进行训练,建立模型,用户浏览WD系统监测的网站时,将用户访问的网页标题信息“易车网”、“和讯网”输入给分类器进行分类,根据业务要求获取所有标签为用户兴趣标签,确认得到标签为汽车和财经。

本发明实施例提供的一种兴趣信息的识别方法,首先获取用户的页面访问记录信息,所述页面访问记录信息包括网页标题信息;然后从预置存储位置获取与所述网页标题信息对应的标签信息,所述预置存储位置保存有不同网页标题信息分别对应的标签信息;将所述标签信息配置为所述用户的兴趣信息。与目前通过域名标签系统识别用户兴趣信息相比,本发明通过网页标题信息识别用户兴趣信息,可以避免由于域名标签系统中保存的域名信息局限性较大,无法对所有域名信息进行覆盖造成的兴趣信息的识别精度较低的问题,进而可以提高识别兴趣信息的识别精度。

进一步地,本发明实施例提供另一种兴趣信息的识别方法,如图2所示,所述方法包括:

201、从各个数据源中分别获取对应的网页标题信息。

其中,所述各个数据源为可以包含根据业务要求指定的所有网站。例 如,待关注的标签为视频,则指定数据源为“优酷”、“土豆”、“乐视”。

对于本发明实施例,步骤201之前还可以包括:从所述各个数据源中获取符合预置条件的热点数据源,其中,预置条件可以为用户使用率较高、热点新闻量较多,本发明实施例不做限定。例如,预置条件为用户使用率较高,此时,会从所有数据源中获取用户使用率较高的网站,例如,“土豆”、“乐视”等作为热点数据源。基于此,步骤201具体可以为:从所述热点数据源中分别获取对应的网页标题信息,即从“土豆”、“乐视”等热点数据源中分别获取对应的网页标题信息。对于本发明实施例,通过从热点数据源中分别获取对应的网页标题信息,可以使得获取的网页标题信息的针对性更强,可以进一步提升用户的兴趣信息的识别精度。

进一步地,步骤201具体还可以为:按照预设时间间隔从各个数据源中分别获取对应的网页标题信息,其中,预设时间间隔可以为一天、12小时、6小时,本发明实施例不做限定。例如,设置预设时间间隔为一天,则每天从电影网站中爬取电影票选购网页标题信息。对于本发明实施例,通过每天获取热点数据源下的网页标题信息,可以保证获取到的网页标题信息为最近的实时信息,从而进一步提高用户兴趣信息的识别精度。

202、将所述网页标题信息划分为不同类别。

其中,所述类别可以为电影类、新闻类、购物类等,本方案实施例不做限定。具体划分的类别也可以依据数据源的类别进行划分,例如,数据源中包含“优酷”、“乐视”,这可以将网页标题信息划分为视频。

203、为每一类别中的网页标题信息配置与所述类别对应的标签信息。

其中,所述标签信息为可以反应网页标题信息特征的信息。例如,通过爬虫爬取网页标题信息分为电影类、新闻类、游戏类的网页标题信息:“优酷”、“头条”、“7k7k小游戏”,配置的标签信息为视频标签信息、新闻标签信息、游戏标签信息。例如,预设爬取类别为视频、新闻、购物,爬取网页标题信息为“优酷”、“土豆”、“头条”、“淘宝”,则将“优酷”、“土豆”划分为视频类别,“头条”划分为新闻类别,“淘宝”划分为购物类别,相应地,为“优酷”、“土豆”配置的标签信息为视频,为“头条”比分配置的标签信息为新闻,为“淘宝”配置的标签信息为购物。

204、将各个网页标题信息以及与所述各个网页标题信息分别对应的标签信息保存在所述预置存储位置。

其中,所述预置存储位置可以为数据库、分类器等,本发明实施例不做限定。例如,将新闻类页面标题及对应的新闻标签信息保存在分类器中。

对于本发明实施例,可以通过预置算法对预置存储位置中的网页标题信息进行分类,并按类别为网页标题信息配置对应的标签信息。预置算法可以为各种机械学习算法,通过将收集的网页标题信息数据集进行训练分类,生成各类别对应的标签信息,其中,机械学习算法可以包括支持向量机算法、神经网络算法等,本发明实施例不做限定。例如,首先爬取指定类别的网站标题信息:“163邮箱”、“126邮箱”,爬取下来的网页标题信息自动配置为“邮箱”标签,存储在预置存储位置中;然后根据已知“邮箱”标签的网页标题信息训练分类器,将训练后的分类器存储在预置存储位置中;当用户访问“QQ邮箱”时,将访问的网页标题信息输入已训练好的分类器中,分类器输出“邮箱”标签。

205、获取用户的页面访问记录信息。

其中,所述页面访问记录信息包括网页标题信息,所述网页标题信息根据用户访问的访问页面获取。其中,可以通过WD系统(Gridsum Web Dissector,即在线营销效果优化和用户行为分析系统)获取页面访问记录信息。

对于本发明实施例,所述获取用户的页面访问记录信息具体可以为:首先,启动WD系统监测用户预访问的网站;其次,WD系统自动获取用户的页面访问记录信息,其中,用户的页面访问记录信息包含网页标题信息。例如,WD系统正在监测某游戏类网站,用户浏览单机游戏网页时,WD系统自动对“单机游戏”的网页标题信息进行采集。

206、从预置存储位置获取与所述网页标题信息对应的标签信息。

其中,所述预置存储位置保存有不同网页标题信息分别对应的标签信息。

对于本发明实施例,步骤206之前还可以包括判断域名标签系统中是否存在所述网页域名信息对应的标签信息,所述域名标签系统中保存有不 同网页域名信息分别对应的标签信息。此时,步骤206具体可以包括:若域名标签系统中不存在所述网页域名信息对应的标签信息,则从所述预置存储位置获取与所述网页标题信息对应的标签信息;若域名标签系统中存在所述网页域名信息对应的标签信息,则从所述域名标签系统中获取与所述网页域名信息对应的标签信息,其中,域名标签系统中包含域名信息配置成功的标签信息。例如,域名标签系统中含有电影、新闻标签,以及电影、新闻标签分别对应的网页域名信息www.dianying.com、www.xinwen.com,此时获取到的用户访问记录信息中的网页域名信息为www.dianying.com,判断域名标签系统中存在www.dianying.com对应的标签为电影,则将电影识别为用户的兴趣信息。再如,获取到的用户访问记录信息中的网页域名信息为www.tiyu.com,判断域名标签系统中不存在该网页域名信息新闻标签,则根据网页标题信息从预置存储位置中识别用户的兴趣信息。对于本发明实施例,当域名标签系统中存在网页域名信息对应的标签信息时,直接通过域名标签系统识别用户的兴趣信息,可以进一步提升用户兴趣信息的识别效率。

207、将所述标签信息配置为所述用户的兴趣信息。

其中,兴趣信息具体可以为反应用户兴趣爱好和关注点的信息。

进一步地,对于本发明实施例,当将用户访问的所有网页标题信息均输入分类器分类后获取多个标签,确认最终用户兴趣标签,其中,确认方法可以根据业务要求决定,包括确认所有标签为用户的兴趣标签,或对标签出现次数进行排序,确认出现次数最多的为用户兴趣标签,本发明实施例不做具体限定。

对于本发明实施例,具体的应用场景可以如下所示,但不限于此,包括:设置热点数据源为新闻,域名标签系统中包含的网页域名信息为www.dianying.com、www.youxi.com,分别对应的标签为电影和游戏,通过每天爬取新闻类的网站信息获取网页标题信息:“腾讯新闻”、“搜狐新闻”,将获取的网页标题信息输入分类器进行训练,将训练好的分类器保存,WD系统获取用户访问信息,获取用户访问的网页标题信息为腾讯新闻,网页域名信息为www.tengxunxinwen.com,首先判断域名标签系统中不存在 www.tengxunxinwen.com对应的标签,则将“腾讯新闻”输入已训练好的分类器,确认得到“腾讯新闻”为新闻标签信息。从而增加了识别用户兴趣信息的覆盖范围,提高了识别兴趣信息的识别精度。

本发明实施例提供的另一种兴趣信息的识别方法,首先获取用户的页面访问记录信息,所述页面访问记录信息包括网页标题信息;然后从预置存储位置获取与所述网页标题信息对应的标签信息,所述预置存储位置保存有不同网页标题信息分别对应的标签信息;将所述标签信息配置为所述用户的兴趣信息。与目前通过域名标签系统识别用户兴趣信息相比,本发明通过网页标题信息识别用户兴趣信息,可以避免由于域名标签系统中保存的域名信息局限性较大,无法对所有域名信息进行覆盖造成的兴趣信息的识别精度较低的问题,进而可以提高识别兴趣信息的识别精度。

该装置实施例与前述方法实施例对应,为便于阅读,本装置实施例不再对前述方法实施例中的细节内容进行逐一赘述,但应当明确,本实施例中的装置能够对应实现前述方法实施例中的全部内容。

进一步地,作为图1所示方法的具体实现,本发明实施例提供一种兴趣信息的识别装置,如图3所示,所述装置可以包括:获取单元31、配置单元32。

所述获取单元31,可以用于获取用户的页面访问记录信息,所述页面访问记录信息包括网页标题信息;

所述获取单元31,还可以用于从预置存储位置获取与所述网页标题信息对应的标签信息,所述预置存储位置保存有不同网页标题信息分别对应的标签信息;

所述配置单元32,可以用于将所述获取单元31获取的所述标签信息配置为所述用户的兴趣信息。

本发明实施例提供的一种兴趣信息的识别装置,首先获取用户的页面访问记录信息,所述页面访问记录信息包括网页标题信息;然后从预置存储位置获取与所述网页标题信息对应的标签信息,所述预置存储位置保存有不同网页标题信息分别对应的标签信息;将所述标签信息配置为所述用户的兴趣信息。与目前通过域名标签系统识别用户兴趣信息相比,本发明 通过网页标题信息识别用户兴趣信息,可以避免由于域名标签系统中保存的域名信息局限性较大,无法对所有域名信息进行覆盖造成的兴趣信息的识别精度较低的问题,进而可以提高识别兴趣信息的识别精度。

该装置实施例与前述方法实施例对应,为便于阅读,本装置实施例不再对前述方法实施例中的细节内容进行逐一赘述,但应当明确,本实施例中的装置能够对应实现前述方法实施例中的全部内容。

进一步地,作为图2所示方法的具体实现,本发明实施例提供另一种兴趣信息的识别装置,如图4所示,所述装置可以包括:获取单元41、配置单元42、判断单元43。

所述获取单元41,可以用于获取用户的页面访问记录信息,所述页面访问记录信息包括网页标题信息;

所述获取单元41,还可以用于从预置存储位置获取与所述网页标题信息对应的标签信息,所述预置存储位置保存有不同网页标题信息分别对应的标签信息;

所述配置单元42,可以用于将所述获取单元41获取的所述标签信息配置为所述用户的兴趣信息。

进一步地,所述获取单元41具体可以包括:

获取模块4101,可以用于从各个数据源中分别获取对应的网页标题信息;

划分模块4102,可以用于将所述获取模块4101获取的网页标题信息划分为不同类别;

配置模块4103,可以用于为所述划分模块4102划分的每一类别中的网页标题信息配置与所述类别对应的标签信息;

保存模块4104,可以用于将各个网页标题信息以及与所述各个网页标题信息分别对应的标签信息保存在所述预置存储位置。

进一步地,所述获取单元41,还用于从所述各个数据源中获取符合预置条件的热点数据源。

进一步地,所述获取单元41,具体用于从所述热点数据源中分别获取对应的网页标题信息。

进一步地,所述获取单元41,具体还用于按照预设时间间隔从各个数据源中分别获取对应的网页标题信息。

进一步地,所述装置还可以包括:

判断单元43,可以用于判断域名标签系统中是否存在所述网页域名信息对应的标签信息,所述域名标签系统中保存有不同网页域名信息分别对应的标签信息。

进一步地,所述获取单元41,具体用于若判断单元43判断出域名标签系统中不存在所述网页域名信息对应的标签信息,则从所述预置存储位置获取与所述网页标题信息对应的标签信息。

进一步地,所述获取单元41,具体还用于若判断单元43判断出域名标签系统中存在所述网页域名信息对应的标签信息,则从所述域名标签系统中获取与所述网页域名信息对应的标签信息。

本发明实施例提供的另一种兴趣信息的识别装置,首先获取用户的页面访问记录信息,所述页面访问记录信息包括网页标题信息;然后从预置存储位置获取与所述网页标题信息对应的标签信息,所述预置存储位置保存有不同网页标题信息分别对应的标签信息;将所述标签信息配置为所述用户的兴趣信息。与目前通过域名标签系统识别用户兴趣信息相比,本发明通过网页标题信息识别用户兴趣信息,可以避免由于域名标签系统中保存的域名信息局限性较大,无法对所有域名信息进行覆盖造成的兴趣信息的识别精度较低的问题,进而可以提高识别兴趣信息的识别精度。

所述一种兴趣信息的识别装置包括处理器和存储器,上述获取单元和配置单元等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元来实现相应的功能。

处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数来提高识别兴趣信息的识别精度。

存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM),存储器包括至少一个存储芯片。

本申请还提供了一种计算机程序产品,当在数据处理设备上执行时, 适于执行初始化有如下方法步骤的程序代码:获取用户的页面访问记录信息,所述页面访问记录信息包括网页标题信息;从预置存储位置获取与所述网页标题信息对应的标签信息,所述预置存储位置保存有不同网页标题信息分别对应的标签信息;将所述标签信息配置为所述用户的兴趣信息。

本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。

以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1