用户偏好信息采集方法和装置与流程

文档序号：15327643发布日期：2018-09-04 19:16阅读：250来源：国知局

本发明涉及计算机领域，特别涉及一种用户偏好信息采集方法和装置。

背景技术：

随着计算机和网络的不断发展，社交网络在人们的生活中扮演着越来越重要的角色。许多人通过社交网络获取自己感兴趣的信息。诸如微博之类的社交网络通常根据事先采集的用户偏好信息向用户推荐可能感兴趣的内容或者其它有同样偏好的用户。

用户偏好信息通常以标签的方式体现和采集，现有的一种用户偏好信息采集方法包括：社交网络向用户提供标签设置功能；用户通过搜索或逐级点击的方式在社交网络提供的可选标签中选择自己感兴趣的标签；社交网络保存用户选择的标签，并在用户登录社交网络时根据用户选择的标签向用户提送可能感兴趣的内容。

在实现本发明的过程中，发明人发现现有技术至少存在以下问题：

现有技术中，主要通过用户主动点击选择标签的方式来采集用户偏好信息。由于无法保证每个用户都能主动选择标签进行标签设置，也无法保证进行标签设置的用户能一次性准确选择所有自己感兴趣的标签，因此，用户偏好信息采集覆盖率低且准确性不高。

技术实现要素：

为了提高用户偏好信息采集的覆盖率和准确性，本发明实施例提供了一种用户偏好信息采集方法和装置。所述技术方案如下：

一方面，提供一种用户偏好信息采集方法，所述方法包括：

提取用户操作过程中涉及到的关键词；

判断预先设置的标签库中是否存在与所述关键词相同的标签；

如果判断所述预先设置的标签库中存在与所述关键词相同的标签，则将与所述关键词相同的标签存储入用户个人标签库中。

所述提取用户操作过程中涉及到的关键词，具体包括：

当用户进行搜索操作时，提取用户输入内容中的关键词；

当用户进行浏览操作时，提取用户浏览内容的主题中的关键词。

所述用户个人标签库中包括标签和与每个标签对应的累积次数；所述如果判断所述预先设置的标签库中存在与所述关键词相同的标签，则将与所述关键词相同的标签存储入用户个人标签库中，具体包括：

判断所述用户个人标签库中是否已经存储所述标签；

如果所述用户个人标签库中已经存储所述标签，则将所述标签的累积次数加一；

如果所述用户个人标签库中未存储所述标签，则将所述标签进行存储，并将所述标签的累积次数设为一。

如果判断所述预先设置的标签库中不存在与所述关键词相同的标签，所述方法还包括：

将所述关键词录入未分类项，以便于后续对所述未分类项中的关键词进行分析并根据分析结果完善所述标签库。

所述提取用户操作过程中涉及到的关键词，具体包括：

在提取所述关键词时，同时提取所述关键词对应的操作时间；所述操作时间包括以下时间中的任一种：所述关键词被输入时的时间、所述关键词被浏览时的时间和所述关键词被提取时的时间；

对应的，所述用户个人标签库中还包括与每个标签对应的操作时间集；

所述将所述标签存储入用户个人标签库中，还包括：

将所述关键词对应的操作时间保存入所述标签对应的操作时间集中。

所述将所述标签存储入用户个人标签库中之后，所述方法还包括：

对所述用户个人标签库按照预定方式进行分析，并将分析结果作为用户偏好信息；所述预定方式包括如下方式中的一种或几种的结合：

按照操作时间与预定时间间隔的关系进行分类、按照操作时间进行排序、按照累积次数进行排序和判断累积次数是否超过预定阈值。

另一方面，提供一种用户偏好信息采集装置，所述装置包括：

提取模块，用于提取用户操作过程中涉及到的关键词；

判断模块，用于判断预先设置的标签库中是否存在与所述关键词相同的标签；

存储模块，用于如果判断模块判断所述预先设置的标签库中存在与所述关键词相同的标签，则将与所述关键词相同的标签存储入用户个人标签库中。

所述提取模块，具体包括：第一提取单元和第二提取单元；

所述第一提取单元，用于当用户进行搜索操作时，提取用户输入内容中的关键词；

所述第二提取单元，用于当用户进行浏览操作时，提取用户浏览内容的主题中的关键词。

其中，用户个人标签库中包括标签和与每个标签对应的累积次数；

所述存储模块还包括：判断单元和存储单元；

所述判断单元，用于判断所述用户个人标签库中是否已经存储所述标签；

所述存储单元，用于在所述判断单元判断所述用户个人标签库中已经存储所述标签时，将所述标签的累积次数加一；

所述存储单元，还用于在所述判断单元判断所述用户个人标签库中未存储所述标签时，将所述标签进行存储，并将所述标签的累积次数设为一。

如果所述判断模块判断所述预先设置的标签库中不存在与所述关键词相同的标签，所述装置还包括：

录入模块，用于将所述关键词录入未分类项，以便后续对所述未分类项中的关键词进行分析并根据分析结果完善所述标签库。

所述提取模块，还包括：时间提取单元，用于在提取所述关键词时，同时提取所述关键词对应的操作时间；所述操作时间为以下时间中的任一种：所述关键词被输入时的时间、所述关键词被浏览时的时间和所述关键词被提取时的时间；

对应的，所述用户个人标签库还包含有与每个标签对应的操作时间集；

所述存储单元，还用于将所述关键词对应的操作时间保存入所述标签对应的操作时间集中。

所述装置还包括：

用于对所述用户个人标签库按照预定方式进行分析，并将分析结果作为用户偏好信息；所述预定方式包括如下方式中的一种或几种的结合：

按照操作时间与预定时间间隔的关系进行分类、按照操作时间进行排序、按照累积次数进行排序和判断累积次数是否超过预定阈值。

本发明实施例提供的技术方案带来的有益效果是：

通过在日常应用中提取用户操作所涉及到的关键词，并将名称与提取到的关键词相同的标签存储入用户个人标签库中，达到提高用户偏好信息采集的覆盖率和准确性的目的。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1是本发明实施例一提供的用户偏好信息采集方法的方法流程图；

图2是本发明实施例二提供的用户偏好信息采集方法的方法流程图；

图3是本发明实施例三提供的用户偏好信息采集装置的结构方框图；

图4是本发明实施例四提供的用户偏好信息采集装置的结构方框图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

实施例一

请参考图1，其示出了本发明实施例一提供的用户偏好信息采集方法的流程图。该用户偏好信息采集方法可以包括：

步骤101，提取用户操作过程中涉及到的关键词；

用户在社交网络中进行搜索或点击浏览操作时，服务器可以通过对用户搜索的内容或用户浏览的主题进行切词以提取用户搜索或点击过程中涉及到的关键词。

步骤102，判断预先设置的标签库中是否存在与该关键词相同的标签；

服务器将提取到的关键词与预先设置的标签库中的标签名称进行比对，判断预先设置的标签库中是否存在与该关键词相同的标签。

步骤103，如果判断预先设置的标签库中存在与该关键词相同的标签，则将与该关键词相同的标签存储入用户个人标签库中。

服务器为每个用户分别设置一个用户个人标签库，用以存储与提取到的关键词相同的标签。

本实施例一提供的用户偏好信息采集方法通过在日常应用中提取用户操作所涉及到的关键词，并将名称与提取到的关键词相同的标签存储入用户个人标签库中，达到提高用户偏好信息采集的覆盖率和准确性的目的。

实施例二

请参考图2，其示出了本发明实施例二提供的用户偏好信息采集方法的流程图。该用户偏好信息采集方法可以用于社交网络的服务器中，该用户偏好信息采集方法可以包括：

步骤201，用户登录社交网络服务器；

用户可以通过具有唯一身份特征的标识信息登录社交网络服务器，比如使用预先注册的账号登录社交网络，其中预先注册的账号可以是用户自己输入的字符串(可以是邮箱号、用户名等)，也可以是服务器统一分配的字符串(比如qq号)。此步骤为现有技术，本实施例不做具体限定。

步骤202，服务器提取用户操作过程中的涉及到的关键词；

具体的，服务器可以记录用户在社交网络中的操作行为并根据记录的用户操作行为提取用户操作过程中涉及到的关键词；其中，用户操作可以包括用户搜索操作或用户浏览操作。

当用户进行搜索操作时，服务器可以对用户在搜索框中输入的字符串进行切词，根据切词结果提取关键词。

当用户进行浏览操作时，比如用户点开某篇文章的链接浏览该文章时，或者用户在浏览完某篇文章后点击文章下面提供的推荐链接来继续浏览与该文章相关的其它内容时，对用户浏览内容的主题进行切词，根据切词结果提取关键词。

其中，对用户输入的字符串或用户浏览的主题进行切词时，可以将用户输入的字符串或者用户浏览的主题与预先设置的词库进行比对并提取关键词。比如：当用户在搜索框中输入“刘德华的演唱会”或者用户浏览主题为“刘德华的演唱会”的文章时，服务器将“刘德华的演唱会”这一字符串切成多个独立的词组，并将切词获得的词组与预先设置的词库进行比对，如果这些词组中“刘德华”和“演唱会”这两个词在预先设置的词库中存在，则将这两个词提取为关键词。

需要说明的是，实际应用中还可以对用户其它操作提取关键词，并且提取关键词的具体方式可以不局限于切词这一种，因此，本实施例不对需要进行提取关键词的操作做具体限定。

步骤203，判断标签库中是否有名称与提取的关键词相同的标签，如果有，则进入步骤204，如果否，则进入步骤205；

服务器将提取的关键词与标签库中的标签进行比对，判断标签库中是否存在名称与提取的关键词相同的标签；如果有，进入步骤204，否则，进入步骤205。

具体的，服务器可以预先设置有一个标签库，标签库中可以存储有一个“关键词——标签”的多对一的标签层级体系，标签层级体系是一种包含多层标签的标签体系，每个标签具有各自的标签名称，多个同类型的下层标签对应一个上层标签；具体例如：一个名称为“美食”的标签下，对应多个下层标签，如“中餐”、“西餐”等，而“中餐”还可以对应更下层的标签，比如“川菜”、“粤菜”、“苏菜”等标签，“川菜”下还可以对应各菜名的标签；再比如：一个名称为“歌唱家”的标签下，对应有“华语”“欧美”“日韩”等标签，“华语”标签下又对应有“港台男歌手”“港台女歌手”“内地男歌手”“内地女歌手”等标签，“港台男歌手”标签下还可以对应很多歌手名的标签，以此类推。需要说明的是，实际应用中，标签库中还可以有其它存储标签的方式，并不局限于标签层级体系这一种，本实施例不对标签库存储标签的方式做具体限定。

步骤204，服务器将与提取的关键词相同的标签存储入用户个人标签库；

具体的，服务器还可以为每个用户设立一个用户个人标签库，用以存储与该用户操作过程中涉及到的关键词名称相同的标签以及这些标签的累积次数。

实际存储时，服务器先判断用户个人标签库中是否已经存储有名称与提取的关键词相同的标签；如果用户个人标签库中已经存储有名称与提取的关键词相同的标签，则将该标签的累积次数加一，否则，将该标签添加入用户个人标签库，并设置其累积次数为一。

步骤205，服务器将提取的关键词录入未分类项；

如果标签库中没有名称与该关键词相同的标签，则将该关键词录入未分类项以供后续分析分类；具体的，服务器可以定期对未分类项中的关键词进行分析，并根据分析结果完善标签库中的标签层级体系。

进一步的，作为上述步骤的优选，在步骤202中，服务器记录用户在社交网络中的操作行为时，同时还记录操作时间，其中，记录的操作时间可以是用户输入字符串进行搜索的时间、用户点击浏览的时间或者服务器提取关键词的时间中的任意一种；相应的在步骤204中，用户个人标签库中除了存储各标签及其累积次数之外，还为各标签存储其对应的操作时间。具体地讲，用户个人标签库还可以为各个标签对应设置一个操作时间集，用于存储该标签每次被存储时的操作时间。

步骤206，服务器对用户个人标签库按照预定方式进行分析，并将分析结果作为用户偏好信息；

其中，预定的分析方式有很多，比如按照操作时间与预定时间间隔的关系进行分类、按照操作时间进行排序、按照累积次数进行排序和判断累积次数是否超过预定阈值等；实际应用中，服务器可以根据以上方法中的一种或几种的结合对用户个人标签库进行分析；另外，用户偏好信息包括：用户长期和短期兴趣偏好、各标签偏好人数随时间波动情况、各标签长期和短期偏好程度用户排行等。

具体的分析方式详见以下举例：

第一，可以按照操作时间与预定时间间隔的关系进行分类、按照操作时间进行排序和按照累积次数进行排序这三种方法的结合来获得用户短期兴趣偏好信息；

服务器获取在预定时间段内被存储入一个用户的用户个人标签库中的标签作为该用户的短期标签集；对该短期标签集中的标签按照累积次数进行排序，并将排序结果作为该用户的短期兴趣偏好信息。具体的，服务器还可以为每个用户分别建立一个短期标签集，并设定一周为一个预设时间段；在每周结束时，服务器根据记录的操作时间来统计用户个人标签库中的各标签在本周内的累积次数，其中，服务器可以将标签累积次数以评分的形式表征(比如某标签累积一次则为该标签加10分)；服务器将本周内评分不为0的标签添加入该用户的短期标签集，同时删除该用户的短期标签集内原有标签(通常为上周添加的标签)；比如统计结果表明，本周内一共有三个标签(标签A、B和C)有评分记录，且这三个标签在本周内的评分分别为a、b和c，则服务器可以将标签A、B和C添加入该用户的短期标签集，并按照a、b、c由大到小的顺序在该短期标签集内对标签A、B和C进行排序，同时删除该短期标签集内上周添加的标签以实时反映该用户短期兴趣偏好。

第二，还可以再结合判断累积次数是否超过预定阈值来获取用户长期兴趣偏好信息；

服务器还可以为每个用户建立一个长期标签集，并将累积次数超过预设阈值的标签或者多次被添加入该用户短期标签集的标签添加入该用户长期标签集；具体的，服务器可以统计用户个人标签库中所有标签的总评分，将总评分超过预设阈值的标签添加入该用户长期标签集；或者，服务器可以在该标签每次被添加入该用户短期标签集时，为该标签打上一个特殊标记，当该标签的特殊标记的累积次数超过预设阈值时，即将该标签添加入该用户的长期标签集；同时服务器还根据该用户长期标签集中各标签对于标签累积次数的总评分对该用户长期标签集中各标签进行排序，并将排序结果作为该用户长期兴趣偏好信息。

第三，通过以上方法的结合，还可以获取各标签长期和短期偏好程度用户排行等信息。

服务器还可以根据某个标签本周内在各用户的短期标签集中的评分对各用户进行排行，以获得该标签短期偏好程度的用户排行榜；另外，服务器还可以对所有用户的长期标签集进行汇总，根据某标签在各用户的长期标签集中的总评分对各用户进行排行，以获得该标签长期偏好程度的用户排行榜。

进一步的，还可以以上述获取的用户偏好信息为基础来获取各标签偏好人数随时间波动情况；比如，服务器对所有用户本周内的的短期标签集进行汇总，根据同一标签在不同用户的短期标签集中出现的次数获取该标签在本周内的偏好人数，再根据该标签在历史各周内的偏好人数获取该标签偏好人数随时间周期波动信息，比如为该标签建立一个“时间——偏好人数”坐标轴，用以直观显示该标签偏好人数随时间周期波动情况，对于标签偏好人数随时间周期波动信息的具体表现方式，本实施例不做具体限定。

需要说明的是，预设时间段的选取方式有多种，可以选择每5天为一个时间段，也可以选择每两周为一个时间段，另外，对用户短期和长期标签集中的标签进行排序的方式也不唯一，比如可以直接按照标签累积次数进行排序，本实施例不对预设时间段的选取和标签排序方式做具体限定。

步骤207，服务器根据用户偏好信息向用户推送相关内容。

具体的，在用户登陆社交网络时，社交网络系统可以根据用户偏好信息中的该用户长期和短期兴趣偏好信息向用户推送其可能感兴趣的内容，或者根据各标签偏好人数随时间波动情况向用户推送最近一段时间内的热门内容；服务器还可以根据各标签用户偏好程度排行向用户推荐与该用户有相同兴趣偏好的其它用户，进一步的，还可以向用户推荐与其有相同兴趣偏好的用户所偏好的其它标签所对应的内容。

需要说明的是，实际应用中，对用户个人标签库进行分析的方法有很多，获取的用户个人兴趣偏好信息种类以及根据用户兴趣偏好向用户推送服务的方式也有多种，本实施例仅以上述举例进行说明，并不对用户个人标签库分析方法、用户偏好信息种类以及向用户推送服务的方式做具体限定。

本实施例二提供的用户偏好信息采集方法通过在日常应用中提取用户操作所涉及到的关键词，并将名称与提取到的关键词相同的标签存储入用户个人标签库中，达到提高用户偏好信息采集的覆盖率和准确性的目的；同时，本实施例二提供的用户偏好信息采集方法还通过记录操作时间，并对用户个人标签库中各标签累积次数和对应的操作时间进行汇总以获取用户个人标签体系，达到提高用户偏好信息采集时效性的目的。

实施例三

请参考图3，其示出了本发明实施例三提供的用户偏好信息采集装置的结构图。该用户偏好信息采集装置可以用于社交网络的服务器中，该用户偏好信息采集装置包括提取模块301、判断模块302和存储模块303。

提取模块301用于提取用户操作过程中涉及到的关键词；

判断模块302用于判断预先设置的标签库中是否存在与提取的关键词相同的标签；

存储模块303用于如果判断模块判断预先设置的标签库中存在与提取的关键词相同的标签，则将与关键词相同的标签存储入用户个人标签库中。

其中，提取模块301可以具体包括：第一提取单元3011和第二提取单元3012；

第一提取单元3011用于当用户进行搜索操作时，提取用户输入内容中的关键词；

第二提取单元3012用于当用户进行浏览操作时，提取用户浏览内容的主题中的关键词。

其中，用户个人标签库中包括标签和与每个标签对应的累积次数；

存储模块303可以具体包括：判断单元3031和存储单元3032；

其中，判断单元3031用于判断用户个人标签库中是否已经存储有该标签；

存储单元3032用于在判断单元3031判断用户个人标签库中已经存储该标签时，将该标签的累积次数加一；

存储单元3032还用于在判断单元3031判断用户个人标签库中未存储该标签时，将该标签进行存储，并将该标签的累积次数设为一。

请参考图4，如果判断模块302判断预先设置的标签库中不存在与关键词相同的标签，该用户偏好信息采集装置还可以包括录入模块304。录入模块304用于将关键词录入未分类项，以便后续对未分类项中的关键词进行分析并根据分析结果完善标签库。

提取模块301还可以具体包括时间提取单元3011，用于在提取关键词时，同时提取关键词对应的操作时间；操作时间为以下时间中的任一种：关键词被输入时的时间、关键词被浏览时的时间和关键词被提取时的时间中的任一种；

对应的，用户个人标签库中还可以包含与每个标签对应的操作时间集；存储单元3032还用于将关键词对应的操作时间保存入该标签对应的操作时间集中。

为了获取用户长期和短期偏好等信息，该用户偏好信息采集装置还可以包括分析模块305。其中，分析模块305用于对用户个人标签库按照预定方式进行分析，并将分析结果作为用户偏好信息；其中，预定方式包括如下方式中的一种或几种的结合：按照操作时间与预定时间间隔的关系进行分类、按照操作时间进行排序、判断累积次数是否超过预定阈值和按照累积次数进行排序。

本实施例三提供的用户偏好信息采集装置通过在日常应用中提取用户操作所涉及到的关键词，并将名称与提取到的关键词相同的标签存储入用户个人标签库中，达到提高用户偏好信息采集的覆盖率和准确性的目的；同时，通过记录用户操作时间，并对用户个人标签库中各标签累积次数和对应的操作时间进行汇总以获取用户偏好，达到提高用户偏好信息采集时效性的目的。

需要说明的是：上述实施例提供的用户偏好信息采集装置在采集用户偏好信息时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的用户偏好信息采集装置与用户偏好信息采集方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：曹越;曹远铖;柳睿;杨俊松;孙为;吴可可
技术所有人：腾讯科技（深圳）有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。