一种热词的推荐方法、装置、电子设备及存储介质与流程

文档序号:19879746发布日期:2020-02-08 06:52阅读:131来源:国知局
一种热词的推荐方法、装置、电子设备及存储介质与流程

本申请涉及计算机应用技术领域,尤其涉及一种热词的推荐方法、装置、电子设备及存储介质。



背景技术:

由于人们对快速、准确地获取信息的需求不断增加,基于人工智能和自然语言处理领域的问答系统逐渐兴起。问答系统(questionansweringsystem,qa)是信息检索系统的一种高级形式,它能用准确、简洁的自然语言回答用户用自然语言提出的问题。问答系统除具有回答问题的基础功能之外,还可为用户推荐一些问答热词,以引导用户点击并获取问答热词对应的相关信息。

现有的问答系统通常采用搜索所设词库的方式为用户进行推荐,该词库根据使用问答系统的所有用户的历史搜索时所使用的关键词生成。在为用户推荐问答热词时,问答系统在词库中选取在最近一段时间内出现次数较多的关键词作为问答热词推荐给用户。

但是,问答系统根据其他用户的历史搜索关键词进行推荐,那么推荐的问答热词可能会与当前用户的需求或偏好不同,使得推荐的问答热词并非用户感兴趣的内容。



技术实现要素:

本发明提供了一种热词的推荐方法、装置、电子设备及存储介质,以解决现有的推荐方法无法准确地推荐热词的问题。

第一方面,本发明提供了一种热词的推荐方法,包括以下步骤:

获取主题词库和多个帖子;

在多个所述帖子中筛选出高评分帖子;

根据所述主题词库中每个主题词的父子关系,构建树形主题词库;

将所述高评分帖子与树形主题词库进行关联,得到树形热词库;

获取用户的用户画像,所述用户画像用于提供所述用户的多个标签词;

将每个所述标签词分别与树形热词库中的热词进行匹配,确定与所述标签词匹配的热词作为推荐热词;

将所述推荐热词推荐给用户。

进一步地,所述在多个帖子中筛选出高评分帖子,包括:

对每个所述帖子进行打分,得到每个帖子的排序系数;

选取所述排序系数大于预设分数阈值的帖子为高评分帖子。

进一步地,所述将高评分帖子与树形主题词库进行关联,得到树形热词库,包括:

获取所述帖子的索引,所述索引包括多个关键词;

将所述关键词与树形主题词库中的主题词进行匹配;

根据匹配的关键词与主题词建立关联关系,合并所述高评分帖子和树形主题词库,得到树形热词库。

进一步地,所述将每个标签词分别与树形热词库中的热词进行匹配,确定与所述标签词匹配的热词作为推荐热词,包括:

将每个所述标签词分别与树形热词库中子节点对应的热词进行匹配;

如果存在所述标签词与子节点对应的热词相同时,将匹配相同的热词作为推荐热词。

进一步地,还包括:

统计所述用户画像提供的标签词的数量,以及,根据所述标签词与子节点对应的热词进行匹配确定的推荐热词的数量;

如果所述推荐热词的数量少于标签词的数量,将标签词与树形热词库中兄弟节点对应的热词进行匹配,直至所述推荐热词的数量与标签词的数量相等时匹配结束,所述兄弟节点指的是子节点的兄弟节点。

进一步地,还包括:

如果所述标签词与树形热词库中所有兄弟节点对应的热词均匹配后,所述推荐热词的数量仍小于标签词的数量,则结束匹配过程。

第二方面,本申请还提供了一种热词的推荐装置,包括:

信息获取模块,用于获取主题词库和多个帖子;

筛选模块,用于在多个所述帖子中筛选出高评分帖子;

树形主题词库构建模块,用于根据所述主题词库中每个主题词的父子关系,构建树形主题词库;

树形热词库构建模块,用于将所述高评分帖子与树形主题词库进行关联,得到树形热词库;

用户画像获取模块,用于获取用户的用户画像,所述用户画像用于提供所述用户的多个标签词;

推荐热词确定模块,用于将每个所述标签词分别与树形热词库中的热词进行匹配,确定与所述标签词匹配的热词作为推荐热词;

推荐模块,用于将所述推荐热词推荐给用户。

进一步地,所述筛选模块,包括:

打分单元,用于对每个所述帖子进行打分,得到每个帖子的排序系数;

选取单元,用于选取所述排序系数大于预设分数阈值的帖子为高评分帖子。

进一步地,所述树形热词库构建模块,包括:

索引获取单元,用于获取所述帖子的索引,所述索引包括多个关键词;

第一匹配单元,用于将所述关键词与树形主题词库中的主题词进行匹配;

树形热词库构建单元,用于根据匹配的关键词与主题词建立关联关系,合并所述高评分帖子和树形主题词库,得到树形热词库。

进一步地,所述推荐热词确定模块,包括:

第二匹配单元,用于将每个所述标签词分别与树形热词库中子节点对应的热词进行匹配;

推荐热词确定单元,用于在存在所述标签词与子节点对应的热词相同时,将匹配相同的热词作为推荐热词。

进一步地,还包括:

数量统计单元,用于统计所述用户画像提供的标签词的数量,以及,根据所述标签词与子节点对应的热词进行匹配确定的推荐热词的数量;

第三匹配单元,用于在所述推荐热词的数量少于标签词的数量时,将标签词与树形热词库中兄弟节点对应的热词进行匹配,直至所述推荐热词的数量与标签词的数量相等时匹配结束,所述兄弟节点指的是子节点的兄弟节点。

进一步地,还包括:

第四匹配单元,用于在所述标签词与树形热词库中所有兄弟节点对应的热词均匹配后,所述推荐热词的数量仍小于标签词的数量,则结束匹配过程。

第三方面,本发明实施例还提供了一种电子设备,包括:

存储器,用于存储程序指令;

处理器,用于调用并执行所述存储器中的程序指令,以实现第一方面所述的热词的推荐方法。

第四方面,本发明实施例还提供了一种存储介质,所述存储介质中存储有计算机程序,当热词的推荐装置的至少一个处理器执行所述计算机程序时,热词的推荐装置执行第一方面所述的热词的推荐方法。

由以上技术方案可知,本发明实施例提供的一种热词的推荐方法、装置、电子设备及存储介质,在众多帖子中筛选出高评分帖子,并根据主题词库中每个主题词的父子关系构建树形主题词库,将高评分帖子和树形主题词库进行关联,得到树形热词库。树形热词库中包括热度较高的帖子和与其关联的热词,因此,以树形热词库作为搜索依据,并与用户画像提供的多个标签词进行匹配,即可准确确定出推荐热词,用户可通过该推荐热词查看与其关联的帖子。可见,该方法通过构建树形热词库和用户画像,可以为用户精准匹配出关联性较强的推荐热词,将该推荐热词推荐给用户,该推荐热词对应的帖子为用户感兴趣的几率较大。

附图说明

为了更清楚地说明本申请的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的热词的推荐方法的流程图;

图2为本发明实施例提供的筛选高评分帖子的方法流程图;

图3为本发明实施例提供的创建树形热词库的方法流程图;

图4为本发明实施例提供的确定推荐热词的方法流程图;

图5为本发明实施例提供的热词的推荐装置的结构框图;

图6为本发明实施例提供的电子设备的硬件结构示意图。

具体实施方式

为了能够准确地为用户推荐感兴趣的热词,本发明实施例提供的热词的推荐方法,通过构建树形热词库的方式,结合用户画像提供的标签词,精准匹配出用户感兴趣的热词,推荐给用户后,以引导用户点击并查看对应的帖子。

图1为本发明实施例提供的热词的推荐方法的流程图。

参见图1,本发明实施例提供的一种热词的推荐方法,该方法可应用在问答系统,以及安装有问答系统的app中,如58app。具体地,该方法包括以下步骤:

s1、获取主题词库和多个帖子。

为了能够扩大匹配词库,以保证后续为用户匹配推荐热词的准确性,本实施例中,根据主题词库和帖子构建树形热词库。

主题词库是指58app中的由具有代表性的主题词构建的词库,该代表性的主题词与用户的搜索历史无关,而是由基础主题词建立,该词库包括58app内所有领域的基础主题词。词库内含有大量的主题词,可提高搜索范围,保证匹配的准确性。

帖子是指58app中某个应用系统内所存储的帖子,如问答系统中存储的问答帖子,问答帖子包括问题部分和答案部分。

s2、在多个帖子中筛选出高评分帖子。

问答系统在为用户推荐问答热词时,为保证用户能够感兴趣,并非以问答系统中的所有问答帖子作为匹配依据,而在仅以评分较高的问答帖子作为依据。

具体地,如图2所示,本发明实施例按照下述步骤在多个帖子中筛选出高评分帖子:

s21、对每个帖子进行打分,得到每个帖子的排序系数。

s22、选取排序系数大于预设分数阈值的帖子为高评分帖子。

为获得每个帖子的评分,本实施例提供的方法,调用打分器,由打分器按照特定的打分规则对每个帖子进行打分,并将所得分数作为对应帖子的排序系数。

将每个帖子的排序系数按照由大到小的顺序排序,并设定预设分数阈值,将排序系数大于预设分数阈值的帖子作为高评分帖子。例如,在问答系统中,对每个问答帖子进行打分,将每个帖子的排序系数大于预设分数阈值的问答帖子作为高评分问答帖子。

本实施例中,预设分数阈值可设定为30分,此时,高评分帖子的排序系数均大于30分。预设分数阈值还可根据具体情况设定为其他值,本实施例不做具体限定。

s3、根据主题词库中每个主题词的父子关系,构建树形主题词库。

在筛选高评分问答帖子的同时,应用系统还需根据主题词库建立树形主题词库。如在问答系统中,根据问答主题词库建立树形问答主题词库。问答主题题库中包括的各个主题词具有层次或归属关系,即父子关系,如“求职、家政服务”等一级词汇。

在“求职”的下一级还包括“互联网”的二级词汇,在“互联网”的下一级还包括“游戏策划、算法工程师”的三级词汇。此时,以“求职”为父节点的父子关系包括“求职→互联网→游戏策划”和“求职→互联网→算法工程师”。在该父子关系中,“求职”是“互联网”的父节点,“互联网”是“游戏策划、算法工程师”的父节点,“游戏策划、算法工程师”是“互联网”的子节点,“互联网”是“求职”的子节点,“游戏策划”和“算法工程师”是兄弟节点。

在“家政服务”的下一级还包括“维修”的二级词汇,在“维修”的下一级还包括“家电、房屋”的三级词汇。此时,以“家政服务”为父节点的父子关系包括“家政服务→维修→家电”和“家政服务→维修→房屋”。在该父子关系中,“家政服务”是“维修”的父节点,“维修”是“家电、房屋”的父节点,“家电、房屋”是“维修”的子节点,“维修”是“家政服务”的子节点,“家电”和“房屋”是兄弟节点。

根据主题词库中每个主题词的父子关系,即可形成树形主题词库。

s4、将高评分帖子与树形主题词库进行关联,得到树形热词库。

为便于用户能够根据推荐的推荐热词访问对应的帖子,因此,在构建树形热词库时,需将高评分帖子和树形主题词库关联。

具体地,如图3所示,本实施例中,将高评分帖子与树形主题词库进行关联,得到树形热词库的过程,包括:

s41、获取帖子的索引,索引包括多个关键词。

s42、将关键词与树形主题词库中的主题词进行匹配。

s43、根据匹配的关键词与主题词建立关联关系,合并高评分帖子和树形主题词库,得到树形热词库。

将高评分帖子与树形主题词库的关联依据为词与词的关联。每个帖子都包括索引,索引中包括多个关键词,用于对帖子进行简略的标识,使得用户能够看到关键词即获知该帖子的主旨内容。

将帖子的关键词与树形主题词库中的主题词进行匹配,如果树形主题词库中存在与关键词匹配的主题词,此时,可将匹配的关键词和主题词建立关联关系。每个高评分帖子对应有多个关联关系,使得多个高评分帖子会对应无数个关联关系,因此,将所有高评分帖子和树形主题词库进行关联,即可得到树形热词库。

由于树形主题词库中包括58app中的所有主题词,但帖子仅选取高评分帖子,并非58app内的所有帖子,因此,高评分帖子对应的关键词可能要少于树形主题词库中的主题词数。因此,在建立树形热词库时,只是根据存在关联关系的热词和高评分帖子建立,热词由匹配的主题词和关键词形成。也就是说,树形热词库中的热词与高评分帖子为一一对应关系,便于用户点击热词时即可访问对应的帖子。

s5、获取用户的用户画像,用户画像用于提供所述用户的多个标签词。

在为用户匹配其感兴趣的推荐热词时,本实施例中采用用户画像作为匹配依据。

用户画像是根据用户社会属性、生活习惯、消费行为等信息而抽象出的一个标签化的用户模型,其核心是给用户贴“标签”,根据用户的上述信息抽象出数个标签词来标识该用户的用户特征;在具体实现时,可将用户画像作为刻画用户特征的标签集合。

用户画像能够反映出用户的搜索需求和偏好领域,由标签词来表示,因此,以用户画像作为匹配推荐热词的依据,可以提高为用户筛选推荐推荐热词的准确性。

s6、将每个标签词分别与树形热词库中的热词进行匹配,确定与标签词匹配的热词作为推荐热词。

s7、将推荐热词推荐给用户。

在为用户匹配推荐热词时,是将标签词与树形热词库中的热词进行匹配,在标签词与热词匹配时,即可将此时的热词作为推荐热词推荐给用户。

为提高匹配的准确性,如图4所示,本实施例中,按照下述步骤将每个标签词分别与树形热词库中的热词进行匹配,确定与所述标签词匹配的热词作为推荐热词,包括:

s61、将每个标签词分别与树形热词库中子节点对应的热词进行匹配。

s62、如果存在标签词与子节点对应的热词相同时,将匹配相同的热词作为推荐热词。

在匹配时,本实施例提供的方法,根据用户画像提供的多个标签词从树形热词库的子节点开始进行检索,当标签词与子节点对应的热词相同时,即可将该热词确定为推荐热词。

相同指的是标签词与热词在文字构成上完全一样,如标签词为“保姆”,热词为“保姆”,此时,即可说明标签词与热词相同。

本实施例从某个子节点优先搜索,以精准匹配标签词,但如果匹配出的推荐热词的数量少于标签词的数量,那么需要匹配其他兄弟节点的标签词,以保证推荐热词的数量与用户画像提供的标签词的数量相同,进而保证匹配出的推荐热词能够使用户感兴趣。

为此,本发明实施例提供的方法,还包括:

s63、统计用户画像提供的标签词的数量,以及,根据标签词与子节点对应的热词进行匹配确定的推荐热词的数量。

s64、如果推荐热词的数量少于标签词的数量,将标签词与树形热词库中兄弟节点对应的热词进行匹配,直至推荐热词的数量与标签词的数量相等时匹配结束,兄弟节点指的是子节点的兄弟节点。

统计根据用户画像提供的标签词的数量,以及,在当前子节点完成匹配后,统计匹配出的推荐热词的数量。如果推荐热词的数量少于标签词的数量,说明匹配的结果并未与用户的偏好完全匹配,因此,需要继续匹配推荐热词。

本实施例提供的方法中,继续匹配与该子节点为兄弟节点对应的热词,例如,“家电”和“房屋”是兄弟节点,在对“家电”匹配标签词后得到的推荐热词数量少于标签词的数量,则继续将“房屋”与标签词进行匹配,依此类推,直至匹配出的推荐热词的数量与标签词的数量相等。

但是,在完成所有子节点及其兄弟节点对应的热词的匹配后,也会出现推荐热词的数量少于标签词的数量的情况,此时,本发明实施例提供的方法,还包括:

s65、如果标签词与树形热词库中所有兄弟节点对应的热词均匹配后,推荐热词的数量仍小于标签词的数量,则结束匹配过程。

本实施例提供的方法,在对用户画像提供的标签词与树形热词库中的热词进行匹配时,只匹配子节点对应的热词,而不匹配父节点对应的热词。这是由于父节点的热词为一级词汇,其仅能从大范围上反映信息,不能保证该热词与用户的偏好相匹配,使得父节点的热词在匹配时准确性不高。

因此,为保证为用户匹配推荐热词的准确性,在完成所有子节点及其兄弟节点对应的热词的匹配后,即使推荐热词的数量仍小于标签词的数量,也不再对父节点对应的热词进行匹配,而是结束匹配过程。

应用系统在完成推荐热词匹配后,即可将匹配出的推荐热词推荐给用户,用户可点击相应推荐热词,即可查看与该推荐热词关联的帖子,以引导用户查看相关信息。例如,在问答系统中,匹配出的推荐热词为问答热词。问答系统在完成问答热词匹配时,用户点击问答热词,即可查看与问答热词关联的问答帖子。

由以上技术方案可知,本发明实施例提供的一种热词的推荐方法,在众多帖子中筛选出高评分帖子,并根据主题词库中每个主题词的父子关系构建树形主题词库,将高评分帖子和树形主题词库进行关联,得到树形热词库。树形热词库中包括热度较高的帖子和与其关联的热词,因此,以树形热词库作为搜索依据,并与用户画像提供的多个标签词进行匹配,即可准确确定出推荐热词,用户可通过该推荐热词查看与其关联的帖子。可见,该方法通过构建树形热词库和用户画像,可以为用户精准匹配出关联性较强的推荐热词,将该推荐热词推荐给用户,该推荐热词对应的帖子为用户感兴趣的几率较大。

如图5所示,本申请还提供了一种热词的推荐装置,用于执行如图1所示的热词的推荐方法的相关步骤,该装置包括:信息获取模块10,用于获取主题词库和多个帖子;筛选模块20,用于在多个所述帖子中筛选出高评分帖子;树形主题词库构建模块30,用于根据所述主题词库中每个主题词的父子关系,构建树形主题词库;树形热词库构建模块40,用于将所述高评分帖子与树形主题词库进行关联,得到树形热词库;用户画像获取模块50,用于获取用户的用户画像,所述用户画像用于提供所述用户的多个标签词;推荐热词确定模块60,用于将每个所述标签词分别与树形热词库中的热词进行匹配,确定与所述标签词匹配的热词作为推荐热词;推荐模块70,用于将所述推荐热词推荐给用户。

进一步地,所述筛选模块20,包括:打分单元,用于对每个所述帖子进行打分,得到每个帖子的排序系数;选取单元,用于选取所述排序系数大于预设分数阈值的帖子为高评分帖子。

进一步地,所述树形热词库构建模块40,包括:索引获取单元,用于获取所述帖子的索引,所述索引包括多个关键词;第一匹配单元,用于将所述关键词与树形主题词库中的主题词进行匹配;树形热词库构建单元,用于根据匹配的关键词与主题词建立关联关系,合并所述高评分帖子和树形主题词库,得到树形热词库。

进一步地,所述推荐热词确定模块60,包括:第二匹配单元,用于将每个所述标签词分别与树形热词库中子节点对应的热词进行匹配;推荐热词确定单元,用于在存在所述标签词与子节点对应的热词相同时,将匹配相同的热词作为推荐热词。

进一步地,还包括:数量统计单元,用于统计所述用户画像提供的标签词的数量,以及,根据所述标签词与子节点对应的热词进行匹配确定的推荐热词的数量;第三匹配单元,用于在所述推荐热词的数量少于标签词的数量时,将标签词与树形热词库中兄弟节点对应的热词进行匹配,直至所述推荐热词的数量与标签词的数量相等时匹配结束,所述兄弟节点指的是子节点的兄弟节点。

进一步地,还包括:第四匹配单元,用于在所述标签词与树形热词库中所有兄弟节点对应的热词均匹配后,所述推荐热词的数量仍小于标签词的数量,则结束匹配过程。

图6为本发明实施例提供的电子设备的硬件结构示意图。如图6所示,本发明实施例还提供了一种电子设备,包括:存储器601,用于存储程序指令;处理器602,用于调用并执行所述存储器中的程序指令,以实现上述实施例所述的热词的推荐方法。

本实施例中,处理器602和存储器601可通过总线或其他方式连接。处理器可以是通用处理器,例如中央处理器、数字信号处理器、专用集成电路,或者被配置成实施本发明实施例的一个或多个集成电路。存储器可以包括易失性存储器,例如随机存取存储器;存储器也可以包括非易失性存储器,例如只读存储器、快闪存储器、硬盘或固态硬盘。

本发明实施例还提供了一种存储介质,其特征在于,所述存储介质中存储有计算机程序,当热词的推荐装置的至少一个处理器执行所述计算机程序时,热词的推荐装置执行上述实施例所述的热词的推荐方法。

所述的存储介质可为磁碟、光盘、只读存储记忆体(英文:read-onlymemory,简称:rom)或随机存储记忆体(英文:randomaccessmemory,简称:ram)等。

本领域的技术人员可以清楚地了解到本发明实施例中的技术可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本发明实施例中的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如rom/ram、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。

本说明书中各个实施例之间相同相似的部分互相参见即可。尤其,对于热词的推荐装置实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例中的说明即可。

以上所述的本发明实施方式并不构成对本发明保护范围的限定。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1