一种向目标用户推送目标文献名录的方法与流程

文档序号:17477578发布日期:2019-04-20 06:13阅读:178来源:国知局
一种向目标用户推送目标文献名录的方法与流程

本发明涉及通信领域,尤其涉及一种向目标用户推送目标文献名录的方法。



背景技术:

在互联网领域,信息推送已经成为一个十分重要的研究课题,而目标用户的定位精准度在很大程度上能够决定信息推送的成功率。比如,推送广告,如果目标用户不具有活跃性人格,甚至对于任何事物都不甚关心,则显然推送广告的效果将不甚理想。为此,对于目标用户的获取是具备较高的市场价值和应用价值的技术课题,然而,现有技术中缺乏对于目标用户进行精准定位的相关技术。

此外,通过对于大量数据的分析得到用户的行为模式、偏好、兴趣、习惯等多方面的信息,从而为用户提供更加人性化的服务是人们迫切希望达到的技术效果。但是现有技术中却缺乏对于目标用户信息的挖掘、分析算法,难以从中自动抽象出目标用户的偏好习惯等重要数据,也难以为目标用户提供更加智能化的服务。



技术实现要素:

为了解决上述技术问题,本发明提供一种向目标用户推送目标文献名录的方法。

本发明是以如下技术方案实现的:

一种向目标用户推送目标文献名录的方法,包括:

获取待分析数据集,所述待分析数据集中每个元素对应一个主题,每个元素中包括一类数据和二类数据,所述一类数据为直接发布的与所述主题相关的数据,所述二类数据为针对一类数据的评论数据;

为所述待分析数据集中的每个元素构建有向图,得到有向图集;

对所述有向图集中的各个有向图进行分析,选取对应所述有向图的热度用户;

对于任意两个有向图,若存在相同的热度用户,则将所述热度用户认定为目标用户;

获取目标用户的读者信息;

根据所述读者信息向所述目标用户发布目标文献名录。

进一步地,所述读者信息包括读者的学术背景、借阅文献信息、推荐文献信息、评论文献信息;所述学术背景包括读者的受教育程度和最高学历对应的专业编码;其中,所述专业编码为六位数字串,其符合学科分类与代码国家标准的规定。

进一步地,所述为所述待分析数据集中的每个元素构建有向图包括:

获取每个元素中的一类数据和二类数据,并构建有向图,所述有向图可以被表示为,其中为用户标识,代表一个用户标识发布的二类数据对另一个用户标识发布的一类数据的评论关系;

计算有向图g中每条边的诚恳度权重和支持度权重;

根据所述诚恳度权重和所述支持度权重计算所述边的综合权重。

进一步地,还包括热度用户的选取方法,包括:

初始化有向图中各个顶点的热度值;

任意选择一个顶点,根据所述顶点和指向所述顶点的各个相关顶点的当前热度计算所述顶点的迭代后热度,并将所述迭代后热度作为所述顶点的当前热度;

按照上述步骤继续计算其它顶点的当前热度,直至所述有向图中各个顶点的当前热度趋于稳定;

选取当前热度最大的n个用户作为所述有向图的热度用户。

进一步地,目标用户若为一个,则向所述目标用户发布预设的目标文献名录,若所述目标用户为多个,则以单个目标用户的读者信息为元素,构成了一个源信息集。

进一步地,还包括根据源信息集向所述目标用户发布目标文献名录的方法,包括:

对所述源信息集中的任一目标元素,获取所述目标元素与相关非目标元素之间的相关度。

按照相关度向所述目标元素对应的目标用户发布目标文献名录。

进一步地,从所述源信息集中获取所述目标元素对应的全部相关非目标元素;

获取目标元素与各个相关非目标元素之间的学术相关度;

获取目标元素与各个相关非目标元素之间的生活相关度;

获取目标元素与各个相关非目标元素之间的综合相关度;

按照综合相关度由高到低的顺序为相关非目标元素排序,得到排序表。

进一步地,所述按照相关度向所述目标元素对应的目标用户发布目标文献名录,包括:

获取排序表中的前n个元素为推荐元素;

获取每个推荐元素对应的目标用户的推荐文献信息;

根据所述推荐文献信息得到推荐文献记录表,所述推荐文献记录表包括推荐文献和所述推荐文献的被推荐次数,所述推荐文献记录表中的记录按照被推荐次数由高至低的顺序排列;

选取推荐文献记录表中的前t个推荐文献构成目标文献名录;

将所述目标文献名录发布至目标元素对应的目标用户。

在本发明创造的描述中,需要理解的是,术语“中心”、“纵向”、“横向”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明创造和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明创造的限制。此外,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”等的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明创造的描述中,除非另有说明,“多个”的含义是两个或两个以上。

在本发明创造的描述中,需要说明的是,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以通过具体情况理解上述术语在本发明创造中的具体含义。

本发明的有益效果是:

本发明实施例提供了一种向目标用户推送目标文献名录的方法,其能够在待分析数据集中精准定位出对于各个主题参与度较高的用户,进而通过取交集的形式筛选出具有活跃性人格的用户,这部分用户通常对于新鲜事物接受度较高,可以作为推送相关信息的目标用户,本发明还能够仅仅通过对于目标用户的读者信息进行数据分析,即可全自动的为目标用户推荐文献,提升了目标用户的阅读体验,具备较好的市场价值。

附图说明

图1是本实施例提供的一种向目标用户推送目标文献名录的方法流程图;

图2是本实施例提供的为所述待分析数据集中的每个元素构建有向图的流程图;

图3是本实施例提供的量化诚恳度权重的方法的流程图;

图4是本实施例提供的量化支持度权重的方法的流程图;

图5是本实施例提供的热度用户的选取方法流程图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚,下面将对本发明作进一步地详细描述。

本发明实施例提供一种向目标用户推送目标文献名录的方法,如图1所示,所述方法包括:

s101.获取待分析数据集,所述待分析数据集中每个元素对应一个主题,每个元素中包括一类数据和二类数据,所述一类数据为直接发布的与所述主题相关的数据,所述二类数据为针对一类数据的评论数据。

s102.为所述待分析数据集中的每个元素构建有向图,得到有向图集。

s103.对所述有向图集中的各个有向图进行分析,选取对应所述有向图的热度用户。

所述热度用户可以认为是与所述有向图所在主题相关的热度比较高、影响力比较大的用户。

s104.对于任意两个有向图,若存在相同的热度用户,则将所述热度用户认定为目标用户。

对于单一主题进行分析,只能得到单一主题的大概的热度情况,选取部分热度用户,但是热度用户并不一定是高质量用户,原因在于,热度用户可能仅仅对于某个非常特殊的主题感兴趣,其它一概不关心,也很少参与,对于这种热度用户,若将其作为目标用户向其推送其它信息,比如广告、书籍、文献、视频、音乐等都可能无法得到较好的推送效果,因此,本发明实施例中创新性地从多个主题进行考虑,将能够对于至少两个主题进行积极参与的用户认定为目标用户,本发明实施例认为,参与多个主题能够在某种程度上说明用户为活跃性人格,对其推送相关信息将取得更好的推送效果。

s105.获取目标用户的读者信息。

所述读者信息包括读者的学术背景、借阅文献信息、推荐文献信息、评论文献信息。具体地,所述学术背景包括读者的受教育程度和最高学历对应的专业编码。其中,所述专业编码为六位数字串,其符合学科分类与代码国家标准的规定。比如,读者“张胜男”的最高学历为硕士,其硕士期间所学专业为工学(08)-计算机类(0809)-网络工程(080903)。则“张胜男”的专业编码即为080903。

s106.根据所述读者信息向所述目标用户发布目标文献名录。

进一步地,所述为所述待分析数据集中的每个元素构建有向图如图2所示,包括:

s1021.获取每个元素中的一类数据和二类数据,并构建有向图g,所述有向图可以被表示为g={v,e},其中v为用户标识,e代表一个用户标识发布的二类数据对另一个用户标识发布的一类数据的评论关系。

举例而言,若用户spark发布了一个一类数据,用户tony,samby和dazzi对其进行了评论,则得到了包括四个顶点,三条有向边的数据网络元素,有向边为从tony指向spark,samby指向spark和dazzi指向spark的三条边。有向边的方向由发布二类数据的用户指向所述二类数据对应的一类数据的用户。

具体地,有向图中可以包括多个发布一类数据的用户和多个发布二类数据的用户,而发布一类数据的用户也可以同时作为发布二类数据的用户,本发明实施例并不限定有向图的具体生成方法。

s1022.计算有向图g中每条边的诚恳度权重和支持度权重。

具体地,本发明实施例中从诚恳度和支持度两个方面评价每条边的权重。诚恳度通过每条边起点用户对终点用户的回复的字数来衡量,本发明实施例认为回复的字数越多,表示起点用户的回答越具有诚意。支持度通过每条边起点用户对终点用户的回复的内容的情感分析结果来衡量,若起点用户的回复的内容具备较多的正面色彩,则支持度较高,反之,支持度角度。

具体地,本发明实施例进一步提供了量化诚恳度权重的方法,如图3所示,包括:

s1.构建诚恳度量化表,所述诚恳度量化表包括字数区间和所述字数区间对应的诚恳度权重。

比如,字数在1-50,则诚恳度权重为0.2,若字数在50-100,则诚恳度权重为0.5,若字数大于100,则诚恳度权重为1.

s2.得到每条边中起点用户对终点用户的回复的字数。

s3.根据所述诚恳度量化表查询所述字数所在的字数区间,并得到其对应的诚恳度权重。

具体地,本发明实施例进一步提供了量化支持度权重的方法,如图4所示,包括:

s10.根据预设的感情词语表提取每条边中起点用户对终点用户的回复中的目标感情词语。

具体地,所述感情词语表可以预先根据大数据统计结果进行设置,所述感情词语表记录了感情词语以及感情词语对应的权重,所述感情词语包括肯定词语、否定词语和中立词语,其中中立词语的权重为0.5,肯定词语的权重小于0.5,否定词语的权重大于0.5。

比如否定词语“白痴”对应权重0.9,否定词语“小傻瓜”对应权重0.6。权重越重,则否定词语的否定语气越激烈。比如肯定词语“绝对正确”对应权重0.4,肯定词语“应该对”对应权重0.3。权重越重,则肯定词语的肯定语气越激烈。

s20.获取目标感情词语对应的权重。

s30.取全部目标感情词语对应的权重的总和值作为支持度权重。

s1023.根据所述诚恳度权重和所述支持度权重计算所述边的综合权重。

具体地,所述综合权重=α诚恳度权重+β支持度权重。α和β为调节参数,可以根据实际情况进行调节,但是其总和值为1。

具体地,本发明实施例在步骤103之前,还有一个有向图简化的步骤。因为若起点用户对终点用户进行了多次回复,则在有向图g中会产生起点用户指向终点用户的多条有向线段,为了便于后期热度用户的筛选,先对有向图进行简化,使得起点用户与终点用户之间的多条有向线段合并为一条有向线段,所述合并后的有向线段的综合权重为合并前的多条有向线段的权重的总和值。

进一步地,本发明实施例里提供了热度用户的选取方法,如图5所示,包括:

s1031.初始化有向图中各个顶点的热度值。

本发明实施例中初始的热度值均为1.

s1032.任意选择一个顶点,根据所述顶点和指向所述顶点的各个相关顶点的当前热度计算所述顶点的迭代后热度,并将所述迭代后热度作为所述顶点的当前热度。

具体地,迭代后热度热度值根据公式其中h(v)是所述顶点的当前热度,h(u)是指向所述顶点的相关顶点的当前热度,h′(v)是所述顶点的迭代后热度,χ是调节系数,其标识对于各种当前热度的考虑程度,u为所述顶点的各个相关顶点构成的集合,z(u->v)为热度传递函数,其与指向所述顶点的相关顶点的拓扑结构有关。

在一个可行的实施方式中其中quv为顶点u指向顶点v的有向线段的综合权重,∑qu为顶点u指向全部相关其它节点的有向线段的综合权重的总和值。

s1033.按照步骤s1032的方法继续计算其它顶点的当前热度,直至所述有向图中各个顶点的当前热度趋于稳定。

具体地,各个顶点计算迭代后热度的先后顺序可以根据实际情况有所不同,本发明实施例并不对其进行明确限定。趋于稳定即为迭代前后的当前热度值小于预设阈值。

s1034.选取当前热度最大的n个用户作为所述有向图的热度用户。

具体地,n可以根据实际需要进行设置。

本发明实施例提供了一种获取目标用户的方法,其能够在待分析数据集中精准定位出对于各个主题参与度较高的用户,进而通过取交集的形式筛选出具有活跃性人格的用户,这部分用户通常对于新鲜事物接受度较高,可以作为推送相关信息的目标用户,本发明实施例提供的智能目标用户获取方法具备智能化程度高,定位精准,适用范围广等多个显著优点。

步骤s104中的目标用户若为一个,则向所述目标用户发布预设的目标文献名录,若所述目标用户为多个,则以单个目标用户的读者信息为元素,构成了一个源信息集,本发明实施例进一步提供了根据源信息集向所述目标用户发布目标文献名录的方法,包括:

s1061.对所述源信息集中的任一目标元素,获取所述目标元素与相关非目标元素之间的相关度。

s1062.按照相关度向所述目标元素对应的目标用户发布目标文献名录。

具体地,所述获取所述目标元素与相关非目标元素之间的相关度,包括:

s10611.从所述源信息集中获取所述目标元素对应的全部相关非目标元素。

具体地,可以按照读者学术背景中的受教育程度获取目标元素对应的相关非目标元素。通常情况下,受教育程度与读书品味和读书内容相关,因此从受教育程度相同的读者中进行相关度计算,从而得到的目标文献名录更为合理。

本发明实施例中相关非目标元素与目标元素的中的读者具备相同的受教育程度。

s10612.获取目标元素与各个相关非目标元素之间的学术相关度。

具体地,所述学术相关度与目标用户的专业编码有关,本发明实施例中对于学术相关度定义如下:其中,sm(u,v)标识两个元素u,v之间的学术相关度。

s10613.获取目标元素与各个相关非目标元素之间的生活相关度。

具体地,所述生活相关度描述了从目标用户的阅读习惯推导出的各个目标用户之间的相关度。所述生活相关度定义如下:

其中,a为文献,bu(a)为元素u对应的目标用户借阅过的文献,cu(a)为元素u对应的目标用户点评过的文献,ru(a)为元素u对应的目标用户推荐过的文献。

s10614.获取目标元素与各个相关非目标元素之间的综合相关度。

具体地,所述综合相关度=μ学术相关度+λ生活相关度。其中μ和λ为权重系数,其可以根据实际情况进行设置,但是μ和λ的总和值始终为1。

s10615.按照综合相关度由高到低的顺序为相关非目标元素排序,得到排序表。

具体地,所述按照相关度向所述目标元素对应的目标用户发布目标文献名录,包括:

s10621.获取排序表中的前n个元素为推荐元素。

s10622.获取每个推荐元素对应的目标用户的推荐文献信息。

s10623.根据所述推荐文献信息得到推荐文献记录表,所述推荐文献记录表包括推荐文献和所述推荐文献的被推荐次数,所述推荐文献记录表中的记录按照被推荐次数由高至低的顺序排列。

比如,有m个推荐元素对应的目标用户均推荐同一个文献,则该文献的被推荐次数即为m。

s10624.选取推荐文献记录表中的前t个推荐文献构成目标文献名录。

s10625.将所述目标文献名录发布至目标元素对应的目标用户。

本发明实施例具备较好的智能性,仅仅通过对于目标用户的读者信息进行数据分析,即可全自动的为目标用户推荐文献,提升了目标用户的阅读体验,具备较好的市场价值。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。

以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1