聚合类应用的推荐、多方推荐源聚合的方法、系统和装置的制造方法_3

文档序号:9249253阅读:来源:国知局
,若为是,则说明该推荐文本已失效,需要返回步骤210重新进行相应内容的候选文本获取、特征向量统计和内容校验过程;若为否,则不做任何处理,继续进行存储时间的计时。
[0103]此外,也可在推荐文本对应的内容发生变化或者网络地址发生变化时判定该推荐文本失效,在此不一一进行列举。
[0104]在一个实施例中,如图10所示,上述步骤3131之前,该方法还包括如下步骤: 步骤410,获取内容所在的完整文本。
[0105]如前所述,该内容是一完整文件中某一部分的内容,例如,在小说书架应用的场景之下,该内容即为网络小说的某一章节,而完整文本则为整个网络小说所对应的文本。
[0106]步骤430,通过预先构建的词典对完整文本进行特征向量统计,以得到完整文本对应的特征向量,并存储。
[0107]根据前述特征向量的统计过程,与候选文本相类似的,也将对完整文本进行特征向量的统计,以得到该完整文本所对应的特征向量,并存储,以供后续的内容校验过程使用。
[0108]在另一个实施例中,如上所述的方法还将包括了词典的构建步骤,即随机选取预设数量的样本,对该样本进行特征选取得到多个特征词,以通过多个特征词形成词典。
[0109]随机选取预设数量的网络小说或者新闻资讯等文本作为样本,其所选取的文本与其应用场景相对应。例对,对于小说书架应用的场景,所随机选取的文本为各种不同的网络小说;对于资讯聚合应用的场景,所随机选取的文本为各种不同的新闻资讯。
[0110]利用各种特征选取算法,例如,TF-1DF算法,对随机选取得到的每一样本选取多个特征词,以通过选取的多个特征词完成词典的构建。
[0111]也就是说,该词典将是基于新词发现构建得到的,因此具备较高的适用性,可适用于各种不同的场景。
[0112]进一步的,在自建词典的前提条件下,也可与通用词库相结合,以便于广泛适用于各种业务应用场景,并且具备更高的准确性。
[0113]进一步的,在本实施例中,如图11所示,上述随机选取预设数量的样本,对该样本进行特征选取得到多个特征词,以通过多个特征词形成词典的步骤包括:
步骤501,从存储的文本中随机选取预设数量的样本。
[0114]步骤503,在预设数量的样本中计算得到高频的特征词,并通过新词发现算法筛选特征词。
[0115]通过特征选取算法在预设数量的样本中进行高频的特征词的计算,在优选的实施例中,该特征选取算法为TF-1DF算法。
[0116]进一步的,在执行特征词的计算和筛选之前,将首先对随机选取得到的样本进行预处理,去除样本中的标点和无用词,以保证样本中不含杂质。
[0117]此外,该新词发现算法可为条件熵方法和/或左右熵方法,在优选的实施例中,将采用条件熵方法和左右熵方法进行特征词的筛选,以保证准确性。
[0118]步骤505,存储筛选后的特征词,以形成包含筛选后的特征词的词典。
[0119]对于筛选后的特征词,可对其进行人工审核之后进行存储,以进一步保证词典中特征词的有效性。
[0120]进一步的,该词典中预先录入了常用词汇,例如,28万常用词汇,以将常用词汇和通过新词发现得到的特征词相结合,保证后续分词的准确性。
[0121]在一个实施例中,为解决上述问题,还提出了一种多方推荐源的聚合方法。如图12所示,该方法包括:
步骤610,由多方推荐源获取内容相同的多个候选文本。
[0122]步骤630,通过预先构建的词典对多个候选文本进行特征向量统计,以得到每一候选文本对应的特征向量,并存储候选文本对应的特征向量。
[0123]步骤650,根据特征向量进行对应候选文本的内容校验,以得到推荐文本。
[0124]步骤670,为该内容存储推荐文本。
[0125]上述过程将在服务器后台搭建执行,其中,推荐源即为候选文本的来源。对于一内容,将有多个推荐源提供候选文本。例如,对于网络小说的一个章节,笔下文学、六书包小说网、重生小说网和零点看书网等站点均可提供该章节的内容,这些站点所提供的章节内容即为候选文本。
[0126]服务器后台中,根据其所交互的聚合类应用,进行推荐源、内容、词典和候选文本的配置,例如,若聚合类应用为小说书架应用,则该推荐源可为各类网络小说站点,而内容则为任一网络小说中的任一章节,词典中的特征词也是与网络小说相关的。
[0127]通过如上所述的多方推荐源的聚合方法,将能够适用于任一聚合类应用,并且为任一聚合类应用准确快速地提供相应的推荐文本。
[0128]进一步的,在本实施例中,该步骤630包括:
加载预先构建的词典,通过词典分别对多个候选文本进行分词,以得到每一候选文本对应的分词结果。
[0129]针对每一候选文本,遍历分词结果中的词,以从分词结果中选取特征词以及特征词对应的词频,并归一化词频。
[0130]封装特征词和其所归一化后的词频,形成每一候选文本对应的特征向量。
[0131]存储候选文本对应的特征向量。
[0132]进一步的,在本实施例中,该步骤650包括:
根据当前请求内容校验的多个候选文本由存储的特征向量中提取相应的特征向量和内容所在的完整文本对应的特征向量。
[0133]将完整文本对应的特征向量分别与多个候选文本对应的特征向量进行匹配,以得到与完整文本最为匹配的候选文本,该候选文本即为推荐文本。
[0134]具体的,将完整文本对应的特征向量分别与多个候选文本对应的特征向量进行匹配,以得到与完整文本最为匹配的特征向量的步骤包括:
分别计算每一候选文本对应的特征向量与完整文本对应的特征向量之间的距离,以排除计算得到的距离超出距离限值的候选文本。
[0135]对余下的候选文本对应的特征向量进行聚类,通过每一类别所对应的相似度排除相似度小于相似阈值的类别,以得到相似的多个候选文本。
[0136]通过分类算法得到相似的多个候选文本中与完整文本最为匹配的候选文本。
[0137]在另一个实施例中,如上所述的方法还包括:判断推荐文本是否失效,若为是,则返回步骤610,若为否,则不做任何处理。
[0138]在另一个实施例中,上述根据当前请求内容校验的多个候选文本由存储的特征向量中提取相应的特征向量和内容所在的完整文本对应的特征向量的步骤之前,该方法还包括:
获取内容所在的完整文本。
[0139]通过预先构建的词典对完整文本进行特征向量统计,以得到完整文本对应的特征向量,并存储。
[0140]此外,在另一个实施例中,该方法还包括:
随机选取预设数量的样本,对该样本进行特征选取得到多个特征词,以通过多个特征词形成词典。
[0141]进一步的,该具体过程包括:
从存储的文本中随机选取预设数量的样本。
[0142]在预设数量的样本中计算得到高频的特征词,并通过新词发现算法筛选特征词。
[0143]存储筛选后的特征词,以形成包含筛选后的特征词的词典。
[0144]上述多方推荐源的聚合方法中,词典构建、特征向量统计和候选文本的内容校验是分拆进行的,并且进行了特征向量的存储,因此将有效避免了不必要的重复计算。
[0145]下面结合一个具体的应用场景来详细阐述如上所述的多方推荐源的聚合方法。多方推荐源的聚合方法将运行于服务器后台,并通过服务器后台与聚合类应用进行交互。该实施例中,以小说书架应用为例,运行于终端设备中的小说书架应用将由服务器后台得到与其发起的内容获取请求相对应的推荐文本,并经由推荐文本进行内容显示。
[0146]如图13所示,服务器后台中,将首先在小说内容库710中通过新词发现服务730构建小说词典。其中,小说内容库710将存储了海量小说样本,新词发现服务730可由小说内容库710随机选取预设数量的样本,通过该样本进行特征词的计算和筛选,以得到多个特征词,并存储小说词典750中。由此所得到的小说词典750除了包含了通过新词发现服务730所得到的特征词之外,还包括了预先录入的常用词。
[0147]在此,将使用预先构建的小说词典750为任一内容选取推荐文本,并存储。
[0148]具体的,分词引擎760将加载小说词典750,并以小说书库770中与该内容相关的多个候选文本为输入,分别对与该内容相关的多个候选文本进行分词,以得到每一候选文本对应的分词结果,进而由分词结果进行特征提取以得到候选文本所对应的特征向量,并存储。
[0149]针对任一内容,获取与该内容相关的多个候选文本对应的特征向量以及该内容所在完整文本的特征向量,以经由小说内容校验780之后即可得到该内容所对应的推荐文本,并存储。
[0150]此外,由于在得到每一候选文本所对应的特征向量之后,将该特征向量进行了存储,因此,还可根据该存储的特征向量为聚合类应用提供扩展服务,例如,小说书籍聚合790的服务等。该小说书籍聚合790的服务即为利用特征向量对候选文本所进行的去重处理。
[0151]具体的,该小说书籍聚合790的服务是对重复的小说进行聚合处理,最终只展现一本小说。也就是说,对于存在于多个站点的同一小说,由于某些站点对其改了名字,因此便出现了同书不同名的情况,需要小说书籍聚合790的服务通过存储的特征向量对此进行去重处理,以为用户提供纯净的阅读环境。
[0152]在一个实施例中,还相应地提供了一种聚合类应用的推荐系统,如图14所示,包括:聚合类应用客户端80。该聚合类应用客户端80包括请求发起模块810、接收模块830和加载模块850,其中:
请求发起模块810,用于根据触发的内容获取操作发起内容获取请求。
[0153]接收模块830,用于接收根据内容获取请求返回的推荐文本。
[0154]该推荐文本是通过预先构建的词典对内容获取请求相关的多个候选文本统计特征向量和根据特征向量对多个候选文本进行内容校验得到的。
[0155]加载模块850,用于加载返回的推荐文本,以进行内容显示。
[0156]需要说明的是,聚合类应用客户端80将运行于各种终端设备中,以通过用户在其界面触发的内容获取操作得到该内容所对的推荐文本,并显示。而该推荐文本将是该内容所对应的最优文本。
[0157]在一个实施例中,如图15所示,如上所述的聚合类应用的推荐系统还包括了查找装置910,该查找装置910用于在存储的推荐文本中进行查找,以得到与内容获取请求相关的推荐文本,并向聚合类应用客户端返回推荐文本。
[0158]在另一个实施例中,如图16所示,如上所述的聚合类应用的推荐系统还包括文本获取装置920和统计装置930,其中:
文本获取装置920,用于获取内容相同的多个候选文本。
[0159]统计装置930,用于通
当前第3页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1