大数据话题日志处理方法、服务器及存储介质与流程

文档序号:26102335发布日期:2021-07-30 18:13阅读:76来源:国知局
大数据话题日志处理方法、服务器及存储介质与流程

本申请实施例涉及大数据和话题处理技术领域,具体涉及一种大数据话题日志处理方法、服务器及存储介质。



背景技术:

用户影响力分析作为社交网络分析的重要组成部分,长期以来受到研究人员的关注。针对现有研究工作分析用户行为时间性的不足和忽略用户与参与话题之间关联性等问题,相关技术提出了一种面向微博话题的用户影响力分析算法,也即基于话题和传播能力的用户排序算法。该算法的应用主要基于话题日志实施,用于进行相关的话题分析和追踪。

鉴于上述内容,话题日志的完整性和质量是确保基于话题和传播能力的用户排序算法能够正常运用的关键,然而相关技术在获取话题日志时存在效率低下且智能化程度差的问题。



技术实现要素:

有鉴于此,本申请实施例提供了一种大数据话题日志处理方法、服务器及存储介质。

本申请实施例提供了一种大数据话题日志处理方法,应用于话题日志服务器,包括:

获取待创建的目标动态话题日志对应的话题日志特征表达;

基于所述话题日志特征表达,在原始动态话题日志中创建话题日志分解模型,其中,所述话题日志分解模型包括至少一条分解策略,所述分解策略用于分解所述原始动态话题日志;

创建待加载至所述话题日志分解模型中的话题日志观点簇,其中,所述话题日志观点簇包括至少一个话题日志观点;

将所述话题日志观点与所述话题日志分解模型中的分解策略进行情绪极性配对,得到下发给所述分解策略的备选话题日志观点;

根据所述备选话题日志观点与所述分解策略之间的状态关联内容,从所述备选话题日志观点中选择出目标话题日志观点;

将所述目标话题日志观点下发至所述分解策略,以将所述目标话题日志观点加载至所述话题日志分解模型中,创建目标动态话题日志。

在一种可选的实施例中,基于所述话题日志特征表达,在原始动态话题日志中创建话题日志分解模型,其中,所述话题日志分解模型包括至少一条分解策略,所述分解策略用于分解所述原始动态话题日志,包括:

基于所述话题日志特征表达,在所述原始动态话题日志中创建初始分解模型,其中,所述初始分解模型包括至少一条待升级的分解策略;

基于所述分解策略在所述初始分解模型中的策略重叠内容,对所述分解策略进行升级,得到升级后的分解策略;

根据所述升级后的分解策略,确定所述原始动态话题日志中的话题日志分解模型,其中,所述话题日志分解模型包括至少一条升级后的分解策略,所述分解策略用于分解所述原始动态话题日志。

在一种可选的实施例中,基于所述话题日志特征表达,在所述原始动态话题日志中创建初始分解模型,包括:

确定创建初始分解模型所对应的策略全局性状态;

对所述话题日志特征表达进行内容调整,得到所述话题日志特征表达对应的特征分布内容;

基于所述策略全局性状态与所述特征分布内容,在所述原始动态话题日志中创建初始分解模型;

相应的,基于所述策略全局性状态与所述特征分布内容,在所述原始动态话题日志中创建初始分解模型,包括:

在所述原始动态话题日志中创建匹配所述策略全局性状态的初始分解模型,其中,所述初始分解模型包括至少一条待优化的分解策略;

根据所述特征分布内容,对所述初始分解模型中的分解策略进行线性优化,得到优化后的分解策略;

根据所述优化后的分解策略,确定所述原始动态话题日志中的初始分解模型。

在一种可选的实施例中,基于所述分解策略在所述初始分解模型中的策略重叠内容,对所述分解策略进行升级,得到升级后的分解策略,包括:

根据预设的策略引导条件,对所述策略重叠内容进行配对,以确定待升级的目标分解策略;

按照所述策略引导条件对所述目标分解策略进行升级,得到升级后的分解策略。

在一种可选的实施例中,根据所述备选话题日志观点与所述分解策略之间的状态关联内容,从所述备选话题日志观点中选择出目标话题日志观点,包括:

基于所述备选话题日志观点的观点情绪特征,确定所述备选话题日志观点与所述分解策略之间的状态关联内容;

根据所述状态关联内容,对所述备选话题日志观点与所述分解策略进行噪声干扰验证;

从所述噪声干扰验证通过的备选话题日志观点中,选择出下发给所述分解策略的目标话题日志观点;

相应的,从所述噪声干扰验证通过的备选话题日志观点中,选择出下发给所述分解策略的目标话题日志观点,包括:

确定噪声干扰验证通过的备选话题日志观点所属的观点分组,其中,所述观点分组具有对应的观点极性引导信息;

根据所述观点极性引导信息,对所述观点分组下的备选话题日志观点进行选择,得到选择后的目标话题日志观点。

在一种可选的实施例中,将所述目标话题日志观点下发至所述分解策略,以将所述目标话题日志观点加载至所述话题日志分解模型中,创建目标动态话题日志,包括:

对所述目标话题日志观点进行整理,以确定各目标话题日志观点的重要性程度;

根据所述重要性程度,对所述目标话题日志观点进行噪声干扰验证;

将噪声干扰验证通过的目标话题日志观点下发至所述分解策略,以将所述目标话题日志观点加载至所述话题日志分解模型中,创建目标动态话题日志;

相应的,根据所述重要性程度,对所述目标话题日志观点进行噪声干扰验证,包括:

对所属同一观点分组的目标话题日志观点进行噪声干扰验证;

基于所述验证结果,对所述观点分组对应的目标话题日志观点进行选择,得到选择后的目标话题日志观点;

基于所述选择后目标话题日志观点的重要性程度,从所述选择后目标话题日志观点中确定验证通过的目标话题日志观点。

在一种可选的实施例中,创建待加载至所述话题日志分解模型中的话题日志观点簇,其中,所述话题日志观点簇包括至少一个话题日志观点,包括:

获取待创建的话题日志观点的话题素材信息;

确定所述话题素材信息对应的融合条件;基于所述话题素材信息的观点素材信息与所述融合条件,对所述话题素材信息进行观点素材融合,得到融合后的话题日志观点;

根据所述融合后的话题日志观点,创建待加载至所述话题日志分解模型中的话题日志观点簇,其中,所述话题日志观点簇包括至少一个话题日志观点;

相应的,将所述话题日志观点与所述话题日志分解模型中的分解策略进行情绪极性配对,得到下发给所述分解策略的备选话题日志观点,包括:

确定所述话题日志观点的观点情绪极性、以及所述分解策略的策略情绪极性;

对所述观点情绪极性与所述策略情绪极性进行情绪极性配对;

将配对通过的话题日志观点确定为下发给所述分解策略的备选话题日志观点。

在一种可选的实施例中,所述方法还包括:利用所述目标动态话题日志进行热点主题检测;

相应的,利用所述目标动态话题日志进行热点主题检测,包括:

根据所述目标动态话题日志中的活跃话题日志观点获取待进行检测的主题板块数据的索引层级信息以及各主题文本;

在根据所述索引层级信息确定出所述待进行检测的主题板块数据中包含有间接索引的前提下,根据多个话题平台的主题板块数据的间接索引下的主题文本及其索引指示确定待进行检测的主题板块数据的直接索引下的各主题文本与待进行检测的主题板块数据的间接索引下的各主题文本之间的文本共性情况,并将待进行检测的主题板块数据的直接索引下的与间接索引下的主题文本相似的主题文本迁移到相应的间接索引下;

在待进行检测的主题板块数据的当前直接索引下包含有多个主题文本的前提下,根据多个话题平台的主题板块数据的间接索引下的主题文本及其索引指示确定待进行检测的主题板块数据的当前直接索引下的各主题文本之间的文本共性情况,并根据所述各主题文本之间的文本共性情况对当前直接索引下的各主题文本进行多维特征聚类;

根据多个话题平台的主题板块数据的间接索引下的主题文本及其索引指示为上述多维特征聚类获得的每一类主题文本设置间接索引指示,并将所述每一类主题文本迁移到所述间接索引指示所表示的间接索引下;

对所述直接索引下的主题文本进行评论反馈热度检测,并根据热度检测结果得到当前热点主题;

相应的,所述根据多个话题平台的主题板块数据的间接索引下的主题文本及其索引指示确定待进行检测的主题板块数据的直接索引下的各主题文本与待进行检测的主题板块数据的间接索引下的各主题文本之间的文本共性情况,并将待进行检测的主题板块数据的直接索引下的与间接索引下的主题文本相似的主题文本迁移到相应的间接索引下包括:

计算待进行检测的主题板块数据的直接索引下的各主题文本与待进行检测的主题板块数据的间接索引下的各主题文本的文本关键词向量之间的余弦相似度;

分别判断各余弦相似度是否达到第一余弦相似度阈值,并将余弦相似度达到第一余弦相似度阈值的直接索引下的主题文本迁移到相应的间接索引下;

其中,所述主题文本的文本关键词向量为:根据多个话题平台的主题板块数据的间接索引下的主题文本及其索引指示统计出的主题文本属于间接索引指示的层级区域分布;

相应的,所述根据多个话题平台的主题板块数据的间接索引下的主题文本及其索引指示确定待进行检测的主题板块数据的当前直接索引下的各主题文本之间的文本共性情况,并根据所述各主题文本之间的文本共性情况对当前直接索引下的各主题文本进行多维特征聚类包括:

计算待进行检测的主题板块数据的当前直接索引下的各主题文本的文本关键词向量之间的余弦相似度;

针对待进行检测的主题板块数据的当前直接索引下的一个主题文本而言,将该主题文本和与其文本关键词向量之间的余弦相似度达到第二余弦相似度阈值的所有主题文本划分为一类;

其中,所述主题文本的文本关键词向量为:根据多个话题平台的主题板块数据的间接索引下的主题文本及其索引指示统计出的主题文本属于间接索引指示的层级区域分布。

本申请实施例还提供了一种话题日志服务器,包括处理器、通信总线和存储器;所述处理器和所述存储器通过所述通信总线通信,所述处理器从所述存储器中读取计算机程序并运行,以执行上述的方法。

本申请实施例还提供了一种计算机存储介质,所述计算机存储介质存储有计算机程序,所述计算机程序在运行时实现上述的方法。

相较于现有技术,本申请实施例提供的大数据话题日志处理方法、服务器及存储介质具有以下技术效果:该方案可以有效提高动态话题日志创建的效率,进一步地,该方案可以基于待创建的目标动态话题日志的话题日志特征表达,来创建与话题日志特征相吻合的话题日志分解模型,这可以使得最后基于该话题日志分解模型所创建的目标动态话题日志具有较高的话题场景适配性与观点评论可信性。并且,该方案在将话题日志观点下发至话题日志分解模型中的分解策略的过程中,既考虑了话题日志观点与分解策略之间的情绪极性配对程度,又考虑了话题日志观点与分解策略对应的状态关联内容,这不仅能够高效地确定话题日志观点在话题日志分解模型对应的日志创建状态,还可以有效地规避在话题日志创建过程中的由于状态冲突或观点干扰导致的话题日志存在偏差的问题。此外,在该方案中,仅需提供描述待创建的目标动态话题日志的话题日志特征表达,以及待创建成话题日志观点的话题素材信息,便即可通过上述方案智能化、自适应地创建完整且高质量的动态话题日志,这能够在一定程度上提高动态话题日志创建的效率和智能化程度。

在后面的描述中,将部分地陈述其他的特征。在检查后面内容和附图时,本领域的技术人员将部分地发现这些特征,或者可以通过生产或运用了解到这些特征。通过实践或使用后面所述详细示例中列出的方法、工具和组合的各个方面,当前申请中的特征可以被实现和获得。

附图说明

为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。

图1为本申请实施例所提供的一种话题日志服务器的方框示意图。

图2为本申请实施例所提供的一种大数据话题日志处理方法的流程图。

图3为本申请实施例所提供的一种大数据话题日志处理装置的框图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例只是本申请的一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。

因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。

应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。

图1示出了本申请实施例所提供的一种话题日志服务器10的方框示意图。本申请实施例中的话题日志服务器10可以为具有数据存储、传输、处理功能的服务端,如图1所示,话题日志服务器10包括:存储器11、处理器12、通信总线13和大数据话题日志处理装置20。

存储器11、处理器12和通信总线13之间直接或间接地电性连接,以实现数据的传输或交互。例如,这些元件互相之间可以通过一条或多条通讯总线或信号线实现电性连接。存储器11中存储有大数据话题日志处理装置20,所述大数据话题日志处理装置20包括至少一个可以软件或固件(firmware)的形式储存于所述存储器11中的软件功能模块,所述处理器12通过运行存储在存储器11内的软件程序以及模块,例如本申请实施例中的大数据话题日志处理装置20,从而执行各种功能应用以及数据处理,即实现本申请实施例中的大数据话题日志处理方法。

其中,所述存储器11可以是,但不限于,随机存取存储器(randomaccessmemory,ram),只读存储器(readonlymemory,rom),可编程只读存储器(programmableread-onlymemory,prom),可擦除只读存储器(erasableprogrammableread-onlymemory,eprom),电可擦除只读存储器(electricerasableprogrammableread-onlymemory,eeprom)等。其中,存储器11用于存储程序,所述处理器12在接收到执行指令后,执行所述程序。

所述处理器12可能是一种集成电路芯片,具有数据的处理能力。上述的处理器12可以是通用处理器,包括中央处理器(centralprocessingunit,cpu)、网络处理器(networkprocessor,np)等。可以实现或者执行本申请实施例中公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

通信总线13用于通过网络建立话题日志服务器10与其他通信终端设备之间的通信连接,实现网络信号及数据的收发操作。上述网络信号可包括无线信号或者有线信号。

可以理解,图1所示的结构仅为示意,话题日志服务器10还可包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。图1中所示的各组件可以采用硬件、软件或其组合实现。

本申请实施例还提供了一种计算机存储介质,所述计算机存储介质存储有计算机程序,所述计算机程序在运行时实现上述的方法。

图2示出了本申请实施例所提供的一种大数据话题日志处理的流程图。所述方法有关的流程所定义的方法步骤应用于话题日志服务器10,可以由所述处理器12实现,所述方法包括以下s21-s26。

在s21中,话题日志服务器获取待创建的目标动态话题日志对应的话题日志特征表达。

本申请实施例中,动态话题日志可以是添加了用户评论或者用户观点的可视化话题日志,该动态话题日志可以是随着时间推移而更新的。相应的,话题日志特征表达可以理解为话题日志的特征信息,比如可以是话题日志的显示特征、文本特征或者层级结构特征等,但不限于此。

此外,话题日志服务器可以在接收到相关的日志创建指令后获取待创建的目标动态话题日志对应的话题日志特征表达。

在s22中,话题日志服务器基于所述话题日志特征表达,在原始动态话题日志中创建话题日志分解模型。

在本申请实施例中,所述话题日志分解模型包括至少一条分解策略,所述分解策略用于分解所述原始动态话题日志。

可以理解的是,话题日志分解模型可以是基于人工智能的卷积神经网络,该模型可以包括不同的分解策略,不同的分解策略用于从不同的角度对原始动态话题日志进行分解,以便实现对原始动态话题日志(不存在用户评论或用户观点)的精准分析。

在一些可能的实施例中,s22所描述的基于所述话题日志特征表达,在原始动态话题日志中创建话题日志分解模型,其中,所述话题日志分解模型包括至少一条分解策略,所述分解策略用于分解所述原始动态话题日志,可以通过以下s221-s223实现。

在s221中,基于所述话题日志特征表达,在所述原始动态话题日志中创建初始分解模型,其中,所述初始分解模型包括至少一条待升级的分解策略。

例如,待升级的分解策略可以理解为待调整或者待优化的分解策略。

进一步地,s221所描述的基于所述话题日志特征表达,在所述原始动态话题日志中创建初始分解模型,可以包括以下技术方案:确定创建初始分解模型所对应的策略全局性状态;对所述话题日志特征表达进行内容调整,得到所述话题日志特征表达对应的特征分布内容;基于所述策略全局性状态与所述特征分布内容,在所述原始动态话题日志中创建初始分解模型。

例如,策略全局性状态可以理解为策略分布模式,内容调整可以理解为特征信息转换,特征分布内容可以理解为全局化的特征信息。如此一来,可以根据策略全局性状态以及特征分布内容创建适配于实际话题日志场景的初始分解模型。

更进一步地,上述步骤所描述的基于所述策略全局性状态与所述特征分布内容,在所述原始动态话题日志中创建初始分解模型,可以包括以下技术方案:在所述原始动态话题日志中创建匹配所述策略全局性状态的初始分解模型,其中,所述初始分解模型包括至少一条待优化的分解策略;根据所述特征分布内容,对所述初始分解模型中的分解策略进行线性优化,得到优化后的分解策略;根据所述优化后的分解策略,确定所述原始动态话题日志中的初始分解模型。

例如,线性优化可以是基于时序层面的策略优化方式,这样可以确保优化后的分解策略在时序上尽可能不存在互相冲突,从而确保初始分解模型的模型质量。

在s222中,基于所述分解策略在所述初始分解模型中的策略重叠内容,对所述分解策略进行升级,得到升级后的分解策略。

例如,策略重叠内容可以理解为存在重复或者交叉的策略指示信息,通过对策略重叠内容进行分析,以实现分解策略升级,可以确保升级后的分解策略之间的互相独立性,避免出现策略交叉而产生日志分解错乱。

在相关实施例中,s222所描述的基于所述分解策略在所述初始分解模型中的策略重叠内容,对所述分解策略进行升级,得到升级后的分解策略,可以包括以下内容:根据预设的策略引导条件,对所述策略重叠内容进行配对,以确定待升级的目标分解策略;按照所述策略引导条件对所述目标分解策略进行升级,得到升级后的分解策略。例如,策略引导条件可以理解为策略约束规则。

在s223中,根据所述升级后的分解策略,确定所述原始动态话题日志中的话题日志分解模型,其中,所述话题日志分解模型包括至少一条升级后的分解策略,所述分解策略用于分解所述原始动态话题日志。

可以理解,原始动态话题日志中的话题日志分解模型可以理解为与原始动态话题日志对应的话题日志分解模型。

如此设计,基于上述s221-s223,能够对不同的分解策略的策略重叠内容进行考虑,从而确保升级后的分解策略之间的互相独立性,避免出现策略交叉而产生日志分解错乱,这样可以保证话题日志分解模型的正常运行,进而确保后续的日志分解能够顺利实现,减少日志分解误差发生率。

在s23中,话题日志服务器创建待加载至所述话题日志分解模型中的话题日志观点簇。

在本申请实施例中,所述话题日志观点簇包括至少一个话题日志观点。话题日志观点可以是用于对于不同话题或者不同主题进行评论之后所发表的观点,包括但不限于情感极性、文本内容和意图倾向性等。话题日志观点簇可以对具有一定相似性的话题日志观点进行捆绑,换言之,话题日志观点簇可以理解为话题日志观点集合。

在实际实施过程中,s23所描述的创建待加载至所述话题日志分解模型中的话题日志观点簇,其中,所述话题日志观点簇包括至少一个话题日志观点,可以包括s231-s233所描述的技术方案。

在s231中,获取待创建的话题日志观点的话题素材信息。

例如,话题素材信息可以是不同的观点的关键词或者文本片段信息。

在s232中,确定所述话题素材信息对应的融合条件;基于所述话题素材信息的观点素材信息与所述融合条件,对所述话题素材信息进行观点素材融合,得到融合后的话题日志观点。

例如,融合条件可以理解为组合规则或者拼接规则。

在s233中,根据所述融合后的话题日志观点,创建待加载至所述话题日志分解模型中的话题日志观点簇,其中,所述话题日志观点簇包括至少一个话题日志观点。

如此设计,基于上述s231-s233,能够将话题素材信息考虑在内,并结合融合条件进行观点素材融合,这样可以确保创建得到的话题日志观点簇的完整性。

在s24中,话题日志服务器将所述话题日志观点与所述话题日志分解模型中的分解策略进行情绪极性配对,得到下发给所述分解策略的备选话题日志观点。

例如,情绪极性包括积极、消极和中立,当然还可以通过不同的极性等级进行区分。情绪极性配对可以理解为情绪极性匹配。

在相关实施例中,s24所描述的将所述话题日志观点与所述话题日志分解模型中的分解策略进行情绪极性配对,得到下发给所述分解策略的备选话题日志观点,可以包括以下s241-s243。

在s241中,确定所述话题日志观点的观点情绪极性、以及所述分解策略的策略情绪极性。

在s242中,对所述观点情绪极性与所述策略情绪极性进行情绪极性配对。

在s243中,将配对通过的话题日志观点确定为下发给所述分解策略的备选话题日志观点。

如此设计,通过上述s241-s243,能够基于观点情绪极性以及策略情绪极性进行情绪极性配对,从而准确确定出备选话题日志观点。

在s25中,话题日志服务器根据所述备选话题日志观点与所述分解策略之间的状态关联内容,从所述备选话题日志观点中选择出目标话题日志观点。

在本申请实施例中,状态关联内容用于表征备选话题日志观点与分解策略之间的匹配关联情况,状态关联内容用于对备选话题日志观点进行筛分,以确保话题日志观点与分解策略之间的适配性。

在相关实施例中,s25所描述的根据所述备选话题日志观点与所述分解策略之间的状态关联内容,从所述备选话题日志观点中选择出目标话题日志观点,可以包括以下s251-s253所描述的技术方案。

在s251中,基于所述备选话题日志观点的观点情绪特征,确定所述备选话题日志观点与所述分解策略之间的状态关联内容。

在s252中,根据所述状态关联内容,对所述备选话题日志观点与所述分解策略进行噪声干扰验证。

例如,噪声干扰验证用于判断不同话题日志观点对分解策略的运行干扰。

在s253中,从所述噪声干扰验证通过的备选话题日志观点中,选择出下发给所述分解策略的目标话题日志观点。

进一步地,上述s253所描述的从所述噪声干扰验证通过的备选话题日志观点中,选择出下发给所述分解策略的目标话题日志观点,包括:确定噪声干扰验证通过的备选话题日志观点所属的观点分组,其中,所述观点分组具有对应的观点极性引导信息;根据所述观点极性引导信息,对所述观点分组下的备选话题日志观点进行选择,得到选择后的目标话题日志观点。

可以理解,在实施上述s251-s253时,能够考虑噪声干扰验证,能够实现对备选话题日志观点的精准筛分,从而确保话题日志观点与分解策略之间的适配性。

在s26中,话题日志服务器将所述目标话题日志观点下发至所述分解策略,以将所述目标话题日志观点加载至所述话题日志分解模型中,创建目标动态话题日志。

在一些实施例中,上述s26所描述的将所述目标话题日志观点下发至所述分解策略,以将所述目标话题日志观点加载至所述话题日志分解模型中,创建目标动态话题日志,可以包括以下s261-s263所描述的技术方案。

在s261中,对所述目标话题日志观点进行整理,以确定各目标话题日志观点的重要性程度。

例如,可以对目标话题日志观点进行排序,从而确定各目标话题日志观点的优先级。

在s262中,根据所述重要性程度,对所述目标话题日志观点进行噪声干扰验证。

例如,可以按照重要性程度由高到低的顺序对目标话题日志观点进行噪声干扰验证。

又例如,s262还可以通过以下实施方式实现:对所属同一观点分组的目标话题日志观点进行噪声干扰验证;基于所述验证结果,对所述观点分组对应的目标话题日志观点进行选择,得到选择后的目标话题日志观点;基于所述选择后目标话题日志观点的重要性程度,从所述选择后目标话题日志观点中确定验证通过的目标话题日志观点。

在s263中,将噪声干扰验证通过的目标话题日志观点下发至所述分解策略,以将所述目标话题日志观点加载至所述话题日志分解模型中,创建目标动态话题日志。

可以理解的是,通过将噪声干扰验证通过的目标话题日志观点下发至分解策略,能确保话题日志分解模型在日志分解和创建过程中的准确性,从而确保得到的目标动态话题日志的完整性和质量。

在上述s21-s23的基础上,还可以包括针对目标动态话题日志的热点主题检测方案,基于此,在一些可选的实施例中,该方法还可以包括s24:利用所述目标动态话题日志进行热点主题检测。

进一步地,关于上述s24所描述的利用所述目标动态话题日志进行热点主题检测,可以包括以下s241-s245所描述的技术方案。

在s241中,根据所述目标动态话题日志中的活跃话题日志观点获取待进行检测的主题板块数据的索引层级信息以及各主题文本。

在s242中,在根据所述索引层级信息确定出所述待进行检测的主题板块数据中包含有间接索引的前提下,根据多个话题平台的主题板块数据的间接索引下的主题文本及其索引指示确定待进行检测的主题板块数据的直接索引下的各主题文本与待进行检测的主题板块数据的间接索引下的各主题文本之间的文本共性情况,并将待进行检测的主题板块数据的直接索引下的与间接索引下的主题文本相似的主题文本迁移到相应的间接索引下。

在相关实施例中,s242所描述的根据多个话题平台的主题板块数据的间接索引下的主题文本及其索引指示确定待进行检测的主题板块数据的直接索引下的各主题文本与待进行检测的主题板块数据的间接索引下的各主题文本之间的文本共性情况,并将待进行检测的主题板块数据的直接索引下的与间接索引下的主题文本相似的主题文本迁移到相应的间接索引下,可以包括以下内容:计算待进行检测的主题板块数据的直接索引下的各主题文本与待进行检测的主题板块数据的间接索引下的各主题文本的文本关键词向量之间的余弦相似度;分别判断各余弦相似度是否达到第一余弦相似度阈值,并将余弦相似度达到第一余弦相似度阈值的直接索引下的主题文本迁移到相应的间接索引下;其中,所述主题文本的文本关键词向量为:根据多个话题平台的主题板块数据的间接索引下的主题文本及其索引指示统计出的主题文本属于间接索引指示的层级区域分布。

在s243中,在待进行检测的主题板块数据的当前直接索引下包含有多个主题文本的前提下,根据多个话题平台的主题板块数据的间接索引下的主题文本及其索引指示确定待进行检测的主题板块数据的当前直接索引下的各主题文本之间的文本共性情况,并根据所述各主题文本之间的文本共性情况对当前直接索引下的各主题文本进行多维特征聚类。

在s243所描述的根据多个话题平台的主题板块数据的间接索引下的主题文本及其索引指示确定待进行检测的主题板块数据的当前直接索引下的各主题文本之间的文本共性情况,并根据所述各主题文本之间的文本共性情况对当前直接索引下的各主题文本进行多维特征聚类,可以包括以下内容:计算待进行检测的主题板块数据的当前直接索引下的各主题文本的文本关键词向量之间的余弦相似度;针对待进行检测的主题板块数据的当前直接索引下的一个主题文本而言,将该主题文本和与其文本关键词向量之间的余弦相似度达到第二余弦相似度阈值的所有主题文本划分为一类;其中,所述主题文本的文本关键词向量为:根据多个话题平台的主题板块数据的间接索引下的主题文本及其索引指示统计出的主题文本属于间接索引指示的层级区域分布。

在s244中,根据多个话题平台的主题板块数据的间接索引下的主题文本及其索引指示为上述多维特征聚类获得的每一类主题文本设置间接索引指示,并将所述每一类主题文本迁移到所述间接索引指示所表示的间接索引下。

在s245中,对所述直接索引下的主题文本进行评论反馈热度检测,并根据热度检测结果得到当前热点主题。

在s241-s245中,直接索引和间接索引用于表征索引的复杂度和实时性,一般而言,可以通过直接索引下的主题文本进行评论反馈热度检测,以提高热度分析的精度,因此,通过对不同类型的索引下的文本进行文本共性情况(相似度)分析,能够实现对不同类型的索引的调整和优化,从而确保根据准确的直接索引下的主题文本进行评论反馈热度检测,这样可以通过热度检测结果准确得到当前热点主题。

综上,该方案可以有效提高动态话题日志创建的效率,进一步地,该方案可以基于待创建的目标动态话题日志的话题日志特征表达,来创建与话题日志特征相吻合的话题日志分解模型,这可以使得最后基于该话题日志分解模型所创建的目标动态话题日志具有较高的话题场景适配性与观点评论可信性。并且,该方案在将话题日志观点下发至话题日志分解模型中的分解策略的过程中,既考虑了话题日志观点与分解策略之间的情绪极性配对程度,又考虑了话题日志观点与分解策略对应的状态关联内容,这不仅能够高效地确定话题日志观点在话题日志分解模型对应的日志创建状态,还可以有效地规避在话题日志创建过程中的由于状态冲突或观点干扰导致的话题日志存在偏差的问题。此外,在该方案中,仅需提供描述待创建的目标动态话题日志的话题日志特征表达,以及待创建成话题日志观点的话题素材信息,便即可通过上述方案智能化、自适应地创建完整且高质量的动态话题日志,这能够在一定程度上提高动态话题日志创建的效率和智能化程度。

基于上述同样的发明构思,还提供了一种大数据话题日志处理装置20,应用于话题日志服务器10,所述装置包括:

日志特征创建模块21,用于获取待创建的目标动态话题日志对应的话题日志特征表达;基于所述话题日志特征表达,在原始动态话题日志中创建话题日志分解模型,其中,所述话题日志分解模型包括至少一条分解策略,所述分解策略用于分解所述原始动态话题日志;

话题日志创建模块22,用于创建待加载至所述话题日志分解模型中的话题日志观点簇,其中,所述话题日志观点簇包括至少一个话题日志观点;将所述话题日志观点与所述话题日志分解模型中的分解策略进行情绪极性配对,得到下发给所述分解策略的备选话题日志观点;根据所述备选话题日志观点与所述分解策略之间的状态关联内容,从所述备选话题日志观点中选择出目标话题日志观点;将所述目标话题日志观点下发至所述分解策略,以将所述目标话题日志观点加载至所述话题日志分解模型中,创建目标动态话题日志。

可以理解的是,关于上述日志特征创建模块21和话题日志创建模块22的描述可以参阅对图2所示的方法的说明,在此不再赘述。

在本申请实施例所提供的几个实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置和方法实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。

另外,在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。

所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,话题日志服务器10,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-onlymemory)、随机存取存储器(ram,randomaccessmemory)、磁碟或者光盘等各种可以存储程序代码的介质。需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1