多媒体资源的处理方法、装置、电子设备及存储介质与流程

文档序号：23090909发布日期：2020-11-27 12:43阅读：115来源：国知局

本公开涉及计算机技术领域，尤其涉及一种多媒体资源的处理方法、装置、电子设备及存储介质。

背景技术：

随着机器学习领域的发展，深度学习在视频图像、语音识别、自然语言处理等相关领域得到了广泛应用。卷积神经网络(convolutionalneuralnetworks,cnn)作为深度学习的一个重要分支，由于其超强的拟合能力以及端到端的全局优化能力，在应用卷积神经网络之后图像分类模型对视频文件的预测精度得到大幅提升。

相关技术中，通过图像分类模型、自然语言处理算法、语音识别算法等对视频文件进行感知，可以得到视频文件在这些信息域上的文本数据。利用这些信息域上的文本数据可以生成视频文件的视频标签。

然而，在实际业务场景中，比如在视频搜索时，通过传统技术中的视频标签搜索得到的视频文件与用户期望之间的匹配度并不高。

技术实现要素：

本公开提供一种多媒体资源的处理方法、装置、电子设备及存储介质，以至少解决相关技术中通过视频标签搜索得到的视频文件与用户期望之间的匹配度不高的问题。本公开的技术方案如下：

根据本公开实施例的第一方面，提供一种多媒体资源的处理方法，包括：

获取多媒体资源对应的词组合，所述词组合包括若干个词语；

获取各所述词语的预测概率和各所述词语的信息域特征；其中，所述预测概率为对所述多媒体资源进行识别得到各所述词语的概率，所述信息域特征用于表征词语的来源途径；

针对每个所述词语，将对应的所述预测概率和对应的所述信息域特征进行合并，得到各所述词语的融合特征；

根据所述各所述词语的融合特征，对各所述词语的词权重进行预估，并按照预估的词权重大小对各所述词语进行排序，得到排序后的词组合。

在其中一个实施例中，所述多媒体资源对应的词组合的生成方式，包括：

获取所述多媒体资源对应的文本信息，所述文本信息的格式包括文档格式和标签格式；

对文档格式的文本信息进行分词处理，得到所述文档格式的文本信息对应的词语；

根据所述文档格式的文本信息对应的词语和标签格式的文本信息，生成所述多媒体资源对应的词组合。

在其中一个实施例中，所述根据所述文档格式的文本信息对应的词组合和标签格式的文本信息，生成所述多媒体资源对应的词组合，包括：

对所述文档格式的文本信息对应的词语和所述标签格式的文本信息进行融合和去重处理，得到所述多媒体资源对应的词组合。

在其中一个实施例中，所述获取各所述词语的预测概率和各所述词语的信息域特征，包括：

对各所述多媒体资源进行词语识别，得到从所述多媒体资源中识别出各所述词语的预测概率；

对各所述词语的来源途径对应的信息域进行数值表示，得到各所述词语的信息域特征。

在其中一个实施例中，所述根据所述各所述词语的融合特征，对各所述词语的词权重进行预估，并按照预估的词权重大小对各所述词语进行排序，得到排序后的词组合，包括：

将各所述词语的融合特征输入至排序学习模型，通过所述排序学习模型对各所述词语的融合特征进行分数预估，并按照预估的分数对各所述词语进行排序，得到所述排序后的词组合，其中，所述预估的分数用于表征所述词权重大小。

在其中一个实施例中，所述排序学习模型的生成方式，包括：

构建训练样本集，每个训练样本包括一个样本多媒体资源对应的一个样本词组合和所述样本词组合中各样本词语的融合特征，且所述样本词组合中的各样本词语是按照各所述样本词语的词权重进行排序的；

根据所述训练样本集对初始的排序学习模型进行迭代训练，直至满足收敛条件时停止训练，得到所述排序学习模型。

在其中一个实施例中，所述构建训练样本集，包括：

获取多个样本多媒体资源各自对应的原始词组合；

获取各所述原始词组合中的各样本词语的词权重；

针对每个所述原始词组合，按照所述原始词组合中各所述样本词语的词权重大小，对各所述样本词语进行排序，得到所述样本词组合；

针对每个所述原始词组合中的各样本词语，获取所述样本词语的预测概率和所述样本词语的信息域特征，将对应的所述样本词语的预测概率和对应的所述样本词语的信息域特征进行合并，得到所述样本词语的融合特征；

利用多个所述样本多媒体资源各自对应的样本词组合，以及各所述原始词组合中的各样本词语的融合特征，构建所述训练样本集。

在其中一个实施例中，所述获取各所述原始词组合中的各样本词语的词权重，包括：

针对每个所述原始词组合，将所述原始词组合输入至文档主题生成模型，通过所述文档主题生成模型对各所述样本词语的词权重进行检测，得到各所述样本词语对应的词语权重对，所述词语权重对包括一个样本词语和所述样本词语的词权重。

在其中一个实施例中，在所述通过所述文档主题生成模型对各所述样本词语的词权重进行检测，得到各所述样本词语对应的词语权重对之后，所述方法还包括：

将各所述样本词语的词权重与预设的词权重阈值进行比较，得到词权重大于所述词权重阈值的目标样本词语；

所述按照所述原始词组合中各所述样本词语的词权重大小，对各所述样本词语进行排序，得到所述样本词组合词权重，包括：

按照各所述目标样本词语的词权重的大小，对各所述目标样本词语进行排序，得到所述样本词组合。

根据本公开实施例的第二方面，提供一种多媒体资源的处理装置，包括：

词组合获取模块，被配置为执行获取多媒体资源对应的词组合，所述词组合包括若干个词语；

概率特征获取模块，被配置为执行获取各所述词语的预测概率和各所述词语的信息域特征；其中，所述预测概率为对所述多媒体资源进行识别得到各所述词语的概率，所述信息域特征用于表征词语的来源途径；

概率特征合并模块，被配置为执行针对每个所述词语，将对应的所述预测概率和对应的所述信息域特征进行合并，得到各所述词语的融合特征；

词语排序模块，被配置为执行根据所述各所述词语的融合特征，对各所述词语的词权重进行预估，并按照预估的词权重大小对各所述词语进行排序，得到排序后的词组合。

在其中一个实施例中，所述处理装置还包括词组合生成模块，所述词组合生成模块包括文本信息获取单元、分词处理单元以及词组合生成单元；

所述文本信息获取单元，被配置为执行获取所述多媒体资源对应的文本信息，所述文本信息的格式包括文档格式和标签格式；

所述分词处理单元，被配置为执行对文档格式的文本信息进行分词处理，得到所述文档格式的文本信息对应的词语；

所述词组合生成单元，被配置为执行根据所述文档格式的文本信息对应的词语和标签格式的文本信息，生成所述多媒体资源对应的词组合。

在其中一个实施例中，所述词组合生成单元，还被配置为执行对所述文档格式的文本信息对应的词语和所述标签格式的文本信息进行融合和去重处理，得到所述多媒体资源对应的词组合。

在其中一个实施例中，所述概率特征获取模块，还被配置为执行对各所述多媒体资源进行词语识别，得到从所述多媒体资源中识别出各所述词语的预测概率；对各所述词语的来源途径对应的信息域进行数值表示，得到各所述词语的信息域特征。

在其中一个实施例中，所述词语排序模块，还被配置为执行将各所述词语的融合特征输入至排序学习模型，通过所述排序学习模型对各所述词语的融合特征进行分数预估，并按照预估的分数对各所述词语进行排序，得到所述排序后的词组合，其中，所述预估的分数用于表征所述词权重大小。

在其中一个实施例中，所述处理装置还包括排序学习模型生成模块，所述排序学习模型生成模块包括样本集构建单元和模型训练单元；

所述样本集构建单元，被配置为执行构建训练样本集，每个训练样本包括一个样本多媒体资源对应的一个样本词组合和所述样本词组合中各样本词语的融合特征，且所述样本词组合中的各样本词语是按照各所述样本词语的词权重进行排序的；

所述模型训练单元，被配置为执行根据所述训练样本集对初始的排序学习模型进行迭代训练，直至满足收敛条件时停止训练，得到所述排序学习模型。

在其中一个实施例中，所述样本集构建单元包括原始词组合获取子单元、词权重获取子单元、样本词组合获取子单元、融合特征获取子单元、样本集构建子单元；

所述原始词组合获取子单元，被配置为执行获取多个样本多媒体资源各自对应的原始词组合；

所述词权重获取子单元，被配置为执行获取各所述原始词组合中的各样本词语的词权重；

所述样本词组合获取子单元，被配置为执行针对每个所述原始词组合，按照所述原始词组合中各所述样本词语的词权重大小，对各所述样本词语进行排序，得到所述样本词组合；

所述融合特征获取子单元，被配置为执行针对每个所述原始词组合中的各样本词语，获取所述样本词语的预测概率和所述样本词语的信息域特征，将对应的所述样本词语的预测概率和对应的所述样本词语的信息域特征进行合并，得到所述样本词语的融合特征；

所述样本集构建子单元，被配置为执行利用多个所述样本多媒体资源各自对应的样本词组合，以及各所述原始词组合中的各样本词语的融合特征，构建所述训练样本集。

在其中一个实施例中，所述词权重获取子单元，还被配置为执行针对每个所述原始词组合，将所述原始词组合输入至文档主题生成模型，通过所述文档主题生成模型对各所述样本词语的词权重进行检测，得到各所述样本词语对应的词语权重对，所述词语权重对包括一个样本词语和所述样本词语的词权重。

在其中一个实施例中，所述样本集构建单元还包括目标样本词语获取子单元；

所述目标样本词语获取子单元，被配置为执行将各所述样本词语的词权重与预设的词权重阈值进行比较，得到词权重大于所述词权重阈值的目标样本词语；

所述样本词组合获取子单元，还被配置为执行按照各所述目标样本词语的词权重的大小，对各所述目标样本词语进行排序，得到所述样本词组合。

根据本公开实施例的第三方面，提供一种电子设备，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现第一方面的任一项实施例中所述的多媒体资源的处理方法。

根据本公开实施例的第四方面，一种存储介质，当所述存储介质中的指令由电子设备的处理器执行时，使得电子设备/服务器能够执行如第一方面的任一项实施例中所述的多媒体资源的处理方法。

根据本公开实施例的第五方面，提供一种计算机程序产品，所述程序产品包括计算机程序，所述计算机程序存储在可读存储介质中，设备的至少一个处理器从所述可读存储介质读取并执行所述计算机程序，使得设备执行第一方面的任一项实施例中所述的多媒体资源的处理方法。

本公开的实施例提供的技术方案至少带来以下有益效果：

通过获取多媒体资源对应的词组合；并获取词组合中各词语的预测概率和各词语的信息域特征；且预测概率为识别到各词语的概率，信息域特征用于表征词语的来源途径；为了更准确地表达每个词语的特征，针对每个词语，将对应的预测概率和对应的信息域特征进行合并，得到各词语的融合特征；从而根据各词语的融合特征，对各词语的词权重进行预估，并按照预估的词权重大小对各词语进行排序，得到排序后的词组合。结合多媒体资源对应的词组合中各个词语的重要性进行多媒体资源搜索或者多媒体资源推荐，可以高效、精准地为用户提供多媒体资源，解决传统技术中提供给用户的多媒体资源文件与用户期望之间的匹配度并不高的技术问题，从而提高多媒体资源的点击率，降低用户操作成本。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。

图1是根据一示例性实施例示出的一种多媒体资源的处理方法的应用环境图。

图2是根据一示例性实施例示出的一种多媒体资源的处理方法的流程图。

图3是根据一示例性实施例示出的一种多媒体资源对应的词组合的生成方式的流程图。

图4是根据一示例性实施例示出的一种排序学习模型的生成方式的流程图。

图5是根据一示例性实施例示出的一种构建训练样本集的流程图。

图6是根据一示例性实施例示出的一种构建训练样本集的流程图。

图7是根据一示例性实施例示出的一种排序学习模型的生成方式的流程图。

图8是根据一示例性实施例示出的一种多媒体资源的处理方法的流程图。

图9是根据一示例性实施例示出的一种多媒体资源的处理装置的框图。

图10是根据一示例性实施例示出的一种电子设备的内部结构图。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

本公开所提供的多媒体资源的处理方法，可以应用于如图1所示的应用环境中。包括：终端110、第一电子设备120以及第二电子设备130。第一电子设备120和第二电子设备130是指具有较强的数据存储和计算能力的电子设备，例如第一电子设备120、第二电子设备130可以是pc(personalcomputer，个人计算机)或服务器，且第一电子设备120以及第二电子设备130可以用独立的服务器或者是多个服务器组成的服务器集群来实现。终端110可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。

其中，第二电子设备130可以用于构建排序学习模型，并通过第二电子设备130对构建的排序学习模型进行训练。第二电子设备130获取多个样本多媒体资源各自对应的原始词组合；获取各原始词组合中的各样本词语的词权重；针对每个原始词组合，按照原始词组合中各样本词语的词权重大小，对各样本词语进行排序，得到样本词组合；针对每个原始词组合中的各样本词语，获取样本词语的预测概率和样本词语的信息域特征，将对应的样本词语的预测概率和对应的样本词语的信息域特征进行合并，得到样本词语的融合特征；利用多个样本多媒体资源各自对应的样本词组合，以及各原始词组合中的各样本词语的融合特征，构建训练样本集。根据训练样本集对初始的排序学习模型进行迭代训练，直至满足收敛条件时停止训练，得到排序学习模型。

终端110安装和运行有支持搜索功能的应用程序，该应用程序可以是浏览器、社交应用、直播应用、购物应用或者支付应用中至少一种。终端110接收用户输入的搜索请求，搜索请求携带有搜索词，终端110将搜索请求发送至第一电子设备120，第一电子设备120根据接收到的搜索词进行查找得到对应的多媒体资源。第一电子设备120可以获取多媒体资源对应的文本信息，文本信息的格式包括文档格式和标签格式；对文档格式的文本信息进行分词处理，得到文档格式的文本信息对应的词语；根据文档格式的文本信息对应的词语和标签格式的文本信息，生成多媒体资源对应的词组合。进一步地，第一电子设备120获取多媒体资源对应的词组合，词组合包括若干个词语；获取各词语的预测概率和各词语的信息域特征；其中，预测概率为对所述多媒体资源进行识别得到各词语的概率，信息域特征用于表征词语的来源途径；针对每个词语，将对应的预测概率和对应的信息域特征进行合并，得到各词语的融合特征；根据各词语的融合特征，对各词语的词权重进行预估，并按照预估的词权重大小对各词语进行排序，得到排序后的词组合。

图2是根据一示例性实施例示出的一种多媒体资源的处理方法的流程图，如图2所示，多媒体资源的处理方法用于图1所示的应用环境中的终端110或者第一电子设备120中，包括以下步骤：

在步骤s210中，获取多媒体资源对应的词组合。

其中，多媒体资源可以为文本资源、视频资源、音频资源、图片资源或者网页资源中至少一项。每个多媒体资源都携带有丰富的信息量，一方面，比如通过图像分类、语音识别等机器学习的方式对多媒体资源进行分析，可以得到多媒体资源携带的文本信息；另一方面，用户会通过多种方式对多媒体资源进行描述，比如用户评论、用户描述、用户对多媒体资源所打的标签。通过对这两方面的信息进行分析，可以得到若干个词语，这些若干个词语可以组成多媒体资源对应的词组合。具体地，在对多媒体资源进行处理时，可以对多媒体资源所携带有丰富的信息进行分析和处理，得到多媒体资源对应的词组合。也可以事先多媒体资源所携带有丰富的信息进行分析和处理，将得到的多媒体资源对应的词组合保存在第一电子设备本地或者与第一电子设备网络连接的服务器。在处理多媒体资源时，则可以从第一电子设备本地或者与第一电子设备网络连接的服务器获取多媒体资源对应的词组合。

在步骤s220中，获取各词语的预测概率和各词语的信息域特征。

其中，预测概率为对多媒体资源进行识别得到各词语的概率。如前文，若通过图像分类、语音识别等机器学习的方式对多媒体资源进行分析，得到一些描述多媒体资源的词语，则机器学习方式识别到这些词语存在可能性，即为预测概率。可以理解的是，若描述多媒体资源的词语是基于用户行为，比如用户打标签、用户输入一段话对多媒体资源进行描述，基于用户这些行为产生的词语是一定存在的，则这些词语的预测概率为1。无论通过机器学习方式识别到多媒体资源对应的词组合中的词语，还是基于用户行为确定的多媒体资源对应的词组合中的词语，这都属于词语的来源途径，而信息域特征是用于表征词语的来源途径的。具体地，在对多媒体资源进行处理时，对多媒体资源对应的词组合中的各词语进行识别，并对各词语的来源途径进行分析，得到各词语的预测概率和各词语的信息域特征。也可以事先对多媒体资源对应的词组合中的各词语以及各词语的来源途径进行分析，得到各词语的预测概率和各词语的信息域特征，并保存在第一电子设备本地或者与第一电子设备网络连接的服务器。在需要时，则可以从第一电子设备本地或者与第一电子设备网络连接的服务器获取各词语的预测概率和各词语的信息域特征。

在步骤s230中，针对每个词语，将对应的预测概率和对应的信息域特征进行合并，得到各词语的融合特征。

具体地，在对多媒体资源进行处理时，得到各词语的预测概率和各词语的信息域特征后，为了更准确地表达各词语，对于任一个词语，将该词语的预测概率和该词语的信息域特征进行合并，比如，可以将该词语的信息域特征放置在该词语的预测概率之后，生成该词语的融合特征。可以理解的是，也可以将该词语的预测概率放置在该词语的信息域特征之后，生成该词语的融合特征。重复执行上述过程，可以将各个词语的预测概率与各个词语的信息域特征进行合并，得到每个词语的融合特征。由于该融合特征包含各个词语的预测概率和各个词语的信息域特征，从而提升了特征表达能力。

示例性地，通过多种方式(即来源途径)识别得到一个词语，这多种方式可以包括通过若干个机器学习模型，也可以包括基于用户对多媒体资源的描述。每种方式对应有识别到该词语的一个预测概率，通过多种方式(即来源途径)识别一个词语，则对应相同数量的多个预测概率，该词语的多个预测概率与表征该词语的来源途径的信息域特征进行合并，得到该词语的融合特征。

在步骤s240中，根据各词语的融合特征，对各词语的词权重进行预估，并按照预估的词权重大小对各词语进行排序，得到排序后的词组合。

其中，词权重是用于表示一个词语对准确表达多媒体资源所表达的中心主题来说的重要性。具体地，在进行多媒体资源搜索或者多媒体资源推荐时，需要结合多媒体资源对应的词组合中各个词语的重要性，从而高效、精准地为用户提供多媒体资源，提高多媒体资源的点击率，降低用户操作成本。由于融合特征包含各个词语的预测概率和各个词语的信息域特征，因此，基于各个词语的融合特征，对各个词语的重要性进行分析，预估得到对各词语的词权重。进一步地，按照预估的词权重大小对词组合中的各词语可以按照从大到小的顺序进行排列，得到排序后的词组合。

上述多媒体资源的处理方法中，通过获取多媒体资源对应的词组合；并获取词组合中各词语的预测概率和各词语的信息域特征；为了更准确地表达每个词语的特征，针对每个词语，将对应的预测概率和对应的信息域特征进行合并，得到各词语的融合特征；从而根据各词语的融合特征，对各词语的词权重进行预估，并按照预估的词权重大小对各词语进行排序，得到排序后的词组合。结合多媒体资源对应的词组合中各个词语的重要性进行多媒体资源搜索或者多媒体资源推荐，可以高效、精准地为用户提供多媒体资源，解决传统技术中提供给用户的多媒体资源文件与用户期望之间的匹配度不高的技术问题，从而提高多媒体资源的点击率，降低用户操作成本。

在一示例性实施例中，如图3所示，多媒体资源对应的词组合的生成方式，具体可以通过以下步骤实现：

在步骤s310中，获取多媒体资源对应的文本信息。

其中，文本信息的格式包括文档格式和标签格式。每个多媒体资源都携带有丰富的信息量，一方面，比如通过图像分类、语音识别等机器学习的方式对多媒体资源进行分析，可以得到多媒体资源携带的文本信息，且通过机器学习方式得到的文本信息以文档格式进行保存。另一方面，用户会通过多种方式对多媒体资源进行描述，比如用户评论、用户描述、用户对多媒体资源所打的标签，且基于用户行为得到的文本信息以标签格式进行保存。具体地，在对多媒体资源进行处理时，可以对多媒体资源所携带有丰富的信息进行分析和处理，得到多媒体资源对应的文本信息。也可以事先多媒体资源所携带有丰富的信息进行分析和处理，将得到的多媒体资源对应的文本信息保存在第一电子设备本地或者与第一电子设备网络连接的服务器。在处理多媒体资源时，则可以从第一电子设备本地或者与第一电子设备网络连接的服务器获取多媒体资源对应的文本信息。

在步骤s320中，对文档格式的文本信息进行分词处理，得到文档格式的文本信息对应的词语。

其中，由于标签形式的文本信息来源于用户对多媒体资源的描述，其相对正确的表达多媒体资源，因此不对标签形式的文本信息进行分词处理，保留其信息的完整性。而文档格式的文本信息来源于机器学习模型，需要对文档格式的文本信息进一步的处理以提升文档格式的文本信息的准确性。具体地，终端110或者第一电子设备120上部署有分词工具(如jieba,结巴),利用分词工具对文档格式的文本信息进行分词处理，得到文档格式的文本信息对应的若干个词语。进一步地，对文档格式的文本信息的分词结果进行筛选，比如去除分词结果中的停用词。通过去除多个分词结果中的停用词，从而提升多媒体资源对应的词组合的精度，降低无用信息的干扰。

在步骤s330中，根据文档格式的文本信息对应的词语和标签格式的文本信息，生成多媒体资源对应的词组合。

具体地，为了将多媒体资源所携带的信息完整的表达出来，需要将文档格式的文本信息对应的词语和标签格式的文本信息进行汇总，利用文档格式的文本信息对应的词语和标签格式的文本信息构成多媒体资源对应的词组合。

上述多媒体资源对应的词组合的生成方法中，通过获取多媒体资源对应的文档格式的文本信息和标签格式的文本信息，针对不同格式的文本信息的特点，采用具有针对性的处理方式对文本信息进行处理，对文档格式的文本信息进行分词处理，得到文档格式的文本信息对应的词语；从而根据文档格式的文本信息对应的词语和标签格式的文本信息，生成多媒体资源对应的词组合，该词组合可以将多媒体资源准确且完整的表达。

在一示例性实施例中，在步骤s330中，根据文档格式的文本信息对应的词语和标签格式的文本信息，生成多媒体资源对应的词组合，具体可以通过以下步骤实现：对文档格式的文本信息对应的词语和标签格式的文本信息进行融合和去重处理，得到多媒体资源对应的词组合。

具体地，一方面，标签形式的文本信息与文档格式的文本信息之间可能存在一些重复的信息，另一方面，标签形式的文本信息与文档格式的文本信息对多媒体资源具有不同的表达。因此，为了降低对多媒体资源表达的复杂程度并保证对多媒体资源表达的完整性，将文档格式的文本信息对应的词语和标签格式的文本信息进行汇总，并从文档格式的文本信息对应的词语或者标签格式的文本信息中删除两者之间的相同的部分，得到多媒体资源对应的词组合。

上述实施例中，通过对文档格式的文本信息对应的词语和标签格式的文本信息进行融合和去重处理，得到多媒体资源对应的词组合，可以将多媒体资源所携带的信息完整的且简洁地表达了出来。

在一示例性实施例中，在步骤s220中，获取各词语的预测概率和各词语的信息域特征，具体可以通过以下步骤实现：对各多媒体资源进行词语识别，得到从多媒体资源中识别出各所述词语的预测概率；对各词语的来源途径对应的信息域进行数值表示，得到各词语的信息域特征。

具体地，通过图像分类、光学字符识别、语音识别中任一种或者多种方式对多媒体资源进行识别，得到各词语的预测概率，且信息域可以包括图像分类、光学字符识别、语音识别中任一个或多个。对各词语的来源途径对应的信息域进行数值表示，得到各词语的信息域特征。示例性的，多媒体资源文件为一段王者荣耀的视频，通过一个图像分类模型识别到“王者荣耀”的概率为0.9。通过语音识别识别到“王者荣耀”的概率为0.8。信息域特征可以通过先验而得到的，信息域可以包括图像分类、光学字符识别、语音识别；其中，用数字1表示通过某个来源路径可以识别到该词语，用数字0表示通过某个来源路径没有识别到该词语。那么，“王者荣耀”信息域特征可以表示为(1,1,0)。

上述实施例中，通过对各多媒体资源进行词语识别，得到从多媒体资源中识别出各所述词语的预测概率；并对各词语的来源途径对应的信息域进行数值表示，得到各词语的信息域特征。从预测概率和来源路径两个方面表达词组合中的各个词语，从而完整且更准确地将各词语表达出来，为后续对各词语的排序提供了数据基础。

在一示例性实施例中，在步骤s240中，根据各词语的融合特征，对各词语的词权重进行预估，并按照预估的词权重大小对各词语进行排序，得到排序后的词组合，具体可以通过以下步骤实现：将各词语的融合特征输入至排序学习模型，通过排序学习模型对各词语的融合特征进行分数预估，并按照预估的分数对各词语进行排序，得到排序后的词组合。

其中，排序学习模型用于对多媒体资源对应的词组合中各个词语进行排序的机器学习模型。具体地，将各词语的融合特征输入至排序学习模型，排序学习模型对应有评分函数f，通过评分函数f根据各词语的融合特征对各个词语进行打分，得到各词语预估的分数，且预估的分数可以用于表征词权重大小。且排序学习模型对应有排序系统，通过排序系统对按照预估的分数对各词语进行排序，得到排序后的词组合。

上述实施例中，通过排序学习模型对各词语的融合特征进行分数预估，并按照预估的分数对各词语进行排序，得到排序后的词组合。实现了多媒体资源对应的词组合中各个词语的重要性排序，那么，在进行多媒体资源搜索或者多媒体资源推荐，可以高效、精准地为用户提供贴合用户期望的多媒体资源。

在一示例性实施例中，如图4所示，排序学习模型的生成方式，具体可以通过以下步骤实现：

在步骤s410中，构建训练样本集。

其中，每个训练样本包括一个样本多媒体资源对应的一个样本词组合和样本词组合中各样本词语的融合特征，且样本词组合中的各样本词语是按照各样本词语的词权重进行排序的；具体地，基于多个样本多媒体资源对应的样本词组合，以及各个样本词组合中各样本词语的融合特征构建多个元组，每个元组包括样本多媒体资源对应的一个样本词组合以及该样本词组合中各样本词语的融合特征。每个元组即为一个训练样本，从而完成训练样本集的构建。

在步骤s420中，根据训练样本集对初始的排序学习模型进行迭代训练，直至满足收敛条件时停止训练，得到排序学习模型。

具体地，利用其中一个训练样本对初始的排序学习模型进行训练时，可以得到该训练样本对应的预测值，通过预测值与样本词组合中的各样本词语的排列顺序确定初始的排序学习模型的损失函数值，从而对初始的排序学习模型进行调整，并利用另一个训练样本对调整后的排序学习模型进行训练，可以得到另一预测值，继续计算对调整后的排序学习模型的损失函数值，重复上述步骤，对排序学习模型进行迭代训练，直至满足收敛条件时停止训练，得到排序学习模型。

上述实施例中，通过构建训练样本集，利用训练样本集对初始的排序学习模型进行迭代训练，直至满足收敛条件时停止训练，得到排序学习模型。通过排序学习模型对多媒体资源的词组合中的各词语按照各词语的词权重进行排序，结合排序后的词组合能够准确的预测用户在实际应用场景下，哪些多媒体资源比较贴合用户期望，从而提升多媒体资源在实际场景中应用的准确性，提升了多媒体资源的转化率。

在一示例性实施例中，如图5所示，构建训练样本集，具体可以通过以下步骤实现：

在步骤s510中，获取多个样本多媒体资源各自对应的原始词组合。

其中，在原始词组合中的各个词语并没有按照各个词语的词权重进行排序。具体地，针对每个样本多媒体资源，获取样本多媒体资源对应的文本信息，文本信息的格式包括文档格式和标签格式；对文档格式的文本信息进行分词处理，得到文档格式的文本信息对应的词语；对文档格式的文本信息对应的词语和标签格式的文本信息进行融合和去重处理，得到样本多媒体资源对应的原始词组合。可以理解的是，也可以事先对样本多媒体资源对应的文本信息进行上述处理，得到样本多媒体资源对应的原始词组合并保存在第二电子设备130中或者与第二电子设备130网络连接的服务器中。

在步骤s520中，获取各原始词组合中的各样本词语的词权重。

具体地，样本多媒体资源对应的原始词组合包括若干词语，需要按照各样本词语的重要性对原始词组合中的各词语进行排序，以生成训练排序学习模型所需的标签数据。词权重可以表征一个词语在原始词组合中的重要性。因此，针对每个样本多媒体资源，获取各样本多媒体资源对应的原始词组合中各词语的词权重。

在步骤s530中，针对每个原始词组合，按照原始词组合中各样本词语的词权重大小，对各样本词语进行排序，得到样本词组合。

其中，通过提升排序学习模型的表现，可以确保排序学习模型输出结果的准确性，从而在利用输出结果预测出与用户期望贴合的多媒体资源。因此，本公开中排序学习模型的标签数据需要是相对完整的，即需要对原始词组合中的各个词语按照词权重进行排序。具体地，针对每个原始词组合，原始词组合中包括若干个样本词语，已经得到样本词语的词权重，则按照各样本词语的词权重大小，对各样本词语进行排序，至此，对原始词组合中的各个词语完成了排序，从而得到样本词组合。

在步骤s540中，针对每个原始词组合中的各样本词语，获取样本词语的预测概率和样本词语的信息域特征，将对应的样本词语的预测概率和对应的样本词语的信息域特征进行合并，得到样本词语的融合特征。

具体地，在完整排序学习模型的标签数据的准备后，进一步地需要准备排序学习模型的特征数据。通过图像分类、光学字符识别、语音识别中任一种或者多种方式对多媒体资源进行识别，得到各样本词语的预测概率，且信息域可以包括图像分类、光学字符识别、语音识别中任一个或多个。对各样本词语的来源途径对应的信息域进行数值表示，得到各样本词语的信息域特征。为了更准确地表达各样本词语，对于任一个样本词语，将该样本词语的预测概率和该样本词语的信息域特征进行合并，得到每个样本词语的融合特征。由于该融合特征包含各个样本词语的预测概率和各个样本词语的信息域特征，从而提升了特征表达能力。

在步骤s550中，利用多个样本多媒体资源各自对应的样本词组合，以及各原始词组合中的各样本词语的融合特征，构建训练样本集。

具体地，基于多个样本多媒体资源对应的样本词组合，以及各个样本词组合中各样本词语的融合特征构建多个元组，每个元组包括样本多媒体资源对应的一个样本词组合以及该样本词组合中各样本词语的融合特征。每个元组即为一个训练样本，从而完成训练样本集的构建。

上述实施例中，首先，通过按照原始词组合中各样本词语的词权重大小，对各样本词语进行排序，得到对应的样本词组合；其次，获取样本词语的预测概率和样本词语的信息域特征，将对应的样本词语的预测概率和对应的样本词语的信息域特征进行合并，得到样本词语的融合特征；最后，利用多个样本多媒体资源各自对应的样本词组合，以及各原始词组合中的各样本词语的融合特征，构建训练样本集。不仅为排序学习模型的训练提供了标签数据和特征数据，而且特征数据的完整性提升了特征表达能力，标签数据的准确性有利于得到提升排序学习模型的预测准确性。

在一示例性实施例中，在步骤s520中，获取各原始词组合中的各样本词语的词权重，具体可以通过以下步骤实现：针对每个原始词组合，将原始词组合输入至文档主题生成模型，通过文档主题生成模型对各样本词语的词权重进行检测，得到各样本词语对应的词语权重对，词语权重对包括一个样本词语和样本词语的词权重。

其中，文档主题生成模型(latentdirichletallocation，lda)包含词、主题和文档三层结构。lda是一种无监督机器学习技术，可以用来识别大规模文档集(documentcollection)或语料库(corpus)中潜藏的主题信息。它采用了词袋(bagofwords)的方法，这种方法将每一篇文档视为一个词频向量，从而将文本信息转化为了易于建模的数字信息。具体地，为了确保排序学习模型输出结果的准确性，本公开构造的样本词组合中的各样本词语是按照各样本词语的词权重进行排序的。为了快速获取各样本词语的词权重，借助于文档主题生成模型对原始词组合中的各样本词语进行检测。针对每个原始词组合，将原始词组合输入至文档主题生成模型，通过文档主题生成模型对该原始词组合中各样本词语的词权重进行检测，得到各样本词语对应的词语权重对，词语权重对包括一个样本词语和样本词语的词权重。

上述实施例中，通过文档主题生成模型对各样本词语的词权重进行检测，得到各样本词语的词语权重，可以为排序学习模型快速构建标签数据。

在一示例性实施例中，如图6所示，在在通过文档主题生成模型对各样本词语的词权重进行检测，得到各样本词语对应的词语权重对之后，构建训练样本集还包括以下步骤：

在步骤s610中，将各样本词语的词权重与预设的词权重阈值进行比较，得到词权重大于词权重阈值的目标样本词语。

其中，由于文档主题生成模型是基于无监督机器学习技术，因此需要进一步地对各样本词语对应的词语权重对进行清洗。具体地，设置样本词语的词权重的最小值，将词权重的最小值作为预设的词权重阈值。将各样本词语的词权重与预设的词权重阈值进行比较，去除词权重小于或等于词权重阈值的样本词语，保留词权重大于词权重阈值的样本词语，得到词权重大于词权重阈值的目标样本词语。可以理解的是，通过将各样本词语的词权重与预设的词权重阈值进行比较，进一步地过滤掉停用词，减少不必要词语的干扰，打下了良好的数据基础。

按照原始词组合中各样本词语的词权重大小，对各样本词语进行排序，得到样本词组合词权重，具体可以通过以下步骤实现：

在步骤s620中，按照各目标样本词语的词权重的大小，对各目标样本词语进行排序，得到样本词组合。

具体地，针对每个原始词组合，原始词组合中包括若干个样本词语，通过lda模型已经得到样本词语的词权重，并对数据进行了清洗，得到各目标样本词语。则按照各目标样本词语的词权重大小，对各目标样本词语进行排序，至此，对目标样本词语完成了排序，从而得到样本词组合。

上述实施例中，通过数据清洗减小不必要的干扰信息，确保数据的准确性，为后续模型训练提供高质量的训练样本，从而提升排序学习模型的表现能力。

图7是根据一示例性实施例示出的一种排序学习模型的生成方法的流程图，如图7所示，排序学习模型的生成方法用于图1所示的应用环境中的第二电子设备130中，包括以下步骤：

在步骤s702中，获取多个样本多媒体资源各自对应的原始词组合。

具体地，针对每个样本多媒体资源，获取样本多媒体资源对应的文本信息，文本信息的格式包括文档格式和标签格式；对文档格式的文本信息进行分词处理，得到文档格式的文本信息对应的词语；对文档格式的文本信息对应的词语和标签格式的文本信息进行融合和去重处理，得到样本多媒体资源对应的原始词组合。

在步骤s704中，针对每个原始词组合，将原始词组合输入至文档主题生成模型，通过文档主题生成模型对各样本词语的词权重进行检测，得到各样本词语对应的词语权重对，词语权重对包括一个样本词语和样本词语的词权重。

在步骤s706中，将各样本词语的词权重与预设的词权重阈值进行比较，得到词权重大于词权重阈值的目标样本词语。

在步骤s708中，针对每个原始词组合，按照各目标样本词语的词权重的大小，对各目标样本词语进行排序，得到样本词组合。

在步骤s710中，针对每个原始词组合中的各样本词语，获取样本词语的预测概率和样本词语的信息域特征，将对应的样本词语的预测概率和对应的样本词语的信息域特征进行合并，得到样本词语的融合特征。

具体地，对各样本词语进行识别，得到各样本词语的预测概率；对各样本词语的来源途径对应的信息域进行数值表示，得到各样本词语的信息域特征。

在步骤s712中，利用多个样本多媒体资源各自对应的样本词组合，以及各原始词组合中的各样本词语的融合特征，构建训练样本集。

在步骤s714中，将各样本词语的融合特征输入至初始的排序学习模型，通过初始的排序学习模型对各样本词语的融合特征进行分数预估，并按照预估的分数对各样本词语进行排序，得到排序后的原始词组合。

其中，预估的分数用于表征词权重大小。

在步骤s716中，通过排序后的原始词组合和样本词组合进行计算，获取本次训练过程的损失函数值，并对初始的排序学习模型进行参数调整。

在步骤s718中，迭代执行上述步骤s714至步骤s716，直至满足收敛条件时停止训练，得到排序学习模型。

上述排序学习模型的生成方法中，通过构建干扰信息少且数据准确的训练样本集，利用训练样本集对初始的排序学习模型进行迭代训练，直至满足收敛条件时停止训练，得到表现能力佳的排序学习模型。通过排序学习模型对多媒体资源的词组合按照各词语的词权重进行排序，结合排序后的词组合能够准确的预测用户在实际应用场景下，哪些多媒体资源比较贴合用户期望，从而提升多媒体资源在实际场景中应用的准确性，提升了多媒体资源的转化率。

图8是根据一示例性实施例示出的一种多媒体资源的处理方法的流程图，如图8所示，多媒体资源的处理方法用于图1所示的应用环境中的终端110或者第一电子设备120中，包括以下步骤：

在步骤s802中，获取多个样本多媒体资源各自对应的原始词组合。

具体地，针对每个样本多媒体资源，获取样本多媒体资源对应的样本文本信息，样本文本信息的格式包括文档格式和标签格式；对文档格式的样本文本信息进行分词处理，得到文档格式的样本文本信息对应的词语；对文档格式的样本文本信息对应的词语和标签格式的样本文本信息进行融合和去重处理，得到样本多媒体资源对应的原始词组合。

在步骤s804中，针对每个原始词组合，将原始词组合输入至文档主题生成模型，通过文档主题生成模型对各样本词语的词权重进行检测，得到各样本词语对应的词语权重对，词语权重对包括一个样本词语和样本词语的词权重。

在步骤s806中，将各样本词语的词权重与预设的词权重阈值进行比较，得到词权重大于词权重阈值的目标样本词语。

在步骤s808中，针对每个原始词组合，按照各目标样本词语的词权重的大小，对各目标样本词语进行排序，得到样本词组合。

在步骤s810中，针对每个原始词组合中的各样本词语，获取样本词语的预测概率和样本词语的信息域特征，将对应的样本词语的预测概率和对应的样本词语的信息域特征进行合并，得到样本词语的融合特征。

具体地，对各样本词语进行识别，得到各样本词语的预测概率；对各样本词语的来源途径对应的信息域进行数值表示，得到各样本词语的信息域特征。

在步骤s812中，利用多个样本多媒体资源各自对应的样本词组合，以及各原始词组合中的各样本词语的融合特征，构建训练样本集。

在步骤s814中，根据训练样本集对初始的排序学习模型进行迭代训练，直至满足收敛条件时停止训练，得到排序学习模型。

在步骤s816中，获取多媒体资源对应的文本信息，文本信息的格式包括文档格式和标签格式。

在步骤s818中，对文档格式的文本信息进行分词处理，得到文档格式的文本信息对应的词语。

在步骤s820中，对文档格式的文本信息对应的词语和标签格式的文本信息进行融合和去重处理，得到多媒体资源对应的词组合。

其中，词组合包括若干个词语。

在步骤s822中，对各多媒体资源进行词语识别，得到从多媒体资源中识别出各词语的预测概率。

在步骤s824中，对各词语的来源途径对应的信息域进行数值表示，得到各词语的信息域特征。

在步骤s826中，针对每个词语，将对应的预测概率和对应的信息域特征进行合并，得到各词语的融合特征。

在步骤s828中，将各词语的融合特征输入至排序学习模型，通过排序学习模型对各词语的融合特征进行分数预估，并按照预估的分数对各词语进行排序，得到排序后的词组合。

其中，预估的分数用于表征词权重大小。

上述多媒体资源的处理方法中，通过获取多媒体资源对应的词组合；并获取词组合中各词语的预测概率和各词语的信息域特征；且预测概率为识别到各词语的概率，信息域特征用于表征词语的来源途径；为了更准确地表达每个词语的特征，针对每个词语，将对应的预测概率和对应的信息域特征进行合并，得到各词语的融合特征；从而根据各词语的融合特征，对各词语的词权重进行预估，并按照预估的词权重大小对各词语进行排序，得到排序后的词组合。结合多媒体资源对应的词组合中各个词语的重要性进行多媒体资源搜索或者多媒体资源推荐，可以高效、精准地为用户提供多媒体资源，解决传统技术中提供给用户的多媒体资源文件与用户期望之间的匹配度并不高的技术问题，从而提高多媒体资源的点击率，降低用户操作成本。

应该理解的是，虽然上述流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，上述流程图中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

图9是根据一示例性实施例示出的一种多媒体资源的处理装置900的装置框图。参照图9，该装置包括词组合获取模块902、概率特征获取模块904、概率特征合并模块906和词语排序模块908。

词组合获取模块902，被配置为执行获取多媒体资源对应的词组合，所述词组合包括若干个词语；

概率特征获取模块904，被配置为执行获取各所述词语的预测概率和各所述词语的信息域特征；其中，所述预测概率为识别到各所述词语的概率，所述信息域特征用于表征词语的来源途径；

概率特征合并模块906，被配置为执行针对每个所述词语，将对应的所述预测概率和对应的所述信息域特征进行合并，得到各所述词语的融合特征；

词语排序模块908，被配置为执行根据所述各所述词语的融合特征，对各所述词语的词权重进行预估，并按照预估的词权重大小对各所述词语进行排序，得到排序后的词组合。

在一示例性实施例中，该处理装置还包括词组合生成模块，所述词组合生成模块包括文本信息获取单元、分词处理单元以及词组合生成单元；

所述文本信息获取单元，被配置为执行获取所述多媒体资源对应的文本信息，所述文本信息的格式包括文档格式和标签格式；

所述分词处理单元，被配置为执行对文档格式的文本信息进行分词处理，得到所述文档格式的文本信息对应的词语；

所述词组合生成单元，被配置为执行根据所述文档格式的文本信息对应的词语和标签格式的文本信息，生成所述多媒体资源对应的词组合。

在一示例性实施例中，所述词组合生成单元，还被配置为执行对所述文档格式的文本信息对应的词语和所述标签格式的文本信息进行融合和去重处理，得到所述多媒体资源对应的词组合。

在一示例性实施例中，所述概率特征获取模块904，还被配置为执行对各所述多媒体资源进行词语识别，得到从所述多媒体资源中识别出各所述词语的预测概率；对各所述词语的来源途径对应的信息域进行数值表示，得到各所述词语的信息域特征。

在一示例性实施例中，所述词语排序模块908，还被配置为执行将各所述词语的融合特征输入至排序学习模型，通过所述排序学习模型对各所述词语的融合特征进行分数预估，并按照预估的分数对各所述词语进行排序，得到所述排序后的词组合，其中，所述预估的分数用于表征所述词权重大小。

在一示例性实施例中，该处理装置还包括排序学习模型生成模块，所述排序学习模型生成模块包括样本集构建单元和模型训练单元；

所述模型训练单元，被配置为执行根据所述训练样本集对初始的排序学习模型进行迭代训练，直至满足收敛条件时停止训练，得到所述排序学习模型。

在一示例性实施例中，所述样本集构建单元包括原始词组合获取子单元、词权重获取子单元、样本词组合获取子单元、融合特征获取子单元、样本集构建子单元；

所述原始词组合获取子单元，被配置为执行获取多个样本多媒体资源各自对应的原始词组合；

所述词权重获取子单元，被配置为执行获取各所述原始词组合中的各样本词语的词权重；

在一示例性实施例中，所述词权重获取子单元，还被配置为执行针对每个所述原始词组合，将所述原始词组合输入至文档主题生成模型，通过所述文档主题生成模型对各所述样本词语的词权重进行检测，得到各所述样本词语对应的词语权重对，所述词语权重对包括一个样本词语和所述样本词语的词权重。

在一示例性实施例中，所述样本集构建单元还包括目标样本词语获取子单元；

所述样本词组合获取子单元，还被配置为执行按照各所述目标样本词语的词权重的大小，对各所述目标样本词语进行排序，得到所述样本词组合。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图10是根据一示例性实施例示出的一种用于多媒体资源的处理的设备1000的框图。例如，设备1000可以为一服务器。参照图10，设备1000包括处理组件1020，其进一步包括一个或多个处理器，以及由存储器1022所代表的存储器资源，用于存储可由处理组件1020的执行的指令，例如应用程序。存储器1022中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外，处理组件1020被配置为执行指令，以执行上述多媒体资源的处理方法。

设备1000还可以包括一个电源组件1024被配置为执行设备1000的电源管理，一个有线或无线网络接口1026被配置为将设备1000连接到网络，和一个输入输出(i/o)接口1028。设备1000可以操作基于存储在存储器1022的操作系统，例如windowsserver，macosx，unix,linux，freebsd或类似。

在示例性实施例中，还提供了一种包括指令的存储介质，例如包括指令的存储器1022，上述指令可由设备1000的处理器执行以完成上述方法。存储介质可以是非临时性计算机可读存储介质，例如，所述非临时性计算机可读存储介质可以是rom、随机存取存储器(ram)、cd-rom、磁带、软盘和光数据存储设备等。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：张志伟;杨帆
技术所有人：北京达佳互联信息技术有限公司
我是此专利的发明人

上一篇：一种果树嫁接辅助装置的制作方法
上一篇：大根香叶衍生物及其药物组合物和其在医药中的用途的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。