信息生成方法和装置与流程

文档序号:19492221发布日期:2019-12-24 14:07阅读:233来源:国知局
信息生成方法和装置与流程

本申请实施例涉及计算机技术领域,具体涉及信息生成方法和装置。



背景技术:

随着计算机技术的发展,越来越多的数据信息可以被获取到并加以分析利用。

现有的信息生成方法通常是对获取到的各种数据进行分析,从而得到所需要的数据信息的方法。



技术实现要素:

本申请实施例提出了信息生成方法和装置。

第一方面,本申请实施例提供了一种信息生成方法,该方法包括:获取与接收到的搜索信息匹配的至少两个场景信息;对于至少两个场景信息中的场景信息,提取该场景信息的关键词,生成关键词集合;确定至少两个场景信息中每两个场景信息之间的相似度;对于所述至少两个场景信息中的、相似度大于预设阈值的两个场景信息,将该两个场景信息生成的关键词集合进行合并;基于合并后的关键词集合,生成场景信息。

在一些实施例中,确定至少两个场景信息中每两个场景信息之间的相似度,包括:对于生成的至少两个关键词集合中的关键词集合,确定该关键词集合中的关键词与所生成的其他关键词集合中的关键词之间的相似度;基于所确定的关键词之间的相似度,确定该关键词集合对应的场景信息与所生成的其他关键词集合对应的场景信息之间的相似度。

在一些实施例中,方法还包括:对所生成的关键词集合中的关键词进行特征提取,构建预设维数的关键词的词向量;以及确定该关键词集合中的关键词与所生成的其他关键词集合中的关键词之间的相似度,包括:确定该关键词集合中的关键词的词向量与所生成的其他关键词集合中的关键词的词向量之间的欧式距离;基于所确定的欧式距离,确定该关键词集合中的关键词与其他关键词集合中的关键词之间的相似度。

在一些实施例中,确定该关键词集合对应的场景信息与所生成的其他关键词集合对应的场景信息之间的相似度,包括:基于预设约束条件、关键词集合中的关键词的预设权重值、所确定的该关键词集合中的关键词的词向量与所生成的其他关键词集合中的关键词的词向量之间的欧式距离,确定该关键词集合对应的场景信息与所生成的其他关键词集合对应的场景信息之间的陆地移动距离;基于所确定的陆地移动距离,确定场景信息之间的相似度。

在一些实施例中,基于预设规则,调整合并后的关键词集合中的关键词的权重值;从合并后的关键词集合中删除权重值小于预设阈值的关键词。

在一些实施例中,基于合并后的关键词集合,生成场景信息,包括:将合并后的关键词集合作为第一关键词集合,执行以下场景信息生成步骤:从至少两个场景信息中选择一个场景信息,将与所选择的场景信息匹配的关键词集合作为第二关键词集合,所选择的场景信息为所对应的关键词集合未进行第一关键词集合的合并的场景信息;确定第一关键词集合与第二关键词集合之间的相似度是否大于预设阈值;响应于确定第一关键词集合与第二关键词集合之间的相似度小于等于预设阈值,基于第一关键词集合,生成场景信息;响应于确定第一关键词集合与第二关键词集合之间的相似度大于预设阈值,对第一关键词集合以及第二关键词集合进行合并,并将合并后的关键词集合作为第一关键词集合,继续执行场景信息生成步骤。

第二方面,本申请实施例提供了一种信息生成装置,该装置包括:获取单元,被配置成获取与接收到的搜索信息匹配的至少两个场景信息;提取单元,被配置成对于至少两个场景信息中的场景信息,提取该场景信息的关键词,生成关键词集合;确定单元,被配置成确定至少两个场景信息中每两个场景信息之间的相似度;合并单元,被配置成对于所述至少两个场景信息中的、相似度大于预设阈值的两个场景信息,将该两个场景信息生成的关键词集合进行合并;生成单元,被配置成基于合并后的关键词集合,生成场景信息。

在一些实施例中,确定单元包括:关键词相似度确定子单元,被配置成对于生成的至少两个关键词集合中的关键词集合,确定该关键词集合中的关键词与所生成的其他关键词集合中的关键词之间的相似度;场景信息相似度确定子单元,被配置成基于所确定的关键词之间的相似度,确定该关键词集合对应的场景信息与所生成的其他关键词集合对应的场景信息之间的相似度。

在一些实施例中,装置进一步被配置成:对所生成的关键词集合中的关键词进行特征提取,构建预设维数的关键词的词向量;以及关键词相似度确定子单元进一步被配置成:确定该关键词集合中的关键词的词向量与所生成的其他关键词集合中的关键词的词向量之间的欧式距离;基于所确定的欧式距离,确定该关键词集合中的关键词与其他关键词集合中的关键词之间的相似度。

在一些实施例中,场景信息相似度确定子单元进一步被配置成:基于预设约束条件、关键词集合中的关键词的预设权重值、所确定的该关键词集合中的关键词的词向量与所生成的其他关键词集合中的关键词的词向量之间的欧式距离,确定该关键词集合对应的场景信息与所生成的其他关键词集合对应的场景信息之间的陆地移动距离;基于所确定的陆地移动距离,确定场景信息之间的相似度。

在一些实施例中,装置进一步被配置成:基于预设规则,调整合并后的关键词集合中的关键词的权重值;从合并后的关键词集合中删除权重值小于预设阈值的关键词。

在一些实施例中,生成单元进一步被配置成:将合并后的关键词集合作为第一关键词集合,执行以下场景信息生成步骤:从至少两个场景信息中选择一个场景信息,将与所选择的场景信息匹配的关键词集合作为第二关键词集合,所选择的场景信息为所对应的关键词集合未进行第一关键词集合的合并的场景信息;确定第一关键词集合与第二关键词集合之间的相似度是否大于预设阈值;响应于确定第一关键词集合与第二关键词集合之间的相似度小于等于预设阈值,基于第一关键词集合,生成场景信息;响应于确定第一关键词集合与第二关键词集合之间的相似度大于预设阈值,对第一关键词集合以及第二关键词集合进行合并,并将合并后的关键词集合作为第一关键词集合,继续执行场景信息生成步骤。

第三方面,本申请实施例提供了一种服务器,该服务器包括:一个或多个处理器;存储装置,其上存储有一个或多个程序;当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现如第一方面中任一实现方式描述的方法。

第四方面,本申请实施例提供了一种计算机可读介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如第一方面中任一实现方式描述的方法。

本申请实施例提供的信息生成方法和装置,通过获取与接收到的搜索信息匹配的至少两个场景信息,然后对至少两个场景信息中的每一个场景信息提取关键词,接着确定至少两个场景信息中每两个场景信息之间的相似度,并对相似度大于预设阈值的两个场景信息生成的关键词集合进行合并,最后基于合并后的关键词集合生成场景信息,从而精简了场景信息,提高了与搜索信息对应的场景信息的准确度。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:

图1是本申请可以应用于其中的示例性系统架构图;

图2是根据本申请的信息生成方法的一个实施例的流程图;

图3是根据本申请的信息生成方法的一个应用场景的示意图;

图4是根据本申请的信息生成方法的又一个实施例的流程图;

图5是根据本申请的信息生成装置的一个实施例的结构示意图;

图6是适于用来实现本申请实施例的服务器的计算机系统的结构示意图。

具体实施方式

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。

需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

图1示出了可以应用本申请的信息生成方法或信息生成装置的实施例的示例性系统架构100。

如图1所示,系统架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用,例如网页浏览器应用、购物类应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。

终端设备101、102、103可以是硬件,也可以是软件。当终端设备101、102、103为硬件时,可以是具有显示屏并且支持信息搜索的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。当终端设备101、102、103为软件时,可以安装在上述所列举的电子设备中。其可以实现成多个软件或软件模块(例如用来提供分布式服务),也可以实现成单个软件或软件模块。在此不做具体限定。

服务器105可以是提供各种服务的服务器,例如对终端设备101、102、103的搜索功能提供支持的后台服务器。后台服务器可以将获取到的搜索信息进行各种分析后,生成场景信息。

需要说明的是,本申请实施例所提供的信息生成方法一般由服务器105执行,相应地,信息生成装置一般设置于服务器105中。

需要说明的是,服务器可以是硬件,也可以是软件。当服务器为硬件时,可以实现成多个服务器组成的分布式服务器集群,也可以实现成单个服务器。当服务器为软件时,可以实现成多个软件或软件模块(例如用来提供分布式服务),也可以实现成单个软件或软件模块。在此不做具体限定。

需要说明的是,当上述终端设备具有数据分析功能,通过数据分析功能可以对搜索信息进行分析处理,生成场景信息时,此时可以不需要设置服务器105,本申请实施例所提供的信息生成方法可以由终端设备101、102、103执行,相应地,信息生成装置设置于终端设备101、102、103中。当上述服务器105中与预先存储有终端设备发送的搜索信息时,此时也可以不需要设置终端设备101、102、103,本申请实施例所提供的信息生成方法可以由服务器105执行,相应的,信息生成装置设置于服务器105中。

应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。

继续参考图2,示出了根据本申请的信息生成方法的一个实施例的流程200。该信息生成方法,包括以下步骤:

步骤201,获取与接收到的搜索信息匹配的至少两个场景信息。

在本实施例中,信息生成方法的执行主体(例如图1所示的服务器)可以通过有线连接方式或者无线连接方式从终端设备(例如图1所示的终端设备101、102、103)接收搜索信息。在这里,该搜索信息可以包括但不限于以下至少一项:词语、句子、图片等。该搜索信息例如可以为物品信息、人物信息、文章信息、电影信息等等,在此不对搜索信息进行具体限定,只要用户可以通过具有搜索功能的应用进行信息搜索即可。在这里,该具有搜索功能的应用例如可以包括购物类应用、搜索类应用、聊天类应用等。当上述执行主体接收到搜索信息后,可以进一步获取与所接收到的搜索信息匹配的至少两个场景信息。在这里,该场景信息例如可以包括包含搜索信息中的搜索关键词的文字信息集合,可以包括包含与搜索信息匹配的图片的图片集合,也可以包括包含与搜索信息匹配的文字信息以及图片共同组成的集合。

在本实施例中,上述执行主体中可以预先存储有词语和场景信息的对应关系的表格。其中,同一个场景信息可以与多个词语对应,同一个词语也可以与多个场景信息向对应。上述执行主体接收到搜索信息后,可以提取搜索信息的词语,然后从上述预先存储的表格中查找出与搜索信息中提取的词语相同的词语,并将该相同的词语对应的场景信息作为与搜索信息匹配的场景信息。作为示例,在一些购物类应用中,当搜索信息为“糖果”一词时,上述执行主体可以获取预先存储的与“糖果”一词对应的至少两个场景信息。该至少两个场景信息的其中一个场景信息可以包括文字“奶糖”、“水果糖”、以及显示有“奶糖”、“水果糖”的多张图片;另外一个场景信息可以包括文字“巧克力糖”、“姜糖”以及显示有“巧克力糖”、“姜糖”的多张图片。

在本实施例中,上述至少两个场景信息可以预先设置于上述执行主体中,上述执行主体可以从本地直接获取至少两个场景信息。上述执行主体也可以通过有线连接或无线连接的方式从存储有场景信息的服务器上获取至少两个场景信息。在此不做限定。

步骤202,对于至少两个场景信息中的场景信息,提取该场景信息的关键词,生成关键词集合。

在本实施例中,根据步骤201中获取的至少两个场景信息,上述执行主体可以对至少两个场景信息中的每一个场景信息,提取该场景信息的关键词,生成关键词集合。作为示例,当场景信息包括文字信息时,可以利用现有的自然语言处理方法、卷积神经网络等对文字信息处理,得到场景信息的多个词语;接着统计词语出现的次数,将出现的次数大于预设阈值的词语作为关键词。,当场景信息包括图片时,可以利用ocr(opticalcharacterrecognition,光学字符识别)对图片中的内容进行识别,并将图片中的内容转换为文字,然后利用文字信息的处理方法得到关键词。作为示例,也可以将图片输入至预先训练的卷积神经网络,从而得到各类别的概率值,将概率值大于预设阈值的类别对应的词语作为关键词。

在本实施例的一些可选的实现方式中,为了提高关键词集合中的关键词与搜索信息的关联性,可以首先计算关键词集合中的关键词与搜索信息中的词语之间的欧氏距离,将关键词集合中与搜索信息中的词语的欧氏距离大于预设阈值的关键词从关键词集合中删除。

步骤203,确定至少两个场景信息中每两个场景信息之间的相似度。

在本实施例中,根据步骤201所确定的至少两个场景信息,上述执行主体可以确定至少两个场景信息中每两个场景信息之间的相似度。在这里,确定每两个场景信息之间的相似度可以包括多种方式。

可选地,当场景信息中包括图片时,上述执行主体还可以利用现有的计算图片之间的相似度的方法(例如:直方图匹配方法、矩阵分解方法、基于特征点匹配的方法等)计算两个场景信息的图片之间的相似度,统计相似度值大于预设阈值的图片的数目,然后根据所统计的相似度值大于预设阈值的图片的数目确定两个场景信息之间的相似度。当相似度值大于等于预设阈值的图片的数目大于等于预设数目阈值时,可以确定两个场景信息之间的相似度大于预设阈值;当相似度值大于等于预设阈值的图片的数目小于预设数目阈值时,可以确定两个场景信息之间的相似度小于等于预设阈值。

可选地,根据步骤202所生成的与至少两个场景信息中的每个场景信息的关键词集合,上述执行主体可以对于生成的至少两个关键词集合中的每一个关键词集合,确定该关键词集合中的关键词与所生成的其他关键词集合中的关键词之间的相似度。在这里,可以利用现有的确定两词语之间的相似度的方法(例如两词语之间的余弦相似度、例如利用自然语言处理方法确定两词语之间的相似性等)来确定该关键词集合中的关键词与所生成的其他关键词集合中的关键词之间的相似度。在这里,上述执行主体可以计算该关键词集合中的每一个关键词与所生成的其他关键词集合中的每一个关键词之间的相似度,也可以计算该关键词集合中的部分关键词与所生成的其他关键词集合中的部分关键词之间的相似度,根据应用场景的需要来选择。例如,当该关键词集合中的关键词与所生成的其中一个关键词集合中的关键词相似的数目超过预设阈值时,可以不需要再将该关键词集合中未进行相似度计算的关键词与该所生成的其中一个关键词集合中的关键词进行相似度计算。然后,上述执行主体可以通过统计该关键词集合中的关键词与其他关键词集合中的关键词之间的相似度大于预设阈值的关键词的数目。当存在一个或多个其他关键词集合,使得该关键词集合中的关键词与该其他关键词集合中的关键词之间的相似度大于预设阈值的关键词的数目大于预设数目阈值时,可以确定该关键词集合对应的场景信息与该其他关键词集合对应的场景信息之间的相似度大于预设阈值。

步骤204,对于至少两个场景信息中的、相似度大于预设阈值的两个场景信息,将该两个场景信息生成的关键词集合进行合并。

在本实施例中,根据步骤203确定的至少两个场景信息中每两个场景信息之间的相似度以及步骤202中从每一个场景信息中提取的关键词集合,上述执行主体可以对于至少两个场景信息中的、相似度大于预设阈值的两个场景信息,将该两个场景信息生成的关键词集合进行合并。在这里,相似度大于预设阈值的两个场景信息例如可以包括2个、3个等,在此不做限定。。作为示例,当“场景信息a”与“场景信息b”之间的相似度大于预设阈值时,“场景信息a”生成的关键词集合为“{花生糖、水果糖、奶糖}”,“场景信息b”生成的关键词集合为“{巧克力糖、棉花糖}”,因此合并后的关键词集合为“{花生糖、水果糖、奶糖、巧克力糖、棉花糖}”。

在本实施例中,合并后的关键词集合可以包括一个,也可以包括两个、三个等,根据所确定的相似度大于预设阈值的两个场景信息的数目确定。

步骤205,基于合并后的关键词集合,生成场景信息。

在本实施例中,根据步骤204合并的关键词集合,上述执行主体可以生成包含有合并后的关键词集合中的关键词的场景信息。所生成的场景信息可以包括包含合并后的关键词集合中的关键词的信息。作为示例,该关键词的信息例如可以包括关键词的文字信息(例如新闻等)、用于描述关键词的图片(例如关键词所描述的物品的物品图片等)、包含关键词的文字信息与图片的组合信息等。作为示例,该关键词信息也可以是与关键词语义相同的词语的文字信息、包含与关键词语义相同的词语和用于描述关键词的图片的组合信息等。

在这里值得注意的是,生成的场景信息可以通过网页页面的形式呈现。该网页页面可以全部呈现合并后的关键词集合中的每一个关键词的信息,也可以部分呈现合并后的关键词集合中的关键词的信息,根据应用场景的需要而设定。

继续参考图3,图3是根据本实施例的信息生成方法的应用场景的一个示意图。在图3的应用场景中,用户首先通过手机301上的应用搜索了“蛋糕”的信息。然后,服务器302根据接收到的搜索信息“蛋糕”获取与接收到的搜索信息匹配的“场景信息a”以及“场景信息b”。接着,服务器302可以分别提取“场景信息a”以及“场景信息b”的关键词,从而分别生成与“场景信息a”以及“场景信息b”对应的“关键词集合a”以及“关键词集合b”。其中,“关键词集合a”中包含关键词“糕点、饼干、零食、蛋糕、面包、曲奇、肉松饼、礼盒”,“关键词集合b”中包含关键词“蛋糕、面包、巧克力、点心、牛奶、威化饼”。然后,服务器302可以确定“场景信息a”以及“场景信息b”之间的相似度。当服务器302确定出“场景信息a”以及“场景信息b”之间的相似度大于预设阈值时,可以对“关键词集合a”以及“关键词集合b”进行合并,从而生成合并后的“关键词集合c”。在这里可以看出,合并后的“关键词集合c”包含关键词“蛋糕、糕点、饼干、面包、点心”。最后,服务器302可以根据“关键词集合c”生成“场景信息c”。

本申请实施例提供的信息生成方法和装置,通过获取与接收到的搜索信息匹配的至少两个场景信息,然后对至少两个场景信息中的每一个场景信息提取关键词,接着确定至少两个场景信息中每两个场景信息之间的相似度,并对相似度大于预设阈值的两个场景信息生成的关键词集合进行合并,最后基于合并后的关键词集合生成场景信息,从而精简了场景信息,提高了与搜索信息对应的场景信息的准确度。

继续参考图4,示出了根据本申请的信息生成方法的又一个实施例的流程400。该信息生成方法,包括以下步骤:

步骤401,获取与接收到的搜索信息匹配的至少两个场景信息。

在本实施例中,信息生成方法的执行主体(例如图1所示的服务器)可以通过有线连接方式或者无线连接方式从终端设备(例如图1所示的终端设备101、102、103)接收搜索信息。在这里,该搜索信息可以包括词语、可以包括句子、可以包括图片等。在这里,该具有搜索功能的应用例如可以包括购物类应用、搜索类应用、聊天类应用等。当上述执行主体接收到搜索信息后,可以进一步获取与所接收到的搜索信息匹配的至少两个场景信息。在这里,该场景信息例如可以包括包含搜索信息中的搜索关键词的文字信息集合,可以包括包含与搜索信息匹配的图片的图片集合,也可以包括包含与搜索信息匹配的文字信息以及图片共同组成的集合。上述执行主体中可以预先存储有词语和场景信息的对应关系的表格。其中,同一个场景信息可以与多个词语对应,同一个词语也可以与多个场景信息向对应。上述执行主体接收到搜索信息后,可以提取搜索信息的词语,然后从上述预先存储的表格中查找出与搜索信息中提取的词语相同的词语,并将该相同的词语对应的场景信息作为与搜索信息匹配的场景信息。

步骤402,对于至少两个场景信息中的场景信息,提取该场景信息的关键词,生成关键词集合。

在本实施例中,根据步骤401中获取的至少两个场景信息,上述执行主体可以对至少两个场景信息中的每一个场景信息,提取该场景信息的关键词,生成关键词集合。作为示例,当场景信息包括文字信息时,可以利用现有的自然语言处理方法、卷积神经网络等对文字信息处理,得到场景信息的多个词语,接着统计词语出现的次数,将出现的次数大于预设阈值的词语作为关键词。在这里,当场景信息包括图片时,可以利用ocr(opticalcharacterrecognition,光学字符识别)对图片中的内容进行识别,并将图片中的内容转换为文字,然后利用文字信息的处理方法得到关键词。

步骤403,对所生成的关键词集合中的关键词进行特征提取,构建预设维数的关键词向量。

在本实施例中,上述执行主体中可以预先设置有所提取的关键词的词向量的维数,例如可以设置50维、100维等等。然后,上述执行主体还可以利用例如自然语言处理、卷积神经网络等方法对生成的关键词集合中的关键词进行特征提取,并将提取的特征利用预设维数的词向量表征。

步骤404,确定至少两个场景信息中每两个场景信息之间的相似度。

在本实施例中,确定至少两个场景信息中的每两个场景信息之间的相似度可以通过如下方式实现:

对于生成的至少两个关键词集合中的关键词集合,执行如下步骤:

步骤4041,确定该关键词集合中的关键词的词向量与所生成的其他关键词集合中的关键词的词向量之间的欧式距离。

在本实施例中,根据步骤403所确定该关键词集合中的关键词的预设维数的词向量,上述执行主体可以确定该关键词集合中的关键词的词向量与所生成的其他关键词集合中的关键词的词向量之间的欧式距离。其中,关键词之间的欧式距离的确定可以通过如下公式体现:

其中,wik表示场景信息ta所生成的关键词集合i中的第k个关键词,k=1、2…,k∈[1,ni],ni表示关键词集合i中的关键词的数目;wjl表示场景信息tb所生成的关键词集合j中的第l个关键词,l=1、2…,l∈[1,nj],nj表示关键词集合j中的关键词的数目;wikp表示关键词集合i中的第k个关键词的第p维词向量,wjlp表示关键词集合j中的第l个关键词的第p维词向量,p=1、2…,p∈[1,m],m表示词向量的维数,dis(wik,wjl)表示关键词集合i中的第k个关键词与关键词集合j中的第l个关键词之间的欧式距离。

步骤4042,基于所确定的欧式距离,确定该关键词集合中的关键词与其他关键词集合中的关键词之间的相似度。

在本实施例中,上述执行主体将所确定的该关键词集合中的关键词与所生成的其他关键词集合中的关键词之间的欧式距离与预设距离阈值进行比较,从而根据比较结果确定该关键词集合中的关键词与所生成的其他关键词集合中的关键词之间的相似度。

步骤4043,基于预设约束条件、关键词集合中的关键词的预设权重值、所确定的该关键词集合中的关键词的词向量与所生成的其他关键词集合中的关键词的词向量之间的欧式距离,确定该关键词集合对应的场景信息与所生成的其他关键词集合对应的场景信息之间的陆地移动距离。

在本实施例中,上述执行主体中预先设置有所生成的关键词集合中的各关键词的权重值,该权重值用于表征关键词在场景信息中的重要程度。通常,关键词的权重值越高,表示关键词在场景信息中越重要。

在本实施例中,根据步骤4042所确定的该关键词集合中的关键词的词向量与所生成的其他关键词集合中的关键词的词向量之间的欧式距离、关键词集合中的关键词的预设权重值以及预设约束条件,从而可以确定该关键词集合对应的场景信息与所生成的其他关键词集合对应的场景信息之间的陆地移动距离。在这里,陆地移动距离(emd,earthmover'sdistance),也叫wasserstein距离,是2000年ijcv期刊文章《theearthmover'sdistanceasametricforimageretrieval》提出的一种直方图相似度量,其用来表示两个分布的相似程度,也即衡量了把数据从一个分布移动到另一个分布时所需要移动的平均距离的最小值。在这里,上述执行主体可以分别确定该关键词集合中对应的场景信息与所生成的每一个其他关键词集合对应的场景信息之间的陆地移动距离。具体的,确定两个场景信息之间的陆地移动距离可以通过如下步骤进行:

上述执行主体可以首先根据预设约束条件(2)确定该关键词集合中的关键词与其他关键词集合中的关键词之间的权重转移系数矩阵{ckl},该权重转移矩阵{ckl}为确定陆地移动距离的中间变量。预先设置的约束条件(2)包括:

在这里值得注意的是,公式(2)中与公式(1)相同的字母参数具有与公式(1)相同的含义,在此不做解释。在这里具体解释公式(1)中未出现过的字母参数的含义。

其中,ckl表示关键词集合i中的第k个关键词的权重转移至关键词集合j中的第l个关键词的权重转移系数,或者也可以表示关键词集合j中的第l个关键词的权重转移至关键词集合i中的第k个关键词的权重转移系数;qik表示关键词集合i中第k个关键词的权重;qjl表示关键词集合j中第l个关键词的权重。通过上述约束条件(2),利用梯度下降算法将关键词集合i中的关键词wik与关键词集合j中的关键词wjl之间的欧式距离dis(wik,wjl)迭代至算式(3),直到确定出梯度下降的最优化解,从而确定出权重转移系数矩阵{ckl}。其中,算式(3)如下表示:

在这里,算式(3)中的字母参数的含义与公式(1)、(2)中的相同字母参数的含义相同,在此不再赘述。

然后根据所确定的权重转移系数矩阵{ckl},根据如下公式(4)确定出关键词集合i对应的场景信息ta与关键词集合j对应的场景信息tb之间的相似度sim(ta,tb)。

在这里,公式(4)中的字母参数的含义与公式(1)、(2)中的相同字母参数的含义相同,在此不再赘述。

步骤4044,基于所确定的陆地移动距离,确定场景信息之间的相似度。

在本实施例中,上述执行主体可以基于步骤4043所确定的陆地移动距离来确定该关键词集合对应的场景信息与所生成的其他关键词集合对应的场景信息之间的相似度。

步骤405,对于至少两个场景信息中的、相似度大于预设阈值的两个场景信息,将该两个场景信息生成的关键词集合进行合并。

在本实施例中,根据步骤404确定的至少两个场景信息中每两个场景信息之间的相似度以及步骤402中从每一个场景信息中提取的关键词集合,上述执行主体可以对于至少两个场景信息中的、相似度大于预设阈值的两个场景信息,将该两个场景信息生成的关键词集合进行合并。在这里,相似度大于预设阈值的两个场景信息例如可以包括2个、3个等,在此不做限定。

在本实施例中,合并后的关键词集合可以包括一个,也可以包括两个、三个等,根据所确定的相似度大于预设阈值的两个场景信息的数目确定。

步骤406,将合并后的关键词集合作为第一关键词集合,执行以下场景信息生成步骤:从至少两个场景信息选择一个场景信息,将与所选择的场景信息匹配的关键词集合作为第二关键词集合;确定第一关键词集合与第二关键词集合之间的相似度是否大于预设阈值;响应于确定第一关键词集合与第二关键词集合之间的相似度小于等于预设阈值,基于第一关键词集合,生成场景信息。

在本实施例中,步骤406可以包括子步骤4061、4062、4063。其中:

步骤4061,从至少两个场景信息中选择一个场景信息,将与所选择的场景信息匹配的关键词集合作为第二关键词集合。

在本实施例中,上述执行主体根据步骤404所确定的该关键词集合对应的场景信息与其他关键词集合对应的场景信息之间的相似度,上述执行主体可以根据相似度从高至低的顺序依次选择其他场景信息对应的关键词集合,并将该关键词集合作为第二关键词集合。在这里,所选择的场景信息为所对应的关键词集合未参与进行第一关键词集合的合并的场景信息。

步骤4062,确定第一关键词集合与第二关键词集合之间的相似度是否大于预设阈值。

在本实施例中,根据步骤4061所选择的第二关键词集合,上述执行主体可以确定第一关键词集合与第二关键词集合之间的相似度是否大于预设阈值。在这里,可以确定第一关键词集合中的各关键词与第二关键词集合中的各关键词之间的欧式距离,然后利用陆地移动距离确定第一关键词集合与第二关键词集合之间的相似度,其中欧式距离以及陆地移动距离的具体的计算方法可分别参考步骤4041以及步骤4043,在此不再赘述。根据所确定的第一关键词集合与第二关键词集合之间的相似度,上述执行主体还可以进一步确定该相似度是否大于预设阈值。

步骤4063,响应于确定第一关键词集合与第二关键词集合之间的相似度小于等于预设阈值,基于第一关键词集合,生成场景信息。

在本实施例中,上述执行主体可以在响应于确定第一关键词集合与第二关键词集合之间的相似度小于等于预设阈值时,根据第一关键词集合来生成场景信息。此时,不需要将第一关键词集合与第二关键词集合合并。

在本实施例中,上述执行主体所生成的场景信息可以包括包含第一关键词集合中的关键词的信息。该关键词的信息例如可以包括关键词的文字信息、用于描述关键词的图片,包含关键词的文字信息与图片的组合信息等;也可以是与关键词语义相同的词语的文字信息、包含与关键词语义相同的词语和用于描述关键词的图片组合信息等。

步骤407,响应于确定第一关键词集合与第二关键词集合之间的相似度大于预设阈值,对第一关键词集合以及第二关键词集合进行合并,并将合并后的关键词集合作为第一关键词集合,继续执行场景信息生成步骤。

在本实施例中,根据步骤4062确定的第一关键词集合与第二关键词集合之间的相似度,当上述执行主体响应于确定第一关键词集合与第二关键词集合之间的相似度大于预设阈值时,可以对第一关键词集合以及第二关键词集合进行合并,然后将合并后的关键词集合作为第一关键词集合,然后继续执行上述场景信息生成步骤。从而,使得所生成的场景信息在精炼的同时丰富了场景信息的内容。

在本实施例的一些可选的实现方式中,上述执行主体还可以基于预设规则来调整合并后的关键词集合中的关键词的权重值。上述预设规则通过如下公式(5)体现:

在这里,公式(5)中与公式(1)、(2)相同的字母参数具有与公式(1)、(2)相同的含义,在此不做解释。在这里具体解释公式(1)、(2)中未出现过的字母参数的含义。

其中,wmt表示合并后的关键词集合m中的第t个关键词,t=1、2…,t∈[1,nm],nm表示合并后的关键词集合m中的关键词的数目。qmt表示合并后的关键词集合m中第t个关键词的权重。qit表示合并后的关键词集合m中的第t个关键词在关键词集合i中的权重,qil表示合并后的关键词集合m中的第t个关键词在关键词集合l中的权重。k表示归一化值,用于约束合并后的关键词集合m中第t个关键词的权重qmt的取值范围,使得qmt∈[0,1]。从公式(5)中可以看出,合并后的关键词集合m中的关键词wmt既在合并前的关键词集合i中也在合并前的关键词集合j中时,通过k(θqit+(1-θ)qjt)确定关键词wmt权重;合并后的关键词集合中的关键词wmt仅在合并前的关键词集合i中,不在合并前的关键词集合j中时,通过kθqit确定关键词wmt权重;合并后的关键词集合中的关键词wmt仅在合并前的关键词集合j中,不在合并前的关键词集合i中时,通过k(1-θ)qjt确定关键词wmt权重。θ为进行合并的关键词集合i的权重值,通常θ为预先设定的。在这里,当关键词集合i的权重值为θ时,关键词集合j的权重值为(1-θ)。作为示例,当关键词集合i与关键词集合j具有相同的权重时,可以将θ设置成0.5。

在该可选的实现方式中,当上述执行主体对合并后的关键词集合中的关键词的权重进行调整后,可以将调整权重后的各关键词与预设权重阈值进行比较,从而将权重值小于预设阈值的关键词从合并后的关键词集合中删除。

从图4中可以看出,与图2所示的实施例不同的是,本实施例突出了利用欧式距离以及陆地移动距离确定两个场景信息之间的相似度的步骤、对合并后的关键词集合与其他关键词集合进行进一步合并后生成场景信息的步骤以及在一些可选的实现方式中,对关键词集合中的关键词进行调整的步骤,从而使得合并后的关键词集合更加准确,在保持生成的新的场景信息的内容丰富性的同时,精简了生成的场景信息。

进一步参考图5,作为对上述各图所示方法的实现,本申请提供了一种信息生成装置的一个实施例,该装置实施例与图2所示的方法实施例相对应,该装置具体可以应用于各种电子设备中。

如图5所示,本实施例的信息生成装置500包括:获取单元501、提取单元502、确定单元503、合并单元504以及生成单元505。其中,获取单元501,被配置成获取与接收到的搜索信息匹配的至少两个场景信息。提取单元502,被配置成对于至少两个场景信息中的场景信息,提取该场景信息的关键词,生成关键词集合。确定单元503,被配置成确定至少两个场景信息中每两个场景信息之间的相似度。合并单元504,被配置成对于至少两个场景信息中的、相似度大于预设阈值的两个场景信息,将该两个场景信息生成的关键词集合进行合并。生成单元505,被配置成基于合并后的关键词集合,生成场景信息。

在本实施例中,信息生成装置500中:获取单元501、提取单元502、确定单元503、合并单元504以及生成单元505具体处理及其所带来的技术效果可分别参考图2对应实施例中的步骤201、步骤202、步骤203、步骤204以及步骤205的相关说明,在此不再赘述。

在本实施例的一些可选的实现方式中,确定单元503包括:关键词相似度确定子单元(未示出),被配置成对于生成的至少两个关键词集合中的关键词集合,确定该关键词集合中的关键词与所生成的其他关键词集合中的关键词之间的相似度;场景信息相似度确定子单元(未示出),被配置成基于所确定的关键词之间的相似度,确定该关键词集合对应的场景信息与所生成的其他关键词集合对应的场景信息之间的相似度。

在本实施例的一些可选的实现方式中,生成装置500进一步被配置成:对所生成的关键词集合中的关键词进行特征提取,构建预设维数的关键词的词向量;以及关键词相似度确定子单元(未示出)进一步被配置成:确定该关键词集合中的关键词的词向量与所生成的其他关键词集合中的关键词的词向量之间的欧式距离;基于所确定的欧式距离,确定该关键词集合中的关键词与其他关键词集合中的关键词之间的相似度。

在本实施例的一些可选的实现方式中,场景信息相似度确定子单元(未示出)进一步被配置成:基于预设约束条件、关键词集合中的关键词的预设权重值、所确定的该关键词集合中的关键词的词向量与所生成的其他关键词集合中的关键词的词向量之间的欧式距离,确定该关键词集合对应的场景信息与所生成的其他关键词集合对应的场景信息之间的陆地移动距离;基于所确定的陆地移动距离,确定场景信息之间的相似度。

在一些实施例中,生成装置500进一步被配置成:基于预设规则,调整合并后的关键词集合中的关键词的权重值;从合并后的关键词集合中删除权重值小于预设阈值的关键词。

在一些实施例中,生成单元505进一步被配置成:将合并后的关键词集合作为第一关键词集合,执行以下场景信息生成步骤:从至少两个场景信息中选择一个场景信息,将与所选择的场景信息匹配的关键词集合作为第二关键词集合,所选择的场景信息为所对应的关键词集合未进行第一关键词集合的合并的场景信息;确定第一关键词集合与第二关键词集合之间的相似度是否大于预设阈值;响应于确定第一关键词集合与第二关键词集合之间的相似度小于等于预设阈值,基于第一关键词集合,生成场景信息;响应于确定第一关键词集合与第二关键词集合之间的相似度大于预设阈值,对第一关键词集合以及第二关键词集合进行合并,并将合并后的关键词集合作为第一关键词集合,继续执行场景信息生成步骤。

下面参考图6,其示出了适于用来实现本申请实施例的终端设备/服务器的计算机系统600的结构示意图。图6示出的终端设备或者服务器仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。

如图6所示,计算机系统600包括中央处理单元(cpu)601,其可以根据存储在只读存储器(rom)602中的程序或者从存储部分608加载到随机访问存储器(ram)603中的程序而执行各种适当的动作和处理。在ram603中,还存储有系统600操作所需的各种程序和数据。cpu601、rom602以及ram603通过总线604彼此相连。输入/输出(i/o)接口605也连接至总线604。

以下部件连接至i/o接口605:包括键盘、鼠标等的输入部分606;包括诸如阴极射线管(crt)、液晶显示器(lcd)等以及扬声器等的输出部分607;包括硬盘等的存储部分608;以及包括诸如lan卡、调制解调器等的网络接口卡的通信部分609。通信部分609经由诸如因特网的网络执行通信处理。驱动器610也根据需要连接至i/o接口605。可拆卸介质611,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器610上,以便于从其上读出的计算机程序根据需要被安装入存储部分608。

特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分609从网络上被下载和安装,和/或从可拆卸介质611被安装。在该计算机程序被中央处理单元(cpu)601执行时,执行本申请的方法中限定的上述功能。需要说明的是,本申请所述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑磁盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、rf等等,或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本申请的操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如java、smalltalk、c++,还包括常规的过程式程序设计语言—诸如“c”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(lan)或广域网(wan)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

附图中的流程图和框图,图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。

描述于本申请实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中,例如,可以描述为:一种处理器包括获取单元、提取单元、确定单元、合并单元以及生成单元。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定,例如,获取单元还可以被描述为“获取与接收到的搜索信息匹配的至少两个场景信息的单元”。

作为另一方面,本申请还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的装置中所包含的;也可以是单独存在,而未装配入该装置中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该装置执行时,使得该装置:获取与接收到的搜索信息匹配的至少两个场景信息;对于至少两个场景信息中的场景信息,提取该场景信息的关键词,生成关键词集合;确定至少两个场景信息中每两个场景信息之间的相似度;对于至少两个场景信息中的、相似度大于预设阈值的两个场景信息,将该两个场景信息生成的关键词集合进行合并;基于合并后的关键词集合,生成场景信息。

以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本申请中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1