内容相似性短文本查询方法、设备、系统及存储介质与流程

文档序号：17000043发布日期：2019-03-02 01:42阅读：189来源：国知局

本发明涉及内容查询技术领域，尤其涉及一种内容相似性短文本查询方法、设备、系统及存储介质。

背景技术：

随着互联网技术和以及全球定位系统的快速发展，每天互联网上会产生海量带有地理位置标签的短文本信息。人们已经不再仅仅依靠社交圈进行联系，在实际生活中也可根据地理位置进行信息共享。如何在数量庞大的数据中快速找到用户需要的有效信息成为当前急需解决的问题。

传统移动社交网络下短文本内容相似性查询算法只考虑到距离位置和文本内容，忽视时间维度，得到的结果对时间不敏感，且大多数算法只针对小数量数据采用集中式环境下查询用户所需信息。而在现实生活中，用户查询得到的结果不仅需要满足时效性，而且需要在海量数据下得到快速响应，若采用集中式计算海量数据时，计算能力容易受到硬件条件的限制，降低了用户体验满意度。

上述内容仅用于辅助理解本发明的技术方案，并不代表承认上述内容是现有技术。

技术实现要素：

本发明的主要目的在于提供一种内容相似性短文本查询方法、设备、系统及存储介质，旨在解决现有技术中短文本内容相似性查询中，查询结果对时间不敏感及查询速度慢等技术问题。

为实现上述目的，本发明提供一种内容相似性短文本查询方法，所述方法包括以下步骤：

获取多个短文本样本，基于所述短文本样本的时间信息将所述短文本样本划分为多个类别，所述短文本为字符数目未超过预设数目阈值的文本；

分别基于各类别中的短文本样本建立rtree索引；

获取当前文本，基于所述rtree索引，利用map-reduce分布式计算模型在所述短文本样本中查找若干个与所述当前文本内容相似的目标短文本。

优选地，所述获取多个短文本样本，基于所述短文本样本的发布时间将所述短文本样本划分为多个类别，具体包括：

获取多个短文本样本，删除所述时间信息超过预设时间阈值的短文本样本；

将剩余的短文本样本划分为多个类别。

优选地，所述分别基于各类别中的短文本样本建立rtree索引，具体包括：

分别获取所述类别对应的短文本样本的位置信息；

基于所述短文本样本的位置信息，将所述短文本样本展示在一个二维坐标平面内；

获取能够包含所述短文本样本的最小矩形，将所述最小矩形的四个顶点作为初始聚类中心，利用k-means算法对所述短文本样本进行多次迭代聚类，获得所述短文本样本的四个聚类集合；

在所述聚类集合中的短文本样本数目超过预设数目阈值时，对所述聚类集合中的短文本样本执行所述获取能够包含所述短文本样本的最小矩形，将所述最小矩形的四个顶点作为初始聚类中心，利用k-means算法对所述短文本样本进行计算，通过多次迭代聚类，获得所述短文本样本的四个聚类集合的步骤；

在所述聚类集合中的短文本样本数目未超过预设数目阈值时，将所述聚类集合的短文件本样本分别保存在预设树形结构相应的叶子节点中。

优选地，所述获取当前文本，基于所述rtree索引，利用map-reduce分布式计算模型在所述短文本样本中查找若干个与所述当前文本内容相似的目标短文本，具体包括：

获取当前文本的关键字、当前位置信息、当前查询时间及查询的时间范围；

获取满足所述查询的时间范围的目标rtree索引及所述目标rtree中满足预设空间范围的叶子节点中的候选短文本样本；

基于所述当前文本的关键字、当前位置信息及当前查询时间，分别计算所述候选短文本样本与所述当前文本的综合相关性；

基于所述候选短文本样本与所述当前文本的综合相关性，利用map-reduce分布式计算模型中的map函数确定所述目标rtree索引中满足预设条件的目标短文本样本；

利用map-reduce分布式计算模型中的reduce函数对所述目标短文样本进行汇总筛选，获得所述若干个与所述当前文本内容相似的目标短文本。

优选地，所述基于所述候选短文本样本与所述当前文本的综合相关性，利用map-reduce分布式计算模型中的map函数确定所述目标rtree索引中满足预设条件的目标短文本样本，具体包括：

基于与所述当前文本的综合相关性，对所述目标rtree索引的候选短文本样本进行排序；

分别获取所述目标rtree索引的候选短文本样本中满足预设个数的与所述当前文本的综合相关性排名靠前的目标短文本样本。

优选地，所述基于所述当前文本的关键字、当前位置信息及当前查询时间，分别计算所述候选短文本样本与所述当前文本的综合相关性，具体包括：

获取所述候选短文本样本的关键字、位置信息及时间信息；

根据所述当前文本的关键字及所述候选短文本样本的关键字，确定所述当前文本与所述候选短文本样本的文本相关性；

根据所述当前文本的当前位置信息及所述候选短文本样本位置信息，确定所述当前文本与所述候选短文本样本的空间相关性；

根据所述当前文本的当前查询时间及所述候选短文本样本的时间信息，确定所述当前文本与所述候选短文本样本的时间相关性；

基于所述当前文本与所述候选短文本样本的文本相关性、空间相关性及时间相关性，确定所述分别计算所述候选短文本样本与所述当前文本的综合相关性。

优选地，所述分别基于各类别中的短文本样本建立rtree索引之后，所述方法还包括：

每隔预设时间周期，获取新的短文本样本，建立新的rtree索引。

此外，为实现上述目的，本发明还提供一种内容相似性短文本查询设备，所述内容相似性短文本查询设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的内容相似性短文本查询程序，所述内容相似性短文本查询程序配置为实现如上文所述的内容相似性短文本查询方法的步骤。

此外，为实现上述目的，本发明还提供一种内容相似性短文本查询系统，所述内容相似性短文本查询系统包括：

获取模块，用于获取多个短文本样本，基于所述短文本样本的时间信息将所述短文本样本划分为多个类别，所述短文本为字符数目未超过预设数目阈值的文本；

建立模块，用于分别基于各类别中的短文本样本建立rtree索引；

查找模块，用于获取当前文本，基于所述rtree索引，利用map-reduce分布式计算模型在所述短文本样本中查找若干个与所述当前文本内容相似的目标短文本。

此外，为实现上述目的，本发明还提供一种存储介质，所述存储介质上存储有内容相似性短文本查询程序，所述内容相似性短文本查询程序被处理器执行时实现如上文所述的内容相似性短文本查询方法的步骤。

本发明通过获取多个短文本样本，基于所述短文本样本的时间信息将所述短文本样本划分为多个类别，所述短文本为字符数目未超过预设数目阈值的文本，分别基于各类别中的短文本样本建立rtree索引，获取当前文本，基于所述rtree索引，利用map-reduce分布式计算模型在所述短文本样本中查找若干个与所述当前文本内容相似的目标短文本，在短文本内容相似性查询中考虑时间维度，利用map-reduce分布式计算模型实现了在大量文本数据下对目标文本进行高效、精确的查找。

附图说明

图1是本发明实施例方案涉及的硬件运行环境的内容相似性短文本查询设备结构示意图；

图2为本发明内容相似性短文本查询方法第一实施例的流程示意图；

图3为本发明预设树形结构的第一示意图；

图4为本发明内容相似性短文本查询系统第一实施例的流程示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

参照图1，图1为本发明实施例方案涉及的硬件运行环境的内容相似性短文本查询设备的结构示意图。

如图1所示，该内容相似性短文本查询设备可以包括：处理器1001，例如cpu，通信总线1002、用户接口1003，网络接口1004，存储器1005。其中，通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(display)、输入单元比如键盘(keyboard)，可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如wi-fi接口)。存储器1005可以是高速ram存储器，也可以是稳定的存储器(non-volatilememory)，例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。

本领域技术人员可以理解，图1中示出的结构并不构成对内容相似性短文本查询设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图1所示，作为一种存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及内容相似性短文本查询程序。

图1所示的内容相似性短文本查询设备中，网络接口1004主要用于与外部网络进行数据通信；用户接口1003主要用于接收用户的输入指令；所述内容相似性短文本查询设备通过处理器1001调用存储器1005中存储的内容相似性短文本查询程序，并执行以下操作：

获取多个短文本样本，基于所述短文本样本的时间信息将所述短文本样本划分为多个类别，所述短文本为字符数目未超过预设数目阈值的文本；

分别基于各类别中的短文本样本建立rtree索引；

获取当前文本，基于所述rtree索引，利用map-reduce分布式计算模型在所述短文本样本中查找若干个与所述当前文本内容相似的目标短文本。