一种基于改进密度聚类的物联网实体搜索方法与流程

文档序号:31184124发布日期:2022-08-19 18:52阅读:62来源:国知局
一种基于改进密度聚类的物联网实体搜索方法与流程

1.本技术涉及属于新兴信息技术领域,并且更为具体地,涉及物联网实体搜索领域,更具体地,涉及一种基于改进密度聚类的物联网实体搜索方法。


背景技术:

2.物联网实现了物理世界中的物理对象与网络系统的互联,并创造了很多有价值的应用,诸如智慧城市、智能家居、智慧农业、智慧医疗等。大量的物联网设备已经被部署在全球各地,并会随时间持续地增长,从而为各种各样的物联网应用产生了重要的数据来源。
3.然而,并非所有数据都对应用或用户都是具有价值的。例如,如果要想知道某地的粮仓是否具有火灾隐患,则需要收集到该粮仓中所有相关的温度传感器和湿度传感器的信息等,而不需要其他粮仓的数据,也无需该粮仓中不相关的其他信息。因此,物联网中对指定目标的搜索服务至关重要。
4.物联网中的搜索与互联网中的搜索存在很多不同之处。互联网中的搜索对象是网络中的文本、图片、视频等缓慢变化的资源,并且对时效性的要求并不高。然而,与之不同,物联网中的搜索除了要搜索文本、图片等资源,还包括物联网实体的位置、状态等其他信息。由于物联网实体的动态变化性,物联网中的搜索还对时效性要求非常高。除此之外,物联网中搜索空间也比互联网的空间大得多,并且更加动态化。所以,传统的互联网搜索技术并不适用于物联网搜索。那么,如何在海量的、动态的、异构的搜索空间中,搜索出最满足用户需求的物联网实体是目前物联网搜索研究的一大挑战。
5.同时,针对不同的应用需求,物联网企业会相应地在特定区域部署不同种类、不同数量的物联网设备,这就进而造成物联网实体分布的非均匀性。所以,在进行物联网搜索时,也需要考虑到实体的非均匀分布所带来的诸多困难。
6.随着物联网的迅猛发展,国内外关于物联网搜索的研究也产生了一些成果。这些成果主要分为基于内容的方法和基于上下文的方法。基于内容的方法往往需要构建预测模型,其主要需要面对由于物联网数据的动态特性所带来的挑战。cassaram和antclust算法两者是常见的基于上下文的物联网搜索方法,它们都是从大量功能相似的传感器中选择性能最接近需求的传感器子集。但他们都需要和中间件配合使用,用户无法直接用其满足搜索需求,即无法直接搜索到例如某某地方的某某状态的物联网实体。也有一些物联网搜索方法引入了聚类算法,这与上面的有所不同。但随着传感器数量的不断增多,簇规模也不断增大,这使得搜索时间不断增加,从而搜索效率较低,完全无法满足时效性的要求。
7.因此,在物联网搜索领域急需一种改进的物联网实体搜索方法,以满足搜索效率高、搜索时间短并且易于用于使用的需求。


技术实现要素:

8.以下给出一个或多个方面的简要概述以提供对这些方面的基本理解。此概述不是所有构想到的方面的详尽综览,并且既非旨在标识出所有方面的关键性或决定性要素亦非
试图界定任何或所有方面的范围。其唯一的目的是要以简化形式给出一个或多个方面的一些概念以作为稍后给出的更加详细的描述之序。
9.如上所述,针对传统物联网实体搜索效率较低、准确性不高等缺点,并且综合考虑到物联网实体部署非均匀性的特点,本技术提出了一种基于改进密度聚类的物联网实体搜索方法,以克服现有技术中存在的诸多缺陷,为用户提供一种搜索效率高、搜索时间短并且易于用于使用的物联网实体搜索方法。
10.根据本技术的实施例,描述了一种基于改进密度聚类的物联网实体搜索方法,该方法包括:
11.接收并解析用户的搜索查询请求,该查询请求包括类型子查询;
12.基于该类型对该实体进行类型划分;
13.使用该改进密度聚类算法并基于该实体的地理位置对该实体进行聚类划分;以及
14.基于该类型划分和该聚类划分来搜索该实体。
15.根据本技术的优选实施例,该改进密度聚类算法结合k均值算法。
16.根据本技术的优选实施例,基于该类型划分和该聚类划分来搜索该实体进一步包括以下步骤:搜索与请求的实体类型匹配的实体簇的集合;确定距离最近的实体簇;以及基于相似度对该实体簇进行排序,以获得搜索结果。
17.根据本技术的优选实施例,该相似度包括:距离接近程度;属性相似度;和时间接近度。
18.根据本技术的优选实施例,该相似度的计算权重基于用户的反馈来调整。
19.根据本技术的优选实施例,该方法进一步包括:基于该相似度的搜索结果与该搜索查询请求的其他子查询结果进行融合处理并返回给用户。
20.根据本技术的优选实施例,该改进密度聚类算法包括以下步骤:使用密度聚类算法以获得初步簇划分;计算再划分阈值;基于当前簇的规模是否大于该阈值来确定是否使用k均值算法进行二次划分,并计算簇头信息;将噪音点划分到距离最近的簇中;以及输出簇划分和簇头节点集合。
21.根据本技术的优选实施例,基于簇规模来确定是否进行二次划分进一步包括:若该当前簇的规模大于该阈值,则使用k均值算法进行二次划分;以及若该当前簇的规模不大于该阈值,则直接将该当前簇作为结果簇,并计算簇头信息。
22.根据本技术的优选实施例,当实体情况发生变化时,执行聚类结果动态维护。
23.根据本技术的优选实施例,该聚类结果动态维护定义一阈值,该阈值用于确定是否需要对该实体进行重新聚类。
24.为能达成前述及相关目的,这一个或多个方面包括在下文中充分描述并在所附权利要求中特别指出的特征。以下描述和附图详细阐述了这一个或多个方面的某些解说性特征。但是,这些特征仅仅是指示了可采用各种方面的原理的各种方式中的若干种,并且本描述旨在涵盖所有此类方面及其等效方案。
附图说明
25.为了能详细理解本技术的以上陈述的特征所用的方式,可参照各方面来对以上简要概述的内容进行更具体的描述,其中一些方面在附图中解说。然而应该注意,附图仅解说
了本技术的某些典型方面,故不应被认为限定其范围,因为本描述可允许有其他等同有效的方面。
26.在附图中:
27.图1是解说根据本技术的实施例的基于改进密度聚类的物联网实体搜索方法的整体框架图。
具体实施方式
28.以下结合附图阐述的详细描述旨在作为各种配置的描述,而无意表示可实践本文所描述的概念的仅有配置。本详细描述包括具体细节以提供对各种概念的透彻理解。然而,对于本领域技术人员将显而易见的是,没有这些具体细节也可实践这些概念。在某些实例中,以框图形式示出众所周知的组件以便避免淡化此类概念。
29.应当理解,基于本公开,其他实施例将是显而易见的,并且可以在不脱离本公开的范围的情况下做出系统、结构、过程或机械改变。
30.本技术提出的一种基于改进密度聚类的物联网实体搜索方法,整体架构自下而上分为三层。开始,第一层使用本体对物联网实体进行统一描述。然后第二层先根据实体的类型进行划分,再使用改进密度聚类算法按照实体地理位置对同类型的实体进行聚类划分。第三层展示了搜索过程,首先找到与搜索请求实体类型匹配的实体簇集合,然后找到距离最近的实体簇,再根据相似度进行排序,最后获得搜索结果。
31.如本领域技术人员能够理解的,用户可以对搜索结果进行反馈,以查询到更符合用户预期的结果。
32.根据本技术的改进的密度聚类算法的具体步骤如下:
33.1)使用密度聚类算法(诸如但不限于,dbscan等)以得到初步簇划分;
34.2)计算再划分阈值;
35.3)基于该再划分阈值和簇的规模执行以下操作:
36.若簇规模大于再划分阈值,则使用k均值(k-means算法)算法进行二次划分;
37.若簇规模不大于再划分阈值,则直接将该簇作为一个结果簇,并计算簇头信息;
38.4)将噪音点划分到距离最近的簇中;以及
39.5)输出簇划分和簇头节点的集合。
40.如本领域技术人员能够领会的,当经过上述算法获得聚类划分之后,如果实体发生变化(诸如但不限于,实体销毁、实体增加、实体位置移动等等),则之前的聚类结果将不再准确。但如果针对每一次实体变化都执行重新聚类的过程,则会导致频繁计算,从而耗费大量的计算资源。因此,为了获得准确的聚类结果,同时能够权衡计算资源的使用,通常采用聚类结果的动态维护来解决。聚类结果动态维护过程通常定义一阈值,该阈值被用来确定是否需要重新进行聚类。即如果实体变化次数大于该阈值,则重新进行聚类;否则,只需要进行相应的调整。
41.当增加实体时,根据实体类型和实体与簇头的距离,选择最近的簇加入,并且更新簇头向量。当实体不可用时,从原来的簇中删除该实体,同时更新簇头向量。当实体位置移动时,根据新的位置计算实体与各簇头的距离,选择最近的簇加入,并删除原来簇中的实体,同时更新新旧簇的簇头向量。
42.聚类的动态维护减少了搜索的不准确性,同时避免实体变化时频繁的聚类耗费大量计算资源的问题。
43.当用户进行搜索时,其具体过程如下。
44.用户发送搜索查询请求。首先解析该查询请求,并将其划分为子查询。接下来,计算所请求的实体与各簇头之间的距离,并且选择距离最近的实体簇。然后,进行相似度计算,并且选择相似度最高的前n个实体。最后,和其他子查询的结果进行融合处理,并且返回给用户。融合处理是综合所有子查询的结果,得到一个满足搜索请求的结果排序。因为这并非本技术的技术方案的关键所在,因此在此不做赘述以免影响主要技术方案的描述。当用户得到搜索结果时,可以对结果进行反馈,以调整相似度计算权重,以便获得更加符合用户需求的搜索结果。
45.以下结合本技术的具体实施例和说明书附图来对本技术的方法作进一步的说明。
46.图1中示出了根据本技术的实施例的基于改进密度聚类的物联网实体搜索方法的整体框架图。
47.如图1中所示,在第一层,使用本体对物联网中的实体进行统一描述。本体是对共享概念模型进行的明确、形式化的规范说明。关于描述方式,如本领域技术人员能够领会的,本领域存在很多种用于对本体进行统一描述的方法。这些方法都包括在本技术的范围之内。在此不做赘述以免影响主要技术方案的描述。
48.目前物联网实体主要是通过各种物联网平台、中间件以及实体所有者自己开发的应用程序来接入到网络中。然而,不同的物联网平台,不同的应用开发者使用自己的描述方式对设备进行描述,对物联网实体信息收集和整合带来困难。然而,由于本体语言拥有良好的语法、语义和丰富的表达能力等特点,因此可以解决这种描述不统一的问题。
49.在第二层,先根据实体的类型进行划分,再使用改进密度聚类算法按照实体的地理位置对同类型的实体进行聚类划分。第三层展示了搜索的过程,首先找到与搜索请求的实体类型匹配的实体簇集合,然后找到距离最近的实体簇,再根据相似度进行排序,最后获得搜索结果。
50.如本领域技术人员能够理解的,用户可以对搜索结果进行反馈,以查询到更符合用户预期的结果。
51.以下来详细描述各个子过程的具体实现过程。
52.具体的改进密度聚类算法如下。
53.[0054][0055]
以下结合上述算法对根据本技术的实施例的方法进行拆分详细描述,以更清楚地描述本技术的范围。
[0056]
1、搜索过程
[0057]
当用户发送搜索查询请求时,首先解析该查询请求,并将其划分为子查询。每个子查询包含实体类型、位置、状态属性要求等。例如,q={温度传感器,新街口,温度:适宜}。
[0058]
然后对子查询进行相应的转换,使用百度地图地址坐标转换api将“新街口”转换成经纬度坐标(118.790599,32.048116);将“温度:适宜”转换成“温度:23”。然后根据所请求的实体类型,选择相应的实体簇的集合。
[0059]
接下来,计算所请求的实体与各簇头之间的距离,选择距离最近的实体簇。
[0060]
再按照以下式(1)中的描述进行相似度计算,以选择相似度最高的前n个实体。最后,和其他子查询的结果进行融合处理,返回给用户。
[0061]
当用户得到搜索结果时,可对结果进行反馈,以调整相似度计算权重,获得更加符合用户需求的搜索结果。
[0062]
2、相似度计算
[0063]
考虑到用户更愿意获取距目标实体更近的实体、更新的实体信息,以及与目标实体状态属性更一致的实体,所以相似度计算由三部分组成,计算公式见以下式(1)。
[0064][0065]
其中,q表示所请求的实体,e表示候选实体,attm表示第m个属性,w1、w2、w3分别是
距离接近程度、属性相似度、时间接近度的权重。
[0066]
3、用户反馈
[0067]
加入用户反馈环节使得不同用户对同一搜索请求得到不同的结果,这样的搜索系统更能满足不同用户的个性化需求。当用户初次进行搜索时,先使用默认的相似度权重。当用户得到搜索结果时,可以根据结果是否满足需求来进行评价,进而调整w1、w2、w3。若用户认为结果中包含了过多距离较远的实体,则减小w1;结果只局限于距离很近的实体,则增大w1;属性相似度低,则增大w2;实体信息过时,即搜索结果中老旧的信息校多,从而指示时效性较差,则增大w3。然后根据新的权重,重新计算相似度,再返回新的搜索结果。用户不断地对结果反馈,最终得到最符合其需求的搜索结果。搜索系统会记录不同用户的权重,以待下一次使用。
[0068]
与现有技术相比,根据本技术的实施例的基于改进密度聚类算法的物联网实体搜索方法具有以下优点。
[0069]
1、本技术提出的方法符合物联网实体分布不均匀的特点,能得到既满足地理区域限制且规模相差不大的实体簇划分,从而减小了搜索空间,并且提高了搜索效率。同时,该方案考虑了聚类的动态维护,从而提高了搜索的准确性。
[0070]
2、本技术提出的方法引入了用户反馈环节,使得用户能够对结果进行评价,从而不断调整相似度的计算权重,以满足用户个性化的需求。
[0071]
应该理解,所公开的方法中各步骤的具体次序或阶层是示例性过程的解说。基于设计偏好,应该理解,可以重新编排本文描述的方法或方法体系中各步骤的具体次序或阶层。所附方法权利要求以样本次序呈现各种步骤的要素,且并不意味着被限定于所呈现的具体次序或阶层,除非在本文中有特别叙述。
[0072]
提供先前描述是为了使本领域任何技术人员均能够实践本文中所述的各种方面。对这些方面的各种改动将容易为本领域技术人员所明白,并且在本文中所定义的普适原理可被应用于其他方面。因此,权利要求并非旨在被限定于本文中所示出的各方面,而是应被授予与权利要求的语言相一致的全部范围,其中对要素的单数形式的引述并非旨在表示“有且仅有一个”(除非特别如此声明)而是“一个或多个”。除非特别另外声明,否则术语“一些”指的是一个或多个。引述一列项目中的“至少一个”的短语是指这些项目的任何组合,包括单个成员。作为示例,“a、b或c中的至少一者”旨在涵盖:至少一个a;至少一个b;至少一个c;至少一个a和至少一个b;至少一个a和至少一个c;至少一个b和至少一个c;以及至少一个a、至少一个b和至少一个c。本公开通篇描述的各种方面的要素为本领域普通技术人员当前或今后所知的所有结构上和功能上的等效方案通过引述被明确纳入于此,且旨在被权利要求所涵盖。此外,本文中所公开的任何内容都并非旨在贡献给公众,无论这样的公开是否在权利要求书中被显式地叙述。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1