一种基于海量数据的标签化处理及高速检索方法与流程

文档序号:30243132发布日期:2022-06-02 00:13阅读:250来源:国知局
一种基于海量数据的标签化处理及高速检索方法与流程

1.本发明涉及信息检索技术领域,具体为一种基于海量数据的标签化处理及高速检索方法。


背景技术:

2.信息检索是用户进行信息查询和获取的主要方式,是查找信息的方法和手段。狭义的信息检索仅指信息查询。即用户根据需要,采用一定的方法,借助检索工具,从信息集合中找出所需要信息的查找过程。广义的信息检索是信息按一定的方式进行加工、整理、组织并存储起来,再根据信息用户特定的需要将相关信息准确的查找出来的过程。又称信息的存储与检索。一般情况下,信息检索指的就是广义的信息检索。由信息检索原理可知,信息的存储是实现信息检索的基础。这里要存储的信息不仅包括原始文档数据,还包括图片、视频和音频等,首先要将这些原始信息进行计算机语言的转换,并将其存储在数据库中,否则无法进行机器识别。待用户根据意图输入查询请求后,检索系统根据用户的查询请求在数据库中搜索与查询相关的信息,通过一定的匹配机制计算出信息的相似度大小,并按从大到小的顺序将信息转换输出。随着互联网的普及和电子商务的发展,企业和个人可获取、需处理的信息量呈爆发式增长,而且其中绝大部分都是非结构化和半结构化数据。内容管理的重要性日益凸现,而信息检索作为内容管理的核心支撑技术,随着内容管理的发展和普及,亦将应用到各个领域,成为人们日常工作生活的密切伙伴。每个中小企业都有建立自己的数据库,随着大数据的发展,数据库的建立就为后续的数据检索、分类和分析作为数据基础支撑。
3.所以就需要一种适用于中小企业的,基于海量数据的标签化处理及高速检索的方法。


技术实现要素:

4.本发明的目的在于提供一种基于海量数据的标签化处理及高速检索方法,
5.本发明是这样实现的:
6.一种基于海量数据的标签化处理及高速检索方法,首先导入具有标签的分类数据表,并录入各个代表的标签,并对导入数据进行二叉树整理;
7.s2:找到关键字等于查找的数据元素key代号,关键字key小于当前结点,则缩小查找范围到它的左子树,关键字key大于当前结点,则缩小查找范围到它的右子树;
8.s3:从二叉排序树中删除结点p,并重接它的左或者右子树。
9.进一步,如果当前删除的结点,右子树为空,则只需要重新连接左子树;并将结点p临时存储到temp中;并释放需要删除的temp结点。
10.进一步,如果当前删除的结点,左子树为空,则重新连接它的右子树;当删除的当前结点的左右子树均不为空;此时将结点p存储到临时变量temp,并且让结点s指向p的左子树。将s指针,向右到尽头,找到待删结点的前驱,在待删除的结点的左子树中,从右边找到
直接前驱,使用temp保存好直接前驱的双亲结点。
11.进一步,将要删除的结点p数据赋值成sdata,并重连子树,如果temp不等于p,则将s-》lchild赋值给temp-》rchild,如果temp等于p,则将s-》lchild赋值给temp-》lchild,删除s指向的结点。
12.与现有技术相比,本发明的有益效果是:
13.本发明采用二叉树的思路进行数据标签化的处理和筛选,具有运行占用内存少,速度快,查找筛选效率高的特点,适用于中小企业的中小数据库使用。
附图说明
14.为了更清楚地说明本发明实施方式的技术方案,下面将对实施方式中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
15.图1是本发明的方法流程图。
具体实施方式
16.为使本发明实施方式的目的、技术方案和优点更加清楚,下面将结合本发明实施方式中的附图,对本发明实施方式中的技术方案进行清楚、完整地描述,显然,所描述的实施方式是本发明一部分实施方式,而不是全部的实施方式。基于本发明中的实施方式,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施方式,都属于本发明保护的范围。因此,以下对在附图中提供的本发明的实施方式的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施方式。基于本发明中的实施方式,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施方式,都属于本发明保护的范围。
17.请参阅图1,一种基于海量数据的标签化处理及高速检索方法,首先导入具有标签的分类数据表,并录入各个代表的标签,并对导入数据进行二叉树整理;
18.s2:找到关键字等于查找的数据元素key代号,关键字key小于当前结点,则缩小查找范围到它的左子树,关键字key大于当前结点,则缩小查找范围到它的右子树;
19.s3:从二叉排序树中删除结点p,并重接它的左或者右子树。
20.本实施例中,如果当前删除的结点,右子树为空,则只需要重新连接左子树;并将结点p临时存储到temp中;并释放需要删除的temp结点。
21.本实施例中,如果当前删除的结点,左子树为空,则重新连接它的右子树;当删除的当前结点的左右子树均不为空;此时将结点p存储到临时变量temp,并且让结点s指向p的左子树。将s指针,向右到尽头,找到待删结点的前驱,在待删除的结点的左子树中,从右边找到直接前驱,使用temp保存好直接前驱的双亲结点。
22.本实施例中,将要删除的结点p数据赋值成sdata,并重连子树,如果temp不等于p,则将s-》lchild赋值给temp-》rchild,如果temp等于p,则将s-》lchild赋值给temp-》lchild,删除s指向的结点。
23.以上所述仅为本发明的优选实施方式而已,并不用于限制本发明,对于本领域的
技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。


技术特征:
1.一种基于海量数据的标签化处理及高速检索方法,其特征在于:具体按以下步骤执行;s1:首先导入具有标签的分类数据表,并录入各个代表的标签,并对导入数据进行二叉树整理;s2:找到关键字等于查找的数据元素key代号,关键字key小于当前结点,则缩小查找范围到它的左子树,关键字key大于当前结点,则缩小查找范围到它的右子树;s3:从二叉排序树中删除结点p,并重接它的左或者右子树。2.根据权利要求1所述的一种基于海量数据的标签化处理及高速检索方法,其特征在于,如果当前删除的结点,右子树为空,则只需要重新连接左子树;并将结点p临时存储到temp中;并释放需要删除的temp结点。3.根据权利要求2所述的一种基于海量数据的标签化处理及高速检索方法,其特征在于,如果当前删除的结点,左子树为空,则重新连接它的右子树;当删除的当前结点的左右子树均不为空;此时将结点p存储到临时变量temp,并且让结点s指向p的左子树。4.根据权利要求3所述的一种基于海量数据的标签化处理及高速检索方法,其特征在于,将s指针,向右到尽头,找到待删结点的前驱,在待删除的结点的左子树中,从右边找到直接前驱,使用temp保存好直接前驱的双亲结点。5.根据权利要求4所述的一种基于海量数据的标签化处理及高速检索方法,其特征在于:将要删除的结点p数据赋值成sdata,并重连子树,如果temp不等于p,则将s->lchild赋值给temp->rchild,如果temp等于p,则将s->lchild赋值给temp->lchild,删除s指向的结点。

技术总结
本发明公开了一种基于海量数据的标签化处理及高速检索方法,首先导入具有标签的分类数据表,并录入各个代表的标签,并对导入数据进行二叉树整理;找到关键字等于查找的数据元素key代号,关键字key小于当前结点,则缩小查找范围到它的左子树,关键字key大于当前结点,则缩小查找范围到它的右子树;从二叉排序树中删除结点p,并重接它的左或者右子树。如果当前删除的结点,右子树为空,则只需要重新连接左子树;并将结点p临时存储到temp中;并释放需要删除的temp结点。如果当前删除的结点,左子树为空,则重新连接它的右子树;当删除的当前结点的左右子树均不为空;此时将结点p存储到临时变量temp,并且让结点s指向p的左子树。本发明检索效率高,速度快。速度快。速度快。


技术研发人员:于仲阳
受保护的技术使用者:辽宁达因信息服务有限公司
技术研发日:2022.03.16
技术公布日:2022/6/1
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1