用于处理非结构化数字的基于内容的检索引擎的制作方法

文档序号:9422790阅读:413来源:国知局
用于处理非结构化数字的基于内容的检索引擎的制作方法
【专利说明】用于处理非结构化数字的基于内容的检索引擎
【背景技术】
[0001] 数字宇宙值U)可被解释和/或定义为涵盖所收集、产生、处理、通信和存储的世界 上所有数字数据的总和。DU的大小和生长速率W指数速率持续增长,到2020年DU的估计 大小将增长到超过40泽字节。此数据的大部分由"非结构化数据"组成。非结构化数据W 多种形式出现,包括:图像、视频、音频、通信、网络流量、来自各种传感器的数据(包括物联 网和基于Web服务的物联网)、恶意软件、文本等等。
[0002] 与适合行/列格式的结构化数据相反,非结构化数据通常存储在不透明容器 中一一例如,诸如原始二进制数据、压缩数据、加密数据,或者自由形式数据。不仅了解DU的 大小和生长速率是重要的,而且了解数据的分布也是重要的,所述数据被估计为大约88% 的视频和图像数据;10%的通信、传感器、音频和音乐数据;W及2%的文本。还估计到所 述2%的文本DU中仅3-5%是目前编入索引并且制作为可由主要检索引擎(例如,Google、 Bing、Y址00、Ask、AOL等等)检索的。
[0003] 互联网检索引擎和企业检索引擎是用于访问DU数据的存储W支持主要用途的主 要机制,所述主要用途包括商务、商业、教育、政府、社区和机构,W及个人用途。经由基于文 本的关键词和元数据标记进行文本检索是到目前为止最流行的检索DU数据的方法。上述 方法只能做到运种程度,因为所述2%的(文本)DU中仅约3-5%是编入索引并且制作为可 检索的。用元数据标记检索是有用的,但是因为并非所有非结构化数据具有与其相关联的 元标记,所W可能希望具有可处理此类非结构化和无标记数据的技术。
[0004] 通常,可W先使用手动作业(例如,众包、喜欢/不喜欢等等)来产生标记,然后才 可由传统的检索引擎和数据库使用所述标记,此过程费时、昂贵并且覆盖范围有限。与文本 元数据检索技术已经具有的价值一样,发现数据内容中和数据内容之间的链接、连接和关 联的能力可具有更高价值。社交媒体公司(例如,Facebook、LinkedlruTwitter等等)的 产生是此技术的例子。额外使用跨数据集和数据类型的链接还允许对数据应用深度分析W 提取非显而易见的关系、模式和趋势(例如,广告、推荐引擎、商业智能、度量、网络流量分 析等等)。因此,可能希望使非结构化DU的内容为可检索的。

【发明内容】

[0005] 下文呈现了对所述创新的简要总结,W便提供对本文所描述的一些方面的基本理 解。此
【发明内容】
并非是对所要求保护的主题的广泛概述。本
【发明内容】
既非旨在识别所要求 保护的主题的关键或者决定性要素,也非旨在详细描述所述创新主题的范围。本
【发明内容】
的唯一目的是W简化形式呈现所要求保护主题的一些概念,W作为稍后提供的更详细描述 的序旨。
[0006] 公开了用于接收和索引原生数字数据、产生用于后续存储的签名矢量,W及在数 字数据的数据库中检索此类原生数字数据的系统及方法。可将原生数字数据转换成相关的 转换数据集。此类转换可包括类赌转换和/或空间频率转换。随后可将所述原生和相关的 转换数据集划分成谱分量,并且那些谱分量可具有应用于其W产生签名矢量的统计矩。还 公开了用于处理非图像数字数据的其他系统和方法。可将非图像数字数据转换成振幅对照 时间的数据集,并且随后可将谱图应用于此类数据集。随后可如所描述地处理此类转换数 据集。
[0007] 在一个实施例中,公开了一种用于检索数字数据的系统,所述系统包括:索引模 块,所述索引模块能够接收原生数字数据集,所述原生数字数据集包括谱分布;签名生成模 块,所述签名生成模块能够根据所述原生数字数据集产生一个或多个转换数据集W及根据 所述原生数字数据集和所述一个或多个转换数据集产生签名矢量,所述签名矢量包括针对 所述原生数字数据集和所述一个或多个转换数据集中的每一者的谱分解和统计分解;TOC 数据库,所述TOC数据库能够存储所述签名矢量;W及检索模块,所述检索模块能够接收输 入签名矢量并且返回大体上接近于所述输入签名矢量的一组签名矢量,其中所述输入签名 矢量表示将利用所述TOC数据库检索的所关注对象。
[0008] 在另一实施例中,公开了一种用于根据原生数字数据集产生签名矢量的方法,所 述方法包括:接收原生数字数据集;应用赌转换至所述原生数字数据集W产生赌数据集; 应用空间频率转换至所述原生数字数据集W产生空间频率数据集;将所述原生数字数据 集、所述赌数据集和所述空间频率数据集中的每一者划分成一组谱分量数据集;W及应用 一组统计矩至所述谱分量数据集W产生用于所述原生数字数据集的签名矢量。
[0009] 当结合提供在此申请案中的附图阅读时,在W下实施方式中提供了本发明系统的 其他特征和方面。
【附图说明】
[0010] 在所提及的附图图式中示出了示例性实施例。旨在将本文所公开的实施例和图式 视为说明性而非限制性的。
[0011] 图1是如根据本申请案的原理制造的系统和用于所述系统的操作的示例性环境 的一个实施例。
[0012] 图2是索引模块和所述索引模块在示例性环境情况中的操作的一个实施例。
[0013] 图3是如根据本申请案的原理制造的签名和目录灯油IeOfContent,T0C)模块 的一个实施例。
[0014] 图4是如根据本申请案的原理制造的实体和关键词索引表(KeywordIndex T油le,KIT)模块的一个实施例。
[0015] 图5是检索模块和所述检索模块依据使用者的检索请求的操作的一个实施例。
[0016] 图6是检索模块及所述检索模块返回检索结果至使用者的操作的一个实施例。
[0017] 图7是如根据本申请案的原理制造的实例查询模块的一个实施例。
[0018] 图8是分析模块和所述分析模块在示例性环境情况中的操作的一个实施例。
[0019] 图9是如根据本申请案的原理制造的系统的另一实施例。
[0020] 图10是如可能填入图9所示的系统的若干示例性模块的视图。
[0021] 图IlA到图IlC示出了处理一个图像数据帖的一个实施例。
[0022] 图12A到图12C和图13A到图13C示出如根据本申请案的原理实行的对其他图像 数据帖的处理。
[0023] 图14是非结构化数据分层的一个实施例,所述分层可用来处理非结构化数据。
[0024] 图15和图16是检索视频数据集中的图像数据的示例性实施例。
[0025] 图17是检索音频数据集中的声音数据的一个示例性实施例。
[0026] 图18是高等级群集的一个示例性实施例。
[0027] 图19到图21是使用检索锥和/或检索框构造来帮助检索过程的示例性实施例。
[0028] 图22示出了如何用本发明的系统和技术处理非图像数据集W产生签名的一个实 施例。
[0029] 图23示出了原生数据集的一个实施例,所述原生数据集被转换成互补数据集并 且经处理W产生高维的签名。
[0030] 图24示出了如根据本申请案的原理制造的合成性地面实况产生器的一个实施 例。
【具体实施方式】
[0031] 如本文所用,术语"部件"、"系统"、"界面"、"模块"等等旨在代表与计算机有关的 实体,为硬件、软件(例如,执行中的软件)和/或固件。例如,部件可为在处理器上运行 的处理、计算机节点、计算机核屯、、计算节点群集、对象、可执行档、程序、处理器和/或计算 机。举例而言,在服务器上运行的应用程序和所述服务器两者皆可为部件。一个或多个部 件可W驻留在过程内,并且部件可W局限在一个计算机上和/或分布在两个或更多个计算 机之间。
[0032] 参考附图描述了所要求保护的主题,其中贯穿全文W相同的附图标记用于指代相 同的元件。在W下描述中,为了解说的目的,陈述了众多具体细节来提供对创新主题的彻底 理解。然而可为明显的是,在没有运些具体细节的情况下也可实践所要求保护的主题。在 其他情况中,W方框图形式示出了熟知的结构和装置,W帮助描述创新主题。
[0033] 概论
[0034] 为了在针对具体条目、想法和/或主题检索DU时获得任何有用的结果,可能需要 将一些结构和/或次序引入DU本身。例如,可能需要基于数据内容对非结构化数据和未加 标签数据使用自动产生元数据标记的方法和算法。因此,本文公开的各个方面描述了用于 产生计算机可读代码和计算机界面,W便采集、索引化、检索、链接和/或分析非结构化数 据存储的过程、系统和/或方法的实施例。一个实施例可使用包括W下的模块和算法:(1) 能够产生非结构化数据的信息内容的唯一签名(例如,数字指纹);W及(2)能够比较签名 来确定高维的信息空间中的度量距离一一从而确定两个实体是如何相关或无关的。基于运 些算法,用于检索、链接和分析非结构化数据的方法可用于建立用于W下用途的过程和系 统:(1)将非结构化数据索引化为可检索的索引表,(2)检索非结构化数据,(3)链接/关联 非结构化数据,(4)建立用于非结构化数据的深度分析引擎,W及(5)广义编辑。
[0035] 在本文公开的若干可能的实施例中,将运些方法与数据管理、并行/事务处理计 算和并行计算硬件一起实体化成计算机可读代码可提供用于建立非结构化数据库进程"服 务器"的基准。此外,所述服务器可使用用于与用户和其他机器通信的机制,因此可W定义 "客户端"界面来处理用户到机器的通信和机器到机器的通信。在若干实施例中,将运些组 合在一起可提供用于W下用途的平台(或者框架)的基准:(1)建立广义非结构化数据检 索引擎,(2)建立用于发现非结构化数据(例如,具体来说,图像、视频和音频)内和非结构 化数据(例如,具体来说,图像、视频和音频)间已发现链接的社交网络引擎,(3)建立用于 处理非结构化数据的深度分析应用程序,W及(4)建立用于添加、删除、替换表示特征和/ 或对象的信号和/或模式的广义编辑应用程序。
[0036] 虽然本文所公开和论述的许多实施例是在计算、通信和数据流的客户端/服务器 模型的情境中实行的,但是可W理解的是,本文所公开和描述的方法和技术将在许多其他 计算环境中起作用。例如,可在单一的独立计算机和/或计算系统上一一或者在此类计算 机的网络(例如,分布式网络、并行网络或者其他网络)中进行采集、索引化和链接。其他 计算环境也可能用于存放和/或执行本申请案的方法和技术一一并且所述客户端/服务器 模型仅仅是包含在本申请案的范围中的许多模型中的一个。
[0037] -个实施例
[0038] 图1示出如根据本申请案的原理制造的合适体系结构的一个可能的实施例。如可 看出的,在本文描述的许多模块和技术的控制下,服务器106可经由APIs104与一个或多 个客户端102通信,W执行诸如W下任务一一例如,产生索引表108、检索索引表110和/或 产生/分析图型和/或网络112。
[0039] 下文是对可由此类合适的体系结构使用的一些模块和/或处理的简要描述:
[0040] 数据采集:可从任何实时的数字流、存储在存储介质上的归档数据、IP连接的装 置和移动/无线装置采集数据。还可通过经由模拟-数字转换器运行模拟装置来从模拟装 置采集数据。可采集数据的实例包括但不限于图像、视频、文本、音频和网络流量。
[0041] 签名生成:将所采集的数据经由自然细分或者人工细分定义划分为数据帖。使用 多元统计和信息论测度将数据帖转换成签名,并且将签名存储到可检索的数据库中。分层 的子帖实体的签名是通过递归地细分数据帖而产生的,并且被存储在数据库中。针对数据 帖的数据库条目由名称、签名、指回到原始数据的元数据指针组成,并且任何描述所述原始 数据的元数据都被存储在数据库中。描述所述原始数据的元数据可包括但不限于作者、采 集时间/日期、空间数据(缔度/经度),W及描述数据的大小(帖速、帖大小、采样率、压
当前第1页1 2 3 4 5 6 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1