定位和检索以压缩数字格式存储的数据内容的方法和装置的制作方法

文档序号：6563617阅读：104来源：国知局

专利名称：定位和检索以压缩数字格式存储的数据内容的方法和装置的制作方法
技术领域：
在此公开和要求保护的本发明一般涉及一种用于定位和检索特定内容的方法和装置，其中，所述内容在包含已经被压缩的数字化数据的数据库中。具体来说，本发明涉及上述类型的这样一种方法，其中，数字数据包括从一个或多个发言者的语音得到的压缩音频或视频数据。更具体来说，本发明涉及上述类型的这样的方法，其中，可以从数据库定位和检索特定内容，而不首先解压缩与特定内容无关的压缩数据的其他部分。
背景技术：
当前，在涉及两个或多人的讨论期间，大量的重要商务信息被交换。所述讨论可以包括面对面的会晤，也可以包括使用诸如电话或者视频会议设备的设备的会议电话。所讨论的材料可以包括相当大数量的详细的技术或金融信息。因此，经常需要记录讨论，并且保存所述记录以用于未来参考或其他用途。
对于上述类型的会议，与音频和视频数据相关联的记录任务继续变得逐渐容易和便宜。所记录的音频数据可以包括每个会议参与者的每句话，并且视频数据可以包括当相应的参与者发言时他们的可视图像。可以对连续讨论的相同参与者进行记录，这些连续讨论在一段时间中发生并且涵盖若干不同的话题。但是，所有这样的数据(音频和视频)本来固有地是模拟的。另一方面，为了最有效地处理、发送和存储这样的数据，应当将所记录的模拟音频和视频数据转换为数字形式。也可以压缩数字化的数据以进行更紧凑和有效的存储。
如果定位和检索这样的数据的特定部分必要的话，尽管有如上所述的存储和压缩数据的益处，但是也会存在显著的缺点。例如，可能期望访问由特定参与者对于特定话题做出的、在压缩音频数据文件中的所有陈述。在一种明显的现有技术方法中，首先整个音频数据文件将被解压缩并转换为模拟形式。然后音频数据将通过倾听期望的陈述而被手工检查。如果例如所述模拟数据包括8个小时的音频记录，则将需要8个小时的倾听。
在用于搜索压缩音频和视频数据的另一种现有技术方法中，数据文件的不同分段或部分被标注简短的文本。这些文本标注然后在未来某个时间可用于通过文本搜索引擎来进行搜索和匹配。但是，因为该现有技术方法是完全基于文本的，所以必须将文本标注大量地应用到音频和视频数据文件。否则，所述文本搜索引擎会丢失在这样的文件中包含的重要的元素。当前，必须手工建立和应用所述文本标注，而这会需要相当大量的工作量。
很清楚，有益的是，提供一种更有效的和完全自动化的过程，用于搜索在压缩音频和视频数据文件中包括的特定内容，并且用于在将其定位后检索这样的内容。

发明内容
本发明一般地提供了一种用于在数据库中定位和检索特定数据内容的方法，其中，从记录的语音得到在数据库中的数据。当所述数据可以包括与所记录的语音相关联的压缩数字音频或视频文件时，特定内容的检索要求解压缩仅仅部分压缩数据。记录的语音可以产生自涉及在一段时间内的两个或多个人的讨论，或可以是单个人的语音，诸如一系列演说。在本发明的一个有益的实施例中，提供了一种方法，用于定位上述类型的特定内容。所述方法包括步骤将包括所记录语音的音频文件转换为对应的文本文件，其中，所述文本文件被划分为多个文本文件分段，每个分段具有唯一标识符。所述方法还包括选择性地处理所述文本文件以建立可搜索的索引。所述索引包括若干索引元素，每个索引元素与在一个或多个文本文件分段中定位的特定信息相关联。一个或多个特定搜索变量用于搜索所述可搜索索引的相应的元素，以便检测一个或多个文本分段，其中每个包含至少一些所述特定内容。然后相应的检测的文本分段的标识符用于定位在音频文件中的特定内容。

在权利要求中给出了被认为是本发明的特征的新颖特征。但是，通过结合附图阅读时，参照对说明性实施例的下面的详细说明，会最好地理解本发明本身以及使用的优选模式和进一步的目的和优点，在附图中图1是示出用于获得结合本发明的一个实施例而要使用的数据的会议布置的示意图。
图2是示出用于在用以实现本发明的一个实施例的图1的布置中的数据处理系统的方框图。
图3是图解在本发明的一个实施例中的文本和音频文件分段标识的示意图。
图4是图解在本发明的一个实施例中为可搜索索引产生索引元素的示意图。
图5是图解本发明的一个实施例的各个步骤的流程图。
具体实施例方式
参照图1，示出了代表性会议参与者A-D。参与者A-D在不同位置，但是每个被提供了用于从事一系列会议或彼此讨论的电子通信设备。具体来说，参与者A-D分别被提供电话102a-d或用于发送人的语音的其他音频响应设备。参与者还被提供摄像机104a-d等，用于当他们进行彼此讨论时产生相应的参与者的图像信号。
进一步参照图1，示出了通过相应的链路或传输路径108a-d来连接到一般的通信网络106的参与者A-D的通信设备。网络106可以例如是因特网或局域网(LAN)。另外，图1示出了指向公共交换装置110的每个路径。因此，交换装置110接收由各个设备102a-d提供的所有音频信号，以及由设备104a-d产生的视频信号。交换装置110进一步可操作于在连续的会议期间将从一个参与者接收的所有音频和视频传输路由到其他参与者。
图1进一步示出了数据处理系统112，其被连接以接收来自交换装置110的输入。具体来说，所述数据处理系统接收由各个参与者A-D产生的所有音频和视频信息，并且将这个信息存储在音频和视频数据文件中。该数据是从在所选择的时段上在多个参与者之间的一个或多个会议得到的。有益的是，每个参与者的数据被存储在与其他参与者的文件分开的文件中。这可以通过例如软件来完成，所述软件使得系统112能够容易地在表示不同参与者的声音的音频信号之间区别。
按照本发明的一个实施例，在已经存储音频和视频数据文件后，系统112被操作来处理所存储的数据文件。下面更详细地说明该实施例。
参照图2，示出了一般的数据处理系统的方框图，其有效地在实现本发明的实施例中被用作数据系统112。数据处理系统112以计算机为例子，其中，可以定位用于实现本发明的处理的代码或指令。数据处理系统112有效地使用外围组件互连(PCI)本地总线架构，尽管可以替代地使用其他的总线架构。图2示出了通过主机/PCI桥208连接到PCI本地总线206的处理器202和主存储器204。上面涉及的被存储的音频和视频数据文件可以被存储在存储器204中。PCI桥208也可以包括处理器202的高速缓冲存储器和集成存储器控制器。
进一步参照图2，示出了局域网(LAN)适配器212、小计算机系统接口(SCSI)主机总线适配器210和扩展总线接口214，它们分别通过直接的组件连接而连接到PCI本地总线206。音频适配器216、图形适配器218和音频/视频适配器222通过被插入到扩展槽中的内插板而连接到PCI本地总线206。SCSI主机总线适配器210提供了用于硬盘驱动器220的连接，并且还提供了用于CD-ROM驱动器224的连接。
操作系统运行在处理器202上，并且用于协调和提供在图2中所示的数据处理系统112中的各种组件的控制。所述操作系统可以是商业可获得的操作系统，诸如可以从微软公司获得的WindowsXP。用于所述操作系统和用于应用或程序的指令被定位在存储设备上，诸如硬盘驱动器220，并且可以被加载到主存储器204中以由处理器202执行。
在如上所述通过数据处理系统112接收所记录的音频数据后，将音频数据从模拟转换为数字形式。然后对所述数据处理系统操作，以实施在本发明的一个实施例中的初始步骤。更具体来说，系统112将在音频数据文件中的所有数字化的语音相关音频信息转换为对应的文本。系统112可以例如实施当前可用的语音到文本转换软件，诸如被称为IBM ViaVoice或DragonNaturallySpeaking软件的产品，以执行这个任务。因此，每个参与者A-D的所记录语音被表现为在文本数据文件中的可读文本。有益的是，以与音频文件类似的方式表示每个会议参与者的贡献的文本，将被置于与其他参与者的文本数据文件分开的文本数据文件中。在已经从所有参与者的音频数据准备文本数据文件后，所述音频数据被压缩以便更有效的存储。
参照图3，示出了当数据处理系统112准备文本数据文件时由其执行的进一步的任务。图3示出了文本数据文件302的一部分，它提供了参与者B的评述或其他贡献的文本。文件302被划分为连续的30秒文本数据分段304a-d，其中，将时间标记306a-d施加到各个文本分段。因此，分段304a包含文本表示，其表示由参与者B在所示的日期上在10:25:00和10:25:30之间的30秒时段期间进行的任何音频贡献。分段304b包含在紧接其后的30秒时段期间的文本表示。因此从图3将明白，通过提供这样的分段的对应时间标记，可以容易地定位在参与者B的文本数据文件的任何分段处的内容。
进一步参照图3，示出了对应于文本数据文件部分302的压缩音频数据文件308的一部分。即，文件部分308包括音频数据分段310a-d，其中，在每个分段中的数据是分别等同于在分段304a-d中的文本数据的压缩音频数据。而且看到，每个音频数据分段310a-d被提供了与其各自的对应文本分段304a-d相同的时间标记306a-d。因此，如果文本数据分段的时间标记是已知的，则这样的时间标记可以用于定位压缩音频数据文件的对应音频分段。在所述音频分段中的数据可以接着被容易地访问。
在数据处理系统112已经产生了具有时间标记的文本数据文件后，如上所述，使用数据挖掘(mining)软件来分析每个文本文件，以便识别讨论的话题以用于其他关键元素。例如，可以建立在参与者之间的讨论中使用的所有词汇的词汇索引(concordance)，如由文本文件所示。在所述词汇索引中的各个词汇然后被处理，以识别具有最大使用频率的词汇和词汇组合或短语。这样的词汇和短语有可能是讨论的相邻块的话题。每个参与者也可以根据他的或她的对于各个讨论的理解，手工地向文本块指派话题。
在各种词汇或短语被发现是话题或被确定为有可能感兴趣后，所有这样的词汇和短语被置于可搜索索引中作为索引元素。在所述索引中，给定元素被链接到其发生或被发现的所有文本数据分段的时间标记。所述索引可以例如被存储在数据处理系统112的存储器204中。
作为可搜索索引的一个元素，图4示出了如由一个或多个参与者在会议之一中在时段T期间使用的词汇“振荡器”的频率。如果一个词汇被发现具有特定的最小使用频率，则将其选择为索引元素。
图5是简短地给出按照本发明的过程的连续步骤的流程图，所述过程用于定位和检索特定的音频文件内容。图5的功能块502示出在一系列参与者会议期间记录的音频数据被接收和存储在对应的音频数据文件中。如上所述，不同参与者的音频数据被存储在独立的音频文件中。功能块504和506各自示出了音频数据被从模拟转换为数字形式，并且从各自的数字化音频文件产生对应的文本数据文件。
功能块508指示每个文本文件被划分为连续的文本分段，并且将时间标记施加到每个文本分段。按照功能块510，各个音频文件被压缩，然后类似地被划分为音频分段。如上所述，每个音频分段对应于文本分段，并且包含对应的数据。每个音频分段被与其对应的文本分段相同的时间标记标识。
进一步参照图5，功能块512示出了可搜索索引的结构。按照功能块514，若干特定的变量用于搜索索引。例如，所述变量可以是与“关键项目”组合的“锁相环”。搜索这些变量索引将提供时间标记，用于识别包含与两个术语一起相关的内容的每个文本分段。如功能块516所示，在搜索期间检测的文本分段的时间标记将接着用于定位对应的音频分段，它们将集中地包含所有感兴趣的内容。按照功能块518，仅仅那些音频分段将被解压缩以恢复感兴趣的内容。音频文件的其他分段将不被解压缩。
将容易明白，可以以与音频文件类似的方式，对特定内容搜索对应于音频和文本文件的视频文件。
本发明可以采取整体硬件实施例、整体软件实施例或包含硬件和软件元素的实施例的实施例的形式。在一个优选实施例中，以软件来实现本发明，所述软件包括但是不限于固件、驻留(resident)软件、微代码等。
而且，本发明可以采取可以从计算机可使用或计算机可读介质访问的计算机程序产品的形式，用于提供程序代码以由计算机或任何指令执行系统使用或与其相结合地使用。出于描述的目的，计算机可使用或计算机可读介质可以是任何可以包含、存储、通信、传播或传送程序的装置，以由指令执行系统、装置或设备使用或与其相结合地使用。
所述介质可以是电子、磁、光、电磁、红外或半导体系统(或装置或设备)或传播介质。计算机可读介质的例子包括半导体或固态存储器、磁带、可移动计算机盘、随机存取存储器(RAM)、只读存储器(ROM)、硬磁盘和光盘。光盘的当前例子包括致密盘-只读存储器(CD-ROM)、致密盘-读/写(CD-R/W)和DVD。
适合于存储和/或执行程序代码的数据处理系统，将包括通过系统总线直接或间接耦合到存储器元件的至少一个处理器。所述存储器元件可以包括在实际执行程序代码期间使用的本地存储器、大批存储器(bulk storage)和高速缓冲存储器，它们提供至少一些程序代码的暂时存储，以便降低必须在执行期间从大批存储器检索代码的次数。
输入/输出或I/O设备(包括但是不限于键盘、显示器、指向设备等)可以直接或通过插入输入/输出控制器而耦合到系统。
网络适配器也可以耦合到系统，以使得数据处理系统能够变为通过插入私有或公开网络来耦合到其他的数据处理系统或远程打印机或存储设备。调制解调器、电缆调制解调器和以太网卡仅仅是一些当前可用类型的网络适配器。
已经出于图解和说明的目的，提供了本发明的说明，而本发明的说明不意欲穷举或限于所公开形式的本发明。对于本领域内的普通技术人员而言，许多修改和改变将是显然的。所述实施例被选择和说明，以便最佳地解释本发明的原理、实际应用，并且使得本领域内的其他普通技术人员能够明白本发明用于具有各种修改的各种实施例，如适合于所考虑的特定用途。
权利要求
1.一种用于定位在存储的数据中包含的特定内容的方法，其与所存储的从记录的一个或多个发言者的语音得到的所存储数据相关联，其中，所述方法包括步骤将包括至少一些所述记录的语音的音频文件转换为对应的文本文件，其中，所述文本文件包括多个文本分段，每个文本分段配备有唯一标识符；从所述文本文件构造包括若干索引元素的可搜索索引，所述索引元素的每个与在一个或多个所述文本分段中定位的特定信息相关联；使用一个或多个特定搜索变量来搜索所述可搜索索引的所述索引元素，以便检测所述文本文件的一个或多个文本分段，每个文本分段各自包含至少一些所述特定内容；并且使用各个检测文本分段的标识符，在所述音频文件中定位所述特定内容。
2.按照权利要求1的方法，其中所述音频文件包括多个音频分段，每个音频分段包含对应于对应的文本分段的数据的数据，每个音频分段可由其对应的文本分段的标识符识别。
3.按照权利要求2的方法，其中包括所述音频文件的所述存储的数据具有数字化和压缩的形式。
4.按照权利要求3的方法，其中在所述音频文件的其他部分保持压缩的同时，通过解压缩所述压缩音频文件的所述给定音频分段，检索所述音频分段的给定的一个中包含的特定内容。
5.按照权利要求4的方法，其中所述分段标识符每个包括时间标记。
6.按照权利要求1的方法，其中通过产生在所述文本文件中出现的词汇的词汇索引，并且使用所述词汇索引，将权重施加到选择的词汇和短语，从而构造所述可搜索索引。
7.按照权利要求1的方法，其中从下述组中选择在所述可搜索索引中的元素，所述组包括在所述文本文件中按特定的最小频率水平出现的词汇和短语，以及由选择的数据挖掘软件识别的讨论话题。
8.按照权利要求1的方法，其中由多个发言者提供所述记录的语音，并且每个发言者的语音被记录在不同的音频文件中。
9.按照权利要求1的方法，其中所述音频文件通过特定的语音识别软件被转换为所述文本文件。
10.按照权利要求4的方法，其中所述存储的数据包括对应于所述音频文件的数字化和压缩的视频数据文件。
11.一种用于定位在存储的数据中包含的特定内容的装置，其与从记录的一个或多个发言者的语音得到的所存储数据相关联，所述装置包括第一设备，用于将包括至少一些所述记录的语音的音频文件转换为对应的文本文件，其中，所述文本文件包括多个文本分段，每个文本分段被提供有唯一标识符；第二设备，用于从所述文本文件构造包括若干索引元素的可搜索索引，所述索引元素每个与在一个或多个所述文本分段中定位的特定信息相关联；第三设备，用于使用一个或多个特定搜索变量来搜索所述可搜索索引的所述索引元素，以便检测所述文本文件的一个或多个文本分段，每个文本分段包含至少一些所述特定内容；并且第四设备，用于使用各个检测的文本分段的标识符，在所述音频文件中定位所述特定内容。
12.按照权利要求11的装置，其中所述装置包括用于将所述音频文件划分为多个音频分段的装置，每个音频分段包含对应于对应的文本分段的数据的数据，并且每个音频分段可由其对应的文本分段的标识符识别。
13.按照权利要求12的装置，其中所述音频文件具有数字化和压缩的形式，并且所述装置包括如下的装置用于在所述音频文件的其他部分保持压缩的同时，通过解压缩所述压缩音频文件的所述给定音频分段，检索所述音频分段的给定的一个中包含的特定内容。
14.按照权利要求11的装置，其中所述第二设备被适配来通过如下方式构造所述索引产生在所述文本文件中出现的词汇的词汇索引，并且使用所述词汇索引将权重施加到选择的词汇和短语。
15.按照权利要求14的装置，其中所述第二设备被适配来从这样的组中选择在所述可搜索索引中的元素，所述组包括在所述文本文件中按特定的最小频率水平出现的词汇和短语，以及由选择的数据挖掘软件识别的讨论话题。
全文摘要
一种在数据库中定位和检索特定数据内容的方法，该数据从记录的语音得到。数据包括与记录的语音关联的压缩数字音频或视频数据文件时，检索特定内容要求只解压部分压缩数据。在定位上述类型特定内容的方法中，将包括所记录语音的压缩音频文件转换为对应文本文件，其被划分为多个文本文件分段，每个分段具有唯一标识符。从文本文件构造包括若干索引元素的可搜索索引，每个索引元素与一个或多个文本文件分段中定位的特定信息关联。使用一个或多个特定搜索变量搜索可搜索索引的各元素，以便检测一个或多个文本分段，每个包含至少一些特定内容。然后使用各检测的分段的标识符在音频文件中定位特定内容。只需解压包含特定内容的部分音频文件以检索内容。
文档编号G06F17/30GK1983276SQ20061016037
公开日2007年6月20日申请日期2006年11月15日优先权日2005年11月15日
发明者奥利弗·K·班恩, 安东尼·C·斯皮尔伯格, 蒂莫西·A·迪茨申请人:国际商业机器公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：奥利弗.Ｋ.班恩;安东尼.Ｃ.斯皮尔伯格;蒂莫西.Ａ.迪茨
技术所有人：国际商业机器公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。