一种通话转录系统和方法

文档序号:6492356阅读:246来源:国知局
一种通话转录系统和方法
【专利摘要】本发明公开了一种通话转录系统和方法。该通话转录系统包括接收装置、语音识别装置和加标签装置。其中,所述接收装置用于连接到交换机并将输入语音信号转换为音频文件;所述语音识别装置与所述接收装置相连,用于将所述音频文件转录为文本文件;以及所述加标签装置与所述语音识别装置相连,用于为所述文本文件加上对应的音频文件的时间戳,并根据所述时间戳将加上时间戳后的所有文本文件排序并且合并为通话记录文本文件。本发明所提供的上述通话转录系统和方法能够提供可根据时间进行检索的通话内容的记录,方便通话双方或他人检索和查询通话内容。
【专利说明】 一种通话转录系统和方法
【技术领域】
[0001]本发明涉及通信领域,尤其涉及一种通话转录系统和方法。
【背景技术】
[0002]在当今的时代,由于工作需要,企业内部的工作人员或企业与企业的双方代表之间常常需要进行沟通交流,例如召开电话会议等。虽然不在同一间办公室的人通过网络和电话等方式可以便利地进行交流。然而还存在一个会议记录的问题,比如经常会出现召开电话会议的双方开完电话会议而忘记了部分会议内容的情况,或者是企业的其他工作人员因为工作需要而希望查看某一时段的通话内容的情况。
[0003]因此,需要提供一种通话转录系统和方法以解决上述问题。

【发明内容】

[0004]在
【发明内容】
部分中引入了一系列简化形式的概念,这将在【具体实施方式】部分中进一步详细说明。本发明的
【发明内容】
部分并不意味着要试图限定出所要求保护的技术方案的关键特征和必要技术特征,更不意味着试图确定所要求保护的技术方案的保护范围。
[0005]为了解决上述问题,本发明公开了一种用于通话转录系统,包括接收装置、语音识别装置和加标签装置,其中,所述接收装置用于连接到交换机并将输入语音信号转换为音频文件;所述语音识别装置与所述接收装置相连,用于将所述音频文件转录为文本文件;以及所述加标签装置与所述语音识别装置相连,用于为所述文本文件加上对应的音频文件的时间戳,并根据所述时间戳将加上时间戳后的所有文本文件排序并且合并为通话记录文本文件。
[0006]在本发明一个优选实施例中,所述通话转录系统还包括:发送装置,其与所述加标签装置相连,用于将所述通话记录文本文件发送给用户。
[0007]在本发明一个优选实施例中,所述通话转录系统还包括:存储器,其连接在所述接收装置和所述语音识别装置之间,用于存储所述音频文件。
[0008]在本发明一个优选实施例中,所述通话记录文本文件的内容包括所述文本文件的内容、所述文本文件对应的时间戳和所述文本文件对应的音频文件在所述存储器中的地址。
[0009]在本发明一个优选实施例中,所述加标签装置还用于根据所述通话记录文本文件和所述通话记录文本文件中的所述文本文件对应的音频文件在所述存储器中的地址,在所述存储器中建立通话数据库,以使所述用户根据所述通话记录文本文件来访问所述通话数据库;其中,所述通话数据库中每个数据项包括:所述文本文件的内容、所述文本文件对应的时间戳和所述文本文件对应的音频文件在所述存储器中的所述地址。
[0010]在本发明一个优选实施例中,所述通话转录系统还包括:存储器,其连接在所述接收装置和所述语音识别装置之间,用于存储所述音频文件;并且所述加标签装置还用于根据所述通话记录文本文件和所述通话记录文本文件中的所述文本文件对应的音频文件在所述存储器中的地址,在所述存储器中建立通话数据库,所述通话数据库具有访问接口以供用户通过网络直接访问;其中,所述通话数据库中每个数据项包括:所述文本文件的内容、所述文本文件对应的时间戳和所述文本文件对应的音频文件在所述存储器中的所述地址。
[0011]在本发明一个优选实施例中,所述通话转录系统还包括:切分器,其连接在所述接收装置和所述语音识别装置之间,用于将所述音频文件切分为子音频文件以输出到所述语音识别装置。
[0012]在本发明一个优选实施例中,所述切分器进一步包括:检测单元,用于检测所述音频文件中的静音部分;以及分割单元,用于基于所检测的静音部分将所述音频文件切分为所述子音频文件。
[0013]在本发明一个优选实施例中,所述静音部分包括在0.6秒或0.6秒以上的时间段内分贝值小于或等于噪声阈值的部分。
[0014]在本发明一个优选实施例中,所述通话转录系统还包括:存储器,其连接在所述切分器和所述语音识别装置之间,用于存储所述子音频文件;并且所述语音识别装置所转录的子音频文件来自于所述存储器。
[0015]在本发明一个优选实施例中,所述通话转录系统还包括:自动增益控制器,其与所述接收装置相连,用于对所述输入语音信号进行增益控制。
[0016]在本发明一个优选实施例中,所述通话转录系统还包括滤波器,其与所述接收装置相连,用于对所述输入语音信号进行降噪处理。
[0017]根据本发明另一方面,还提供了一种通话转录方法,包括:将输入语音信号转换为音频文件;将所述音频文件转录为文本文件;为所述文本文件加上对应的音频文件的时间戳;以及根据所述时间戳将加上时间戳后的所有文本文件排序并且合并为通话记录文本文件。
[0018]在本发明一个优选实施例中,所述合并为通话记录文本文件之后还包括:将所述通话记录文本文件发送给用户。
[0019]在本发明一个优选实施例中,所述将输入语音信号转换为音频文件之后还包括将所述音频文件存储至存储器。
[0020]在本发明一个优选实施例中,所述通话记录文本文件的内容包括所述文本文件的内容、所述文本文件对应的时间戳和所述文本文件对应的音频文件在所述存储器中的地址。
[0021]在本发明一个优选实施例中,所述合并为通话记录文本文件之后还包括:根据所述通话记录文本文件和所述通话记录文本文件中的文本文件对应的音频文件在所述存储器中的地址,在所述存储器中建立通话数据库,以使所述用户根据所述通话记录文本文件来访问所述通话数据库;其中,所述通话数据库中每个数据项包括:所述文本文件的内容、所述文本文件对应的时间戳和所述文本文件对应的音频文件在所述存储器中的所述地址。
[0022]在本发明一个优选实施例中,所述将输入语音信号转换为音频文件之后还包括将所述音频文件存储至存储器;并且所述合并为通话记录文本文件之后还包括:根据所述通话记录文本文件和所述通话记录文本文件中的文本文件对应的音频文件在所述存储器中的地址,在所述存储器中建立通话数据库,所述通话数据库具有访问接口以供用户通过网络直接访问;其中,所述通话数据库中每个数据项包括:所述文本文件的内容、所述文本文件对应的时间戳和所述文本文件对应的音频文件在所述存储器中的所述地址。
[0023]在本发明一个优选实施例中,将输入语音信号转换为音频文件之后还包括:将所述音频文件切分为子音频文件。
[0024]在本发明一个优选实施例中,将输入语音信号转换为音频文件之前还包括:对所述输入语音信号进行增益控制和/或降噪处理。
[0025]本发明所提供的上述通话转录系统和方法能够提供可根据时间进行检索的通话内容的记录,方便通话双方或他人检索和查询通话内容。
【专利附图】

【附图说明】
[0026]本发明的下列附图在此作为本发明的一部分用于理解本发明。附图中示出了本发明的实施例及其描述,用来解释本发明的原理。在附图中,
[0027]图1示出了根据本发明一个优选实施例的通话转录系统的结构框图;
[0028]图2a和图2b分别示出了根据本发明一个优选实施例的合并前后的文本文件的示意图;
[0029]图3示出了根据本发明一个优选实施例的通话转录方法的流程图;
[0030]图4示出了包括根据本发明一个优选实施例的通话转录系统的通话系统的示意图。
【具体实施方式】
[0031]在下文的描述中,给出了大量具体的细节以便提供对本发明更为彻底的理解。然而,对于本领域技术人员来说显而易见的是,本发明可以无需一个或多个这些细节而得以实施。在其他的例子中,为了避免与本发明发生混淆,对于本领域公知的一些技术特征未进行描述。
[0032]为了彻底了解本发明,将在下列的描述中提出详细的结构。显然,本发明的施行并不限定于本领域的技术人员所熟习的特殊细节。本发明的较佳实施例详细描述如下,然而除了这些详细描述外,本发明还可以具有其他实施方式。
[0033]根据本发明的一方面,提供了一种通话转录系统。图1示出了根据本发明一个优选实施例的通话转录系统100的结构框图。如图1所示,该通话转录系统100包括接收装置103、语音识别装置106和加标签装置107。其中,接收装置103用于连接到交换机并将输入语音信号转换为音频文件。语音识别装置106与接收装置103相连,用于将音频文件转录为文本文件。加标签装置107与语音识别装置106相连,用于为文本文件加上对应的音频文件的时间戳,并根据时间戳将加上时间戳后的所有文本文件排序并且合并为通话记录文本文件。
[0034]来自交换机的通话双方的输入语音信号经接收装置103转换为音频文件,形成自己的时间戳,供加标签装置107获取。
[0035]语音识别装置106将接收装置103转换后形成的音频文件转录为文本文件。根据本发明一个优选实施例,语音识别装置106所进行的转录过程可以包括下述操作。首先对接收装置103转换后形成的音频文件进行语音信号的语音特征的提取。根据提取的语音特征,可以对语音信号进行分析处理,可去掉与语音识别无关的冗余信息并获得影响语音识别的重要信息,同时可对语音信号进行压缩。然后,语音识别装置106根据所提取的语音特征利用已训练的声学模型进行识别。具体地,将语音信号的语音特征同声学模型的语音特征进行匹配与比较,得到最佳的识别结果。
[0036]加标签装置107为语音识别装置106转录后形成的文本文件加上对应的音频文件的时间戳,并根据时间戳将加上时间戳后的所有文本文件排序并且合并为通话记录文本文件,为通话双方的会话提供了一份通话的“历史记录”。例如,在Unix或Linux系统下,加标签装置107可以通过系统函数stat获取接收装置103转换后形成的音频文件的时间戳,然后将获取到的时间戳加到对应的文本文件的前面,最后根据时间戳将加上时间戳后的所有文本文件排序并且合并为通话记录文本文件,这样就形成了类似QQ或MSN那样的对话历史。时间戳和文本可以以冒号分割。图2a和图2b分别示出了根据本发明一个优选实施例的合并前后的文本文件的示意图。其中,图2a示出了加标签装置107为其加了时间戳的来自通话双方的信道(例如,信道A和信道B)的语音信号对应的文本文件的示意图,图2b示出了加标签装置107根据时间戳排序并合并后的通话记录文本文件的示意图。如图2b所示,对于包括文本文件的内容和文本文件对应的时间戳的通话记录文本文件,用户查看起来非常方便。
[0037]根据本发明的一个优选实施例,通话转录系统100还可以包括发送装置108,其与加标签装置107相连,用于将最后形成的通话记录文本文件发送给用户。发送装置108可以为电子邮件装置,其利用电子邮件将通话记录文本文件发送给用户。这里,用户可以包括通话双方或其他用户。可根据需要设定用户的电子邮件地址,将通话双方通话的“历史记录”以电子邮件的方式发送给用户,以供用户方便地查询通话内容。
[0038]根据本发明的一个优选实施例,通话转录系统100还可以包括存储器105。其中,存储器105连接在接收装置103和语音识别装置106之间,用于存储接收装置103转换后形成的音频文件。
[0039]根据本发明的一个优选实施例,通话记录文本文件的内容可以包括文本文件的内容、文本文件对应的时间戳和文本文件对应的音频文件在存储器105中的地址。这样,根据发送装置108发送给用户的通话记录文本文件,用户不但可以通过时间戳检索、查询通话记录,还可以根据通话记录文本文件中包含的文本文件对应的音频文件在存储器105中的地址链接到存储器105中对应的音频文件,从而重听对应的通话的语音。例如,在证券买卖应用中,通话的买卖双方可以在通话记录文本文件中查找一个时间点或时间段以查询当时的通话内容,这样就可以根据时间检索到对话历史从而查到关于买卖历史或者某个股票代码的通话内容。另外,重听可以对通话记录文本文件进行校验,纠正通话转录系统自动转录中可能广生的错误。
[0040]本领域普通技术人员可以理解,通话记录文本文件的内容可以不包括文本文件对应的音频文件在存储器105中的地址。此时,加标签装置107可以还用于根据通话记录文本文件和通话记录文本文件中的文本文件对应的音频文件在存储器105中的地址,在存储器105中建立通话数据库,以使用户根据通话记录文本文件来访问通话数据库。其中,该通话数据库中的每个数据项包括:文本文件的内容、文本文件对应的时间戳和文本文件对应的音频文件在存储器105中的地址。这样,根据发送装置108发送给用户的通话记录文本文件,用户可以通过通话记录文本文件中的文本的关键字和/或时间戳等信息,检索该通话数据库来得到对应的音频文件的地址,从而重听对应的通话的语音。例如,用户可以打开收到的通话记录文本文件,查找一个时间点,从而索引到对应的通话记录,查询到通话内容。并且,为了确保通话内容的正确性,可以点击查找到的通话内容对应的音频文件的地址,就可以链接到对应的音频文件从而重听对应的通话的语音,以对通话记录文本文件中的通话内容进行校验。例如,该地址可以是一个超链接。
[0041]根据本发明的一个优选实施例,通话转录系统100也可以包括存储器105而不包括发送装置108,即存储器105连接在接收装置103和语音识别装置106之间,用于存储接收装置103转换后形成的音频文件。并且加标签装置107还用于根据最后形成的通话记录文本文件和通话记录文本文件中的文本文件对应的音频文件在存储器105中的地址,在存储器105中建立通话数据库,该通话数据库具有访问接口以供用户通过网络直接访问。其中,通话数据库中的每个数据项包括:文本文件的内容、文本文件对应的时间戳和文本文件对应的音频文件在存储器105中的地址。这样,无需把最后形成的通话记录文本文件发送给用户,用户可以通过网络直接访问该通话数据库来查询并且重听对应的通话内容。本领域普通技术人员可以理解,上述访问接口可以是WEB前端访问界面。用户可以通过该WEB前端访问界面对该数据库进行访问。具体地,可以对不同用户授予不同权限,使得不同用户能够对该数据库中的文档进行不同操作,例如检索、查看、编辑和删除。本领域普通技术人员可以理解,上述访问接口可以是PHPMYADMIN的数据库访问界面。
[0042]根据本发明的一个优选实施例,通话转录系统100还可以包括切分器104,其连接在接收装置103和语音识别装置106之间,用于将接收装置103转换后形成的音频文件切分为子音频文件以输出到语音识别装置106。语音识别技术通常是基于词汇、短语或较短句子来进行的。切分器104可以把连续大段的通话切分为较短的语句。这样,后续的语音识别处理可以针对切分后的数据进行,大大提高了处理精度。这有效保证了通话转录的质量。
[0043]根据本发明的一个优选实施例,切分器104可以分为检测单元和分割单元,其中,检测单元用于检测接收装置103转换后形成的音频文件中的静音部分,而分割单元用于基于所检测的静音部分将音频文件切分为子音频文件。静音部分是通话中的必不可少的部分,基于静音部分来切分音频文件可以更好地表达说话者的语句含义。这样不会出现断句或半句的情况,避免后续处理出现错误。
[0044]音频文件中的静音部分可以为持续一定时间的分贝值小于或等于噪声阈值的部分。噪声阈值可根据通话双方所在环境的具体情况而定。例如,嘈杂的环境中,噪声阈值可以设置得较高。通过增加所持续的时间长度,噪声可以被视为静音从而被去除。优选地,所持续的时间长度为0.6秒或0.6秒以上。0.6秒是人与人交流的时候句与句之间的大体停顿间隔,选择这个时间段的静音可以较为准确地将人与人的通话内容划分成以自然句为单位的子音频文件,并且可以有效去除噪音,使得接下来的处理过程正确率更高。
[0045]根据本发明的一个优选实施例,通话转录系统100还可以包括存储器105,其连接在切分器104和语音识别装置106之间,用于存储切分器104切分后形成的子音频文件;并且语音识别装置106所转录的子音频文件来自于存储器105。经过存储器105,可以将切分器104切分后形成的子音频文件暂时存入存储器105,以在进入语音识别装置106之前缓冲,使得语音识别装置106接下来进行的转录工作更为顺畅。[0046]根据本发明的一个优选实施例,通话转录系统100还可以包括输入接口和输出接口(未在图1中示出)。其中,输入接口可以连接在外部交换机和接收装置103之间,用于从外部交换机接收输入语音信号,该输入语音信号可以是模拟信号也可以是数字信号。如果是数字信号,其采样频率优选为8000Hz,其量化位数优选为16比特。输出接口可以连接在加标签装置107和用户的个人电脑(PC)之间,用于将最后形成的通话记录文本文件发送给用户。
[0047]根据本发明的一个优选实施例,通话转录系统100还可以包括自动增益控制器101,其与接收装置103相连,用于对输入语音信号进行增益控制。例如,将所接收的输入语音信号的分贝值调节到大致统一的设定值水平。由自动增益控制器101对输入语音信号进行增益控制可以成功避免因说话者音量忽大忽小造成对后续处理的影响。
[0048]优选地,该自动增益控制器101可以包括放大单元和缩小单元。其中,当所接收的输入语音信号的分贝值小于设定值时,放大单元用于将分贝值小于该设定值的输入语音信号放大至该设定值;反之,当所接收的输入语音信号的分贝值大于该设定值时,缩小单元将分贝值大于该设定值的输入语音信号缩小至该设定值。此设定值可根据实际需要自由限定。
[0049]根据本发明的一个优选实施例,通话转录系统100还可以包括滤波器102,其与接收装置103相连,用于对输入语音信号进行降噪处理。降噪处理可以采用滤波的方法。滤波可以从连续的或离散的输入数据中滤除噪声和干扰以提取有用信息。优选地,滤波器102可以是维纳滤波器以取得良好的滤波效果。
[0050]总之,自动增益控制器101和滤波器102均可以使输入语音信号便于被识别并且提高识别和翻译的正确率。
[0051]另外,值得注意的是,以上术语“连接”和“相连”可以表示各个装置之间的直接连接,也可以表示间接连接,图1中只示出了通话转录系统100的不同装置之间的一种连接方式,还可以有其它的连接方式。例如,自动增益控制器101可以直接连接接收装置103,滤波器102连接在自动增益控制器101和外部交换机之间。
[0052]本领域普通技术人员可以理解,在上述实施例中,存储器105可以用来存储接收装置103转换后形成的音频文件,也可以用来存储通话数据库,还可以用来存储切分器104对接收装置转换后形成的音频文件进行切分后产生的子音频文件。本领域普通技术人员可以理解,音频文件、通话数据库以及子音频文件还可以由不同的存储器存储。
[0053]根据本发明的另一方面,还提供了一种通话转录方法。图3示出了根据本发明一个优选实施例的通话转录方法300的流程图。如图3所示,该通话转录方法300包括转换步骤303、语音转文本步骤306和加标签步骤307。其中,转换步骤303将输入语音信号转换为音频文件;语音转文本步骤306将转换步骤303转换后形成的音频文件转录为文本文件;加标签步骤307为语音转文本步骤306转录后形成的文本文件加上对应的音频文件的时间戳并根据时间戳将加上时间戳后的所有文本文件排序并且合并为通话记录文本文件。
[0054]根据本发明的一个优选实施例,加标签步骤307之后还包括发送步骤308,用于将通话记录文本文件发送给用户。
[0055]根据本发明的一个优选实施例,将转换步骤303之后还包括存储步骤305,用于将音频文件存储至存储器。[0056]根据本发明的一个优选实施例,通话记录文本文件的内容包括文本文件的内容、文本文件对应的时间戳和文本文件对应的音频文件在存储器中的地址。
[0057]根据本发明的一个优选实施例,加标签步骤307之后还包括根据通话记录文本文件和通话记录文本文件中的文本文件对应的音频文件在存储器中的地址,在存储器中建立通话数据库,以使用户根据通话记录文本文件来访问所述通话数据库。其中,该通话数据库中每个数据项包括:文本文件的内容、文本文件对应的时间戳和文本文件对应的音频文件在存储器中的地址。
[0058]根据本发明的一个优选实施例,转换步骤303之后还包括存储步骤305,用于将音频文件存储至存储器,并且加标签步骤307之后还包括根据通话记录文本文件和通话记录文本文件中的文本文件对应的音频文件在存储器中的地址,在存储器中建立通话数据库,该通话数据库具有访问接口以供用户通过网络直接访问。其中,该通话数据库中每个数据项包括:文本文件的内容、文本文件对应的时间戳和文本文件对应的音频文件在存储器中的地址。
[0059]根据本发明的一个优选实施例,转换步骤303之后还可以包括切分步骤304,用于将转换步骤303转换后形成的音频文件切分为子音频文件。
[0060]根据本发明的一个优选实施例,转换步骤303之前还可以包括增益控制步骤301和/或降噪处理步骤302,以对输入语音信号进行增益控制和/或降噪处理。
[0061]另外,本领域普通技术人员可以理解,图3示出了根据本发明一个优选实施例的通话转录方法步骤的一种执行顺序,该顺序可以进行调整。例如,增益控制步骤301可以在降噪处理步骤302之后执行。
[0062]图4示出了包括根据本发明一个优选实施例的通话转录系统的通话系统的优选实施例的示意图。该通话系统400包括用户通话所使用的电话401和电话402、公用电话交换网(PSTN) 403、专用交换机(IP PBX) 404和本发明所提供的通话转录系统405。其中,用户通话所使用的电话401和电话402也可以替换为智能终端,相应地,PSTN 403也可以替换为互联网语音传输协议(VOIP)网络。
[0063]如图4所示,通话的双方分别为用户I和用户2。其中,打电话的一方,例如,用户1,通过PSTN 403拨号呼叫用户2。IP PBX 404建立双方的呼叫连接。随后,用户I和用户2开始通话,其各自发出的语音经IP PBX404进入通话转录系统405,经转录后的最终形成的通话记录文本通过网络或电子邮件传送到用户的个人电脑406。用户I和用户2以及其他有需要的用户可以通过用于通话转录的系统405形成的通话记录文本方便地检索和查询通话内容。
[0064]本发明已经通过上述实施例进行了说明,但应当理解的是,上述实施例只是用于举例和说明的目的,而非意在将本发明限制于所描述的实施例范围内。此外本领域技术人员可以理解的是,本发明并不局限于上述实施例,根据本发明的教导还可以做出更多种的变型和修改,这些变型和修改均落在本发明所要求保护的范围以内。本发明的保护范围由附属的权利要求书及其等效范围所界定。
【权利要求】
1.一种通话转录系统,包括接收装置、语音识别装置和加标签装置,其中, 所述接收装置用于连接到交换机并将输入语音信号转换为音频文件; 所述语音识别装置与所述接收装置相连,用于将所述音频文件转录为文本文件;以及所述加标签装置与所述语音识别装置相连,用于为所述文本文件加上对应的音频文件的时间戳,并根据所述时间戳将加上时间戳后的所有文本文件排序并且合并为通话记录文本文件。
2.根据权利要求1所述的通话转录系统,其特征在于,所述通话转录系统还包括: 发送装置,其与所述加标签装置相连,用于将所述通话记录文本文件发送给用户。
3.根据权利要求2所述的通话转录系统,其特征在于,所述通话转录系统还包括: 存储器,其连接在所述接收装置和所述语音识别装置之间,用于存储所述音频文件。
4.根据权利要求3所述的通话转录系统,其特征在于,所述通话记录文本文件的内容包括所述文本文件的内容、所述文本文件对应的时间戳和所述文本文件对应的音频文件在所述存储器中的地址。
5.根据权利要求3所述的通话转录系统,其特征在于,所述加标签装置还用于根据所述通话记录文本文件和所述通话记录文本文件中的所述文本文件对应的音频文件在所述存储器中的地址,在所述存储器中建立通话数据库,以使所述用户根据所述通话记录文本文件来访问所述通话数据库; 其中,所述通话数据库中每个数据项包括:所述文本文件的内容、所述文本文件对应的时间戳和所述文本文件对应的音频文件在所述存储器中的所述地址。
6.根据权利要求1所述·的通话转录系统,其特征在于,所述通话转录系统还包括: 存储器,其连接在所述接收装置和所述语音识别装置之间,用于存储所述音频文件;并且 所述加标签装置还用于根据所述通话记录文本文件和所述通话记录文本文件中的所述文本文件对应的音频文件在所述存储器中的地址,在所述存储器中建立通话数据库,所述通话数据库具有访问接口以供用户通过网络直接访问; 其中,所述通话数据库中每个数据项包括:所述文本文件的内容、所述文本文件对应的时间戳和所述文本文件对应的音频文件在所述存储器中的所述地址。
7.根据权利要求1所述的通话转录系统,其特征在于,所述通话转录系统还包括: 切分器,其连接在所述接收装置和所述语音识别装置之间,用于将所述音频文件切分为子音频文件以输出到所述语音识别装置。
8.根据权利要求7所述的通话转录系统,其特征在于,所述切分器进一步包括: 检测单元,用于检测所述音频文件中的静音部分;以及 分割单元,用于基于所检测的静音部分将所述音频文件切分为所述子音频文件。
9.根据权利要求8所述的通话转录系统,其特征在于,所述静音部分包括在0.6秒或0.6秒以上的时间段内分贝值小于或等于噪声阈值的部分。
10.根据权利要求7所述的通话转录系统,其特征在于,所述通话转录系统还包括: 存储器,其连接在所述切分器和所述语音识别装置之间,用于存储所述子音频文件;并且 所述语音识别装置所转录的子音频文件来自于所述存储器。
11.根据权利要求1所述的通话转录系统,其特征在于,所述通话转录系统还包括: 自动增益控制器,其与所述接收装置相连,用于对所述输入语音信号进行增益控制。
12.根据权利要求1所述的通话转录系统,其特征在于,所述通话转录系统还包括: 滤波器,其与所述接收装置相连,用于对所述输入语音信号进行降噪处理。
13.一种通话转录方法,包括: 将输入语音信号转换为音频文件; 将所述音频文件转录为文本文件; 为所述文本文件加上对应的音频文件的时间戳;以及 根据所述时间戳将加上时间戳后的所有文本文件排序并且合并为通话记录文本文件。
14.根据权利要求13所述的通话转录方法,其特征在于,所述合并为通话记录文本文件之后还包括: 将所述通话记录文本文件发送给用户。
15.根据权利要求14所述的通话转录方法,其特征在于, 所述将输入语音信号转换为音频文件之后还包括将所述音频文件存储至存储器。
16.根据权利要求15所述的通话转录方法,其特征在于,所述通话记录文本文件的内容包括所述文本文件的内容、所述文本文件对应的时间戳和所述文本文件对应的音频文件在所述存储器中的地址。·
17.根据权利要求15所述的通话转录方法,其特征在于,所述合并为通话记录文本文件之后还包括: 根据所述通话记录文本文件和所述通话记录文本文件中的文本文件对应的音频文件在所述存储器中的地址,在所述存储器中建立通话数据库,以使所述用户根据所述通话记录文本文件来访问所述通话数据库; 其中,所述通话数据库中每个数据项包括:所述文本文件的内容、所述文本文件对应的时间戳和所述文本文件对应的音频文件在所述存储器中的所述地址。
18.根据权利要求13所述的通话转录方法,其特征在于, 所述将输入语音信号转换为音频文件之后还包括将所述音频文件存储至存储器;并且 所述合并为通话记录文本文件之后还包括: 根据所述通话记录文本文件和所述通话记录文本文件中的文本文件对应的音频文件在所述存储器中的地址,在所述存储器中建立通话数据库,所述通话数据库具有访问接口以供用户通过网络直接访问; 其中,所述通话数据库中每个数据项包括:所述文本文件的内容、所述文本文件对应的时间戳和所述文本文件对应的音频文件在所述存储器中的所述地址。
19.根据权利要求13所述的通话转录方法,其特征在于,将输入语音信号转换为音频文件之后还包括: 将所述音频文件切分为子音频文件。
20.根据权利要求13所述的通话转录方法,其特征在于,将输入语音信号转换为音频文件之前还包括:对所述输入语音信号进行增益控制和/或降噪处理。
【文档编号】G06F17/30GK103856602SQ201210515005
【公开日】2014年6月11日 申请日期:2012年12月4日 优先权日:2012年12月4日
【发明者】钟实, 袁首鹏 申请人:Itp创新科技有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1