语音转换文字的方法、装置、计算机设备及存储介质与流程

文档序号：17652117发布日期：2019-05-15 21:32阅读：202来源：国知局

导航： X技术> 最新专利>乐器;声学设备的制造及制作,分析技术

本发明实施例涉及金融领域，尤其是一种语音转换文字方法、装置、计算机设备及存储介质。

背景技术：

语音识别是一项应用较为发展十分迅速，在工业、家电、通信、汽车电子、医疗、家庭服务、消费电子产品等各个领域有着广阔的应用场景。语音识别技术所涉及的领域包括：信号处理、模式识别、概率论和信息论、发声机理和听觉机理、人工智能等等。

现有技术中，可以通过语音识别将语音转换成文字。但是，在识别的过程中，当用户说话连贯或者在一些场景中，多个人交谈时，将语音转换成文字后，文字没有断句，且不能辨别说话人，导致语音转换后的文字存在歧义或误解。

技术实现要素：

本发明实施例提供一种语音转换文字方法、装置、计算机设备及存储介质。

为解决上述技术问题，本发明创造的实施例采用的一个技术方案是：提供一种语音转换文字方法，包括下述步骤：

获取待处理的语音信息；

按照预设的断句规则将所述语音信息进行分段；

将分段后的语音信息转换为文字。

可选地，所述按照预设的断句规则将所述语音信息进行分段，包括：

检测所述语音信息中的分贝值；

当所述语音信息中的分贝值小于预设分贝值时，将所述分贝值小于所述预设分贝值的位置作为所述语音信息的第一分段点；

按照所述第一分段点对所述语音信息进行分段。

可选地，所述将所述分贝值小于所述预设分贝值的位置作为所述语音信息的第一分段点，包括：

判断所述语音信息中分贝值小于所述预设分贝值的语音时长；

当所述语音时长大于预设时长时，获取分贝值小于所述预设分贝值的语音片段；

将所述语音片段中的任意时刻作为所述第一分段点。

可选地，所述按照预设的断句规则将所述语音信息进行分段，包括：

判断所述语音信息中是否发生音色变化；

当所述语音信息中发生音色变化时，将音色变化的位置作为所述语音信息的第二分段点；

按照所述第二分段点对所述语音信息进行分段。

可选地，所述将分段后的语音信息转换为文字，包括：

对分段后的具有相同音色的语音信息进行音色标记；

通过预设的语音转换软件将标记后已分段的语音转换为文字；

按照所述音色标记对转换后的文字进行角色标记。

可选地，所述将分段后的语音信息转换为文字，包括：

通过预设的语音转换软件将分段后的语音转换为目标文字；

获取所述目标文字中的语气关键词；

在预设的信息表中查找与所述语气关键词具有映射关系的标点符号，并将所述标点符号添加到所述目标文字后。

可选地，所述获取待处理的语音信息，包括：

采集用户的语音信息；

按照预设的处理软件对所述语音信息进行降噪处理。

为解决上述技术问题，本发明实施例还提供一种语音转换文字装置，包括：

获取模块，用于获取待处理的语音信息；

处理模块，用于按照预设的断句规则将所述语音信息进行分段；

执行模块，用于将分段后的语音信息转换为文字。

可选地，所述处理模块包括：

第一处理子模块，用于检测所述语音信息中的分贝值；

第二处理子模块，用于当所述语音信息中的分贝值小于预设分贝值时，将所述分贝值小于所述预设分贝值的位置作为所述语音信息的第一分段点；

第一执行子模块，用于按照所述第一分段点对所述语音信息进行分段。

可选地，所述第二处理子模块包括：

第三处理子模块，用于判断所述语音信息中分贝值小于所述预设分贝值的语音时长；

第一获取子模块，用于当所述语音时长大于预设时长时，获取分贝值小于所述预设分贝值的语音片段；

第二执行子模块，用于将所述语音片段中的任意时刻作为所述第一分段点。

可选地，所述处理模块包括：

第四处理子模块，用于判断所述语音信息中是否发生音色变化；

第五处理子模块，用于当所述语音信息中发生音色变化时，将音色变化的位置作为所述语音信息的第二分段点；

第三执行子模块，用于按照所述第二分段点对所述语音信息进行分段。

可选地，所述执行模块包括：

第六处理子模块，用于对分段后的具有相同音色的语音信息进行音色标记；

第七处理子模块，用于通过预设的语音转换软件将标记后已分段的语音转换为文字；

第四执行子模块，用于按照所述音色标记对转换后的文字进行角色标记。

可选地，所述执行模块包括：

第八处理子模块，用于通过预设的语音转换软件将分段后的语音转换为目标文字；

第二获取子模块，用于获取所述目标文字中的语气关键词；

第五执行子模块，用于在预设的信息表中查找与所述语气关键词具有映射关系的标点符号，并将所述标点符号添加到所述目标文字后。

可选地，所述获取模块包括：

第三获取子模块，用于采集用户的语音信息；

第九处理子模块，用于按照预设的处理软件对所述语音信息进行降噪处理。

为解决上述技术问题，本发明实施例还提供一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机可读指令，所述计算机可读指令被所述处理器执行时，使得所述处理器执行上述所述语音转换文字方法的步骤。

为解决上述技术问题，本发明实施例还提供一种存储有计算机可读指令的存储介质，所述计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行上述所述语音转换文字方法的步骤。

本发明实施例的有益效果是：通过预设的断句规则将语音信息进行分段，并按照分段后的语音信息转换为文字，通过对文字进行分段可以增加文字的可读性，避免出现不必要的误读或者歧义。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例语音转换文字方法的基本流程示意图；

图2为本发明实施例提供的按照预设的断句规则将语音信息进行分段的方法的基本流程示意图；

图3为本发明实施例提供的将分贝值小于预设分贝值的位置作为语音信息的第一分段点的方法的基本流程示意图；

图4为本发明实施例提供的一种按照预设的断句规则将语音信息进行分段的方法的基本流程示意图；

图5为本发明实施例提供的一种将分段后的语音信息转换为文字的方法的基本流程示意图；

图6为本发明实施例提供的一种将分段后的语音信息转换为文字的方法的基本流程示意图；

图7为本发明实施例语音转换文字装置基本结构框图；

图8为本发明实施例计算机设备基本结构框图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。

在本发明的说明书和权利要求书及上述附图中的描述的一些流程中，包含了按照特定顺序出现的多个操作，但是应该清楚了解，这些操作可以不按照其在本文中出现的顺序来执行或并行执行，操作的序号如101、102等，仅仅是用于区分开各个不同的操作，序号本身不代表任何的执行顺序。另外，这些流程可以包括更多或更少的操作，并且这些操作可以按顺序执行或并行执行。需要说明的是，本文中的“第一”、“第二”等描述，是用于区分不同的消息、设备、模块等，不代表先后顺序，也不限定“第一”和“第二”是不同的类型。

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例

本技术领域技术人员可以理解，这里所使用的“终端”、“终端设备”既包括无线信号接收器的设备，其仅具备无发射能力的无线信号接收器的设备，又包括接收和发射硬件的设备，其具有能够在双向通信链路上，执行双向通信的接收和发射硬件的设备。这种设备可以包括：蜂窝或其他通信设备，其具有单线路显示器或多线路显示器或没有多线路显示器的蜂窝或其他通信设备；pcs(personalcommunicationsservice，个人通信系统)，其可以组合语音、数据处理、传真和/或数据通信能力；pda(personaldigitalassistant，个人数字助理)，其可以包括射频接收器、寻呼机、互联网/内联网访问、网络浏览器、记事本、日历和/或gps(globalpositioningsystem，全球定位系统)接收器；常规膝上型和/或掌上型计算机或其他设备，其具有和/或包括射频接收器的常规膝上型和/或掌上型计算机或其他设备。这里所使用的“终端”、“终端设备”可以是便携式、可运输、安装在交通工具(航空、海运和/或陆地)中的，或者适合于和/或配置为在本地运行，和/或以分布形式，运行在地球和/或空间的任何其他位置运行。这里所使用的“终端”、“终端设备”还可以是通信终端、上网终端、音乐/视频播放终端，例如可以是pda、mid(mobileinternetdevice，移动互联网设备)和/或具有音乐/视频播放功能的移动电话，也可以是智能电视、机顶盒等设备。

本实施方式中的客户终端即为上述的终端。

具体地，请参阅图1，图1为本实施例语音转换文字方法的基本流程示意图。

如图1所示，语音转换文字方法包括下述步骤：

s1100、获取待处理的语音信息；

待处理的语音信息为需要转化为文字信息的语音信息，通常情况下，为了提高文字转化的准确性，待处理的语音信息一般为经过降噪处理的语音信息。具体地，获取待处理的语音信息包括：采集用户的语音信息，并按照预设的处理软件对语音信息进行降噪处理。

在采集用户的语音信息时可以通过终端内置的语音录制模块输入语音信息，也可以通过下载或者接收其它终端发送的语音信息来获取。在对语音信息进行降噪处理时，可以利用的预设的音频处理软件进行处理，例如，adobeauditioncs6，vinylstudio等。

s1200、按照预设的断句规则将语音信息进行分段；

预设的断句规则为预先设定的将语音信息进行分段的规则，例如，按照语音信息中的停顿的位置将语音信息分为多段，当语音信息中出现多个角色的语音时，按照音色对语音信息进行分段。

s1300、将分段后的语音信息转换为文字。

本发明实施例中，可以通过终端中内置的文字转换软件，将分段后的语音信息转换为文字，例如，swiftscribe软件。

上述语音转换文字的方法，通过预设的断句规则将语音信息进行分段，并按照分段后的语音信息转换为文字，通过对文字进行分段可以增加文字的可读性，避免出现不必要的误读或者歧义。

在实际应用中，用户通过终端输入语音信息的时候，按照人的说话习惯会出现停顿，因此，为了将语音信息按照自然的说话习惯进行断句，本发明实施例提供了一种按照预设的断句规则将语音信息进行分段的方法，如图2所示，图2为本发明实施例提供的按照预设的断句规则将语音信息进行分段的方法的基本流程示意图。

具体地，如图2所示，步骤s1200具体包括下述步骤：

s1211、检测语音信息中的分贝值；

s1212、当语音信息中的分贝值小于预设分贝值时，将分贝值小于预设分贝值的位置作为语音信息的第一分段点；

本发明实施例中，终端通过预设的分贝检测软件检测语音信息的分贝值，例如，soundmeter2.0，digitalsoundmeter等。

预设的分贝值为预先设定的，当语音信息中出现用户说话停顿时该处的分贝值较低，鉴于环境中存在噪音，可将预设的分贝值设定为鉴于高于环境噪音的分贝值且低于正常说话时的声音即可。

本发明实施例还提供了一种将分贝值小于预设分贝值的位置作为语音信息的第一分段点的方法，如图3所示，图3为本发明实施例提供的将分贝值小于预设分贝值的位置作为语音信息的第一分段点的方法的基本流程示意图。

具体地，如图3所示，步骤s1212包括下述步骤：

s12121、判断语音信息中分贝值小于预设分贝值的语音时长；

在实际应用中，由于人们说话时每个字之间存在时间间隔，一般情况下，在完整的语句表达完之后的停顿才是本发明实施例中的分段，因此，在确定第一分段点的过程中，当语音信息中的存在某一时刻的分贝值小于预设的分贝值时，判断以该时刻为起始点的语音片段中分贝值均小于预设分贝值时，该语音片段的时长是否大于预设的时长。本发明实施例中的语音时长即为上述分贝值小于预设分贝值的语音片段的时长。

s12122、当语音时长大于预设时长时，获取分贝值小于预设分贝值的语音片段；

本发明实施例中，获取分贝值小于预设分贝值的语音片段时，只需获取该语音片段在语音信息中的时间未知即可。

s12123、将语音片段中的任意时刻作为第一分段点。

以下对上述内容进行举例说明，例如，分贝检测软件检测到语音信息中2s处的分贝低于预设分贝值，此时，从2s为起始点，即语音信息中2-3s的语音片段的分贝值均低于预设分贝值，判断2-3s的语音片段的时长1s大于预设时长0.5s，因此，确定2-3s的语音片段中任意时刻，即2.5s处，3s处等均可作为第一分段点。

如此，可以准确的确定第一分段点，避免出现随意断开语句的问题出现。

s1213、按照第一分段点对语音信息进行分段。

本发明实施例中，按照第一分段点，即分贝值均小于预设分贝值的语音片段中任意时刻的点将语音信息分割为多个语音片段。需要说明的是，在分段后对每个语音片段按照原来在语音信息中的位置进行排序，以保持连贯性。

在实际应用中，语音信息中经常会出现多人聊天的场景，例如，采访，会议记录等。在这种情况下，为了增强转换后的文字信息的本发明实施例提供一种按照预设的断句规则将语音信息进行分段的方法，如图4所示，图4为本发明实施例提供的一种按照预设的断句规则将语音信息进行分段的方法的基本流程示意图。

具体地，如图4所示，步骤s1220包括下述步骤：

s1221、判断语音信息中是否发生音色变化；

本发明实施例中可以利用内置的音色检测软件检测语音信息中是否有音色变化，例如，polyphone软件等。

s1222、当语音信息中发生音色变化时，将音色变化的位置作为语音信息的第二分段点；

s1223、按照第二分段点对语音信息进行分段。

本发明实施例中，当语音信息中发生音色变化时，提取语音信息中音色变化的时间点，并将该时间点作为语音信息的第二分段点。

需要解释的是，在实际应用中同一个语音信息会出现图2所示的实施例和本实施例中的情况，即同时存在第一分段点和第二分段点的情况，此时，按照第一分段点和第二分段点对语音信息进行分段，以并对分段后的语音片段按照在语音信息中的顺序进行排序，以避免出现分段后的文字混乱的情形。

当语音信息中出现多个角色(即音色)时，按照第二分段点将语音信息分为多段，以及将分段后的语音片段转换为文字后，在读者阅读的过程中由于不了解角色，容易搞混每个角色所说的话，为了解决这个问题，本发明实施例提供了一种将分段后的语音信息转换为文字的方法，如图5所示，图5为本发明实施例提供的一种将分段后的语音信息转换为文字的方法的基本流程示意图。

具体地，如图5所示，步骤s1300包括以下步骤：

s1311、对分段后的具有相同音色的语音信息进行音色标记；

当语音信息中包括多个角色时，即不同的音色时，对音色进行标记，例如，语音信息中包括两个角色a和b，a采用a进行标记，b采用b进行标记，进而对角色进行区分。

s1312、通过预设的语音转换软件将标记后已分段的语音转换为文字；

s1313、按照音色标记对转换后的文字进行角色标记。

本发明实施例中，通过内置的语音转换软件将分段后的每段语音按照顺序转换为文字，并在每段文字的段首标记角色，如此可以使读者清楚的了解每段文字是由哪个角色说出的，提高了文字的可读性。

在实际应用中，为了增加转换后文字的可读性，为读者提供良好的阅读体验，本发明实施例提供另一种将分段后的语音信息转换为文字的方法，如图6所示，图6为本发明实施例提供的一种将分段后的语音信息转换为文字的方法的基本流程示意图。

具体地，如图6所示，步骤s1300包括下述步骤：

s1321、通过预设的语音转换软件将分段后的语音转换为目标文字；

语音转换软件包括swiftscribe，ibmviavoice等软件。

s1322、获取目标文字中的语气关键词；

本发明实施例中，终端预设有语气词汇数据库，在获取目标文字的语气关键词时，终端将语气词汇数据库中的词汇与目标文字中的词汇进行比对，当目标文字中存在与语气词汇数据库相同的词汇时，提取该词汇，并将该词汇作为目标文字的语气关键词。

s1323、在预设的信息表中查找与语气关键词具有映射关系的标点符号，并将标点符号添加到目标文字后。

信息表中记载了语气词汇与标点符号的对应关系，例如，通常在语句中出现“什么”时表示发问，在句末应该使用“？”，在语句末尾出现“啊”时，一般为感叹，应该在句末应该使用“！”。如此，在信息表中语气词汇“什么”与“？”具有映射关系，“啊”与“！”具有映射关系。

在实际应用中，根据语境的不同，不同的语气词汇表示的情绪各不相同，例如，“啊”还可以表示发问。为了更加精确的添加标点符号，还可以对语句的结构以及上下文语义进行分析，以确定句末的标点符号，在此不再赘述。

为解决上述技术问题本发明实施例还提供一种语音转换文字装置。具体请参阅图7，图7为本实施例语音转换文字装置基本结构框图。

如图7所示，一种语音转换文字装置，包括：获取模块2100、处理模块2200和执行模块2300。其中，获取模块2100，用于获取待处理的语音信息；处理模块2200，用于按照预设的断句规则将所述语音信息进行分段；执行模块2300，用于将分段后的语音信息转换为文字。

语音转换文字装置通过预设的断句规则将语音信息进行分段，并按照分段后的语音信息转换为文字，通过对文字进行分段可以增加文字的可读性，避免出现不必要的误读或者歧义。

在一些实施方式中，所述处理模块包括：第一处理子模块，用于检测所述语音信息中的分贝值；第二处理子模块，用于当所述语音信息中的分贝值小于预设分贝值时，将所述分贝值小于所述预设分贝值的位置作为所述语音信息的第一分段点；第一执行子模块，用于按照所述第一分段点对所述语音信息进行分段。

在一些实施方式中，所述第二处理子模块包括：第三处理子模块，用于判断所述语音信息中分贝值小于所述预设分贝值的语音时长；第一获取子模块，用于当所述语音时长大于预设时长时，获取分贝值小于所述预设分贝值的语音片段；第二执行子模块，用于将所述语音片段中的任意时刻作为所述第一分段点。

在一些实施方式中，所述处理模块包括：第四处理子模块，用于判断所述语音信息中是否发生音色变化；第五处理子模块，用于当所述语音信息中发生音色变化时，将音色变化的位置作为所述语音信息的第二分段点；第三执行子模块，用于按照所述第二分段点对所述语音信息进行分段。

在一些实施方式中，所述执行模块包括：第六处理子模块，用于对分段后的具有相同音色的语音信息进行音色标记；第七处理子模块，用于通过预设的语音转换软件将标记后已分段的语音转换为文字；第四执行子模块，用于按照所述音色标记对转换后的文字进行角色标记。

在一些实施方式中，所述执行模块包括：第八处理子模块，用于通过预设的语音转换软件将分段后的语音转换为目标文字；第二获取子模块，用于获取所述目标文字中的语气关键词；第五执行子模块，用于在预设的信息表中查找与所述语气关键词具有映射关系的标点符号，并将所述标点符号添加到所述目标文字后。

在一些实施方式中，所述获取模块包括：第三获取子模块，用于采集用户的语音信息；第九处理子模块，用于按照预设的处理软件对所述语音信息进行降噪处理。

为解决上述技术问题，本发明实施例还提供计算机设备。具体请参阅图8，图8为本实施例计算机设备基本结构框图。

如图8所示，计算机设备的内部结构示意图。如图8所示，该计算机设备包括通过系统总线连接的处理器、非易失性存储介质、存储器和网络接口。其中，该计算机设备的非易失性存储介质存储有操作系统、数据库和计算机可读指令，数据库中可存储有控件信息序列，该计算机可读指令被处理器执行时，可使得处理器实现一种语音转换文字方法。该计算机设备的处理器用于提供计算和控制能力，支撑整个计算机设备的运行。该计算机设备的存储器中可存储有计算机可读指令，该计算机可读指令被处理器执行时，可使得处理器执行一种语音转换文字方法。该计算机设备的网络接口用于与终端连接通信。本领域技术人员可以理解，图8中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

本实施方式中处理器用于执行图7中获取模块2100、处理模块2200和执行模块2300的具体内容，存储器存储有执行上述模块所需的程序代码和各类数据。网络接口用于向用户终端或服务器之间的数据传输。本实施方式中的存储器存储有语音转换文字方法中执行所有子模块所需的程序代码及数据，服务器能够调用服务器的程序代码及数据执行所有子模块的功能。

计算机设备通过预设的断句规则将语音信息进行分段，并按照分段后的语音信息转换为文字，通过对文字进行分段可以增加文字的可读性，避免出现不必要的误读或者歧义。。

本发明还提供一种存储有计算机可读指令的存储介质，所述计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行上述任一实施例所述语音转换文字方法的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，该计算机程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，前述的存储介质可为磁碟、光盘、只读存储记忆体(read-onlymemory，rom)等非易失性存储介质，或随机存储记忆体(randomaccessmemory，ram)等。

应该理解的是，虽然附图的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，其可以以其他的顺序执行。而且，附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，其执行顺序也不必然是依次进行，而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

以上所述仅是本发明的部分实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：胡大兵
技术所有人：平安科技（深圳）有限公司
我是此专利的发明人

上一篇：一种自动充气机的轮胎上料装置的制作方法
上一篇：一种芒果种植方法与流程