智能提词方法及装置与流程

文档序号：31407856发布日期：2022-09-03 07:43阅读：87来源：国知局

1.本公开涉及数据处理技术领域，具体涉及到一种智能提词方法及装置。

背景技术：

2.在用户读稿过程中，可能需要中途脱稿，然后再回到原稿件朗读，此过程需要进行文本追踪以方便用户回到原稿件对应的位置进行朗读。
3.相关技术中，文本跟踪精度低，导致文本的定位错误率高。

技术实现要素：

4.本公开的主要目的在于提供一种智能提词方法及装置。
5.为了实现上述目的，根据本公开的第一方面，提供了一种智能提词方法，包括：对实时获取的语音实时转化为文本，并当文本达到第一预设长度后作为待匹配文本；在第一匹配模式下，利用滑动窗口对所述待匹配文本、以及与其对应源文本进行动态匹配，其中，所述滑动窗口在所述源文本上以动态的步幅移动；在第一匹配模式下，如果动态匹配得到的匹配度大于或等于预设阈值，则切入第二匹配模式，并将当前滑动窗口的结束位置处之后的文本作为待匹配的源文本；在第二匹配模式下，对当前语音实时转化为第二预设长度的新文本，将新文本、待匹配的源文本中第三预设长度的文本进行匹配，其中，所述第三预设长度大于第二预设长度、并且第二预设长度小于第一预设长度；如果匹配成功，则对第三预设长度之后的待匹配源文本进行可视化编辑。
6.可选地，方法还包括：如果匹配不成功，则重新在第二匹配模式下进行匹配；和/或，当匹配不成功的次数达到n次、或者匹配后的匹配度不符合预设值，则重新在第一匹配模式下进行匹配。
7.可选地，滑动窗口在所述源文本上以动态的步幅移动包括：如果待匹配文本、以及与其对应源文本匹配度低于预设匹配度阈值，则将当前的步幅调大；如果待匹配文本、以及与其对应源文本匹配度大于预设匹配度阈值，则将当前的步幅调小。
8.可选地，在第一匹配模式下，如果匹配度小于预设阈值，则删除待匹配内容；实时获取当前新的语音并实时转化为新文本，并当该新文本达到第一预设长度后作为新待匹配文本；在第一模式下，利用滑动窗口对所述新待匹配文本、以及与其对应源文本进行动态匹配。
9.可选地，在第一匹配模式下，基于最长公共子序列、与待匹配文本的长度确定第一匹配模式下的匹配度，其中，所述最长公共子序列为源文本中能与待匹配文本匹配上的最大长度的文本。
10.可选地，方法还包括：预先将源文本转化为无标点符号的文本，并将无标点符号的文本中文字的各个位置与源文本中相应文字的位置进行映射。
11.根据本公开的第二方面，提供了一种智能提词装置，包括：语音识别单元，被配置成对实时获取的语音实时转化为文本，并当文本达到第一预设长度后作为待匹配文本；第
一匹配单元，被配置成在第一匹配模式下，利用滑动窗口对所述待匹配文本、以及与其对应源文本进行动态匹配，其中，所述滑动窗口在所述源文本上以动态的步幅移动；第二匹配单元，被配置成在第一匹配模式下，如果动态匹配得到的匹配度大于或等于预设阈值，则切入第二匹配模式，并将当前滑动窗口的结束位置处之后的文本作为待匹配的源文本；在第二匹配模式下，对当前语音实时转化为第二预设长度的新文本，将新文本、待匹配的源文本中第三预设长度的文本进行匹配，其中，所述第三预设长度大于第二预设长度、并且第二预设长度小于第一预设长度；文本修饰单元，被配置成如果匹配成功，则对第三预设长度之后的待匹配源文本进行可视化编辑。
12.可选地，所述装置还被配置成：如果匹配不成功，则重新在第二匹配模式下进行匹配；和/或，当匹配不成功的次数达到n次、或者匹配后的匹配度不符合预设值，则重新在第一匹配模式下进行匹配。
13.根据本公开的第三方面，提供了一种计算机可读存储介质，存储有计算机指令，所述计算机指令用于使所述计算机执行第一方面任意一项实现方式所述的智能提词方法。
14.根据本公开的第四方面，提供了一种电子设备，包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的计算机程序，所述计算机程序被所述至少一个处理器执行，以使所述至少一个处理器执行第一方面任意一项实现方式所述的智能提词方法。
15.在本公开实施例智能提词方法及装置中，包括：对实时获取的语音实时转化为文本，并当文本达到第一预设长度后作为待匹配文本；在第一匹配模式下，利用滑动窗口对所述待匹配文本、以及与其对应源文本进行动态匹配，其中，所述滑动窗口在所述源文本上以动态的步幅移动；在第一匹配模式下，如果动态匹配得到的匹配度大于或等于预设阈值，则切入第二匹配模式，并将当前滑动窗口的结束位置处之后的文本作为待匹配的源文本；在第二匹配模式下，对当前语音实时转化为第二预设长度的新文本，将新文本、待匹配的源文本中第三预设长度的文本进行匹配，其中，所述第三预设长度大于第二预设长度、并且第二预设长度小于第一预设长度；如果匹配成功，则对第三预设长度之后的待匹配源文本进行可视化编辑。通过动态自适应滑动窗口搜索，多模式处理提高了了智能提词的准确度，解决了语音识别率达不到100％导致提词不准确问题。
附图说明
16.为了更清楚地说明本公开具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本公开的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
17.图1是根据本公开实施例的智能提词方法流程图；
18.图2-图6是根据本公开实施例的智能提词方法应用示意图；
19.图7是根据本公开实施例的电子设备的示意图。
具体实施方式
20.为了使本技术领域的人员更好地理解本公开方案，下面将结合本公开实施例中的
附图，对本公开实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本公开一部分的实施例，而不是全部的实施例。基于本公开中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本公开保护的范围。
21.需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
22.需要说明的是，在不冲突的情况下，本公开中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本公开。
23.根据本公开实施例，提供了一种智能提词方法，如图1所示，该方法包括如下的步骤101至步骤105：
24.步骤101：对实时获取的语音实时转化为文本，并当文本达到第一预设长度后作为待匹配文本。
25.在本实施例中，可以通过语音识别技术对语音播报的自然语言进行文本识别，当积累文本到第一预设长度后(例如，10个字符，该第一预设长度可以被配置)可以作为待匹配文本，进入第一匹配模式serching模式。第一匹配模式用于大范围、快速的匹配。
26.步骤102：在第一匹配模式下，利用滑动窗口对所述待匹配文本、以及与其对应源文本进行动态匹配，其中，所述滑动窗口在所述源文本上以动态的步幅移动。
27.在本实施例中，为了加快文本搜索速度，本实施例使用滑动窗口的方式进行动态文本查找(匹配)，并且滑动窗口的滑动步幅可以根据当前匹配度进行动态调整，包括如果匹配度高则窗口滑动步幅小，如果匹配度低则窗口的滑动幅度大。
28.作为本实施例一种可选的实现方式，滑动窗口在所述源文本上以动态的步幅移动包括：如果待匹配文本、以及与其对应源文本匹配度低于预设匹配度阈值，则将当前的步幅调大；如果待匹配文本、以及与其对应源文本匹配度大于预设匹配度阈值，则将当前的步幅调小。
29.在本可选的实现方式中，在第一匹配模式serching下，为了加快搜索速度和保证搜索准确率，使用滑动窗口方式进行查找，而且滑动窗口的滑动步幅根据当前匹配结果进行修正，匹配度高，窗口滑动步幅小，匹配度低，窗口滑动步幅大。上述第一预设长度以及滑动窗口的步幅均可按需配置。
30.窗口滑动的步幅计算方式可通过如下公式：
31.窗口滑动的步幅＝(0.7f-matchratio)*msentencelen；即匹配度越大，滑动步幅越小，因为高匹配度时小幅度移动匹配到的可能性增加；低匹配度时，小幅度移动也不可能匹配上，所以为了高效率搜索，可以提高滑动步幅。0.7f优选为匹配成功的匹配度阈值，可以根据实际设置，matchratio为匹配度，msentencelen是待匹配内容的长度。matchratio大于0.7f时，认为相匹配，此时无需再移动滑动窗口了，matchratio小于0.7f时，需要继续搜索，移动滑动窗口。
32.步骤103：在第一匹配模式下，如果动态匹配得到的匹配度大于或等于预设阈值，则切入第二匹配模式，并将当前滑动窗口的结束位置处之后的文本作为待匹配的源文本。
33.在本实施例中，如果两文本的匹配度大于或者等于预设阈值，则进入第二匹配模式matching模式，该第二匹配模式用于小范围的匹配。第二匹配模式下，源文本中匹配的起始位置可以是滑动窗口的结尾位置的下一个字符位置。
34.作为本实施例一种可选的实现方式，在第一匹配模式下，如果匹配度小于预设阈值，则删除待匹配内容；实时获取当前新的语音并实时转化为新文本，并当该新文本达到第一预设长度后作为新待匹配文本；在第一模式下，利用滑动窗口对所述新待匹配文本、以及与其对应源文本进行动态匹配。
35.在本可选的实现方式中，在第一模式下确定文本的匹配度可以通过匹配度＝lcs长度/待匹配内容长度进行计算，由于语音识别率做不到100％，所以匹配度一般可以根据实际情况设置阈值，例如70％的匹配度，就认为匹配上，从而停止继续搜索，并把状态切换回matching状态。可以理解的是，除了lcs算法，也可以使用简单的字符搜索算法，并记录匹配词数。
36.参考图2，如果匹配不成功则清除当前待匹配文本，并仍在第一模式下重新积累新语音转换的文本，形成新待匹配文本再次进行匹配，该次匹配的起始位置可以是上一次匹配失败过程的开始匹配的位置。示例性地，如果滑动窗口滑动很长距离(例如150个字符)仍然搜索不到，那么用户可能在脱稿演讲，所以不继续搜索，并清空“待匹配的文本”，由于状态仍然在第一匹配模式searching下，所以后面的新语音文字会重新积累，并形成新的“待匹配的文本”，从而触发下一次的搜索。
37.步骤104：在第二匹配模式下，对当前语音实时转化为第二预设长度的新文本，将新文本、待匹配的源文本中第三预设长度的文本进行匹配，其中，所述第三预设长度大于第二预设长度、并且第二预设长度小于第一预设长度。
38.在本实施例中，在第二匹配模式下，匹配文本的第二预设长度取较小的值，如以词为单位进行匹配，字符长度可以是1个字、2个字、3个字或者4个字等等，优选是4个字以内，该长度是相较于第一匹配模式下的第一预设长度相比，比第一预设长度小，即第二预设长度小于第一预设长度。
39.当切入第二匹配模式时，实时将语音转化为第二预设长度的新文本，将此文本与待匹配的源文本进行匹配，在匹配时可以选取第三预设长度的待匹配源文本的内容与第二预设长度的新文本进行匹配。第二预设长度小于第三预设长度。示例性地，每次语音输入的新文本内容可以是一个简短的词(作为本次“待匹配的新文本”)，假设词的长度是m，那么搜索距离即第三预设长度控制在n个字符内，n大于m，例如n＝(m《3)？(m*2+2):(m*1.5+3)。上述第二预设长度、第三预设长度均可配置。
40.示例性地，参考图3，图3示出了不同状态下不同长度的文本匹配示意图。
41.步骤104：如果匹配成功，则对第三预设长度之后的待匹配源文本进行可视化编辑。
42.在本实施例中，在第二匹配模式下，如果匹配成功，则可以对源文本中已朗读、未朗读、部分未朗读的内容(例如，第二匹配模式下匹配除了m个字符为已读，剩余n-m个字符未读)进行标识。
43.文本编辑有多种方式，主要是为了提高可阅读性。例如用某种颜色圈住已经朗读过的内容。也可以把已经朗读过的内容最近未朗读的部分内容进行放大从而提高可读性。修饰方式可通过插件方式，方便配置。示例性地，参考图4，可以对已经匹配上的第三预设长度之后、并且具有一定长度的源文本内容进行放大显示；对已读文本进行颜色标记。上述编辑方式可以被配置。
44.可以理解的是，无论是第一模式searching还是第二模式matching状态，每匹配成功，就可以修饰文本内容的相关匹配文字，并更新下次搜索匹配的开始位置。
45.作为本实施例一种可选的实现方式，方法还包括：如果匹配不成功，则重新在第二匹配模式下进行匹配；和/或，当匹配不成功的次数达到n次、或者匹配后的匹配度不符合预设值，则重新在第一匹配模式下进行匹配。
46.在本可选的实现方式中，如果匹配不成功，则仍然接收新的语音转化为当前新的待匹配内容，匹配的起始位置仍然可以是源文本中滑动窗口的结尾位置的下一个字符位置处。当连续匹配不成功超过预设的次数，则在程序中清除匹配失败次数统计，以便下一轮的匹配失败次数统计，并且返回至第一匹配模式下。也可以当匹配度不符合阈值则认定为匹配失败，重新进入第一匹配模式下。
47.示例性地，参考图5，图5示出了第二匹配模式下匹配过程示意图。如果匹配不成功，则等待新语音输入，再次触发匹配，并记录匹配失败次数。超过一定的连续匹配失败次数或者匹配度太低，那么就进入searching状态。并清除匹配失败次数统计。
48.作为本实施例一种可选的实现方式，预先将源文本转化为无标点符号的文本，并将无标点符号的文本中文字的各个位置与源文本中相应文字的位置进行映射。
49.在本可选的实现方式中，在映射后，基于无标点符号文本实现与待匹配文本在第一模式和第二模式下的匹配，并在匹配成功后基于建立的映射关系实现在源文本(包含标点符号)中进行定位。
50.示例性地，参考图6在进行文本匹配时，由于源文本有标点符号，而文字匹配时需要略过标点符号，以避免文本匹配的影响。一种方式可以把源文本预先转换为无标点符号的文本，并建立无标点符号的文本文字与源文本的对应关系(从而可以把无标点文本中的定位转换回在源文本的定位)，在匹配时此无标点的文本内进行搜索匹配，匹配定位后，根据前述对应关系在源原文本上定位。另外一种方式可以是，当需要搜索m个文字时，扩充为在n个字符内匹配这m个文字(n比m大，从而能包括一些标点)，即有一定的容错，达到自动跳过一定数量的标点符号的目的。
51.从以上的描述中，可以看出，本公开实现了如下技术效果：基于语音识别技术、字符序列比较技术和自适应搜索技术，对朗读文本提供辅助的跟踪和修饰提醒功能。通过动态自适应滑动窗口搜索，多状态处理，可配置修饰方式，可配置匹配方式，来解决语音识别率达不到100％导致提词不准确问题，并解决主持人部分脱稿演讲的问题。
52.需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。
53.根据本公开实施例，还提供了一种用于实施上述智能提词方法的装置，该装置包括：语音识别单元，被配置成对实时获取的语音实时转化为文本，并当文本达到第一预设长
度后作为待匹配文本；第一匹配单元，被配置成在第一匹配模式下，利用滑动窗口对所述待匹配文本、以及与其对应源文本进行动态匹配，其中，所述滑动窗口在所述源文本上以动态的步幅移动；第二匹配单元，被配置成在第一匹配模式下，如果动态匹配得到的匹配度大于或等于预设阈值，则切入第二匹配模式，并将当前滑动窗口的结束位置处之后的文本作为待匹配的源文本；在第二匹配模式下，对当前语音实时转化为第二预设长度的新文本，将新文本、待匹配的源文本中第三预设长度的文本进行匹配，其中，所述第三预设长度大于第二预设长度、并且第二预设长度小于第一预设长度；文本修饰单元，被配置成如果匹配成功，则对第三预设长度之后的待匹配源文本进行可视化编辑。
54.作为本实施例一种可选的实现方式，所述装置还被配置成：如果匹配不成功，则重新在第二匹配模式下进行匹配；和/或，当匹配不成功的次数达到n次、或者匹配后的匹配度不符合预设值，则重新在第一匹配模式下进行匹配。
55.本公开实施例提供了一种电子设备，如图7所示，该电子设备包括一个或多个处理器71以及存储器72，图7中以一个处理器73为例。
56.该控制器还可以包括：输入装置73和输出装置74。
57.处理器71、存储器72、输入装置73和输出装置74可以通过总线或者其他方式连接，图7中以通过总线连接为例。
58.处理器71可以为中央处理器(centralprocessingunit，cpu)。处理器71还可以为其他通用处理器、数字信号处理器(digitalsignalprocessor，dsp)、专用集成电路(applicationspecificintegratedcircuit，asic)、现场可编程门阵列(field-programmablegatearray，fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等芯片，或者上述各类芯片的组合。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
59.存储器72作为一种非暂态计算机可读存储介质，可用于存储非暂态软件程序、非暂态计算机可执行程序以及模块，如本公开实施例中的控制方法对应的程序指令/模块。处理器71通过运行存储在存储器72中的非暂态软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例的方法。
60.存储器72可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据服务器操作的处理装置的使用所创建的数据等。此外，存储器72可以包括高速随机存取存储器，还可以包括非暂态存储器，例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施例中，存储器72可选包括相对于处理器71远程设置的存储器，这些远程存储器可以通过网络连接至网络连接装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
61.输入装置73可接收输入的数字或字符信息，以及产生与服务器的处理装置的用户设置以及功能控制有关的键信号输入。输出装置74可包括显示屏等显示设备。
62.一个或者多个模块存储在存储器72中，当被一个或者多个处理器71执行时，执行如图1所示的方法。
63.本领域技术人员可以理解，实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，的程序可存储于一计算机可读取存储介质中，该
程序在执行时，可包括如上述各电机控制方法的实施例的流程。其中，存储介质可为磁碟、光盘、只读存储记忆体(read-onlymemory，rom)、随机存储记忆体(randomaccessmemory，ram)、快闪存储器(flashmemory)、硬盘(harddiskdrive，缩写：hdd)或固态硬盘(solid-statedrive，ssd)等；存储介质还可以包括上述种类的存储器的组合。
64.虽然结合附图描述了本公开的实施方式，但是本领域技术人员可以在不脱离本公开的精神和范围的情况下作出各种修改和变型，这样的修改和变型均落入由所附权利要求所限定的范围之内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：高栈年陈涛
技术所有人：苏州萝卜电子科技有限公司
我是此专利的发明人

上一篇：一种医疗设备核磁共振安全操作生产检测设备的制作方法
上一篇：一种用于建筑节能的环保照明装置