一种数据处理方法、装置及计算机存储介质与流程

文档序号:20779338发布日期:2020-05-19 21:05阅读:128来源:国知局
一种数据处理方法、装置及计算机存储介质与流程

本发明涉及信息处理技术领域,尤其涉及一种数据处理方法、装置及计算机存储介质。



背景技术:

tts(texttospeech,语音合成)是一种将文字转换成人类自然语言的技术,被广泛应用在导航播报、商家在线客服、只能机器人语音交互等方面。tts系统主要分为前端和后端,其中前端主要完成文本分析的工作,让机器知道这段文字该怎么读。tts编辑系统是一个可供用户编辑的tts合成系统,用户可以编辑文本中字词的读音,读法以及停顿等等,以达到用户自己的需求。比如tn(textnormalization,文本正则化)编辑,“13年”可以读成“十三年”,用户也可以通过编辑读法,让它按“年份读法”去读,读作“一三年”,或者其他读法。文本分析对tts的合成效果起着举足轻重的作用。而tn,即文本正则化是文本分析的重要步骤,将不规则的文本,即带有各种数字、符号的文本转换成标准文本,即不含有数字,只含有系统指定的几个表示停顿的符号的文本的过程。比如“33+12等于45”tn后的结果会变成“三十三加十二等于四十五”。

现有tts编辑系统在编辑文本正则化时,不会区分易错tn和不易错的tn,这样的tts编辑系统,会造成界面混乱,编辑效率低下的问题。



技术实现要素:

本发明实施例为了有效克服现有技术所存在的上述缺陷,创造性地提供一种数据处理方法,包括:获取初始文本;根据目标正则化系统对所述初始文本进行文本分析,得到标准文本以及对应于所述标准文本的置信度,所述目标正则化系统至少包括最优规则和备选规则,以及对应于最优规则的最优概率信息和对应于备选规则的备选概率信息;根据所述置信度对所述标准文本进行标记处理,得到标记文本。

在一可实施方式中,在根据目标正则化系统对所述初始文本进行文本分析,得到标准文本以及对应于所述标准文本的置信度之前,包括:获取样本文本及初始正则化系统;修改所述初始正则化系统中的规则匹配条件,得到调整正则化系统,所述调整正则化系统为能够匹配到每个文本的最优规则和备选规则的系统;根据所述样本文本对所述调整正则化系统进行置信度训练,得到目标正则化系统。

在一可实施方式中,所述根据所述样本文本对所述调整正则化系统进行置信度训练,得到目标正则化系统包括:根据所述调整正则化系统获取对应于所述样本文本的最优规则和备选规则;根据所述样本文本的邻近文本对所述调整正则化系统进行规则匹配训练,得到对应于所述样本文本的最优规则的最优概率信息和对应于所述样本文本的备选规则的备选概率信息,所述最优概率信息和所述备选概率信息分别与所述样本文本的邻近文本相对应;根据所述样本文本的最优规则和备选规则以及对应于所述样本文本的最优规则的最优概率信息和对应于所述样本文本的备选规则的备选概率信息建立目标正则化系统。

在一可实施方式中,所述根据目标正则化系统对所述初始文本进行文本分析,得到标准文本以及对应于所述标准文本的置信度包括:根据所述目标正则化系统对所述初始文本进行规则匹配,得到对应于所述初始文本的最优规则和备选规则;根据所述初始文本的最优规则对所述初始文本进行转写,得到标准文本;根据所述初始文本的邻近文本获取所述目标正则化系统中对应于所述初始文本的最优规则的最优概率信息以及对应于所述初始文本的备选规则的备选概率信息;根据所述初始文本的最优规则的最优概率信息以及对应于所述初始文本的备选规则的备选概率信息确定所述标准文本的置信度。

在一可实施方式中,所述根据所述置信度对所述标准文本进行标记处理,得到标记文本包括:判断所述置信度是否符合第一阈值,若符合则对所述标准文本进行第一标记处理;判断所述置信度是否符合第二阈值,若符合则对所述标准文本进行第二标记处理;判断所述置信度是否符合第三阈值,若符合则对所述标准文本进行第三标记处理;其中,所述第一阈值、第二阈值、第三阈值按照置信度大小从低到高排列,所述第一标记、第二标记和第三标记按照标记内容提示度从高到低排列。

本发明实施例另一方面提供一种数据处理装置,包括:初始文本获取模块,用于获取初始文本;置信度分析模块,用于根据目标正则化系统对所述初始文本进行文本分析,得到标准文本以及对应于所述标准文本的置信度,所述目标正则化系统至少包括最优规则和备选规则,以及对应于最优规则的最优概率信息和对应于备选规则的备选概率信息;标记模块,用于根据所述置信度对所述标准文本进行标记处理,得到标记文本。

在一可实施方式中,装置还包括:样本获取模块,用于获取样本文本及初始正则化系统;系统修改模块,用于修改所述初始正则化系统中的规则匹配条件,得到调整正则化系统,所述调整正则化系统为能够匹配到每个文本的最优规则和备选规则的系统;系统训练模块,用于根据所述样本文本对所述调整正则化系统进行置信度训练,得到目标正则化系统。

在一可实施方式中,所述系统训练模块包括:规则获取单元,用于根据所述调整正则化系统获取对应于所述样本文本的最优规则和备选规则;系统训练单元,用于根据所述样本文本的邻近文本对所述调整正则化系统进行规则匹配训练,得到对应于所述样本文本的最优规则的最优概率信息和对应于所述样本文本的备选规则的备选概率信息,所述最优概率信息和所述备选概率信息分别与所述样本文本的邻近文本相对应;系统建立单元,用于根据所述样本文本的最优规则和备选规则以及对应于所述样本文本的最优规则的最优概率信息和对应于所述样本文本的备选规则的备选概率信息建立目标正则化系统。

在一可实施方式中,所述置信度分析模块包括:规则匹配单元,用于根据所述目标正则化系统对所述初始文本进行规则匹配,得到对应于所述初始文本的最优规则和备选规则;文本转写单元,用于根据所述初始文本的最优规则对所述初始文本进行转写,得到标准文本;概率获取单元,用于根据所述初始文本的邻近文本获取所述目标正则化系统中对应于所述初始文本的最优规则的最优概率信息以及对应于所述初始文本的备选规则的备选概率信息;置信度确定单元,用于根据所述初始文本的最优规则的最优概率信息以及对应于所述初始文本的备选规则的备选概率信息确定所述标准文本的置信度。

在一可实施方式中,所述标记模块包括:第一标记单元,用于判断所述置信度是否符合第一阈值,若符合则对所述标准文本进行第一标记处理;第二标记单元,用于判断所述置信度是否符合第二阈值,若符合则对所述标准文本进行第二标记处理;第三标记单元,用于判断所述置信度是否符合第三阈值,若符合则对所述标准文本进行第三标记处理;其中,所述第一阈值、第二阈值、第三阈值按照置信度大小从低到高排列,所述第一标记、第二标记和第三标记按照标记内容提示度从高到低排列。

本发明实施例另一方面提供一种计算机可读存储介质,所述计算机存储介质中存储有计算机可执行指令,当所述指令被执行时用于执行上述中任一项所述的数据处理方法。

本发明实施例提供的数据处理方法、装置及计算机存储介质,通过计算文本分析的置信度,并根据不同文本的置信度对文本进行不同程度的标记处理,优化编辑系统,提高了用户体验感,增加了文本编辑效率。

附图说明

通过参考附图阅读下文的详细描述,本发明示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中,以示例性而非限制性的方式示出了本发明的若干实施方式,其中:

在附图中,相同或对应的标号表示相同或对应的部分。

图1为本发明一实施例所提供的一种数据处理方法的一种实现流程示意图;

图2为本发明一实施例所提供的一种数据处理方法的另一种实现流程示意图;

图3为本发明一实施例所提供的一种数据处理方法的一种具体实现流程示意图;

图4为本发明一实施例所提供的一种数据处理方法的另一种具体实现流程示意图;

图5为本发明一实施例所提供的一种数据处理装置的一种组成结构图;

图6为本发明一实施例所提供的一种数据处理装置的另一种组成结构图;

图7为本发明一实施例所提供的一种系统训练模块的一种具体组成结构图;

图8为本发明一实施例所提供的一种置信度分析模块的一种具体组成结构图。

具体实施方式

为使本发明的目的、特征、优点能够更加的明显和易懂,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而非全部实施例。基于本发明中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。

以下示例性实施例中所描述的实施方式并不代表与本说明书相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本说明书中的一些方面相一致的方法、装置或设备的例子。

请参考图1,本发明实施例一方面提供一种数据处理方法,包括:

步骤101,获取初始文本;

步骤102,根据目标正则化系统对初始文本进行文本分析,得到标准文本以及对应于标准文本的置信度,目标正则化系统至少包括最优规则和备选规则,以及对应于最优规则的最优概率信息和对应于备选规则的备选概率信息;

步骤103,根据置信度对标准文本进行标记处理,得到标记文本。

本发明实施例为解决现有技术中tts编辑系统在编辑文本正则化时,不会区分易错tn和不易错的tn,而造成界面混乱,编辑效率低下的问题,先通过步骤101获取待编辑的初始文本,然后通过步骤102根据目标正则化系统对初始文本进行分析,其中目标正则化系统中包括有用于对大量不同文本进行正则化的最优规则和备选规则,以及对应于最优规则的最优概率信息和对应于备选规则的备选概率信息。本发明实施例通过目标正则化系统对初始文本进行文本分析,也即进行规则匹配时,文本命中的第一条tn规则为最优规则,其中根据最优规则转写得到的文本为标准文本;然后继续匹配后续的其他tn规则直到所有的规则都被匹配过一次,这些后续匹配的其他tn规则即为备选规则。其中最优概率信息是指对于每一个文本,根据他们所处文章段落中的上下文,也即结合前后的邻近词的组合统计后,分析该种类型的文本在不同的上下文情况下,命中最优规则的概率分布信息。同样的,备选概率信息是指对于每一个文本,根据他们所处的文章段落中的上下文,也即结合前后的邻近词的组合统计后,分析该种类型的文本在不同的上下文情况下,命中备选规则的概率分布信息。由于根据目标正则化系统已经计算出了备选规则的备选概率信息以及用于转写得到标准文本的最优规则的最优概率信息,便能够很容易的根据最优概率信息与备选概率信息计算得到标准文本的可靠度,即置信度。最后通过步骤103根据置信度对标准文本进行标记处理,具体可以为根据置信度的高低对标准文本进行显示度调整,如对置信度高的文本采用透明或灰色背景,而对置信度低,更需要修改的文本采用红色背景等方式调节;还可以通过对置信度低的文本进行加粗、放大或者添加标注等方式调节,以便让用户的关注度更集中,从而在编辑界面上减少不必要的tn信息,进而提高用户体验感,增加编辑效率。

请参考图2,在一可实施方式中,在根据目标正则化系统对初始文本进行文本分析,得到标准文本以及对应于标准文本的置信度之前,包括:

步骤201,获取样本文本及初始正则化系统;

步骤202,修改初始正则化系统中的规则匹配条件,得到调整正则化系统,调整正则化系统为能够匹配到每个文本的最优规则和备选规则的系统;

步骤203,根据样本文本对调整正则化系统进行置信度训练,得到目标正则化系统。

本发明实施例中所获取的初始正则化系统可以为内部所有系统也可以从外源直接获取,为现有的tn系统,在现有tn系统中,正则化规则根据优先级排列,一段文本根据tn规则的优先级只会命中一条tn规则,然后就被立即转写,这样就无法命中其他备选规则,也就无法知道这段文本的其他可能读法,更无处可知对于这一转写文本的可靠性。而本发明实施例通过修改初始正则化系统中的规则匹配条件,得到调整正则化系统,使得每一个文本根据调整正则化系统进行匹配时,在命中第一条tn规则后还会继续匹配后续的tn规则,直到所有规则都被匹配过一次,从而得到对应于第一条命中规则的最优规则以及对应于后续命中规则的备选规则,获取到文本的所有可能读法。然后再通过样本文本对调整正则化系统进行训练优化,计算分析该种类型的文本在不同的上下文情况下,命中最优规则的概率分布信息以及命中备选规则的概率分布信息,最终得到目标正则化系统,用于更方便的计算文本置信度,从而提高文本编辑效率。

其中,本发明实施例中的备选规则可以为根据现有tn系统所匹配得到的方案,也可以为自行预先根据文本类型进行定义的预设方案,以更好的满足不同应用场景下不同用户的需求。

请参考图3,在一可实施方式中,根据样本文本对调整正则化系统进行置信度训练,得到目标正则化系统包括:

步骤301,根据调整正则化系统获取对应于样本文本的最优规则和备选规则;

步骤302,根据样本文本的邻近文本对调整正则化系统进行规则匹配训练,得到对应于样本文本的最优规则的最优概率信息和对应于样本文本的备选规则的备选概率信息,最优概率信息和备选概率信息分别与样本文本的邻近文本相对应;

步骤303,根据样本文本的最优规则和备选规则以及对应于样本文本的最优规则的最优概率信息和对应于样本文本的备选规则的备选概率信息建立目标正则化系统。

本发明实施例先通过步骤301根据调整正则化系统获取样本文本的最优规则和备选规则,然后通过步骤302根据样本文本的邻近文本,也就是样本文本前后4-5个词的组合统计,通过调整正则化系统的规则匹配计算得到对应于该种类型的样本文本在不同上下文的情况下对于各个规则的概率分布情况,也即得到对应于样本文本的最优规则的最优概率信息和对应于样本文本的备选规则的备选概率信息。步骤303,具体可以通过将所得到的各个概率信息与对应的规则以及文本和文本的邻近文本建立关联关系,最终建立完成包括有大量文本的最优规则和备选规则,以及对应于最优规则的最优概率信息和对应于备选规则的备选概率信息的目标正则化系统。

请参考图4,在一可实施方式中,根据目标正则化系统对初始文本进行文本分析,得到标准文本以及对应于标准文本的置信度包括:

步骤401,根据目标正则化系统对初始文本进行规则匹配,得到对应于初始文本的最优规则和备选规则;

步骤402,根据初始文本的最优规则对初始文本进行转写,得到标准文本;

步骤403,根据初始文本的邻近文本获取目标正则化系统中对应于初始文本的最优规则的最优概率信息以及对应于初始文本的备选规则的备选概率信息;

步骤404,根据初始文本的最优规则的最优概率信息以及对应于初始文本的备选规则的备选概率信息确定标准文本的置信度。

本发明实施例先通过步骤401根据目标正则化系统对初始文本进行规则匹配得到最优规则和备选规则,其中最优规则用于步骤402对初始文本进行转写,得到标准文本,用于展示或供后续在此本文上进行编辑。步骤403具体可以为,对初始文本的邻近文本与目标正则化系统中各个规则的概率信息所对应的邻近文本进行类型匹配,从而获取得到对应于初始文本的最优规则的最优概率信息以及对应于初始文本的备选规则的备选概率信息;最后步骤404通过根据已知的备选概率信息和最优概率信息占比计算得到标准文本的置信度,这一置信度计算训练过程可以采用多种能够实现可靠计算的机器学习方法,相较于传统方法能够较为准确的区分不同文本的可靠性程度,从而有利于提醒用户集中关注更需要编辑的文本,提高编辑效率。

在一可实施方式中,根据置信度对标准文本进行标记处理,得到标记文本包括:

判断置信度是否符合第一阈值,若符合则对标准文本进行第一标记处理;

判断置信度是否符合第二阈值,若符合则对标准文本进行第二标记处理;

判断置信度是否符合第三阈值,若符合则对标准文本进行第三标记处理;

其中,第一阈值、第二阈值、第三阈值按照置信度大小从低到高排列,第一标记、第二标记和第三标记按照标记内容提示度从高到低排列。

本发明实施例中,当计算得到每个tn文本的置信度后,我们可以根据置信度的不同等级对其采用不同的标记方法来进行区分,如将置信度分为三个阈值等级,其中第一阈值、第二阈值、第三阈值按照置信度大小从低到高排列,标记处理动作也分为对应三种不同程度的方式,其中第一标记、第二标记和第三标记按照标记内容提示度从高到低排列。具体的,对于第一阈值的也即低置信度的tn文本,可以采用内容提示度最高的第一标记处理,如采用红色或其他较为鲜艳的颜色来让用户的关注度更加集中,或采用字体放大两个字号等标记方法。而对于第二阈值的也即中置信度的tn文本,可以采用内容提示度中等偏高的第二标记处理,如采用淡黄色或其他略微鲜艳的颜色,也可以采用字体放大一个字号等标记方法。而对于第三阈值的,也即高置信度的文本,可以采用低提示度的第三标记处理,具体如采用灰色或透明的颜色来标记等,使得文本界面主次分明,减少了多余的tn信息,有利于提高用户体验感,增加编辑效率。

请参考图5,本发明实施例另一方面提供一种数据处理装置,包括:

初始文本获取模块501,用于获取初始文本;

置信度分析模块502,用于根据目标正则化系统对初始文本进行文本分析,得到标准文本以及对应于标准文本的置信度,目标正则化系统至少包括最优规则和备选规则,以及对应于最优规则的最优概率信息和对应于备选规则的备选概率信息;

标记模块503,用于根据置信度对标准文本进行标记处理,得到标记文本。

本发明实施例为解决现有技术中tts编辑系统在编辑文本正则化时,不会区分易错tn和不易错的tn,而造成界面混乱,编辑效率低下的问题,先通过初始文本获取模块501获取待编辑的初始文本,然后通过置信度分析模块502根据目标正则化系统对初始文本进行分析,其中目标正则化系统中包括有用于对大量不同文本进行正则化的最优规则和备选规则,以及对应于最优规则的最优概率信息和对应于备选规则的备选概率信息。本发明实施例通过目标正则化系统对初始文本进行文本分析,也即进行规则匹配时,文本命中的第一条tn规则为最优规则,其中根据最优规则转写得到的文本为标准文本;然后继续匹配后续的其他tn规则直到所有的规则都被匹配过一次,这些后续匹配的其他tn规则即为备选规则。其中最优概率信息是指对于每一个文本,根据他们所处文章段落中的上下文,也即结合前后的邻近词的组合统计后,分析该种类型的文本在不同的上下文情况下,命中最优规则的概率分布信息。同样的,备选概率信息是指对于每一个文本,根据他们所处的文章段落中的上下文,也即结合前后的邻近词的组合统计后,分析该种类型的文本在不同的上下文情况下,命中备选规则的概率分布信息。由于根据目标正则化系统已经计算出了备选规则的备选概率信息以及用于转写得到标准文本的最优规则的最优概率信息,便能够很容易的根据最优概率信息与备选概率信息计算得到标准文本的可靠度,即置信度。最后通过标记模块503根据置信度对标准文本进行标记处理,具体可以为根据置信度的高低对标准文本进行显示度调整,如对置信度高的文本采用透明或灰色背景,而对置信度低,更需要修改的文本采用红色背景等方式调节;还可以通过对置信度低的文本进行加粗、放大或者添加标注等方式调节,以便让用户的关注度更集中,从而在编辑界面上减少不必要的tn信息,进而提高用户体验感,增加编辑效率。

请参考图6,在一可实施方式中,装置还包括:

样本获取模块601,用于获取样本文本及初始正则化系统;

系统修改模块602,用于修改初始正则化系统中的规则匹配条件,得到调整正则化系统,调整正则化系统为能够匹配到每个文本的最优规则和备选规则的系统;

系统训练模块603,用于根据样本文本对调整正则化系统进行置信度训练,得到目标正则化系统。

本发明实施例中所获取的初始正则化系统可以为内部所有系统也可以从外源直接获取,为现有的tn系统,在现有tn系统中,正则化规则根据优先级排列,一段文本根据tn规则的优先级只会命中一条tn规则,然后就被立即转写,这样就无法命中其他备选规则,也就无法知道这段文本的其他可能读法,更无处可知对于这一转写文本的可靠性。而本发明实施例通过系统修改模块602修改初始正则化系统中的规则匹配条件,得到调整正则化系统,使得每一个文本根据调整正则化系统进行匹配时,在命中第一条tn规则后还会继续匹配后续的tn规则,直到所有规则都被匹配过一次,从而得到对应于第一条命中规则的最优规则以及对应于后续命中规则的备选规则,获取到文本的所有可能读法。然后再通过系统训练模块603根据样本文本对调整正则化系统进行置信度训练优化,计算分析该种类型的文本在不同的上下文情况下,命中最优规则的概率分布信息以及命中备选规则的概率分布信息,最终得到目标正则化系统,用于更方便的计算文本置信度,从而提高文本编辑效率。

其中,本发明实施例中的备选规则可以为根据现有tn系统所匹配得到的方案,也可以为自行预先根据文本类型进行定义的预设方案,以更好的满足不同应用场景下不同用户的需求。

请参考图7,在一可实施方式中,系统训练模块603包括:

规则获取单元701,用于根据调整正则化系统获取对应于样本文本的最优规则和备选规则;

系统训练单元702,用于根据样本文本的邻近文本对调整正则化系统进行规则匹配训练,得到对应于样本文本的最优规则的最优概率信息和对应于样本文本的备选规则的备选概率信息,最优概率信息和备选概率信息分别与样本文本的邻近文本相对应;

系统建立单元703,用于根据样本文本的最优规则和备选规则以及对应于样本文本的最优规则的最优概率信息和对应于样本文本的备选规则的备选概率信息建立目标正则化系统。

本发明实施例先通过规则获取单元701根据调整正则化系统获取样本文本的最优规则和备选规则,然后通过系统训练单元702根据样本文本的邻近文本,也就是样本文本前后4-5个词的组合统计,通过调整正则化系统的规则匹配计算得到对应于该种类型的样本文本在不同上下文的情况下对于各个规则的概率分布情况,也即得到对应于样本文本的最优规则的最优概率信息和对应于样本文本的备选规则的备选概率信息。系统建立单元703具体可以通过将所得到的各个概率信息与对应的规则以及文本和文本的邻近文本建立关联关系,最终建立完成包括有大量文本的最优规则和备选规则,以及对应于最优规则的最优概率信息和对应于备选规则的备选概率信息的目标正则化系统。

请参考图8,在一可实施方式中,置信度分析模块502包括:

规则匹配单元801,用于根据目标正则化系统对初始文本进行规则匹配,得到对应于初始文本的最优规则和备选规则;

文本转写单元802,用于根据初始文本的最优规则对初始文本进行转写,得到标准文本;

概率获取单元803,用于根据初始文本的邻近文本获取目标正则化系统中对应于初始文本的最优规则的最优概率信息以及对应于初始文本的备选规则的备选概率信息;

置信度确定单元804,用于根据初始文本的最优规则的最优概率信息以及对应于初始文本的备选规则的备选概率信息确定标准文本的置信度。

本发明实施例先通过规则匹配单元801根据目标正则化系统对初始文本进行规则匹配得到最优规则和备选规则,其中最优规则用于文本转写单元802对初始文本进行转写,得到标准文本,用于展示或供后续在此本文上进行编辑。概率获取单元803具体可以为,对初始文本的邻近文本与目标正则化系统中各个规则的概率信息所对应的邻近文本进行类型匹配,从而获取得到对应于初始文本的最优规则的最优概率信息以及对应于初始文本的备选规则的备选概率信息;最后置信度确定单元804通过根据已知的备选概率信息和最优概率信息占比计算得到标准文本的置信度,这一置信度计算训练过程可以采用多种能够实现可靠计算的机器学习方法,相较于传统方法能够较为准确的区分不同文本的可靠性程度,从而有利于提醒用户集中关注更需要编辑的文本,提高编辑效率。

在一可实施方式中,标记模块503包括:

第一标记单元,用于判断置信度是否符合第一阈值,若符合则对标准文本进行第一标记处理;

第二标记单元,用于判断置信度是否符合第二阈值,若符合则对标准文本进行第二标记处理;

第三标记单元,用于判断置信度是否符合第三阈值,若符合则对标准文本进行第三标记处理;

其中,第一阈值、第二阈值、第三阈值按照置信度大小从低到高排列,第一标记、第二标记和第三标记按照标记内容提示度从高到低排列。

本发明实施例中,当计算得到每个tn文本的置信度后,我们可以根据置信度的不同等级对其采用不同的标记方法来进行区分,如将置信度分为三个阈值等级,其中第一阈值、第二阈值、第三阈值按照置信度大小从低到高排列,标记处理动作也分为对应三种不同程度的方式,其中第一标记、第二标记和第三标记按照标记内容提示度从高到低排列。具体的,第一标记单元对于第一阈值的也即低置信度的tn文本,可以采用内容提示度最高的第一标记处理,如采用红色或其他较为鲜艳的颜色来让用户的关注度更加集中,或采用字体放大两个字号等标记方法。而第二标记单元对于第二阈值的也即中置信度的tn文本,可以采用内容提示度中等偏高的第二标记处理,如采用淡黄色或其他略微鲜艳的颜色,也可以采用字体放大一个字号等标记方法。而第三标记单元对于第三阈值的,也即高置信度的文本,可以采用低提示度的第三标记处理,具体如采用灰色或透明的颜色来标记等,使得文本界面主次分明,减少了多余的tn信息,有利于提高用户体验感,增加编辑效率。

本发明实施例另一方面提供一种计算机可读存储介质,计算机存储介质中存储有计算机可执行指令,当指令被执行时用于执行上述中任一项的数据处理方法。

这里需要指出的是:以上实施例的描述,与上述方法实施例的描述是类似的,具有同方法实施例相似的有益效果,对于本发明实施例中未披露的技术细节,请参照本发明方法实施例的描述而理解,为节约篇幅,因此不再赘述。

本发明实施例中,多个步骤之间的实现顺序在不影响实现目的的情况下可以替换。

以上,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1