数字转换方法及系统、文本处理方法及系统、设备和介质与流程

文档序号:22916176发布日期:2020-11-13 15:57阅读:127来源:国知局
数字转换方法及系统、文本处理方法及系统、设备和介质与流程

本发明涉及文本处理领域,特别涉及一种数字转换方法及系统、文本处理方法及系统、设备和介质。



背景技术:

语音转录文本是通过语音识别系统对通话录音进行解码后得到,解码的结果由语音识别系统的字典决定。常规的语音转录文本与录音的发音一一对应,通常情况下不会将中文数字转换成阿拉伯数字。常规的语音转录文本不符合正常的阅读习惯。由于通话录音的内容是口语化与生活化的,利用现有的中文数字转换成阿拉伯数字的文本处理技术,对语音转录文本中的中文数字进行无差别地转换,会出现转换的数字重复、有歧义等情况,不利于后续的处理和使用。



技术实现要素:

本发明要解决的技术问题是为了克服现有技术中语音转录文本不符合正常的阅读习惯,将语音转录文本的中文数字转换成阿拉伯数字后会出现数字重复、有歧义的缺陷,提供一种数字转换方法及系统、文本处理方法及系统、设备和介质。

本发明是通过下述技术方案来解决上述技术问题:

一种数字转换方法,包括:

s11、构建第一类关键词字典,当输入文本包含所述第一类关键词,则执行步骤s13;

s12、构建第二类关键词字典、第三类关键词字典和第四类关键词字典,依据所述第二类关键词对所述输入文本的中文数字进行数字串直接转换,依据所述第三类关键词对所述输入文本的中文数字进行数值转换,依据所述第四类关键词对所述输入文本的表示时间的中文数字进行转换。

s13、结束转换,输出目标文本。

较佳地,所述第一类关键词包括:

具有实际的意义的连续数字;

含有数字的地名;

含有数字的固定搭配;

只包含单个数字的日常用语。

较佳地,所述第四类关键词包括“时”、“分”、“点半”、“点钟”、“点多”,依据所述第四类关键词对表示时间的中文数字进行转换,包括:

将“点”、“时”转换为“:”,将“点半”转换为“:30”。

较佳地,在步骤s11之前,所述数字转换方法还包括:

s10、判断所述输入文本是否含有中文数字。

一种文本处理方法,包括:

s21、获取输入文本串中子句的数量,当所述子句的数量为1,利用上述各项任意组合的所述数字转换方法对所述输入文本串进行转换,并输出经过转换的目标文本串;当所述子句的数量大于1,执行步骤s22;

s22、对所述输入文本串的每个所述子句设立转换标志位;

s23、当所述子句包含所述第一类关键词,调整所述子句的转换标志位,当所述子句与前一子句有连接关系,则调整所述前一子句的转换标志位,并向前遍历;

s24、依据转换标志位,利用上述各项任意组合的所述数字转换方法对所述输入文本串的子句进行转换,并输出经过转换的目标文本串。

较佳地,通过以下步骤实现步骤s22:

当所述子句的末尾是标点,所述子句的连接位设为0,当所述子句的末尾不是标点,所述子句的连接位设为1;

当所述子句以数字开始且前一子句以数字结束,所述子句的转换标志位设为0,当所述子句不以数字开始或前一子句不以数字结束,所述子句的转换标志位设为1。

一种数字转换系统,包括:

排除模块,用于构建第一类关键词字典,当输入文本包含所述第一类关键词,则不调用转换模块;

转换模块,用于构建第二类关键词字典、第三类关键词字典和第四类关键词字典,依据所述第二类关键词对所述输入文本的中文数字进行数字串直接转换,依据所述第三类关键词对所述输入文本的中文数字进行数值转换,依据所述第四类关键词对所述输入文本的表示时间的中文数字进行转换;

输出模块,用于结束转换,输出目标文本。

较佳地,所述第一类关键词包括:

具有实际的意义的连续数字;

含有数字的地名;

含有数字的固定搭配;

只包含单个数字的日常用语。

较佳地,所述第四类关键词包括“时”、“分”、“点半”、“点钟”、“点多”,依据所述第四类关键词对表示时间的中文数字进行转换,包括:

将“点”、“时”转换为“:”,将“点半”转换为“:30”。

较佳地,所述数字转换系统还包括:

判断模块,用于在调用排除模块前,判断所述输入文本是否含有中文数字。

一种文本处理系统,包括:

单句转换模块,用于获取输入文本串中子句的数量,当所述子句的数量为1,利用上述各项任意组合的所述数字转换系统对所述输入文本串进行转换,并输出经过转换的目标文本串;当所述子句的数量大于1,调用转换标志位设立模块;

转换标志位设立模块,用于对所述输入文本串的每个所述子句设立转换标志位;

转换标志位调整模块,用于当所述子句包含所述第一类关键词,调整所述子句的转换标志位,当所述子句与前一子句有连接关系,则调整所述前一子句的转换标志位,并向前遍历;

文本转换模块,用于依据转换标志位,利用上述各项任意组合的所述数字转换系统对所述输入文本串的子句进行转换,并输出经过转换的目标文本串。

较佳地,所述转换标志位设立模块包括:

连接位设立单元,用于当所述子句的末尾是标点,所述子句的连接位设为0,当所述子句的末尾不是标点,所述子句的连接位设为1;

转换标志位设立单元,用于当所述子句以数字开始且前一子句以数字结束,所述子句的转换标志位设为0,当所述子句不以数字开始或前一子句不以数字结束,所述子句的转换标志位设为1。

一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现上述各项任意组合的数字转换方法或文本转换方法。

一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现上述各项任意组合的数字转换方法或文本转换方法。

本发明的积极进步效果在于:本发明克服现有技术中语音转录文本不符合正常的阅读习惯,将语音转录文本的数字转换成阿拉伯数字后会出现数字重复、有歧义的缺陷,转换后的文本包含阿拉伯数字,清晰且没有歧义,能够使人一眼抓住重点,提高文本处理效率,也便于机器进行抓取,进行后的续处理和使用。

附图说明

图1为本发明实施例1的数字转换方法的流程图。

图2为本发明实施例1的数字转换方法的另一个流程图。

图3为本发明实施例2的文本处理方法的流程图。

图4为本发明实施例3的数字转换系统的结构框图。

图5为本发明实施例3的数字转换系统的另一个结构框图。

图6为本发明实施例4的文本处理系统的结构框图。

图7为本发明实施例4的转换标志位设立模块的结构框图。

图8为本发明实施例5的电子设备的硬件结构示意图。

具体实施方式

下面通过实施例的方式进一步说明本发明,但并不因此将本发明限制在所述的实施例范围之中。

实施例1

本实施例提供一种数字转换方法。参照图1,该数字转换方法包括:

s11、构建第一类关键词字典,当输入文本包含所述第一类关键词,则执行步骤s13;

s12、构建第二类关键词字典、第三类关键词字典和第四类关键词字典,依据所述第二类关键词对所述输入文本的中文数字进行数字串直接转换,依据所述第三类关键词对所述输入文本的中文数字进行数值转换,依据所述第四类关键词对所述输入文本的表示时间的中文数字进行转换。

s13、结束转换,输出目标文本。

较佳地,所述第一类关键词包括:

具有实际的意义的连续数字;

含有数字的地名;

含有数字的固定搭配;

只包含单个数字的日常用语。

语音转录文本存在具有实际的意义的连续数字,如“订单价格就是一千一千五百块钱”,转换后“订单价格就是10001500块钱”会引起歧义,则不进行转换。

部分含有数字的地名,如“三亚”,“九寨沟”等不进行转换。

含有数字的固定搭配,如“一个”、“一样”等不进行转换。

只包含单个数字的日常用语,如“总共三张订单”、“两个人”等不进行转换。

对大量原始语音转录文本,分析和统计其中中文数字前后的主要字段,筛选能够明确将中文字符转换为阿拉伯字符的标志字词,并结合人工经验,构建三类关键词字典。设立滑动窗口,自左向右或自右向左地查找输入文本中包含的关键词,作为转换依据。依据输入文本包含的关键词,用相应的转换方式对中文数字进行符合转换场景地转换。

输入文本包含第二类关键词,用数字串直接转换的转换方式对中文数字进行转换。第二类关键词包括“电话”,“手机”,“号码”,“号”,“尾号”,“来电”,“订单”,“年”,“弄”,“室”,“单元”等。例如,“二零二零年”转换为“2020年”。

输入文本包含第三类关键词,用数值转换的转换方式对中文数字进行转换。第三类关键词包括“周”,“天”,“块”,“个”,“人”,“位”,“岁”,“度”,“元”,“美元”,“港元”,“泰铢”,“欧”,“分”,“秒”,“多”,“号”,“吋”,“寸”,“左右”,“公里”,“摄氏”,“公斤”,“克”,“厘米”,“米”,“公分”,“小时”,“加”,“减”,“乘”,“乘以”,“除”,“除以”,“月”,“点”,“双”,“满”,“共”,“费”,“款”,“损失”,“退”,“补”,“押金”,“贵”,“付”,“优惠”,“价格”,“赔”,“违约金”,“扣”,“价”,“便宜”,“钱”,“块钱”,“块”,“券”等。例如,“一千两百三十四”转换为“1234”。

较佳地,所述第四类关键词包括“时”、“分”、“点半”、“点钟”、“点多”,依据所述第四类关键词对表示时间的中文数字进行转换,包括:

将“点”、“时”转换为“:”,将“点半”转换为“:30”。

较佳地,参照图2,在步骤s11之前,所述数字转换方法还包括:

s10、判断所述输入文本是否含有中文数字。

利用数字判断函数判断输入文本中是否含有需处理的中文数字,如果有,执行步骤s11。

实施例2

本实施例提供一种文本处理方法。参照图3,该文本处理方法,包括:

s21、获取输入文本串中子句的数量,当所述子句的数量为1,利用单文本数字转换方法对所述输入文本串进行转换,并输出经过转换的目标文本串;当所述子句的数量大于1,执行步骤s22;

s22、对所述输入文本串的每个所述子句设立转换标志位;

s23、当所述子句包含所述第一类关键词,调整所述子句的转换标志位,当所述子句与前一子句有连接关系,则调整所述前一子句的转换标志位,并向前遍历;

s24、依据转换标志位,利用单文本数字转换方法对所述输入文本串的子句进行转换,并输出经过转换的目标文本串。

所述单文本数字转换方法是实施例1中的数字转换方法。

例如,所述输入文本串为:

‘客人电话号码是幺三五八三九三’

‘四六七六’

‘就是改到九月六号当天早上九点钟出发的国航这一般没问题。’

‘哎,好的,那我给你刷一下,看这边有没有收款成功啊,稍等一会。’

第一步,获取输入文本串中子句的数量,当所述子句的数量大于1,执行下一步骤。

较佳地,通过以下步骤实现步骤s22:

当所述子句的末尾是标点,所述子句的连接位设为0,当所述子句的末尾不是标点,所述子句的连接位设为1;

当所述子句以数字开始且前一子句以数字结束,所述子句的转换标志位设为0,当所述子句不以数字开始或前一子句不以数字结束,所述子句的转换标志位设为1。

第二步,第1子句无标点,设立连接位为1;不以数字开始设立转换标志位为1;

第2子句无标点,设立连接位1;上一子句以数字结束,该子句以数字开始,则不转换,设转换标志位为0;

第3子句有标点,连接位为0,且不以数字开始,设立转换标志位为1;

第4子句有标点,连接位为0,且不以数字开始,设立转换标志位为1。

第三步,当一个子句包含所述第一类关键词,且转换标志位为1,则调整转换标志位为0。子句不包含所述第一类关键词或转换标志位为0,不需要调整转换标志位。

第1子句不包含所述第一类关键词,不调整转换标志位;

第2子句不包含所述第一类关键词,不调整转换标志位;

第3子句不包含所述第一类关键词,不调整转换标志位;

第4子句不包含所述第一类关键词,不调整转换标志位;

第1子句的连接位为1,与第2子句有连接关系,第2子句转换标志位为0,则调整第1子句的转换标志位为0,并向前遍历。

第四步,对转换标志位为1的子句按照单文本转换流程进行转换,输出经过转换的目标文本串:

‘客人电话号码是幺三五八三九三’

‘四六七六’

‘就是改到9月6号当天早上9:00出发的国航这一般没问题。’

‘哎,好的,那我给你刷一下,看这边有没有收款成功啊,稍等一会。’

实施例3

本实施例提供一种数字转换系统,参照图4,该数字转换系统包括:

排除模块11,用于构建第一类关键词字典,当输入文本包含所述第一类关键词,则不调用转换模块;

转换模块12,用于构建第二类关键词字典、第三类关键词字典和第四类关键词字典,依据所述第二类关键词对所述输入文本的中文数字进行数字串直接转换,依据所述第三类关键词对所述输入文本的中文数字进行数值转换,依据所述第四类关键词对所述输入文本的表示时间的中文数字进行转换。

输出模块13,用于结束转换,输出目标文本。

较佳地,所述第一类关键词包括:

具有实际的意义的连续数字;

含有数字的地名;

含有数字的固定搭配;

只包含单个数字的日常用语。

较佳地,所述第四类关键词包括“时”、“分”、“点半”、“点钟”、“点多”,依据所述第四类关键词对表示时间的中文数字进行转换,包括:

将“点”、“时”转换为“:”,将“点半”转换为“:30”。

较佳地,参照图5,所述数字转换系统还包括:

判断模块10,用于在调用排除模块前,判断所述输入文本是否含有中文数字。

实施例4

本实施例提供一种文本处理系统,参照图6,该文本处理系统包括:

单句转换模块21,用于获取输入文本串中子句的数量,当所述子句的数量为1,利用上述各项任意组合的所述数字转换系统对所述输入文本串进行转换,并输出经过转换的目标文本串;当所述子句的数量大于1,调用转换标志位设立模块;

转换标志位设立模块22,用于对所述输入文本串的每个所述子句设立转换标志位;

转换标志位调整模块23,用于当所述子句包含所述第一类关键词,调整所述子句的转换标志位,当所述子句与前一子句有连接关系,则调整所述前一子句的转换标志位,并向前遍历;

文本转换模块24,用于依据转换标志位,利用上述各项任意组合的所述数字转换系统对所述输入文本串的子句进行转换,并输出经过转换的目标文本串。

较佳地,参照图7,所述转换标志位设立模块包括:

连接位设立单元,用于当所述子句的末尾是标点,所述子句的连接位设为0,当所述子句的末尾不是标点,所述子句的连接位设为1;

转换标志位设立单元,用于当所述子句以数字开始且前一子句以数字结束,所述子句的转换标志位设为0,当所述子句不以数字开始或前一子句不以数字结束,所述子句的转换标志位设为1。

实施例5

图8为本发明实施例5提供的一种电子设备的结构示意图。所述电子设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现实施例1的数字转换方法或实施例2的文本处理方法。图5显示的电子设备30仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。

如图8所示,电子设备30可以以通用计算设备的形式表现,例如其可以为服务器设备。电子设备30的组件可以包括但不限于:上述至少一个处理器31、上述至少一个存储器32、连接不同系统组件(包括存储器32和处理器31)的总线33。

总线33包括数据总线、地址总线和控制总线。

存储器32可以包括易失性存储器,例如随机存取存储器(ram)321和/或高速缓存存储器322,还可以进一步包括只读存储器(rom)323。

存储器32还可以包括具有一组(至少一个)程序模块324的程序/实用工具325,这样的程序模块324包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。

处理器31通过运行存储在存储器32中的计算机程序,从而执行各种功能应用以及数据处理,例如本发明实施例1的模型训练方法或实施例2的垃圾邮件识别方法。

电子设备30也可以与一个或多个外部设备34(例如键盘、指向设备等)通信。这种通信可以通过输入/输出(i/o)接口35进行。并且,模型生成的设备30还可以通过网络适配器36与一个或者多个网络(例如局域网(lan),广域网(wan)和/或公共网络,例如因特网)通信。如图所示,网络适配器36通过总线33与模型生成的设备30的其它模块通信。应当明白,尽管图中未示出,可以结合模型生成的设备30使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、raid(磁盘阵列)系统、磁带驱动器以及数据备份存储系统等。

应当注意,尽管在上文详细描述中提及了电子设备的若干单元/模块或子单元/模块,但是这种划分仅仅是示例性的并非强制性的。实际上,根据本发明的实施方式,上文描述的两个或更多单元/模块的特征和功能可以在一个单元/模块中具体化。反之,上文描述的一个单元/模块的特征和功能可以进一步划分为由多个单元/模块来具体化。

实施例6

本实施例提供了一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现实施例1的数字转换方法或实施例2的文本处理方法的步骤。

其中,可读存储介质可以采用的更具体可以包括但不限于:便携式盘、硬盘、随机存取存储器、只读存储器、可擦拭可编程只读存储器、光存储器件、磁存储器件或上述的任意合适的组合。

在可能的实施方式中,本发明还可以实现为一种程序产品的形式,其包括程序代码,当所述程序产品在终端设备上运行时,所述程序代码用于使所述终端设备执行实现实施例1的数字转换方法或实施例2的文本处理方法的步骤。

其中,可以以一种或多种程序设计语言的任意组合来编写用于执行本发明的程序代码,所述程序代码可以完全地在用户设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户设备上部分在远程设备上执行或完全在远程设备上执行。

虽然以上描述了本发明的具体实施方式,但是本领域的技术人员应当理解,这仅是举例说明,本发明的保护范围是由所附权利要求书限定的。本领域的技术人员在不背离本发明的原理和实质的前提下,可以对这些实施方式做出多种变更或修改,但这些变更和修改均落入本发明的保护范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1