一种文本处理方法与流程

文档序号:16208391发布日期:2018-12-08 07:24阅读:124来源:国知局
一种文本处理方法与流程

本发明涉及信息处理领域,尤其涉及一种文本处理方法。

背景技术

中国古代汉字存在多种文字表达方式,即同一个汉字在不同的历史时期具有不同的书写方式,而现在人们更习惯于使用简体汉字,这使得现在人们在认知古代汉字上存在困难,进而影响阅读有古代汉字组成的纸质或电子文章和书籍。两种能够思考到的技术方案包括,对古代汉字增加拼音注释或者简体汉字注释,但是很多情况下也存在如下技术问题:

1、拼音注释表音不表意,这使得阅读者虽然能够获知古代汉字的读音,但是仍然难以理解其含义;

2、简体汉字存在多音字的情况,从而使得阅读者对于部分古代汉字的读音存在歧义,而且儿童阅读者在知晓简体汉字的读音方面也存在困难;

3、缺乏利用计算机实现自动化注释的手段,在对大量古代汉字进行注释时效率较为低下;

4、注释位置较为随意,缺乏合理安排,从而使得相同范围内(例如一页纸内)能够呈现的内容较为有限,呈现效率较为低下。



技术实现要素:

为解决上述技术问题,本发明提供了一种文本处理方法,包括以下步骤:

步骤s100,获得待处理的文本,所述文本中包括n个第一类中文字符集c={c1,c2,...,cn}。

步骤s200,对c中的任一个字符ci,在字符和注音数据库中检索获得对应的p个第二类中文字符ai={ai1,ai2,...,aip}和q个注音字符bi={bi1,bi2,...,biq};所述字符和注音数据库包括第一类中文字符、第二类中文字符和注音字符。

步骤s300,在ai和bi中确定与ci共同显示的aij和bik,其中j的取值范围为1…p,k的取值范围为1…q。

步骤s400,当显示字符ci时,在ci的左边或右边的显示区域中同时显示aij和bik;所述ci的显示区域为边长lc的正方形。

其中,n≥1,p≥1,q≥1。

附图说明

图1是本发明的方法流程图;

图2是本发明的字符和注音数据库存储内容的示意图;

图3是本发明的一个实施例中同时显示第一、二类中文字符和注音字符的示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚,将结合附图对本发明作进一步地详细描述。这种描述是通过示例而非限制的方式介绍了与本发明的原理相一致的具体实施方式,这些实施方式的描述是足够详细的,以使得本领域技术人员能够实践本发明,在不脱离本发明的范围和精神的情况下可以使用其他实施方式并且可以改变和/或替换各要素的结构。因此,不应当从限制性意义上来理解以下的详细描述。

如图1所示,本发明提供了一种文本处理方法,包括以下步骤:

步骤s100,获得待处理的文本,文本中包括n个第一类中文字符集c={c1,c2,...,cn}。本发明中,待处理的文本物理上可以是直接导入的中文字符集,或者源于txt,word等通用或专用文本文件;文学上一般体现为一篇或多篇古代文学的文章,即n的取值为符合文章字数的自然数,但这并不意味着本发明不能处理n为较小自然数的情况,例如字符集c可以是一句话中的第一类中文字符集。本发明中,优选的第一类中文字符为非简体中文字符,示例性的包括但不限于甲骨文、金文、大篆、小篆、隶书等多种中文古文字符,即文字类型的不同不会影响本发明的保护范围。

步骤s200,对c中的每一个字符ci,在字符和注音数据库中检索获得对应的p个第二类中文字符ai={ai1,ai2,...,aip}和q个注音字符bi={bi1,bi2,...,biq},第二类中文字符优选为简体中文字符,但也可以为我国台湾地区或港澳地区使用的繁体中文字符;注音字符优选为汉语拼音,但也可以为我国台湾地区或港澳地区使用的拼音或注音符号。

如图2所示,本发明中示例性的字符和注音数据库包括第一类中文字符(例如非简体中文字符)、第二类中文字符(例如简体中文字符)和注音字符。进一步的,还包括第二类中文字符在待处理文本中出现的次数an1(初始值为0)、在历史处理文本中出现的总次数an2,以及注音字符在待处理文本中出现的次数bn1(初始值为0)、在历史处理文本中出现的总次数bn2。图2中,an1、an2、bn1、bn2的具体数值没有显示。

以图2所示为例,如果ci为c1,那么将检索到1个(p=1)第二类字符a11和1个(q=1)注音字符b11;如果ci为c2那么将检索到2个(p=2)第二类字符a21、a22和2个(q=2)注音字符b21、b22。

步骤s300,在ai和bi中确定与ci共同显示的aij和bik,其中j的取值范围为1…p,k的取值范围为1…q。

根据本发明的一个方面,如果p=1,说明与ci对应的第二类字符只有1个,那么j=1,且aij的显示区域具有第一显示特征;如果q=1,说明与ci对应的注音字符只有1个,那么k=1,且bik的显示区域具有第一显示特征。ci对应的第二类字符和/或注音字符仅有1个时,极大的可能性必然是正确的(虽然也存在因字符和注音数据库收录不完整的情况导致错误的可能性),因此,第一显示特征为不容易引起用户(例如出版物的编辑)重视的显示特征,从而加快用户的浏览校对效率。

根据本发明的第二个方面,如果p>1,说明与ci对应的第二类字符有多个,那么j=1,即将多个第二类字符中的第一个作为与ci共同显示的字符,且aij的显示区域具有不同于第一显示特征的第二显示特征;类似的,如果q>1,说明与ci对应的注音字符有多个,那么k=1,即将多个注音字符中的第一个作为与ci共同显示的字符,且bik的显示区域具有不同于第一显示特征的第二显示特征。例如,如果ci为c2那么将检索到2个(p=2)第二类字符a21、a22和2个(q=2)注音字符b21、b22,将a21和b21作为与ci共同显示的字符。这种情况下,在ci所处的上下文环境中,可能a21和b21是对ci错误的标注,而正确的标注是a22和b22。因此,有必要向用户显示一些提示信息。因此,第二显示特征为容易引起用户重视的显示特征,例如以闪烁的方式提示用户,或者以较第一显示特征中字体更大的字体提示用户,或者以较第一显示特征中更醒目的颜色提示用户等等。进一步的,aij的显示区域还能够响应用户对显示区域的第一操作(例如使用鼠标点击显示区域,或其他现有技术中实现相同功能的方式),用于向用户呈现ai中除aij以外的p-1个第二类中文字符,并且接受用户对p-1个除aij以外的第二类中文字符的第二操作(例如使用鼠标从多个第二类中文字符中点选一个,并点击“确定”按钮,或其他现有技术中实现相同功能的方式),第二操作用于从中选择与ci共同显示的aij2。类似的,bik的显示区域还能够响应用户对显示区域的第一操作,用于向用户呈现bi中除bik以外的q-1个注音字符,并且接受用户对q-1个除bik以外的第二类中文字符的第二操作,第二操作用于从中选择与ci共同显示的bik2。

根据本发明的第三个方面,如果p>1,说明与ci对应的第二类字符有多个,那么aij的显示区域具有不同于第一显示特征的第二显示特征;aij的显示区域还能够响应用户对显示区域的第一操作,用于向用户呈现ai中除aij以外的p-1个第二类中文字符。类似的,如果q>1,说明与ci对应的注音字符有多个,那么bik的显示区域具有不同于第一显示特征的第二显示特征;bik的显示区域还能够响应用户对显示区域的第一操作,用于向用户呈现bi中除bik以外的q-1个注音字符。

进一步的,文本处理方法进一步包括不区分先后顺序的以下步骤:

步骤s510,当p>1时,接受用户对p-1个除aij以外的第二类中文字符的第二操作,第二操作用于从中选择与ci共同显示的aij2;并且,将aij2对应的an1、an2加1。

步骤s520,当q>1时,除了根据本发明的第二个方面进行显示外,接受用户对q-1个除bik以外的第二类中文字符的第二操作,第二操作用于从中选择与ci共同显示的bik2;并且,将bik2对应的bn1、bn2加1。

根据本发明的第三个方面aij和bik的确定方式如下:

确定aij,使得的取值最大,其中an1j和an2j为aij对应an1和an2,min(an1j)和max(an1j)为ai={ai1,ai2,...,aip}中所有第二类中文字符对应an1的最小值和最大值;λ1和λ2为预设参数,且λ1+λ2=1。

确定bik,使得的取值最大,其中bn1k和bn2k为bik对应bn1和bn2,min(bn1k)和max(bn1k)为bi={bi1,bi2,...,biq}中所有第二类注音字符对应bn1的最小值和最大值;λ3和λ4为预设参数,且λ3+λ4=1。

步骤s400,如图3所示,当显示字符ci时,在ci的左边或右边的显示区域中同时显示aij和bik;ci的显示区域为边长lc的正方形。本领域技术人员知晓,图3是示例性的,aij和bik也可以位于ci的右边,且aij和bik的上下关系可以互换。

本发明的以上内容中,n≥1,p≥1,q≥1。

通过这种方式,在显示非简体中文字符时,能够同时显示对应的拼音和简体汉字,即使得阅读者方便的了解其音、其意。而且,通过使用字符和注音数据库,能够快速的实现对于古文文章大部分内容的标注,并使得用户聚焦在可能出现一个古文对应多个简体字符和/或多个拼音的情况,大幅提升了文本处理效率。

进一步的,aij的显示区域为边长la为正方形;bik的显示区域为长方形,且满足以下关系:其中hb和wb分别为bik的显示区域的高度和宽度。一般情况下,显示屏幕的原点位于屏幕的左上角,aij、bik的显示区域的中心横坐标xa、xb满足以下关系:xa=xb,其中,xc为ci的显示区域的中心横坐标。aij显示区域的中心纵坐标bik的显示区域的中心纵坐标且ya>yb;或者,aij显示区域的中心纵坐标bik的显示区域的中心纵坐标且ya<yb;yc为ci的显示区域的中心纵坐标。通过以上设置,能够使得三个字符的位置摆放更加合理,最大程度的利用单个页面中空间放置更多个字符,并且视觉感更美观。值得注意的是,对于显示屏幕的原点在屏幕其他位置(例如左下角)的情况下,本领域技术人员能够知晓对于aij、bik和ci的显示区域的坐标计算方式,且这些方式也将落入本发明的保护范围。

此外,根据公开的本发明的说明书,本发明的其他实现对于本领域的技术人员是明显的。实施方式和/或实施方式的各个方面可以单独或者以任何组合用于本发明的系统和方法中。说明书和其中的示例应该是仅仅看作示例性,本发明的实际范围和精神由所附权利要求书表示。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1