一种RDP窗口标题文字识别的方法及装置与流程

文档序号:22879239发布日期:2020-11-10 17:36阅读:184来源:国知局
一种RDP窗口标题文字识别的方法及装置与流程

本发明涉及计算机技术领域,具体涉及一种rdp窗口标题文字识别的方法及装置。



背景技术:

远程桌面协议(remotedesktopprotocol,简称:rdp)是一个多通道(multi-channel)的协议,让客户端连上提供终端机服务的服务器端。rdp尝试只提供那些必需的服务,达到操作有效、尺度小的效果。rdp支持虚拟通道来传送客户端与服务器端之间的数据交流,以rdp为基础的远程桌面可以让用户使用远程计算机上的所有应用程序、文件和网络资源,而无需执行本地程序。随着互联网的快速发展,rdp被广泛应用,随之而来的网络安全隐患也越来越多。因此,需要对rdp传输的内容进行审计,以便及时发现非法访问、异常操作等安全信息,保障网络安全。

rdp审计其中一项重要的任务是对rdp传输的窗口标题进行审计。常见的计算机之间的传输文字方法为:发送端传输unicode、ascii等字符编码,接收端利用字库软件或硬件渲染后展示文字;如果接收端字库缺失,则无法正确展示内容。但是,rdp传输窗口标题文字的方法与之不同,其传输方法为:直接传输字形码(字形码:点阵代码的一种。为了将汉字在显示器或打印机上输出,把汉字按图形符号设计成点阵图,就得到了相应的点阵代码),这样可以避免因远程接收端无字库无法正确的显示,解决上述问题。另一方面,使用字形码表述字形的方式传输文字,接收端虽然可以正确的展示出字形,但是审计方却又无法自动识别出文字语义,进而对其进行审计。

现有技术一般采用ocr技术来识别rdp传输的窗口标题的文字语义,但存在以下问题:

一、ocr技术的识别速度太慢,识别10个字大概需要零点几秒的时间。

二、ocr技术要求待识别的文字的分辨率较大,汉字一般需超过16*16像素,但是rdp传输的窗口标题文字大多只有10*10像素或者12*12像素,导致使用ocr识别文字的识别率和正确率都不高。

因此亟待需要一种快速可靠的方法来识别rdp传输的窗口标题的文字语义。



技术实现要素:

本发明公开一种rdp窗口标题文字识别的方法,所述方法包含:

定义文字转换表,其中包含字形特征信息和对应的字符编码信息;

截获、解析包含rdp窗口标题的rdp协议数据,提取出rdp窗口标题中的字形特征信息数据;

将所述rdp窗口标题中的字形特征信息数据输入所述文字转换表,通过查表,获得相对应的字符编码信息数据;

将所述rdp窗口标题的字符编码信息数据存储至数据库中。

具体的,所述定义文字转换表的方法包含:

将所述字形特征信息以二进制数表示;

将所述字形特征信息逐一转换为唯一的统一查询码,所述统一查询码是位数为常数c的二进制数;转换所述统一查询码的转换规则具体为:设所述表示字形特征信息的二进制数的最大位数值为c;若待转换的所述表示字形特征信息的二进制数的位数等于c,则所述统一查询码等于所述表示字形特征信息的二进制数;否则,所述统一查询码等于所述表示字形特征信息的二进制数通过补位算法转换成为的位数等于c的二进制数;

将所述字形特征信息及所述统一查询码与其相对应的所述字符编码信息一一对应,生成文字转换表;

将所述文字转换表以二叉树的数据结构存储,所述文字转换表的所述统一查询码存储成二叉树的节点,所述文字转换表中的所述字符编码信息存储成二叉树的叶子节点。

具体的,所述将所述rdp窗口标题中的字形特征信息数据输入所述文字转换表,通过查表,获得相应的字符编码信息数据的方法包含:

将所述rdp窗口标题中的字形特征信息数据以二进制数表示;

将所述表示rdp窗口标题中的字形特征信息数据的二进制数按照所述转换统一查询码的转换规则并使用所述补位算法转换为所述统一查询码数据;

将所述统一查询码数据输入所述文字转换表,所述文字转换表以二叉树的数据结构存储;按顺序将所述统一查询码数据的每一位数字与从所述二叉树的根开始的节点一一匹配,形成路径,查找到叶子节点,获得所述rdp窗口标题的字符编码信息数据。

具体的,所述定义文字转换表的方法还包含:

将所述字形特征信息以二进制数表示;

将所述字形特征信息和对应的所述字符编码信息,生成一条文字转换记录;

将多条所述文字转换记录组成一张所述文字转换表,其中每条所述文字转换记录中包含的所述表示字形特征信息的二进制数的位数相同;所述文字转换记录中包含的所述表示字形特征信息的二进制数的位数不同,可组成多张所述文字转换表;多张所述文字转换表组成文字转换库;

将每张所述文字转换表分别以二叉树的数据结构存储,所述文字转换表的所述表示字形特征信息存储成二叉树的节点,所述文字转换表中的所述字符编码信息存储成二叉树的叶子节点。

具体的,所述将所述rdp窗口标题中的字形特征信息数据输入所述文字转换表,通过查表,获得相应的rdp窗口标题的字符编码信息数据的方法还包含:

将所述rdp窗口标题中的字形特征信息数据以二进制数表示;

按照所述表示rdp窗口标题中的字形特征信息的二进制数的位数,在所述文字转换库中匹配相应的所述文字转换表;

将所述表示rdp窗口标题中的字形特征信息的二进制数输入相匹配的所述文字转换表,所述文字转换表以二叉树的数据结构存储;按顺序将所述表示rdp窗口标题中的字形特征信息的二进制数的每一位数字与从所述二叉树的根开始的节点一一匹配,形成路径,查找到叶子节点,获得所述rdp窗口标题的字符编码信息数据。

本发明还公开一种rdp窗口标题文字识别的装置,包含:

转换表定义单元,用于定义文字转换表,其中包含字形特征信息和字符编码信息;

数据提取单元,用于截获、解析包含rdp窗口标题的rdp协议数据,提取出rdp窗口标题的字形特征信息数据;

文字识别单元,用于将从数据提取单元取得的所述rdp窗口标题的字形特征信息数据,输入从转换表定义单元取得的文字转换表,通过查找所述的文字转换表,获得相应的字符编码信息数据,并保存到数据库中。

具体的,所述转换表定义单元包含:

字形特征信息数据化模块,用于将所述字形特征信息以二进制数表示;

统一查询码生成模块,用于将从字形特征信息数据化模块取得的所述字形特征信息逐一转换为唯一的统一查询码,所述统一查询码是位数为常数c的二进制数;转换所述统一查询码的转换规则具体为:设所述表示字形特征信息的二进制数的最大位数为c;若待转换的所述表示字形特征信息的二进制数的位数等于c,则所述统一查询码等于所述表示字形特征信息的二进制数;否则,所述统一查询码等于所述表示字形特征信息的二进制数通过补位算法转换成为的位数等于c的二进制数;

文字转换表生成模块,用于将从字形特征信息数据化模块取得的所述字形特征信息及从统一查询码生成模块取得的所述统一查询码与其相对应的所述字符编码信息一一对应,生成文字转换表;

文字转换表存储模块,用于将从文字转换表生成模块取得的所述文字转换表以二叉树的数据结构存储,所述文字转换表的所述统一查询码存储成二叉树的节点,所述文字转换表中的所述字符编码信息存储成二叉树的叶子节点。

具体的,所述文字识别单元包含:

字形特征信息数据二进制化模块,用于将从数据提取单元取得的所述rdp窗口标题中的字形特征信息数据以二进制数表示;

统一查询码数据转换模块,用于将从字形特征信息数据二进制化模块取得的所述表示rdp窗口标题中的字形特征信息数据的二进制数按照所述转换统一查询码的转换规则并使用所述补位算法转换为所述统一查询码数据;

查询模块一,用于将从统一查询码数据转换模块取得的所述统一查询码数据输入从文字转换表存储模块取得的所述文字转换表,所述文字转换表以二叉树的数据结构存储;按顺序将所述统一查询码数据的每一位数字与从所述二叉树的根开始的节点一一匹配,形成路径,查找到叶子节点,获得所述rdp窗口标题的字符编码信息数据;并保存到数据库中。

具体的,所述转换表定义单元还包含:

字形特征信息数据化模块,用于将所述字形特征信息以二进制数表示;

文字转换库生成模块,用于将从字形特征信息数据化模块取得的所述字形特征信息与其相对应的所述字符编码信息对应,生成一条文字转换记录;将多条所述文字转换记录组成一张所述文字转换表,其中每条所述文字转换记录中包含的所述表示字形特征信息的二进制数的位数相同;所述文字转换记录中包含的所述表示字形特征信息的二进制数的位数不同,可组成多张所述文字转换表;多张所述文字转换表组成文字转换库;

文字转换库存储模块,用于将从文字转换库生成模块取得的每张所述文字转换表分别以二叉树的数据结构存储,所述文字转换表的所述表示字形特征信息存储成二叉树的节点,所述文字转换表中的所述字符编码信息存储成二叉树的叶子节点。

具体的,所述文字识别单元还包含:

字形特征信息数据二进制化模块,用于将从数据提取单元取得的所述rdp窗口标题中的字形特征信息数据以二进制数表示;

匹配模块,用于按照从字形特征信息数据二进制化模块取得的所述表示rdp窗口标题中的字形特征信息的二进制数的位数,在从文字转换库存储模块取得的所述文字转换库中匹配相应的所述文字转换表;并将所述文字转换表的特征属性信息发送给查询模块二;

查询模块二,用于将从字形特征信息数据二进制化模块取得的所述表示rdp窗口标题中的字形特征信息的二进制数输入从文字转换库存储模块取得的相匹配的所述文字转换表,所述文字转换表以二叉树的数据结构存储,按顺序将所述表示rdp窗口标题中的字形特征信息的二进制数的每一位数字与从所述二叉树的根开始的节点一一匹配,形成路径,查找到叶子节点,获得所述rdp窗口标题的字符编码信息数据;并保存到数据库中。

与现有技术相比,本发明的有益效果是:能够快速正确地将接收到的文字字形识别为相应语义的文字,进而提供给审计利用。对应的软件程序小巧实用。

一、文字识别速度快。通过查询文字转换表的方式识别文字,其时间复杂度单字为o(1),时间复杂度与表中包含的文字数量无关。而ocr的速度根据ocr算法不同的速度也不同,因为要同时匹配库中包含的文字和每个字的特征长度,最快只能达到o(n^2)。

二、正确率高。通过一对一查找文字转换表的方式识别文字,不会出现乱码、错字。

三、内存占用小。文字转换表的空间复杂度单字为o(n)。空间复杂度与表中包含的文字数量无关,和表示字形特征信息的二进制数位数n相关。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本申请实施例一提供的一种rdp窗口标题文字识别的方法流程示意图;

图2为一种字形特征信息示意图;

图3为本申请实施例二提供的另一种rdp窗口标题文字识别的方法流程示意图;

图4为另一种字形特征信息示意图;

图5为以二叉树结构存储的文字转换表示意图;

图6为本申请实施例三提供的又一种rdp窗口标题文字识别的方法流程示意图;

图7为本申请实施例四提供的一种rdp窗口标题文字识别的装置结构示意图;

图8为本申请实施例五提供的另一种rdp窗口标题的文字识别的装置结构示意图;

图9为本申请实施例六提供的又一种rdp窗口标题文字识别的装置结构示意图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

请参阅图1,图1为本申请实施例一提供的一种rdp窗口标题文字识别的方法流程示意图,所述方法包含:

步骤s101:定义文字转换表,其中包含字形特征信息和对应的字符编码信息。

字符编码信息是指计算机文字系统中使用的二进制字符编码,即以二进制的数字来对应字符集中的文字字符。常见的字符编码包含:ascii编码、ebcdic编码、gb2312编码、unicode编码、utf-8编码等。字符编码信息是沟通输入、输出与系统平台的交换码,便于文本在计算机中存储和通过通信网络的传递。同样的文字字符使用不同的字符编码格式会对应有不同的字符编码,例如汉字“中”的unicode编码为“u4e2d”,utf-8编码为“0xe40xb80xad”。

字形特征信息是指为了将汉字在显示器或打印机上输出,把汉字按图形符号设计成点阵图,用“1”表示有文字的像素点,用“0”表示空白的点,则可以将字形特征以二进制数表示。举例来说,汉字“中”在10*10像素点阵中可以设计成如图2所示的字形,那么所述“中”字的字形特征信息可以表示为“0000110000000011000001111111100100110010010011001001001100100111111110000011000000001100000000110000”。

定义文字转换表的的方法包含:

步骤一,选择一种字符编码来表示字符的编码信息;

步骤二,收集rdp窗口标题常用字的字形特征信息;

步骤三,将字形特征信息与其相对应的字符编码信息一一对应,生成文字转换表。

举例来说,请参阅如下表1,选择unicode编码表示字符编码信息,将表示图2的“中”字型特征信息的二进制数“0000110000000011000001111111100100110010010011001001001100100111111110000011000000001100000000110000”与unicode表示“中”的编码“u4e2d”对应,就生成了一条文字转换表中的记录。

表1文字转换表示意

需要说明的是,鉴于rdp窗口标题文字具有以下特点:1)文字大小相对固定,2)分辨率低,常见的分辨率为10*10像素或12*12像素,3)标题常用文字数量有限。文字转换表的规模是可控的。进一步地,文字转换表是可随时扩展的,如果出现现有文字转换表中未收录的字形特征信息查询不出对应的字符编码信息的情形,可以通过增加文字转换表记录的方法来克服。

步骤s102:截获、解析包含rdp窗口标题的rdp协议数据,提取出rdp窗口标题中的字形特征信息数据。

包含如下步骤:

步骤一,从网络上截获rdp协议包;

步骤二,分析rdp通信协议,将同一个rdp指令存放在一个报文中;

步骤三,解析rdp报文,分离出rdp窗口标题;

步骤四,对rdp窗口标题解码,并提取出rdp窗口标题中包含的字形特征信息数据。

步骤s103:将所述rdp窗口标题中的字形特征信息数据输入所述文字转换表,通过查表,获得每个窗口标题文字字形相对应的字符编码信息数据。

步骤s104:将所述rdp窗口标题的字符编码信息数据存储至数据库中。

与现有技术相比,本发明使用查询文字转换表的方法对rdp窗口标题文字进行识别。提高了文字识别的速度,保证了文字识别的准确性。

进一步的,当rdp窗口标题文字被识别后,rdp窗口标题的字符编码信息数据会被当成审计日志的一个记录被存入数据库,该条记录表示一个窗口被打开。结合rdp审计日志的其他内容,例如:用户账号、rdp链接时间、关闭时间、操作发生的时间、客户端的地址等,可以说明在特定的时间和场景,用户打开了一个应用程序,并在其中进行了操作。审计方可以根据业务场景和业务需求,设计业务规则进行审计。举例来说:审计方可预先定义待审计的关键字、例如“注册表编辑器”,并定义告警规则、例如“执行短信告警”;则当rdp窗口标题的字符编码信息数据存入数据库时,会跟关键字“注册表编辑器”进行比对,若比对结果符合,则会触发短信告警。

由此可以看出,本发明提高了文字识别的速度,保证了文字识别的准确性。进而提高了rdp审计的效率和准确性。

请参阅图3,图3为本申请实施例二提供的另一种rdp窗口标题文字识别的方法流程示意图,所述方法包含:

步骤s201:将所述字形特征信息以二进制数表示,包括:

步骤一,收集rdp窗口标题常用字的字形特征信息。

步骤二,鉴于不同的服务器端操作系统默认的rdp窗口标题文字分辨率不同但相对固定,常见的分辨率为10*10像素或12*12像素,则字形特征信息可分别使用100位或144位的二进制数表示。举例来说,汉字“中”在10*10像素点阵中可以设计成图2的字形,那么所述“中”字的字形特征信息可以用一个100位的二进制数表示为“0000110000000011000001111111100100110010010011001001001100100111111110000011000000001100000000110000”。汉字“中”在12*12像素点阵中可以设计成图4的字形,那么所述“中”字的字形特征信息可以用一个144位的二进制数表示为“000001100000000001100000000001100000011111111110010001100010010001100010010001100010011111111110000001100000000001100000000001100000000001100000”。

步骤s202:将所述字形特征信息逐一转换为唯一的统一查询码,所述统一查询码是位数为常数c的二进制数;转换所述统一查询码的转换规则具体为:设所述表示字形特征信息的二进制数的最大位数值为c;若待转换的所述表示字形特征信息的二进制数的位数等于c,则所述统一查询码等于所述表示字形特征信息的二进制数;否则,所述统一查询码等于所述表示字形特征信息的二进制数通过补位算法转换成为的位数等于c的二进制数。

本步骤的目的在于使全部表示字形特征信息的二进制数都具有相同的位数,用一张文字转换表即可以查询不同分辨率的文字。补位算法包含头部补位、尾部补位、按行补位等。

仍以图2及图4举例说明,在本例中c=144,若选用头部补位算法,图2的汉字“中”的统一查询码从100位补位为144位的“000000000000000000000000000000000000000000000000110000000011000001111111100100110010010011001001001100100111111110000011000000001100000000110000”。图4的汉字“中”的144位的统一查询码为“000001100000000001100000000001100000011111111110010001100010010001100010010001100010011111111110000001100000000001100000000001100000000001100000”。

步骤s203:将所述字形特征信息及所述统一查询码与其相对应的所述字符编码信息一一对应,生成文字转换表。

生成文字转换表的方法包含:

步骤一,选择一种字符编码来表示字符编码信息;

步骤二,将所述字形特征信息及所述统一查询码与其相对应的所述字符编码信息一一对应,生成文字转换表。

举例来说,请参阅如下表2,选择unicode编码表示字符编码信息,将表示图2与图4的“中”字型特征信息的二进制数、统一查询码与unicode表示“中”的编码“u4e2d”对应,就生成了两条文字转换表中的记录。

表2另一种文字转换表示意

步骤s204:将所述文字转换表以二叉树的数据结构存储,所述文字转换表的所述统一查询码存储成二叉树的节点,所述文字转换表中的所述字符编码信息存储成二叉树的叶子节点。

请参阅图5以二叉树结构存储的文字转换表示意图。若选择了unicode编码表示字符编码信息,则二叉树的叶子为unicode码;组成从二叉树的根到叶子的路径的节点为对应的统一查询码。需要说明的是,二叉树的度数等于统一查询码的位数,图5为了表达方便对实际结构的度数进行了简化。

步骤s205:截获、解析包含rdp窗口标题的rdp协议数据,提取出rdp窗口标题中的字形特征信息数据。

截获、解析包含rdp窗口标题的rdp协议数据,提取出rdp窗口标题中的字形特征信息数据的方法请参阅本申请实施例一步骤s102。

步骤s206:将所述rdp窗口标题中的字形特征信息数据以二进制数表示。

步骤s207:将所述表示rdp窗口标题中的字形特征信息数据的二进制数按照所述转换统一查询码的转换规则并使用所述补位算法转换为所述统一查询码数据。

需要说明的是,本步骤必须使用与本申请实施例二步骤s202相同的补位算法。

步骤s208:将所述统一查询码数据输入所述文字转换表,所述文字转换表以二叉树的数据结构存储;按顺序将所述统一查询码数据的每一位数字与从所述二叉树的根开始的节点一一匹配,形成路径,查找到叶子节点,获得所述rdp窗口标题的字符编码信息数据。

步骤s209:将所述rdp窗口标题的字符编码信息数据存储至数据库中。

与现有技术相比,本发明利将文字转换表以二叉树的数据结构存储,进一步的提高了查询文字转换表的速度。

请参阅图6,图6为本申请实施例三提供的又一种rdp窗口标题文字识别的方法流程示意图,所述方法包含:

步骤s301:将所述字形特征信息以二进制数表示。

将所述字形特征信息以二进制数表示的方法请参阅本申请实施例二步骤s201。

步骤s302:将所述字形特征信息与其相对应的所述字符编码信息对应,生成一条文字转换记录。

包含如下步骤:

步骤一,选择一种字符编码来表示字符编码信息;

步骤二,将所述字形特征信息及所述统一查询码与其相对应的所述字符编码信息一一对应,生成一条文字转换记录。

举例来说,请参阅表1,选择unicode编码表示字符编码信息,将表示图2的“中”字型特征信息的二进制数“0000110000000011000001111111100100110010010011001001001100100111111110000011000000001100000000110000”与unicode表示“中”的编码“u4e2d”对应,就生成了一条文字转换记录。

步骤s303:将多条所述文字转换记录组成一张所述文字转换表,其中每条所述文字转换记录中包含的所述表示字形特征信息的二进制数的位数相同;所述文字转换记录中包含的所述表示字形特征信息的二进制数的位数不同,可组成多张所述文字转换表;多张所述文字转换表组成文字转换库。

鉴于不同的服务器端操作系统默认的rdp窗口标题文字分辨率不同,因而用来表示rdp窗口标题文字的字形特征信息的二进制数的位数不同。举例来说,分辨率为10*10像素的字形特征信息可使用100位二进制数表示,分辨率为12*12像素的字形特征信息可使用144位的二进制数表示。依据二进制数的位数将文字转换记录分表,将二进制数位数相同的文字转换记录分到一张文字转换表中,则会得到多张文字转换表,多张所述文字转换表组成文字转换库。在本例中,文字转换库由100位二进制数和144位二进制数两张文字转换表组成。

步骤s304:将每张所述文字转换表分别以二叉树的数据结构存储,所述文字转换表的所述表示字形特征信息存储成二叉树的节点,所述文字转换表中的所述字符编码信息存储成二叉树的叶子节点。

请参阅图5以二叉树结构存储的文字转换表示意图。若选择了unicode编码表示字符编码信息,则二叉树的叶子为unicode码;组成从二叉树的根到叶子的路径的节点为对应的字形特征信息。需要说明的是,二叉树的度数等于统一查询码的位数,图5为了表达方便对实际结构的度数进行了简化。

步骤s305:截获、解析包含rdp窗口标题的rdp协议数据,提取出rdp窗口标题中的字形特征信息数据。

截获、解析包含rdp窗口标题的rdp协议数据,提取出rdp窗口标题中的字形特征信息数据的方法请参阅本申请实施例一步骤s102。

步骤s306:将所述rdp窗口标题中的字形特征信息数据以二进制数表示。

步骤s307:按照所述表示rdp窗口标题中的字形特征信息的二进制数的位数,在所述文字转换库中匹配相应的所述文字转换表。

步骤s308:将所述表示rdp窗口标题中的字形特征信息的二进制数输入相匹配的所述文字转换表,所述文字转换表以二叉树的数据结构存储;按顺序将所述表示rdp窗口标题中的字形特征信息的二进制数的每一位数字与从所述二叉树的根开始的节点一一匹配,形成路径,查找到叶子节点,获得所述rdp窗口标题的字符编码信息数据。

步骤s309:将所述rdp窗口标题的字符编码信息数据存储至数据库中。

与现有技术相比,本发明利将文字转换表以二叉树的数据结构存储,进一步的提高了查询文字转换表的速度。

本发明实施例四公开了一种rdp窗口标题文字识别的装置,结构示意如图7所示:

转换表定义单元m1,用于定义文字转换表,其中包含字形特征信息和字符编码信息;

数据提取单元m2,用于截获、解析包含rdp窗口标题的rdp协议数据,提取出rdp窗口标题的字形特征信息数据;

文字识别单元m3,用于将从数据提取单元m2取得的所述rdp窗口标题的字形特征信息数据,输入从转换表定义单元m1取得的的文字转换表,通过查找所述的文字转换表,获得相应的字符编码信息数据,并保存到数据库db中。

本发明实施例五进一步公开了一种rdp窗口标题文字识别的装置,结构示意如图8所示:

转换表定义单元m1进一步包括:

字形特征信息数据化模块m11,用于将字形特征信息以二进制数表示。

统一查询码生成模块m12,用于将从字形特征信息数据化模块m11取得的字形特征信息逐一转换为唯一的统一查询码,所述统一查询码是位数为常数c的二进制数;转换所述统一查询码的转换规则具体为:设所述表示字形特征信息的二进制数的最大位数为c;若待转换的所述表示字形特征信息的二进制数的位数等于c,则所述统一查询码等于所述表示字形特征信息的二进制数;否则,所述统一查询码等于所述表示字形特征信息的二进制数通过补位算法转换成为的位数等于c的二进制数。

文字转换表生成模块m13,用于将从字形特征信息数据化模块m11取得的字形特征信息及从统一查询码生成模块m12取得的所述统一查询码与其相对应的所述字符编码信息一一对应,生成文字转换表。

文字转换表存储模块m14,用于将从文字转换表生成模块m13取得的所述文字转换表以二叉树的数据结构存储,所述文字转换表的所述统一查询码存储成二叉树的节点,所述文字转换表中的所述字符编码信息存储成二叉树的叶子节点。

文字识别单元m3进一步包括:

字形特征信息数据二进制化模块m31,用于将从数据提取单元m2取得的所述rdp窗口标题中的字形特征信息数据以二进制数表示;

统一查询码数据转换模块m32,用于将从字形特征信息数据二进制化模块m31取得的所述表示rdp窗口标题中的字形特征信息数据的二进制数按照转换所述统一查询码的转换规则并使用所述补位算法转换为所述统一查询码数据;

查询模块一m33,用于将从统一查询码转换模块m32取得的所述统一查询码数据输入从文字转换表存储模块m14取得的所述文字转换表,所述文字转换表以二叉树的数据结构存储;按顺序将所述统一查询码数据的每一位数字与从所述二叉树的根开始的节点一一匹配,形成路径,查找到叶子节点,获得所述rdp窗口标题的字符编码信息数据,并保存到数据库db中。

本发明实施例六进一步公开了又一种rdp窗口标题文字识别的装置,结构示意如图9所示:

转换表定义单元m1进一步包括:

字形特征信息数据化模块m11,用于将所述字形特征信息以二进制数表示;

文字转换库生成模块m15,用于将从字形特征信息数据化模块m11取得的所述字形特征信息与其相对应的所述字符编码信息对应,生成一条文字转换记录;将多条所述文字转换记录组成一张所述文字转换表,其中每条所述文字转换记录中包含的所述表示字形特征信息的二进制数的位数相同;所述文字转换记录中包含的所述表示字形特征信息的二进制数的位数不同,可组成多张所述文字转换表;多张所述文字转换表组成文字转换库;

文字转换库存储模块m16,用于将从文字转换库生成模块m15取得的每张所述文字转换表分别以二叉树的数据结构存储,所述文字转换表的所述表示字形特征信息存储成二叉树的节点,所述文字转换表中的所述字符编码信息存储成二叉树的叶子节点。

文字识别单元m3进一步包括:

字形特征信息数据二进制化模块m31,用于将从数据提取单元m2取得的所述rdp窗口标题中的字形特征信息数据以二进制数表示;

匹配模块m34,用于按照从字形特征信息数据二进制化模块m31取得的所述表示rdp窗口标题中的字形特征信息的二进制数的位数,在文字转换库存储模块m16匹配所述文字转换库中相应的所述文字转换表;并将所述文字转换表的特征属性信息发送给查询模块二m35;

查询模块二m35,用于将从字形特征信息数据二进制化模块m31取得的所述表示rdp窗口标题中的字形特征信息的二进制数输入从文字转换库存储模块m16取得的匹配的所述文字转换表,所述文字转换表以二叉树的数据结构存储,按顺序将所述表示rdp窗口标题中的字形特征信息的二进制数的每一位数字与从所述二叉树的根开始的节点一一匹配,形成路径,查找到叶子节点,获得所述rdp窗口标题的字符编码信息数据;并保存到数据库db中。

所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、单元和单元的具体对应工作过程,可以参考前述方法步骤,在此不再赘述。

对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1