文字检索方法及装置的制造方法_2

文档序号:9911085阅读:来源:国知局
引入了图像匹配技术,因此解决了表意 文字描述序列的歧义性所导致的文字检索失败的问题,从而实现更加有效的检索。本发明 的所述方法和装置尤其适合用于对古籍中或活体印刷体文字加工后的文字的检索。
[0043] 以下结合附图及【具体实施方式】对本发明的方案进一步描述,从而本发明的有益效 果将进一步明确。
【附图说明】
[0044] 此处所说明的附图用来提供对本发明的进一步理解,构成本发明的一部分,其说 明用于解释本发明,并不构成对本发明的不当限定。
[0045] 图1是根据本发明一优选实施例的检索方法流程图。
[0046] 图2(a)、2(b)结合具体示例,示出了根据本发明所述的文字图像绘制过程中的准 备文字图像的过程。
[0047] 图3(a)_(d)结合具体示例,示出了根据本发明所述的文字绘制过程中的组图的过 程。
[0048] 图4示出了根据本发明的检索方法的一优选程序流程。
[0049]图5是根据本发明一优选实施例的检索装置结构框图。
[0050]图6示出了表意文字序列的例子。
[0051]图7示出了同一字的不同表意文字描述序列IDS表示方法。
【具体实施方式】
[0052]为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明具体实施例及 相应的附图对本发明技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本发明一 部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做 出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0053]根据本发明所述的方法及装置,当用户使用阅读软件打开电子文档并需要对文档 中的文字进行检索时,在软件的文本检索框中,输入待检索的集外字的表意文字描述序列 IDS,以进行文本匹配。如果检索成功,则说明输入的IDS存在于该电子文档中。相反,如果检 索失败,则利用图像匹配进行模糊检索。具体地,解析待检索的表意文字描述序列IDS,根据 其中的IDC以及CJK字符,绘制出这个待检索的IDS所描述的文字图像,然后遍历电子文档中 已有的表意文字描述序列IDS,将每个文档中已有的IDS也绘制出对应的文字图像,并与待 检索的IDS所描述的文字图像逐个进行图像匹配。如果存在与该待检索的IDS所描述的文字 图像匹配的可信度达到一定阈值的文字图像,则认为两个IDS所描述的文字图像十分相似, 即匹配成功,并进一步将匹配到的IDS作为检索的结果。以下结合附图对本发明的检索方法 及装置进行详细描述。
[0054]图1示出了根据本发明一优选实施例的所述IDS检索方法的流程图。如图1所示,所 述方法包括:输入待检索文字的表意文字描述序列。对所述待检索文字的表意文字描述序 列进行文本匹配,若文本匹配失败则启动图像匹配方法。即解析所述待检索文字的表意文 字描述序列,根据解析获得的表意文字描述符和CJK字符绘制第一文字图像;以及遍历文档 中存在的表意文字描述序列,对每次遍历到的表意文字描述序列进行解析,根据解析获得 的表意文字描述符和CJK字符绘制第二文字图像。最后,将所述第一文字图像与第二文字图 像进行图像匹配,根据匹配结果确定检索结果。
[0055] 以下对上述各步骤逐一进行说明。
[0056] S1:输入待检索文字的表意文字描述序列IDS。具体地,例如,用户使用阅读软件打 开电子文档,当需要对文档中的文字进行检索时,在阅读软件的文本检索框中,输入待检索 的集外字的表意文字描述序列IDS。
[0057] S2:在电子文档中对待检索的表意文字描述序列IDS进行文本匹配,若判断文本匹 配失败,则执行步骤S3。
[0058]具体地,Unicode标准所定义的表意文字描述序列IDS由IDC以及CJK字符组成,其 中的表意文字描述符IDC为可见字符,因此,整个描述序列均为可见字符。因而,在阅读软件 中使用通用的文字检索方法可实现IDS的文本匹配。若检索成功,阅读者也可辨认所检索到 的IDS文本串。相反,如果确认检索失败,则开启图像匹配,继续进行如下步骤S3。
[0059] S3:解析待检索文字的表意文字描述序列IDS,绘制出这个IDS所描述的文字图像, 即第一文字图像。
[0060] 具体地,解析待检索的表意文字描述序列IDS,即,将表意文字描述序列IDS拆分成 多个组图动作,每个该组图动作包含一个描述符IDC和一组文字部件,其中文字部件即为 CJK字符。接下来,利用多个所述组图动作,绘制出该待检索IDS所描述的文字图像。
[0061] 绘制文字图像的过程包括:准备各文字部件的图像;以及按照每个组图动作中的 描述符IDC所描述的文字结构,从最内层动作开始,逐层进行组图。其中表意文字描述序列 IDS中最右侧的描述符IDC所在的动作即为最内层动作,按照表意文字描述序列IDS中描述 符IDC从右到左的顺序,最左侧的描述符IDC所在的动作即为最外层动作。按照由内层到外 层的顺序,逐层进行组图。
[0062] 优选地,准备各文字部件的图像包括:对每个文字部件,采用预定字体,例如宋体 渲染出预定大小的单个文字图像,例如宽64像素、高64像素;以及对每个文字部件的图像, 勾勒出文字轮廓。以上预定字体及大小均为举例性说明,不构成具体限定。
[0063] 具体的组图过程根据文字结构的不同而不同。总的来说可以将上述描述符所表达的文字 结构分为四类:即,第一类,上下结构,包括" V'、" ";第二类,左右结构,包括"Π ]Μ、" 第三类,包围结构,包括" "、" "、"13"、"□"、"Β"(半包 围)和"!"(全包围结构);以及第四类,交叉结构,包括" tg| "。
[0064] 则对于上下结构的文字,组图方式为:将各文字部件按照上下顺序逐个叠加,使得 相邻文字部件之间同一列或同一行的轮廓间的间距大于等于预定距离,例如大于等于1个 像素。此处,大于等于1个像素仅为举例性说明,以能实现组图后的文字能辨认文字各组成 单字之间的辨识为准,以下各种结构的文字的组图间距同理。
[0065] 对于左右结构的文字,组图方式为:将各文字部件按照左右顺序逐个叠加,同样要 求文字部件之间的轮廓间间距大于等于上述预定距离。
[0066] 对于包围结构的文字,组图方式为:对被包围文字部件进行宽高等比例缩小,将缩 小后的被包围文字部件与包围文字部件按照描述符IDC所描述的结构叠加时,同样要求文 字部件之间的轮廓间间距大于等于上述预定距离。
[0067] 对于交叉结构的文字,组图方式为:将两个文字部件直接叠加。
[0068] 进一步优选地,可以对最终得到的组图图像进行归一化,例如,图像大小统一缩放 为宽64像素,高64像素。
[0069] 以下结合附图举例说明所述的绘制文字图像的方式。
[0070] 以集外字_为例,其表意文字描述序列IDS为:g亡口 月馬凡。则该序列可 以拆分为如下两个组图动作A和B:A动作"月馬凡"和B动作"g亡口A",其中,"亡"、"口"、 "月"、"馬"、"凡"为文字部件,"、":四"为描述符IDC。其中,该表意文字描述序列 IDS最右侧的描述符IDC" E] "所描述的文字结构为最内层结构,其相应的组图动作A为最 内层动作,最左侧的描述符IDC" 一; "为最外层结构,其相应的组图动作B为最外层动作,则 从最内层动作A到最外层动作B的顺序进行组图。
[0071] 在组图前先准备单个文字部件的图像。如图2(a)所示,为上述表意文字描述序列 IDS所包括的文字部件,图中各文字为宋体,黑色文字区域的宽度及高度均优选为64像素。 接下来,勾勒各文字部件的文字轮廓,如图2(b)所示,图中各文字部件周围的方形框对应于 图2(a)中黑色文字区域的边界。
[0072] 从上述集外字的表意文字描述序列IDS的所述最内层开始,首先根据第一个组图 动作A"月馬凡"进行组图,再根据第二个组图动作B"亡口A"进行组图。第一个组图动 作A属于上文描述的左右结构,按照左右结构的文字的组图方式将"月"、"馬"和"凡"3个文 字部件的图像按照左右顺序叠加,得到如图3(a)所示的文字图像。可以优选将组图得到的 该文字图像缩小为64像素大小的图像。如此得到图3(b)所示的两个文字部件"亡"、"口"的 图像和"月馬凡"的64像素大小的图像
当前第2页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1