文字检索方法及装置的制造方法

文档序号:9911085阅读:414来源:国知局
文字检索方法及装置的制造方法
【技术领域】
[0001] 本发明涉及一种文字信息处理技术,尤其涉及一种利用图像匹配进行文字检索的 方法及装置。
【背景技术】
[0002] 随着计算机技术的发展,为实现计算机跨语言、跨平台的文本转换及处理,国际组 织制定并公布了Unic〇de(万国码、统一码)编码系统,其中包括中日韩统一表意文字符号 (CJK United Ideographs)。
[0003] 然而,汉字的数量庞大,结构复杂,尽管Unicode标准已经包括了 70000多个汉字符 号,但是仍然有许多生僻字未被包括进来。这些未被编码的汉字可称其为"集外字"。虽然 Unicode标准持续不断的对集外字进行分类编码,分配码位,但是汉字是一个开放的集合, 可以预计根本不可能也没有必要穷尽所有的汉字。Unicode标准也认识到单纯依靠扩大收 字量无法从根本上解决CJK(中日韩)文字的编码问题。
[0004] 有鉴于此,Unicode标准定义了表意文字描述序列IDS(Ideographic Description Characters Sequence)和表意文字描述符IDC(Ideographic Description Characters)。 表意文字描述(Ideographic Descript ion)的算法依据是:理论上所有的汉字都可以拆分 为更小的部件,而这些部件本身是表意文字。所以通过定义描述文字结构的表意文字描述 符IDC,再配合已有编码的文字,即可描述绝大多数未被编码的集外字。
[0005] 其中,表意文字描述符IDC共有12个,对应描述12种文字结构,码位区间从U+2FF0 到U+2FFB,如表1所示。
[0006] 表1 · IDC编码表
[0007]
[0008]因此,表意文字描述序列IDS由一系列的表意文字描述符IDC以及已有编码的文字 组成,来描述未编码的集外字。表意文字描述序列IDS的语法比较简单,只要求三元IDC(U+ 2FF2和U+2FF3)后面必须有3个IDS,而二元IDCOJ+2FF2和U+2FF3以外的其他IDC)后面必须 有2个IDS,IDS中除了 IDC以外必须是一元CJK字符。此外,IDS还有2个长度限制,即:①序列 长度不可超过16个Unicode编码;②如果没有表意文字描述符作为间隔,构成序列的部件或 者偏旁不能超过6个。
[0009] 图6示出了一些表意文字描述序列IDS的例子。
[0010] 如图6示,以jll ,,字为例,其表意文字描述序列由两个IDC"E3"(2FF1)、"[[]" (2FF0)以及已有编码的文字"鳥"(9CE5)、"龜"(9F9C)以及"火"(706B)构成。
[0011]表意文字描述序列IDS为集外字的描述提供了一种标准的文本交换机制。在制作 电子文档时,尤其是在古籍电子化的过程中,可对文档中的集外字采用表意文字描述序列 IDS来进行描述,同时收录该集外字的抠图。当使用阅读软件阅读该电子文档时,读者可看 到集外字的抠图,还可在文本搜索框中输入IDS,来检索集外字。
[0012] 然而,使用表意文字描述序列IDS描述集外字可能存在歧义性,即由于一个集外字 可能用多种表意文字描述序列IDS来表示,因此,该表示方式易出现歧义。具体地,由于表意 文字描述序列本身可以继续被分解,也由于在Unicode标准中有些构字部件重复出现。图7 示出了《識〉,,的三种不同的IDS描述方法。如图7所示,该字可以分解为"井" + "蛙"结构 (IDC" Θ ")、"井" + "虫" + "圭"结构(IDC" E3 [IP )的结构以及"井" + "虫" + "土" + "土"的结构 (IDC " w)0
[0013] 因此,在阅读软件中对集外字进行IDS检索时,遇到这类描述序列存在歧义性的集 外字,往往会出现文档中存在待检索的集外字,但输入的IDS与文档中集外字的描述不一 致,而检索不到该字的问题。

【发明内容】

[0014] 本发明在考虑现有技术存在的缺陷的基础上,提供一种基于图像匹配的文字检索 方法,能够避免因表意文字描述序列IDS描述的歧义性所导致的文字检索失败的问题。
[0015] 根据本发明的一方面,提供一种文字检索方法,其特征在于,包括:
[0016] S1:输入待检索文字的表意文字描述序列;
[0017] S2:对所述待检索文字的表意文字描述序列进行文本匹配,若文本匹配失败,则执 行S3;
[0018] S3:解析所述待检索文字的表意文字描述序列,根据解析获得的表意文字描述符 和CJK字符绘制第一文字图像;
[0019] S4:遍历文档中存在的表意文字描述序列,对每次遍历到的表意文字描述序列进 行解析,根据解析获得的表意文字描述符和CJK字符绘制第二文字图像;
[0020] S5:将所述第一文字图像与第二文字图像进行图像匹配,根据匹配结果确定检索 结果。
[0021 ]进一步地,步骤S2中的文本匹配为利用构成表意文字描述序列的表意文字描述符 和CJK字符实现的文本匹配。
[0022] 进一步地,步骤S3中,所述解析包括:将表意文字描述序列拆分成多个组图动作, 每个该组图动作包括一个表意文字描述符和一组文字部件。
[0023] 进一步地,步骤S3中,所述绘制包括:准备各文字部件的图像;以及
[0024] 按照每个组图动作中的表意文字描述符所描述的文字结构,从最内层动作开始, 进行组图,其中表意文字描述序列中最右侧的表意文字描述符所在的动作为最内层动作, 按照表意文字描述序列中表意文字描述符从右到左的顺序,最左侧的表意文字描述符所在 的动作为最外层动作。按照由内层到外层的顺序,逐层进行组图。
[0025] 进一步地,准备各文字部件的图像包括:对每个文字部件,利用预定字体渲染出预 定像素大小的单个文字图像;以及勾勒出该预定大小的文字图像的文字轮廓。
[0026]进一步地,所述组图的具体方式为:
[0027] 对于上下结构的文字,将各文字部件按照上下顺序逐个叠加,使得相邻文字部件 之间的轮廓间的间距大于等于预定距离;
[0028] 对于左右结构的文字,将各文字部件按照左右顺序逐个叠加,文字部件之间的轮 廓间间距大于等于上述预定距离;
[0029] 对于包围结构的文字,对被包围文字部件进行宽高等比例缩小,将缩小后的被包 围文字部件与包围文字部件进行叠加,文字部件之间的轮廓间间距大于等于上述预定距 离;以及
[0030] 对于交叉结构的文字,将两个文字部件直接叠加。
[0031]进一步地,在步骤S4中,存储绘制的该第二文字图像,从而构建包括该第二文字图 像的数据库。
[0032] 进一步地,步骤S5中,所述根据匹配结果确定检索结果具体包括:
[0033] 如果匹配的可信度达到阈值,则将匹配到的表意文字描述序列作为所述检索结 果;否则返回上述步骤S4,继续遍历电子文档中的已有表意文字描述序列,绘制其第二文字 图像,并与第一文字图像进行匹配;以及
[0034] 直到完成整份电子文档中已有表意文字描述序列的遍历、文字图像描绘以及图像 匹配,均匹配不成功,则认为待检索的表意文字描述序列不存在于此电子文档中,检索结 束。
[0035] 根据本发明的另一方面,提供一种文字检索装置,包括:
[0036] 输入模块,输入待检索的表意文字描述序列;
[0037] 文本匹配模块,对所述待检索文字的表意文字描述序列进行文本匹配;
[0038] 解析及绘制模块,解析待检索表意文字描述序列,绘制出第一文字图像;
[0039] 遍历模块,当文本匹配失败时,遍历电子文档中已有的表意文字描述序列,绘制出 每个已有表意文字描述序列的第二文字图像;以及
[0040] 图像匹配模块,将第一文字图像与第二文字图像进行匹配,根据匹配结果确定所 述待检索表意文字描述序列的检索结果。
[0041] 进一步地,所述解析及绘制模块包括解析模块,用于将表意文字描述序列拆分成 多个组图动作,每个该组图动作包括一个表意文字描述符和一组文字部件。
[0042] 根据本发明的上述检索装置及方法,由于
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1