文字检索方法及装置的制造方法

文档序号：9911085阅读：414来源：国知局

文字检索方法及装置的制造方法
【技术领域】
[0001] 本发明涉及一种文字信息处理技术，尤其涉及一种利用图像匹配进行文字检索的方法及装置。
【背景技术】
[0002] 随着计算机技术的发展，为实现计算机跨语言、跨平台的文本转换及处理，国际组织制定并公布了Unic〇de(万国码、统一码)编码系统，其中包括中日韩统一表意文字符号 (CJK United Ideographs)。
[0003] 然而，汉字的数量庞大，结构复杂，尽管Unicode标准已经包括了 70000多个汉字符号，但是仍然有许多生僻字未被包括进来。这些未被编码的汉字可称其为"集外字"。虽然 Unicode标准持续不断的对集外字进行分类编码，分配码位，但是汉字是一个开放的集合，可以预计根本不可能也没有必要穷尽所有的汉字。Unicode标准也认识到单纯依靠扩大收字量无法从根本上解决CJK(中日韩)文字的编码问题。
[0004] 有鉴于此，Unicode标准定义了表意文字描述序列IDS(Ideographic Description Characters Sequence)和表意文字描述符IDC(Ideographic Description Characters)。表意文字描述（Ideographic Descript ion)的算法依据是:理论上所有的汉字都可以拆分为更小的部件，而这些部件本身是表意文字。所以通过定义描述文字结构的表意文字描述符IDC，再配合已有编码的文字，即可描述绝大多数未被编码的集外字。
[0005] 其中，表意文字描述符IDC共有12个，对应描述12种文字结构，码位区间从U+2FF0 到U+2FFB，如表1所示。
[0006] 表1 · IDC编码表
[0007]
[0008]因此，表意文字描述序列IDS由一系列的表意文字描述符IDC以及已有编码的文字组成，来描述未编码的集外字。表意文字描述序列IDS的语法比较简单，只要求三元IDC(U+ 2FF2和U+2FF3)后面必须有3个IDS，而二元IDCOJ+2FF2和U+2FF3以外的其他IDC)后面必须有2个IDS，IDS中除了 IDC以外必须是一元CJK字符。此外，IDS还有2个长度限制，即：①序列长度不可超过16个Unicode编码;②如果没有表意文字描述符作为间隔，构成序列的部件或者偏旁不能超过6个。
[0009] 图6示出了一些表意文字描述序列IDS的例子。
[0010] 如图6示，以jll ,，字为例，其表意文字描述序列由两个IDC"E3"（2FF1)、"[[]" (2FF0)以及已有编码的文字"鳥"（9CE5)、"龜"（9F9C)以及"火"（706B)构成。
[0011]表意文字描述序列IDS为集外字的描述提供了一种标准的文本交换机制。在制作电子文档时，尤其是在古籍电子化的过程中，可对文档中的集外字采用表意文字描述序列 IDS来进行描述，同时收录该集外字的抠图。当使用阅读软件阅读该电子文档时，读者可看到集外字的抠图，还可在文本搜索框中输入IDS，来检索集外字。
[0012] 然而，使用表意文字描述序列IDS描述集外字可能存在歧义性，即由于一个集外字可能用多种表意文字描述序列IDS来表示，因此，该表示方式易出现歧义。具体地，由于表意文字描述序列本身可以继续被分解，也由于在Unicode标准中有些构字部件重复出现。图7 示出了《識〉，，的三种不同的IDS描述方法。如图7所示，该字可以分解为"井" + "蛙"结构 (IDC" Θ "）、"井" + "虫" + "圭"结构（IDC" E3 [IP )的结构以及"井" + "虫" + "土" + "土"的结构 (IDC " w)0
[0013] 因此，在阅读软件中对集外字进行IDS检索时，遇到这类描述序列存在歧义性的集外字，往往会出现文档中存在待检索的集外字，但输入的IDS与文档中集外字的描述不一致，而检索不到该字的问题。

【发明内容】

[0014] 本发明在考虑现有技术存在的缺陷的基础上，提供一种基于图像匹配的文字检索方法，能够避免因表意文字描述序列IDS描述的歧义性所导致的文字检索失败的问题。
[0015] 根据本发明的一方面，提供一种文字检索方法，其特征在于，包括：
[0016] S1:输入待检索文字的表意文字描述序列；
[0017] S2:对所述待检索文字的表意文字描述序列进行文本匹配，若文本匹配失败，则执行S3;
[0018] S3:解析所述待检索文字的表意文字描述序列，根据解析获得的表意文字描述符和CJK字符绘制第一文字图像；
[0019] S4:遍历文档中存在的表意文字描述序列，对每次遍历到的表意文字描述序列进行解析，根据解析获得的表意文字描述符和CJK字符绘制第二文字图像；
[0020] S5:将所述第一文字图像与第二文字图像进行图像匹配，根据匹配结果确定检索结果。
[0021 ]进一步地，步骤S2中的文本匹配为利用构成表意文字描述序列的表意文字描述符和CJK字符实现的文本匹配。
[0022] 进一步地，步骤S3中，所述解析包括:将表意文字描述序列拆分成多个组图动作，每个该组图动作包括一个表意文字描述符和一组文字部件。
[0023] 进一步地，步骤S3中，所述绘制包括:准备各文字部件的图像;以及
[0024] 按照每个组图动作中的表意文字描述符所描述的文字结构，从最内层动作开始，进行组图，其中表意文字描述序列中最右侧的表意文字描述符所在的动作为最内层动作，按照表意文字描述序列中表意文字描述符从右到左的顺序，最左侧的表意文字描述符所在的动作为最外层动作。按照由内层到外层的顺序，逐层进行组图。
[0025] 进一步地，准备各文字部件的图像包括:对每个文字部件，利用预定字体渲染出预定像素大小的单个文字图像;以及勾勒出该预定大小的文字图像的文字轮廓。
[0026]进一步地，所述组图的具体方式为：
[0027] 对于上下结构的文字，将各文字部件按照上下顺序逐个叠加，使得相邻文字部件之间的轮廓间的间距大于等于预定距离；
[0028] 对于左右结构的文字，将各文字部件按照左右顺序逐个叠加，文字部件之间的轮廓间间距大于等于上述预定距离；
[0029] 对于包围结构的文字，对被包围文字部件进行宽高等比例缩小，将缩小后的被包围文字部件与包围文字部件进行叠加，文字部件之间的轮廓间间距大于等于上述预定距离；以及
[0030] 对于交叉结构的文字，将两个文字部件直接叠加。
[0031]进一步地，在步骤S4中，存储绘制的该第二文字图像，从而构建包括该第二文字图像的数据库。
[0032] 进一步地，步骤S5中，所述根据匹配结果确定检索结果具体包括：
[0033] 如果匹配的可信度达到阈值，则将匹配到的表意文字描述序列作为所述检索结果;否则返回上述步骤S4,继续遍历电子文档中的已有表意文字描述序列，绘制其第二文字图像，并与第一文字图像进行匹配；以及
[0034] 直到完成整份电子文档中已有表意文字描述序列的遍历、文字图像描绘以及图像匹配，均匹配不成功，则认为待检索的表意文字描述序列不存在于此电子文档中，检索结束。
[0035] 根据本发明的另一方面，提供一种文字检索装置，包括：
[0036] 输入模块，输入待检索的表意文字描述序列；
[0037] 文本匹配模块，对所述待检索文字的表意文字描述序列进行文本匹配；
[0038] 解析及绘制模块，解析待检索表意文字描述序列，绘制出第一文字图像；
[0039] 遍历模块，当文本匹配失败时，遍历电子文档中已有的表意文字描述序列，绘制出每个已有表意文字描述序列的第二文字图像;以及
[0040] 图像匹配模块，将第一文字图像与第二文字图像进行匹配，根据匹配结果确定所述待检索表意文字描述序列的检索结果。
[0041] 进一步地，所述解析及绘制模块包括解析模块，用于将表意文字描述序列拆分成多个组图动作，每个该组图动作包括一个表意文字描述符和一组文字部件。
[0042] 根据本发明的上述检索装置及方法，由于

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：王晓健;江世盛;
技术所有人：北京汉王数字科技有限公司;
我是此专利的发明人

上一篇：应用程序的管理方法和装置的制造方法
上一篇：一种显示方法及终端的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。