文字检索方法及装置的制造方法_3

文档序号:9911085阅读:来源:国知局

[0073] 接下来根据第二个组图动作B进行组图。第二个组图动作B为上下结构,按照上下 结构的文字组图方式叠加文字部件亡"、"口"的图像"和"月馬凡"的64像素大小的图像,得 到如图3(c)所示的文字图像,即第一文字图像。进一步优选的,将图3(c)所示的文字图像的 高度缩小为64像素,得到如图3(d)所示的文字图像。
[0074] S4:遍历电子文档中已有表意文字描述序列IDS,描绘出所述已有IDS所描述的文 字图像。
[0075]具体地,遍历电子文档中已有IDS,参照步骤S3中绘制文字图像的方法,描绘出所 述已有IDS所描述的文字图像,即第二文字图像。
[0076]此处,优选地,可以在每次完成对已有IDS的文字图像的绘制后,存储该文字图像, 从而在该文档中建立存储有该第二文字图像的图像库,便于在下次检索时直接使用。
[0077] S5:将待检索IDS所描述的第一文字图像与已有IDS所描述的第二文字图像进行匹 配,根据匹配结果确定检索结果。
[0078]具体地,将步骤S3中描绘出的第一文字图像与S4中描绘出的第二文字图像逐一进 行图像匹配。如果出现匹配的可信度达到阈值的文字图像,则将匹配到的文字图像对应的 IDS作为检索结果,认为图像匹配成功,从而完成检索。否则返回上述步骤S4,继续遍历电子 文档中的已有IDS,绘制其文字图像,并继续与待检索IDS的文字图像进行匹配。直到完成整 份电子文档中已有IDS的遍历、文字图像描绘以及图像匹配,均匹配不成功,则认为待检索 的IDS不存在于此电子文档中,检索结束。其中,具体的图像匹配方法采用现有的图像匹配 方法即可,不做具体限定,并且所述匹配可信度及所选阈值根据所采用的图像匹配方法而 确定,亦不做限定。
[0079]图4示出了实现根据本发明的所述检索方法的程序流程。如图4所示,首先,用户在 电子文档中对输入的待检索IDS进行文本匹配。判断所述文本匹配是否成功,若是,则结束 检索。若否,则解析输入的所述待检索IDS,并绘制其文字图像Srclmg。接下来,遍历所述电 子文档中的已有IDS,并判断遍历是否结束,是的话则结束检索。否的话则解析遍历到的已 有IDS,并绘制其文字图像Tmplmg。将文字图像Srclmg与文字图像Tmplmg进行匹配,如果匹 配的可信度达到上述阈值,则将该文字图像Tmplmg对应的IDS作为检索结果。否则的话返回 对电子文档中的已有IDS进行遍历的步骤,即继续对文档中的已有IDS进行遍历,并重复进 行图像匹配的步骤。如果遍历了电子文档中的全部已有IDS均未匹配成功,则结束检索,表 明该文档中不存在所述待检索IDS。
[0080] 图5示出实现根据本发明的所述检索方法的一优选实施例的检索装置。如图5所 示,所述装置包括:输入模块1,用于输入待检索表意文字描述序列;文字匹配模块2,用于对 输入的待检索表意文字描述序列进行文本匹配;解析及绘制模块3,用于当文字匹配失败 时,解析待检索IDS,根据其包括的IDC和CJK字符,绘制出第一文字图像;遍历模块4,用于遍 历电子文档中已有IDS,根据其包括的IDC和CJK字符,描绘出每个已有IDS的第二文字图像; 以及图像匹配模块5,将待检索IDS的第一文字图像与已有IDS的第二文字图像进行匹配,若 匹配的可信度达到阈值,则将匹配到的IDS作为检索结果。
[0081] 以上所述仅为本发明的实施例而已,并不用于限制本发明,对于本领域的技术人 员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、 等同替换、改进等,均应包含在本发明的权利要求范围之内。
【主权项】
1. 一种文字检索方法,其特征在于,包括: S1:输入待检索文字的表意文字描述序列; S2:对所述待检索文字的表意文字描述序列进行文本匹配,若文本匹配失败,则执行 S3; S3:解析所述待检索文字的表意文字描述序列,根据解析获得的表意文字描述符和CJK 字符绘制第一文字图像; S4:遍历文档中存在的表意文字描述序列,对每次遍历到的表意文字描述序列进行解 析,根据解析获得的表意文字描述符和CJK字符绘制第二文字图像; S5:将所述第一文字图像与第二文字图像进行图像匹配,根据匹配结果确定检索结果。2. 如权利要求1所述的方法,其特征在于,其中 步骤S2中的文本匹配为利用构成表意文字描述序列的表意文字描述符和CJK字符实现 的文本匹配。3. 如权利要求1或2所述的方法,其特征在于,其中: 步骤S3中,所述解析包括:将表意文字描述序列拆分成多个组图动作,每个该组图动作 包括一个表意文字描述符和一组文字部件。4. 如权利要求3所述的方法,其特征在于,其中 步骤S3中,所述绘制包括: 准备各文字部件的图像;以及 按照每个组图动作中的表意文字描述符所描述的文字结构,从最内层动作开始,进行 组图,其中表意文字描述序列中最右侧的表意文字描述符所在的动作为最内层动作,按照 表意文字描述序列中表意文字描述符从右到左的顺序,最左侧的表意文字描述符所在的动 作为最外层动作,按照由内层到外层的顺序,逐层进行组图。5. 如权利要求4所述的方法,其特征在于,其中 准备各文字部件的图像包括:对每个文字部件,利用预定字体渲染出预定像素大小的 单个文字图像;以及勾勒出该预定大小的文字图像的文字轮廓。6. 如权利要求5所述的方法,其特征在于,其中 所述组图的具体方式为: 对于上下结构的文字,将各文字部件按照上下顺序逐个叠加,使得相邻文字部件之间 的轮廓间的间距大于等于预定距离; 对于左右结构的文字,将各文字部件按照左右顺序逐个叠加,文字部件之间的轮廓间 间距大于等于上述预定距离; 对于包围结构的文字,对被包围文字部件进行宽高等比例缩小,将缩小后的被包围文 字部件与包围文字部件进行叠加,文字部件之间的轮廓间间距大于等于上述预定距离;以 及 对于交叉结构的文字,将两个文字部件直接叠加。7. 如权利要求1所述的方法,其特征在于,其中 在步骤S4中,存储绘制的该第二文字图像,从而构建包括该第二文字图像的数据库。8. 如权利要求1所述的方法,其特征在于,其中 步骤S5中,所述根据匹配结果确定检索结果具体包括: 如果匹配的可信度达到阈值,则将匹配到的表意文字描述序列作为所述检索结果;否 则返回上述步骤S4,继续遍历电子文档中的已有表意文字描述序列,绘制其第二文字图像, 并与第一文字图像进行匹配;以及 直到完成整份电子文档中已有表意文字描述序列的遍历、文字图像描绘以及图像匹 配,均匹配不成功,则认为待检索的表意文字描述序列不存在于此电子文档中,检索结束。9. 一种文字检索装置,其特征在于,包括: 输入模块,输入待检索的表意文字描述序列; 文本匹配模块,对所述待检索文字的表意文字描述序列进行文本匹配; 解析及绘制模块,解析待检索表意文字描述序列,绘制出第一文字图像; 遍历模块,当文本匹配失败时,遍历电子文档中已有的表意文字描述序列,绘制出每个 已有表意文字描述序列的第二文字图像;以及 图像匹配模块,将第一文字图像与第二文字图像进行匹配,根据匹配结果确定所述待 检索表意文字描述序列的检索结果。10. 如权利要求9所述的装置,其特征在于,其中 所述解析及绘制模块包括解析模块,用于将表意文字描述序列拆分成多个组图动作, 每个该组图动作包括一个表意文字描述符和一组文字部件。
【专利摘要】本发明涉及一种利用图像匹配进行文字检索的方法及装置。所述方法包括:输入待检索文字的表意文字描述序列;对所述待检索文字的表意文字描述序列进行文本匹配,若文本匹配失败则启动图像匹配方法;即解析所述待检索文字的表意文字描述序列,根据解析获得的表意文字描述符和CJK字符绘制第一文字图像;以及遍历文档中存在的表意文字描述序列,对每次遍历到的表意文字描述序列进行解析,根据解析获得的表意文字描述符和CJK字符绘制第二文字图像。最后,将所述第一文字图像与第二文字图像进行图像匹配,根据匹配结果确定检索结果。所述检索方法及装置能够避免因表意文字描述序列的歧义所导致的文字检索失败。
【IPC分类】G06F17/30
【公开号】CN105677718
【申请号】CN201511009801
【发明人】王晓健, 江世盛
【申请人】北京汉王数字科技有限公司
【公开日】2016年6月15日
【申请日】2015年12月29日
当前第3页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1