搜索引擎中处理含Unicode四字节编码东亚表意文字异体字转换的方法

文档序号:6651179阅读:159来源:国知局
专利名称:搜索引擎中处理含Unicode四字节编码东亚表意文字异体字转换的方法
技术领域
本发明涉及一种搜索引擎中处理含Unicode四字节编码东亚表意文字异体字转换的方法。
背景技术
搜索引擎能够帮助用户在海量信息中找到自己需要的有用信息。随着信息化的不断推进,人类积累了越来越多的信息数据,尤其是在互联网上,积累的信息每年都以指数级增长。搜索引擎在浩如烟海的互联网信息中找到用户所需要的信息起到了关键性的作用。由于中华五千年的文化积累和中文语言的独特性,使得国外的英文搜索引擎并不能很好的处理中文搜索引擎。所以也出现了专门处理中文的中文搜索引擎,例如百度。百度搜索引擎使用独特的基于字和词的中文语言处理技术处理中文信息的理解问题,较好地解决了其他单纯基于字或单纯基于词的检索引擎的缺点。百度搜索引擎支持主流的中文编码标准,包括GB2312、BIG5等,并且能够在不同的编码之间转换,这就使得简体字和繁体字的检索结果能自然结合。
然而,信息的高速积累不仅体现在现有普通编码之上的新信息的加入,中国几千年来积累的纸本信息也不断被电子化。近几年出现越来越多的对古代知识的电子化信息,例如中国浩如烟海的传世文献和考古出土的简帛、金文、甲骨文等出土文献的信息很多已经转换成电子文本数据。这里就不只涉及到简体文字和繁体文字,而且会涉及到很多古代生僻文字,这其中一个现象是异体字的大量存在,其形式包括古文字体、或体字、俗体字、避讳字等等。而且同一个字由于使用区域的不同,也会出现多种不同的形体。这里我们所说的异体字,也就是某些汉字的字形虽然由于种种原因彼此相异,但在意义和发音上却是相同的。例如简体中的“为”字就有以下多种写法“为”(简体)、“為”(台湾繁体)、“爲”(繁体)、 (古文中的为字)、 (古文中的为字)等,其中这些不同的“为”字我们统称为异体字;“亚”字在中文简体中写法为“亚”、日文中写法为“亜”、台湾繁体中写法为“亞”,这些“亚”也称为异体字;“玄烨”的避讳字写法为 “碑”的俗体字写法为 “犴”的俗体字写法为“豻”。这些同义不同形的文字都会由于某种原因在一定时期或一定地域范围内大量使用。
传统的二字节编码技术最多只能处理两万多汉字,而汉字在古籍中总量超过五万。这还没有包括甲骨文、金文、简帛等出土文献研究中使用的无法隶定的汉字。汉字经过数千年的发展和演化,目前流传下来的总数量超过lO万(台湾出版的《异体字字典》收字高达106230个字)。近年来由于Unicode统一编码工作的成效,人们在编码和计算机技术的结合方面做了很多的工作,汉字中的大量生僻字已经被置于四字节的编码区并确定了统一编码,中国甲骨文、金文等古代象形文字也将纳入Unicode统一编码,这将使得计算机可以管理的人类字符大大增加,在微软的OfficeXP简体中文版中也预装了四字节的字库,目前采用微软的平台可管理的Unicode字符已经达到7万以上。北京时代瀚堂科技有限公司的《龙语瀚堂典籍数据库》系统在此基础上,采用了基于Unicode四字节编码自然语言全文检索的典籍文献数字化构建技术,实现了对含有大量生僻汉字的传世和出土文献的存真性信息化处理和全文检索。
但是,当前的技术中,只能实现古文的电子化和对生僻汉字的单个字、词的检索,并没有完全解决同一个汉字不同写法之间的转换问题。例如,“为”字在当前的搜索引擎中,例如百度和Google,只是实现了“为”、“為”、“為”和“亚”、“亞”之间的简繁体相互转换和匹配。但对于涉及到“亚”、“亞”和日文中的“亜”字,以及 之间以及它们与“为”、“為”、“爲”之间的转换与匹配,就无能为力了。也就是在当前搜索引擎中,如果只使用简体字或繁体字,无法检索出东亚其它国家或者古代文献中的相关信息。

发明内容
鉴于上述原因,本发明的主要目的是提供一种搜索引擎中处理含Unicode四字节编码东亚表意文字字符的异体字转换的方法。该方法根据汉字异体字字表,采用分层匹配的思想,实现了在搜索引擎中,异体字之间的匹配和检索。其中这些异体字包括同一个字由于在东亚不同地区使用而产生的不同形体的字和同一个字在不同版古文字体中的不同形体的字。简单举例来讲,就是“为”(简体)、“為”(台湾繁体)、“爲”(繁体)、 (古文中的为字)、 (古文中的为字)”统称为“为”字异体字集,本发明实现了在这些异体字集之间的相互匹配和检索。采用此方法,在检索时只要输入异体字中的任意一种,信息中包含其它异体字的信息都会被命中。
在处理异体字之间映射转换时,具体的实现方法是A、将异体字字表根据常用和生僻分成两类子字表,分别进行存储,其中常用类子字表是指当前在东亚地区各个地方正在使用的各种中文文字的不同版本形成的异体字集合,生僻类子字表是指在传世文献和出土文献中存在的各种生僻异体字组成的集合;B、建立上述两类子字表之间和字表内部不同异体字之间的映射规则;C、将不同的映射规则根据具体应用组合成三种命中类型,在搜索时根据不同的需求设置的不同命中类型,开启相应的映射转换规则;D、根据命中类型和输入的检索字串中的字,通过异体字之间的映射规则输出转换后的异体字字符集合;E、搜索引擎将根据经过异体字转换后的关键字集合进行搜索。
本发明的特点1.使搜索引擎可以根据常用汉字搜索出古文中的信息。不仅实现汉字之间的简繁转换,而且也可以实现当前各种东亚中文文字字体之间的转换、当前常用文字和古文之间的转换、不同版古文字体之间的转换。
2.使用分类规则,使得用户可以根据自己的需求开启相应的转换规则,过虑掉大量不必要的检索信息。


图1为本发明异体字映射规则关系示意2为本发明在搜索引擎中异体字映射转换处理流程示意图具体实施方式
本发明的主要目的是提供一种搜索引擎中处理含Unicode四字节编码东亚表意文字异体字转换的方法。该方法根据汉字异体字字表,采用分层匹配的思想,实现了在搜索引擎中,当前各种东亚中文文字字体之间、当前常用文字和古文之间、不同版古文之间的匹配检索。
具体的实施方法如下A、将异体字字表根据常用和古文分成两类子字表,分别进行存储。例如“为”(中文简体)“為”(台湾繁体)、“亚”(中文简体)、“亜”(日文)、“亞”(台湾繁体)等这些在东亚各个地区正在使用的文字属于常用字字表; 等在古代大量使用的文字属于古文类字表。
B、建立上述两类子字表之间和字表内部不同异体字之间的映射规则。
定义异体字转换映射规则如下规则1常用类字表内部之间的映射。例如“为”、“為”和“爲”之间可以相互映射,“亚”、“亜”、“亞”之间可以相互映射。
规则2古文类字表内部之间的映射。例如 和 之间可以相互映射。
规则3常用类字表到古文类字表之间的映射。“为”、“為”和“爲”中的任意一个字都可以映射到 和 规则4古文类字表到常用类字表之间的映射。例如 和 中的任意一个字可以映射到“为”、“為”和“爲”。
C、将不同的映射规则根据具体应用组合成三种命中类型。
三种命中类型的映射规则规定如下常用字命中包括规则1。
古文命中包括规则1、规则2、规则3。
完全命中包括规则1、规则2、规则3、规则4。
D、根据命中类型和输入的检索关键字,通过异体字之间的映射规则进行异体字映射转换,输出转换后的异体字字符集合异体字映射转换是指根据相应映射规则,将输入字的映射结果输出。例如根据规则3,输入为“为”,则转换后输出为 和 E、搜索引擎将根据经过异体字转换后的关键字集合进行搜索。如果输入为“为”,转换后输出 和 则搜索引擎将搜索包含“为”、 和 的信息。
本发明的优点与技术效果本发明很好的解决了当前各种东亚中文文字字体之间、当前常用文字和古文之间、不同版古文字体之间的转换问题,使得搜索引擎更能准确的检索出用户需要的信息,而不必考虑各种异体字之间的转换问题。
权利要求
1.一种搜索引擎中处理含Unicode四字节编码东亚表意文字异体字转换的方法。该方法根据汉字异体字字表,采用分层匹配的思想,实现了在搜索引擎中异体字之间的匹配检索。这些异体字包括同一个字在各种东亚表意文字里的不同形体,在各种版本的古文中的不同形体。在检索时只要输入异体字中的任意一种,信息中包含其它异体字的信息都会被命中。
2.如在权利要求1所述的搜索引擎中处理含Unicode四字节编码表意文字异体字转换的方法,其特征在于在处理异体字之间映射转换时,将异体字字表根据常用和生僻分成两类子字表,分别进行存储。建立上述两类子字表之间和字表内部不同异体字之间的映射规则。
3.如在权利要求1,2所述的搜索引擎中处理含Unicode四字节编码东亚表意文字异体字转换的方法,其特征在于将不同的映射规则根据具体应用组合成三种命中类型,在搜索时用户根据自己的需求设置的不同命中类型,开启相应的映射转换规则。
4.如在权利要求1,2,3所述的索引擎中处理含Unicode四字节编码东亚表意文字异体字转换的方法,其特征在于根据命中类型和输入的检索关键字,通过异体字之间的映射规则输出转换后的异体字字符集合。搜索引擎将根据经过异体字转换后的关键字集合进行搜索。
全文摘要
本发明公开了一种搜索引擎中处理含Unicode四字节编码东亚表意文字异体字转换的方法。该方法根据汉字异体字字表,采用分层匹配的思想,实现了在搜索引擎中,各种东亚中文文字字体之间、当前常用文字和古文之间、不同版古文字体之间的异体字之间的匹配检索。采用此方法,在检索时只要输入异体字中的任意一种,信息中包含其它异体字的信息都会被命中。本发明很好的解决了当前各种东亚中文文字字体之间、当前常用文字和古文之间、不同版古文字体之间的转换问题,使得搜索引擎更能准确的检索出用户需要的信息,而不必考虑各种异体字之间的转换问题。
文档编号G06F17/30GK1786956SQ200510127958
公开日2006年6月14日 申请日期2005年12月9日 优先权日2005年12月9日
发明者冯建康, 王宏源, 赵锋 申请人:王宏源
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1