中文著者形音取号法的制作方法

文档序号:6414529阅读:267来源:国知局
专利名称:中文著者形音取号法的制作方法
技术领域
本发明属于一般编码技术领域,尤其涉及一种转换到机码或相反转换。
目前,在中文文献编目工作中,使用的著者号种类繁多,统一困难,尤其是存在着许多不足之处,如《通用汉语著者号码表》(刘湘生主编,海洋出版社,1992年6月)基于手工操作,取号较为复杂,尚未实现计算机自动标引;收录汉字仅2800余个,不能处理数字、字母及常用符号;编码随意性大,缺乏科学性和规范化,不能保证同一著者在不同地方的著者号绝对相同。
本发明的目的是提供一种适用于任何汉字(包括处理数字、字母及常用符号)的,取号简捷规范、重号率低、可以保证同一著者在任何地方的著者号绝对相同、便于文献排检和信息交流的计算机自动化取号方法。
为实现上述目的,本发明所采用的技术方案是“字母加数字“的形音取号法。即字母是个人著者的姓氏或团体著者的第一个汉字的汉语拼音首字母,数字是在著者汉字四角号码的角码中按序选取。
四角号码选取的位数为个人著者取四位、团体著者取五位,其顺序和具体数字的选取分别是,取个人著者第一个汉字的四角号码的1角为第一位,第二个汉字的四角号码的2角为第二位,第三个汉字的四角号码的3角和4角为第三位和第四位。个人著者若为单姓单名即两个汉字时,在姓和名之间取空格用“0”代替,个人著者若为复姓时仍按前三个汉字处理;团体著者的取数顺序和具体数字的选取是,第一个汉字的四角号码的1角,第二个汉字的四角号码的2角,第三个汉字的四角号码的3角,第四个汉字的四角号码的3角和4角。
汉语数字按汉字统一处理。
阿拉伯数字和罗马数字按其读音的首字母及自身数码取号。
外文字母、日文假名及常用符号均按GB2312-80中的区位码取号,由其读音首字母加区位码组成形音码。
所有汉字、数字、字母及常用符号按形音码排序组成汉字形音号码系统并建立系统数据库。
由于采用上述技术方案,使本发明适用于任何汉字及数字和常用符号;具有规范性,克服了编码的随意性;号码的表述形式具有国际通用性,保证了同一著者在所有地方的著者号相同,便于文献排检和信息交流,本发明经测试重号率极低,不同著者在同一类目下的重号率仅为万分之三左右,且革除了传统的手工操作方式,省略了文献编目工作中的人工查(配)号、输入号码和校对三个工作过程,提高了工作效率,实现了取号自动化。
下面结合附图和实施例对本发明作进一步描述

图1为本发明的计算机自动标引的程序框图[实施例]本发明采用字母加数字的取号方法,即字母是著者第一个汉字的拼音字母的首字母,数字是按个人著者的前三个汉字或团体著者的前四个汉字的四角号码中角码按顺序选取,四角号码选取的位数为个人著者取四位,团体著者取五位。
当著者为个人时,其形音号的取号顺序是第一个汉字的拼音的首字母加上四角号码的1角、第二个汉字的四角号码的3角、第三个汉字的四角号码3角和4角,如贾平凹 J1477若著者为单姓单名两个汉字时,在姓和名之间留空格并用“0”替代,如莫静 M4025若著者为四个字时,则取前三个汉字,如欧阳青修 O7222(苏联)日丹诺娃R6476当著者为团体时,其形音号的取号顺序是第一个汉字的拼音首字母再加上这四个字的四角号码中的第一个汉字的1角、第二个汉字的2角、第三个汉字的3角和第四个汉字3角和4角,如国家教育部 G63422武汉大学W15840
计算机自动标引程序框图如图1所示,由此可实现计算机按已输入的著者汉字自动取号和自动标引。
权利要求
1.一种“字母加数字”的中文著者形音取号法,其特征在于所述的字母是个人著者的姓氏或团体著者的第一个汉字拼音的首字母,数字是在著者汉字的四角号码的角码中按序选取。
2.根据权利要求1所述的形音取号法,其特征在于所述的四角号码的角码选取是个人著者取4位,其具体数字的选取方法是取第一个汉字四角号码的1角为第一位,第二个汉字四角号码的3角为第二位,第三个汉字四角号码的3角和4角为第三位和第四位,当个人著者为单姓单名即两个汉字时,在姓和名之间取“0”,当个人著者为复姓时,仍按前三个汉字处理。
3.根据权利要求1所述的形音取号法,其特征在于所述的四角号码的角码选取是团体著者取5位,其具体数字的选取方法是取第一个汉字四角号码的1角为第一位,第二个汉字四角号码的1角为第二位,第三个汉字四角号码的3角为第三位,第四个汉字四角号码的3角和4角为第四位和第五位。
4.根据权利要求1所述的形音取号法,其特征在于汉语数字按汉字统一处理。
5.根据权利要求1所述的形音取号法,其特征在于阿拉伯数字和罗马数字按其读音的首字母及自身数码取号。
6.根据权利要求1所述的形音取号法,其特征在于外文字母、日文假名及常用符号,均按GB 2312-80中区位码取号,由其读音首字母加区位码组成。
7.根据权利要求1和2、3、4、5、6所述的形音取号法,其特征在于音形号可实现计算机自动标引,其程序是在编目数据库中取出“著者”字段,判断其是否为个人著者,是则取三字,否则取四字;判断该字段有无国别,有则略去,取著者姓名第一个汉字;判断这个汉字是否为书名号“《”,是则略去,取其三个或四个汉字;在取出的三个或四个汉字中,若是中国著者,第二个汉字可能为空格,若外国著者,第二个字可能为空格或逗号,第三个汉字可能为逗号或字母,这些符号及字母一律按一个汉字处理;用取出的三个汉字或四个汉字分别在著者代码数据库中按规定取号;组成由一个字母加四位或五位数字的“著者形音号”;将“著者形音号”读入“书次号”字段中。
全文摘要
本发明属于一般编码技术领域。采用“字母加数字”的技术方案,其字母为著者第一个汉字的拼音首字母,数字是在汉字四角号码的角码中按顺序选取,个人著者前三个汉字的角码依次分别选其1、3和3、4角,团体著者前四个汉字的角码依次分别选其1、1、3和3、4角,本发明具有规范性、通用性和重号率低的优点,能处理中文文献中的任何汉字、数字、字母和常用符号,亦可实现计算机按已输入的著者汉字自动标引。
文档编号G06F3/023GK1258880SQ9812174
公开日2000年7月5日 申请日期1998年12月31日 优先权日1998年12月31日
发明者韩红, 余蜀璋, 冯为民 申请人:武汉冶金科技大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1