一种汉字作为关键字进行无编码识别的方法

文档序号:6600586阅读:210来源:国知局
专利名称:一种汉字作为关键字进行无编码识别的方法
技术领域
本发明属于编码技术领域,涉及一种汉字作为关键字进行无编码识别的方法。
背景技术
编码作为一种标识被广泛地应用在各种业务数据中,便于业务数据进行识别、查 找、筛选、管理等。例如常见的代号、序号、编号、代码等都是一种编码形式。通常意义上的编码采用数字或英文字符定义,各种编码之间具有唯一性,它的优 点在于同一语义可用多种表达形式,但也存在着许多不足,如不能单纯从编码上直接看出 其真正含义,记忆成本高,修改成本高,不适应以汉字作为工作习惯的场合。若汉字直接参 与编码规则,编码直观,容易记忆,最大程度的贴近用户的工作习惯,但汉字本身存在着的 近义词、通假字、通用词、或省略语等情况,又会带来编码重复、不能通用等问题。传统意义上的编码识别就是具有唯一性的编码相等,该编码的生成一般由人工完 成,工作量很大,各种条件并存时也容易出现错误编码,会导致识别的错误,也不容易发现 该错误。

发明内容
本发明所解决的技术问题是提供一种准确性高、工作量少、出错率低的汉字作为 关键字进行无编码识别的方法。为解决上述的技术问题,本发明采取的技术方案本发明的特殊之处在于通过以下步骤实现(1)、定义工程内容描述根据工程数量使用要求,按照汉字工作习惯对某一工程 内容进行描述,详细列举可能出现的多种表达形式;(2)、定义汉字关键字从工程内容描述中提炼汉字作为关键字,并指明汉字近义 词、通假字、通用词;(3)、对应生成唯一性编码上述工作完成后,由计算机根据提炼的所有汉字关键 字,对全工程内容逐一检索扫描,对应生成唯一性编码,供判断编码相等时使用;(4)、检查、排除重复编码对应生成唯一性编码前后记录可能重复,影响正确使 用,检查其错误,然后由用户把重复编码排除掉;(5)、用户修改编辑工程数量用户对需要识别的工程数量进行编辑修改,改变工 程内容描述的汉字部分,然后提交给计算机进行工程数量无编码识别;(6)、关键字匹配工程数量中工程内容的描述采用汉字、数字、字母组合形式,其 中的关键字及其组合能表达一个完整、独立的工程名称或内容,计算机按专业读入工程数 量后,继续用所有的关键字检索扫描后,亦能生成唯一性编码,若与事先定义了的定额关联 库中某记录内容做到意思表达一致、相等,则称为关键字匹配。与现有技术相比,本发明的有益效果本发明解决了计算机依据汉字作为关键字自动编码问题,减少了人工编码工作量大与容易出现错误的实际情况,实现了用户直接使用汉字的工作习惯。可以用汉字作为关键字及其组合自动生成唯一性编码,该编码随汉字的变化而变 化,但其本身具有唯一性,从而实现了用户直接使用汉字的工作习惯,彻底解决了传统中使 用有编码识别的局限性。


图1为本发 明的流程图。
具体实施例方式下面结合附图和具体实施方式
对本发明进行详细说明。参见图1,本发明通过以下步骤实现(1)、定义工程内容描述根据工程数量使用要求,按照汉字工作习惯对某一工程 内容进行描述,详细列举可能出现的多种表达形式;(2)、定义汉字关键字从工程内容描述中提炼汉字作为关键字,并指明汉字近义 词、通假字、通用词;(3)、对应生成唯一性编码上述工作完成后,由计算机根据提炼的所有汉字关键 字,对全工程内容逐一检索扫描,对应生成唯一性编码,供判断编码相等时使用;(4)、检查、排除重复编码对应生成唯一性编码前后记录可能重复,影响正确使 用,检查其错误,然后由用户把重复编码排除掉;(5)、用户修改编辑工程数量用户对需要识别的工程数量进行编辑修改,改变工 程内容描述的汉字部分,然后提交给计算机进行工程数量无编码识别;(6)、关键字匹配工程数量中工程内容的描述采用汉字、数字、字母、其他符号组 合形式,其中的关键字及其组合能表达一个完整、独立的工程名称或内容,计算机按专业读 入工程数量后,继续用所有的关键字检索扫描后,亦能生成唯一性编码,若与事先定义了的 定额关联库中某记录内容做到意思表达一致、相等,则称为关键字匹配。下面以隧道专业举例,其工程数量一般描 述如下 实例中采用的关键字是“洞身、衬砌、II级、钢筋、混凝土、仰拱、填充、复合、铺底、 砼、轨道、基础”等关键字,其中“钢筋、复合”在这里可以忽略,“围岩”二字在描述可有可无, 它不应该影响识别,而混凝土标号C25、C30等本身不能作为关键字,它只是在定额调整时 才发生作用,并引入了相等关键字,如“混凝土 =砼”,“仰拱=填充”等。计算机应用所有关键字检索扫描后,第1、2、3条记录生成识别标志“洞身+衬砌+11 级+钢筋+混凝土 +仰拱”或“洞身+衬砌+11级+钢筋+混凝土 +铺底”或唯一性编 码“001*##”或“001*# ? ”,它们可作为同一定额处理,这一实例同时解决了多对一编码 问题。
权利要求
一种汉字作为关键字进行无编码识别的方法,其特征在于通过以下步骤实现(1)、定义工程内容描述根据工程数量使用要求,按照汉字工作习惯对某一工程内容进行描述,详细列举可能出现的多种表达形式;(2)、定义汉字关键字从工程内容描述中提炼汉字作为关键字,并指明汉字近义词、通假字、通用词;(3)、对应生成唯一性编码上述工作完成后,由计算机根据提炼的所有汉字关键字,对全工程内容逐一检索扫描,对应生成唯一性编码,供判断编码相等时使用;(4)、检查、排除重复编码对应生成唯一性编码前后记录可能重复,影响正确使用,检查其错误,然后由用户把重复编码排除掉;(5)、用户修改编辑工程数量用户对需要识别的工程数量进行编辑修改,改变工程内容描述的汉字部分,然后提交给计算机进行工程数量无编码识别;(6)、关键字匹配工程数量中工程内容的描述采用汉字、数字、字母组合形式,其中的关键字及其组合能表达一个完整、独立的工程名称或内容,计算机按专业读入工程数量后,继续用所有的关键字检索扫描后,亦能生成唯一性编码,若与事先定义了的定额关联库中某记录内容做到意思表达一致、相等,则称为关键字匹配。
全文摘要
本发明涉及一种汉字作为关键字进行无编码识别的方法。传统意义上的编码识别就是具有唯一性的编码相等,该编码的生成一般由人工完成,工作量很大,各种条件并存时也容易出现错误编码,会导致识别的错误,也不容易发现该错误。本发明通过定义工程内容描述、定义汉字关键字、对应生成唯一性编码、检查、排除重复编码、用户修改编辑工程数量,最后进行关键字匹配。本发明解决了计算机依据汉字作为关键字自动编码问题,减少了人工编码工作量大与容易出现错误的实际情况,实现了用户直接使用汉字的工作习惯。
文档编号G06Q10/00GK101847230SQ20101014403
公开日2010年9月29日 申请日期2010年4月9日 优先权日2010年4月9日
发明者刘元泓, 刘孟山, 孙长江, 李志彪, 武礼仁, 王会琴, 王李刚, 罗运良, 胡国荣, 贾兴斌, 邢淑琴, 郭笑非, 陈瑜, 马兰成, 马映登 申请人:中铁第一勘察设计院集团有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1