基于网络环境的中文信息自动标引系统的制作方法

文档序号:6463896阅读:247来源:国知局
专利名称:基于网络环境的中文信息自动标引系统的制作方法
技术领域
本发明是基于互联网信息的自动标引系统,它是标杆智能搜索引擎的重要组成部分,也是一个独立运行的软件产品。该系统对网络爬虫软件从网上自动提取的信息或WEB浏览器输入的批量信息,由计算机自动赋予分类检索标识和主题检索标识,在统一标准的基础上完成网络信息的自动分类标引、主题标引和类目词标引,提高网络环境下海量信息的查准率、查全率和有效利用率,实现网络信息共享。
从理论依据和实现途径分析,自动标引的方法可分为4类1、机助标引;2、词典法;3、单字标引法;4、逻辑推理法。就自动标引方案实施而言,可分为以下几种1、词典方案词典法是现有自动标引系统中应用最多的方案,它是以词典为主,辅以其他手段完成自动标引。其主要思想是构造机内主题词表,并以此为主,辅以停用词表,预匹配词表,切分规则、语义规则、地域规则、逻辑判断规则等,实现自动标引。
2、单字标引方案单字标引法也称为无标引法或按字标引法。它参考了西文自动抽词标引的思想,以单个汉字作为标引词,形成地址参照文件,利用后组方式进行逻辑检索。此方案不需要建立词典,也不需要分词,缺点是查准率低。
3、逻辑推理方案此方案是利用推理规则库实现自动标引,其理论基础是人工智能和专家系统。推理规则是分词的基础,它由一系列推理规则(如语义规则库、词法规则库)组成。逻辑推理方案的关键在于构筑一个比较完善的语法语义网络,它能模仿人的思维,分词精度较高,自动标引效果好。
4、神经网络方案此方案是用神经元表示短语,用神经元的相互联接表达短语间的句法关系或限制,通过激励来进行分词和标引。它是逻辑推理方法的进一步发展,目前仅处于模拟研究阶段,尚未达到应用程度。
作为自动标引基础的中文自动分词理论,分为机械分词和知识分词两大类。机械分词既不进行语法分析,也不进行语义理解,只是机械地匹配比较,分词精度不高。知识分词则进行语法和语义理解,分词精度高。目前,中文自动分词方法有1、匹配法匹配法又分为最长匹配法、逆向最长匹配法、最佳匹配法、最短匹配法、逆向最短匹配法、增字法、减字法和逐字逐词比较法等,不同的方法得到的分词精度也不同。总之,逆向、增字、最长匹配对交集型歧义组合字段的切分有效,而且在切分过程中能得到一些有益的信息。
2、切分标志法汉语中存在着许多自然切分标志,一是标点符号,二是只能充当词首字或词尾字的字,单字词、复音节单纯词和拟声词等。一个词不能跨越这些切分标志而存在。分词时先找出切分标志,把汉语的句子切分成一些短语,以便进一步分词和匹配。
3、部件词典法部件词是指构成词的基本单元,它分为词首、词尾、词干等若干部件。从词首部件到词尾部件之间的字符串是一个词的可能性很大,它与词干的具体内容无关。部件词典法是词典法的改进,可采用逆向扫描或正向扫描的方法进行匹配。
4、链接表法链接表法是记载某一汉字与另一汉字是否有联系的表。切分原则是有联系则取,无联系则断,切分出来的字串再按不同的模式进行二次切分。
5、语法语义方法基于语法、语义知识库的分词方法是一种较好的分词方法,核心是构建知识库,其中包括词法知识库,句法知识库,语法知识库、语义知识库。应用语法、语义知识切分汉语,可大大提高自动标引的精度,使歧义切分率下降一倍。
进入二十一世纪,信息量快速增长,尤其是网络环境下的海量信息,繁而无序,手工加工,力所不及,全文检索,效率较低。要想“全、准、快、便”地查到所需信息,仍须对信息进行分类标引和主题标引。因此,中文信息自动标引便又成了网络环境下中文信息处理领域的重点研究课题。到目前为止,在国内尚未发现有关在互联网环境下基于WINDOWS或NT操作系统的中文自动标引系统的文献报道。
本发明基于网络环境的中文信息自动标引系统,
本系统实现了在互联网环境下对各种类型、各种载体、各种行业或学科中文信息的主题词、分类号和范畴类目词的自动标引。
本系统的适用范围是全方位的中文信息,按标杆公司的分类体系划分,包括19个门类(见下表)112个行业(略)。因此,本系统既可对全行业(112个行业)中文信息进行分类标引和主题标引,也可对单个行业的中文信息分类标引和主题标引,还可对几个行业的组合进行分类标引和主题标引。
标杆公司分类体系的19个门类包括1、 农、林、牧、渔业2、 采矿业3、 制造业4、 电力、煤气及水的生产和供应业5、 建筑业6、 交通运输、仓储和邮政业7、 计算机、电信、网络服务业8、 批发和零售贸易业9、 旅馆和餐饮业10、 金融、保险业11、 房地产、租赁和商业服务12、 社会服务业13、 教育业14、 卫生、社会保障、福利业15、 文化、体育、娱乐业16、 技术服务业17、 社会科学和自然科学研究18、 其他行业19、 其他学科本发明的主要内容是在网络环境下完成对中文信息的自动加工处理,自动给出信息的分类号、主题词和范畴类名,反映信息的主要内容,提高网络信息的查准率、查全率和有效利用率。其主要内容有1、构建基于网络环境、适用于全行业信息的主题词表,主题词之间有“用、代、属、分、参”关系,行业之间有链接关系。
2、根据中文的句法,构建通用的汉语切分规则库和不同行业的特殊切分规则库。
3、根据汉语的词法,构建通用的停用词库和不同行业的特殊停用词库。
4、根据中国地理区域的特征,构建中国地理名称库和地理名称切分规则库。
5、根据人工智能、专家知识的逻辑推理法,构建通用的中文信息标引推理规则库和不同行业中文信息标引推理规则库,并以此作为语法、语义分析器的推理、判断依据,实现准确的汉语分词和信息标引。
6、采用JAVA、HTML、JAVASCRIPT、SQL等多种计算机语言研制、开发标杆搜索引擎和“三网一库”中文信息自动标引系统。此系统代码可在WINDOWS、NT、UNIX、LINUX上运行。
网络中文信息自动标引系统流程见下图(附后)。五、系统评价本系统可在局域网或广域网环境下运行,操作系统可为WINDOWS2000、NT、UNIX、LINUX。
本系统的分词标引字段为文献的标题、文摘和正文,可对单一字段或三个字段的任意组合进行分词。
本系统可同时标引出主题词、分类号、三级类目词。
标引深度因加工字段不同而异。对标题字段,标引深度为4;对标题+文摘字段,标引深度为7;对三个字段的组合,标引深度不低于10。
标引速度约为每分钟60个记录(对标题+文摘或三字段组合,计算机CPU应为PIII 500)。
标引准确度主题词为98%以上,分类号和类目词不低于95%。由本系统标引出的主题词,分类号和类目词一般不需再进行人工干预,可直接入库。不过,为了保证标引不出现歧义词,该系统提供了人工质量控制功能模块,可对标引结果进行质量检查和修改。
本系统是基于词典法的标引方案,尚未采用人工神经网络技术,对信息内容的揭示和挖掘,还有待进一步提高。
权利要求
1.一种基于网络环境的中文信息自动标引系统,其特征在于,构建基于网络环境、适用于全行业信息的主题词表,主题词之间有“用、代、属、分、参”关系,行业之间有链接关系。
2.根据权利要求1所述的基于网络环境的中文信息自动标引系统,其特征在于,中文的句法,构建通用的汉语切分规则库和不同行业的特殊切分规则库。
3.根据权利要求1所述的基于网络环境的中文信息自动标引系统,其特征在于,汉语的词法,构建通用的停用词库和不同行业的特殊停用词库。
4.根据权利要求1所述的基于网络环境的中文信息自动标引系统,其特征在于,中国地理区域的特征,构建中国地理名称库和地理名称切分规则库。
5.根据权利要求1所述的基于网络环境的中文信息自动标引系统,其特征在于,人工智能、专家知识的逻辑推理法,构建通用的中文信息标引推理规则库和不同行业中文信息标引推理规则库,并以此作为语法、语义分析器的推理、判断依据,实现准确的汉语分词和信息标引。
6.根据权利要求1所述的基于网络环境的中文信息自动标引系统,其特征在于,采用JAVA、HTML、JAVASCRIPT、SQL等多种计算机语言研制、开发标杆搜索引擎和“三网一库”中文信息自动标引系统。此系统代码可在WINDOWS、NT、UNIX、LINUX上运行。
全文摘要
一种基于网络环境的中文信息自动标引系统,构建基于网络环境、适用于全行业信息的主题词表,主题词之间有“用、代、属、分、参”关系,行业之间有链接关系;中文的句法,构建通用的汉语切分规则库和不同行业的特殊切分规则库;汉语的词法,构建通用的停用词库和不同行业的特殊停用词库;中国地理区域的特征,构建中国地理名称库和地理名称切分规则库;人工智能、专家知识的逻辑推理法,构建通用的中文信息标引推理规则库和不同行业中文信息标引推理规则库,并以此作为语法、语义分析器的推理、判断依据,实现准确的汉语分词和信息标引。
文档编号G06F17/30GK1430163SQ0113865
公开日2003年7月16日 申请日期2001年12月29日 优先权日2001年12月29日
发明者张明盛 申请人:北京标杆网络技术有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1