船舶装备交互式电子技术手册全文检索装置及方法

文档序号:9766009阅读:556来源:国知局
船舶装备交互式电子技术手册全文检索装置及方法
【技术领域】
[0001] 本发明设及信息检索技术领域,具体地指一种船舶装备交互式电子技术手册全文 检索装置及方法。 技术背景
[0002] 目前船舶装备的技术资料大部分W纸质形式存在,导致技术资料的管理任务日益 繁重,资料重复率和冗余度增大,且难W更新,数据互操作性、传递实时性和共享难度大。为 了解决上述难题,通常编制交互式电子技术手册(IETM ,Interactive Electronic Technical Manual)对技术资料进行管理,即按照标准的数字格式标准编制,采用文字、图 形、表格、音频和视频等形式,通过人机交互方式提供该装备的基本原理、操作使用和维修 保障等内容的技术出版物。由于IETM系统设及的信息繁多,用户通常需使用信息检索功能 实现对所需内容的快速查找,其中全文检索是最常用的方法之一。过去IETM的全文检索方 法中,多数采用通用领域的检索方案,没有充分考虑专业领域技术资料的特点,导致检索结 果不理想。
[0003] 全文检索是指将文档的所有文本与检索关键词进行匹配的检索方法。由于在中文 语境下,词语间没有空格作为分隔符,词语之间没有明显的区分标记,需要按照一定规范将 中文字符串切分为一个个单独的词,才能达到计算机自动识别语句含义的效果,W完成文 档中文本与检索关键词的匹配工作,因此,中文分词技术也成为了中文全文检索的核屯、技 术。在目前常用的分词方法中,基于字符串的分词方法是应用最广泛的方法,该方法是将需 要分词的字符串与一个词库按照一定的策略进行匹配得到分词结果的方法,而在专业领域 中,如果词库中缺少专业词汇,基于字符串的分词方法无法取得理想的分词效果,词库中专 业词汇的多少直接影响了分词的准确率。
[0004] 在船舶装备IETM领域中,主要存在两类专业词汇,一类是船舶装备部件名称,如 "SMR-7200船用雷达"、"05106电流型螺旋奖风速仪"等。另一类是技术信息术语,如"战术技 术指标"、"比幅测向原理"、"维修包络图"等。因此,运两类专业词汇的获取是IETM全文检索 首先需解决的问题,只有同时利用专业词汇和通用词汇对数据模块(DM,Data Model)文档 进行分词匹配,才能使得用户快速查找到所需的装备技术信息。
[000引船舶装备名称全称构造复杂,名称中往往包含数字、符号、字母等多种字符类型, 用户通常会使用缩略语来替代全称,如装备名称巧1604A'伊尔科斯尊严'号散货轮",用户 通常使用巧1604A散货轮"或者"伊尔科斯尊严"来代替,因此,词库中仅仅包含装备名称的 全称还不够,缩略语的处理也是船舶装备IETM领域分词匹配无法避开的问题。对于装备名 称,从原语到缩略语形式主要为缩合和截略两种,缩合是指将原语切分为若干部分,选取各 部分中最能代表原义的字或词组合成为缩略语,如举例中的巧1604A散货轮";截略是指获 取原语中一段连续的子字符串作为缩略语,如上例中的"伊尔科斯尊严"。
[0006]在解决专业词汇获取问题后,现有的分词方法没有针对专业词汇的特点进行匹 配,分词效果存在一定的问题,因此,需要结合提取词汇的特点设计适用于该领域的特定分 词方法,W便取得最佳的匹配效果。
[0007] 在检索到所需的信息后,如何对多种检索结果进行排序也是全文检索装置与方法 需要解决的核屯、问题之一,由于数据模块文档的元素种类众多,重要度不一,不同文档的重 要度也存在差异,不同的查询关键词的重要度也不相同,因此,需要综合考虑W上=方面的 因素,设计合理的检索结果排序方法,得到令用户满意的检索结果。
[0008] 由W上内容可W看出,专业词汇获取、缩略语获取、分词问题和检索结果排序是目 前船舶装备IETM全文检索装置与方法需解决的四大问题。

【发明内容】

[0009] 本发明的目的就是要提供一种船舶装备交互式电子技术手册全文检索装置及方 法,该装置和方法能方便用户快速准确地查找到所需的船舶装备技术信息。
[0010] 为实现此目的,本发明所设计了船舶装备交互式电子技术手册全文检索装置,它 包括数据库和功能模块,其中,所述数据库包括公共源数据库、技术信息术语数据库、装备 部件名称数据库、缩略语数据库、通用词汇数据库、检索记录数据库和索引数据库,所述功 能模块包括专业词汇提取模块、缩略语提取模块、第一分词模块、用户检索命令通信模块、 检索模块、第二分词模块和索引模块,其中公共源数据库为专业词汇提取模块和缩略语提 取模块提供词汇提取源并为第一分词模块提供分词处理的内容,专业词汇提取模块用于提 取词汇并存入技术信息术语数据库和装备部件名称数据库,缩略语提取模块用于提取词汇 存入缩略语数据库,第一分词模块用于将处理后的分词内容导入索引模块处理;
[0011] 索引模块用于建立索引并存入索引数据库,检索数据库用于接收第二分词模块分 词处理的检索内容进行匹配查找,并将匹配得到的结果集返回至检索模块进行排序,检索 模块用于将用户的检索内容发送至第二分词模块进行分词处理,检索模块还用于接收用户 检索命令通信模块的检索命令和返回排序后的结果集发送至用户检索命令通信模块,用户 检索命令通信模块用于将用户的检索命令发送至检索记录数据库,检索记录数据库用于为 缩略语提取模块提供词汇提取源;
[0012] 所述技术信息术语数据库、装备部件名称数据库、缩略语数据库和通用词汇数据 库分别为第一分词模块和第二分词模块提供分词时的匹配词集。
[0013] -种利用上述船舶装备交互式电子技术手册全文检索装置进行检索的方法,它包 括如下步骤:
[0014] 步骤1:在公共源数据库中导入根据选定的交互式电子技术手册文档编写标准(即 SlOOOD标准)编辑的数据模块文档,专业词汇提取模块根据所述选定的交互式电子技术手 册文档编写标准的要求提取公共源数据库内数据模块文档中的技术信息术语和装备部件 名称两类专业词汇,并建立与相应数据模块文档中数据模块编码信息间的映射关系,并将 上述两类专业词汇和映射关系存入对应的技术信息术语数据库和装备部件名称数据库中;
[0015] 步骤2:缩略语提取模块从公共源数据库的装备部件名称中提取对应缩略语的特 征量,该特征量为装备部件名称中的数字编号或者俗称部分;
[0016] 步骤3:缩略语提取模块将上述特征量与公共源数据库内数据模块文档和检索记 录数据库内的用户检索记录进行匹配查找,确定特征量中的各个元素在数据模块文档和用 户检索记录中的具体位置;
[0017] 步骤4:缩略语提取模块确定特征量所在缩略语的首尾字符串,并识别特征量对应 缩略语的边界片段,使得识别的缩略语为完整缩略语,将该完整缩略语定为候选缩略语;
[0018] 步骤5:缩略语提取模块通过W下公式1计算上述候选缩略语的权值:
(1 )
[0020] 式中nmi。为候选缩略语在特定内容中出现的次数,所述特定内容包括与装备部件 名称的装备类型标识码相同的数据模块文档内容及该数据模块文档内容检索记录中的检 索关键词;nail为候选缩略语在所有数据模块文档中出现的次数与检索记录数据库中所有 检索记录中出现次数的总和;Dall为所有数据模块文档总数和所有检索记录总数之和;Dmic 为包含候选缩略语的数据模块文档总数和包含候选缩略语的检索记录总数之和;Wa为候选 缩略语的权值,用于衡量候选缩略语衡量主题的能力,Wa的阔值为给定值,当候选缩略语的 权值大于等于Wa的阔值时,候选缩略语可视为正式缩略语,将候选缩略语存入缩略语数据 库,候选缩略语的权值小于Wa的阔值时,对候选缩略语不进行处理;
[0021] 步骤6:在第一分词模块和第二分词模块分别对数据模块文档和检索模块提供的 用户检索关键词进行分词处理;分词处理的具体过程为:
[0022] 设待切分的字符串为Sl=WlW2W3…Wi-'Wn,其中,待切分的字符串Sl为用户检索关 键词的字符串或数据模块文档中的每一句内容,Wi为Si中的单个字符,n为该字符串的长度, n>l,i为巧IJn之间的字符编号;
[0023] 使用缩略语数据库对待切分的字符串Si进行扫描,当缩略语命中时,将待切分的 字符串Si中命中的字符子串还原为对应的原语,直到待切分的字符串Si扫描完毕为止,此时 形成字符串52 = 11山2'''化-'咖,其中111为52中的单个字符,111为该字符串的长度;
[0024] 在第一分词模块和第二分词模块内用字符串S2建立一个节点数为m+1的有向无环 图G,有向无环图G节点的编号依次为乂〇、乂1、乂2-,乂。,111为该字符串的长度,在相邻两个顶点乂1^, Vk+i间建立有向边<vk,vk+i〉,该有向边<¥1<,¥1<+1〉对应的词汇为Uk+i,化=0,1,2. . .m-1,m为该 字符串的长度),若任意两个有向无环图G节点间存在直接相连的有向
当前第1页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1