船舶装备交互式电子技术手册全文检索装置及方法_5

文档序号:9766009阅读:来源:国知局
模块(12)进行分词处 理,检索模块(11)还用于接收用户检索命令通信模块(10)的检索命令和返回排序后的结果 集发送至用户检索命令通信模块(10),用户检索命令通信模块(10)用于将用户的检索命令 发送至检索记录数据库(9),检索记录数据库(9)用于为缩略语提取模块(3)提供词汇提取 源; 所述技术信息术语数据库(5)、装备部件名称数据库(6)、缩略语数据库(7)和通用词汇 数据库(8)分别为第一分词模块(4)和第二分词模块(12)提供分词时的匹配词集。2. -种利用权利要求1所述船舶装备交互式电子技术手册全文检索装置进行检索的方 法,其特征在于,它包括如下步骤: 步骤1:在公共源数据库(1)中导入根据选定的交互式电子技术手册文档编写标准编辑 的数据模块文档,专业词汇提取模块(2)根据所述选定的交互式电子技术手册文档编写标 准的要求提取公共源数据库(1)内数据模块文档中的技术信息术语和装备部件名称两类专 业词汇,并建立与相应数据模块文档中数据模块编码信息间的映射关系,并将上述两类专 业词汇和映射关系存入对应的技术信息术语数据库(5)和装备部件名称数据库(6)中; 步骤2:缩略语提取模块(3)从公共源数据库(1)的装备部件名称中提取对应缩略语的 特征量,该特征量为装备部件名称中的数字编号或者俗称部分; 步骤3:缩略语提取模块(3)将上述特征量与公共源数据库(1)内数据模块文档和检索 记录数据库(9)内的用户检索记录进行匹配查找,确定特征量中的各个元素在数据模块文 档和用户检索记录中的具体位置; 步骤4:缩略语提取模块(3)确定特征量所在缩略语的首尾字符串,并识别特征量对应 缩略语的边界片段,使得识别的缩略语为完整缩略语,将该完整缩略语定为候选缩略语; 步骤5:缩略语提取模块(3)通过以下公式1计算上述候选缩略语的权值:式中nmi。为候选缩略语在特定内容中出现的次数,所述特定内容包括与装备部件名称 的装备类型标识码相同的数据模块文档内容及该数据模块文档内容检索记录中的检索关 键词;nall为候选缩略语在所有数据模块文档中出现的次数与检索记录数据库(9)中所有检 索记录中出现次数的总和;Dall为所有数据模块文档总数和所有检索记录总数之和;Dmic为 包含候选缩略语的数据模块文档总数和包含候选缩略语的检索记录总数之和;Wa为候选缩 略语的权值,用于衡量候选缩略语衡量主题的能力,1 3的阈值为给定值,当候选缩略语的权 值大于等于1的阈值时,候选缩略语可视为正式缩略语,将候选缩略语存入缩略语数据库 (7 ),候选缩略语的权值小于1的阈值时,对候选缩略语不进行处理; 步骤6:在第一分词模块(4)和第二分词模块(12)分别对数据模块文档和检索模块(11) 提供的用户检索关键词进行分词处理;分词处理的具体过程为: 设待切分的字符串为S1=W1W2W3… Wi· ιη,其中,待切分的字符串S1为用户检索关键词的 字符串或数据模块文档中的每一句内容,W1SS1*的单个字符,η为该字符串的长度,η 2 1,i 为1到η之间的字符编号; 使用缩略语数据库(7)对待切分的字符串31进行扫描,当缩略语命中时,将待切分的字 符串S1中命中的字符子串还原为对应的原语,直到待切分的字符串S1扫描完毕为止,此时形 成字符串32 = 111112 - 1^1111,其中1^为32中的单个字符,111为该字符串的长度; 在第一分词模块(4)和第二分词模块(12)内用字符串S2建立一个节点数为m+1的有向无 环图G,有向无环图G节点的编号依次为VQ、VI、V2H_Vm,m为该字符串的长度,在相邻两个顶点 Vk,vk+i间建立有向边<vk,vk+i>,该有向边<vk,vk+i>对应的词汇为Uk+i,(k = 0,l,2...m-l,m为 该字符串的长度),若任意两个有向无环图G节点间存在直接相连的有向边,则认为这两个 节点间的距呙为1,若字符串S2的字符子串hi = uPuP+r"Uq,(I < p<q)为在缩略语还原后的 原语,则以节点Vp-I,Vq为起始节点和终结节点建立有向边〈Vp-I,Vq>,该有向边边〈Vp-I,Vq>对 应的词汇为字符串S 2的字符子串Il1 ; 分别使用技术信息术语数据库(5)和装备部件名称数据库(6)对字符串S2进行匹配,若 存在匹配的最大字长字符子串h2 = uauavub,(l <a<b),且最大字长字符子串h2的节点 va-1和节点Vb间不存在有向边<va-I,vb>,并有a 2 P+1或者b < q-Ι成立,则以节点va-1为起始节 点,以节点Vb为终结节点建立有向边〈VH,vb>,该边对应词汇为最大字长字符子串h 2; 使用通用词汇数据库(8)对字符串S2进行匹配,若存在匹配的字符串h3 = UcUwUd,(l ^〈(^,且字符串^的节点^和^间不存在有向边仏-^^则以字符串^的节点^为 起始节点,以字符串h3的节点Vd为终结节点建立有向边0。- 1,^>,该有向边0。-1,^>对应词 汇为字符串h3;若字符串h 3的节点κ和节点Vd间存在有向边〈^,^>,且有向边〈^,^>的 字符串类型为最大字长字符子串h 2,则说明最大字长字符子串h2在通用词汇数据库(8)中存 在,因此将其类型最大字长字符子串h 2改为字符子串h4; 统计有向边生成完毕后有向无环图G中从节点Vo到达^路径长度由短至长的前N条路 径,N选为3,其中最短的一条路径考虑所有有向边类型,第二短的路径和第三短的路径均忽 略字符串类型为hi和h2的有向边,只对对应词汇字符串为h 3和h4的有向边进行考虑,即在非 最优路径中只考虑通用词库的匹配结果,剔除上述三条路径中存在的重复有向边,分别输 出各条路径中剩余有向边对应的词汇,构成的结果集既为最终的分词结果; 步骤7:在第一分词模块(4)将上述得到的最终的分词结果分别存入索引数据库(13)内 索引文档的各域中,并设置各域的权重值,索引文档各域包括标题域、路径域、链接文本域、 子标题域和正文域; 步骤8:设置索引数据库(13)内索引文档的权重,并将多个索引文档构成段并最终形成 索引文件;索引文档权重设置分为标准编码系统编码权重设置和信息码权重设置,根据数 据模块文档编码特点,对不同标准编码系统编码和信息码的权重进行设置,标准编码系统 编码权重设置依据标准编码系统编码装备层次级别越低,对应的权重因子设置越高的规 贝1J,信息码权重设置依据子类别信息码设置比主类别更高的权重的规则,然后将标准编码 系统编码权重和信息码权重相乘得到索引文档的权重; 步骤9:利用检索模块(11)向用户提供全文检索服务,检索模块(11)接收用户的检索请 求并调用查询方式进行检索,该查询方式具体为:将用户检索的关键词调用步骤6进行分词 处理后,与步骤7形成的索引库中文档各域的分词内容进行匹配,查找所有匹配的文档作为 结果集。3. 根据权利要求2所述的检索方法,其特征在于:所述步骤7中,标题域存放数据模块名 称的分词结果,出现在标题域的词条反映整篇数据模块文档的主题,标题域的权重设置为 10。4. 根据权利要求2所述的检索方法,其特征在于:所述步骤7中,路径域用于标识文档访 问路径,并存放数据模块编码信息来实现标识路径功能,路径域不参与分词和检索过程,路 径域无需设置权重。5. 根据权利要求2所述的检索方法,其特征在于:所述步骤7中,链接文本域用于存放数 据模块编码链接还原文本内容的分词结果,还用于实现对链接锚文本的检索,当检索关键 词在链接文本域命中时,链接指向的数据模块文档模块可能为用户所查找的内容,链接文 本域的权重设置为3。6. 根据权利要求2所述的检索方法,其特征在于:所述步骤7中,子标题域用于存放反映 局部主题信息的标签的分词结果,子标题域的权重设置为5。7. 根据权利要求2所述的检索方法,其特征在于:所述步骤7中,正文域用于存放数据模 块文档中其它技术信息分词结果,正文域的权重设置为1。
【专利摘要】本发明所设计的一种船舶装备交互式电子技术手册全文检索装置,它包括公共源数据库、专业词汇提取模块、缩略语提取模块、第一分词模块、技术信息术语数据库、装备部件名称数据库、缩略语数据库、通用词汇数据库、检索记录数据库、用户检索命令通信模块、检索模块、第二分词模块、索引数据库和索引模块。本发明综合数据模块文档中元素标签特点和文档内容,利用专业词汇进行查询并加大专业词汇在文档及检索关键词中的权重,使得系统能够在一定语义层次进行查询,返回的检索结果更加贴近用户的检索意图,从而保证了该检索系统的高召回率和准确率。
【IPC分类】G06F17/27, G06F17/30
【公开号】CN105528411
【申请号】CN201510884252
【发明人】马良荔, 覃基伟, 苏凯, 许国鹏
【申请人】中国人民解放军海军工程大学
【公开日】2016年4月27日
【申请日】2015年12月3日
当前第5页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1