船舶装备交互式电子技术手册全文检索装置及方法_4

文档序号:9766009阅读:来源:国知局
术信息为除开子标题 和链接信息的正文内容)结果,正文域的权重设置为1。
[0063] 上述技术方案的步骤1,具体包括如下步骤:
[0064] 步骤101:选取特定文本内容提取装备部件名称和技术信息术语两类专业词汇,其 中特定元素包括技术名称<techname>和信息名称〈infoname〉,在数据模块名称中,技术名 称<*6证11曰1116〉用于描述装备部件名称,信息名称<infoname>用于描述技术信息术语,因此 提取运两类元素的文本信息完成专业词汇的提取;
[00巧]步骤102:建立专业词汇与相应数据模块编码(Data Model Code,DMC)信息间的映 射关系,其中的映射关系是指标准编码系统(S化ndard Numbering Systems,SNS)与装备部 件名称间、信息码。11(30(16〉与技术信息术语间的映射关系,链接访问信息是检索过程中一 部分重要的资源,但是由于数据模块文档的链接引用不给出错文本信息,而是通过引用数 据模块编码来实现,因此需要将数据模块编码信息还原为文本才能进入检索范围,数据模 块编码的子元素准编码系统SNS用于描述当前数据模块文档描述的组件在整个装备中的层 级位置,因此可与技术名称<techname>描述的装备部件名称形成映射关系,从而利用装备 部件名称完成对编码系统SNS的检索,建立数据模块编码DMC的子元素信息码。11(3〇(16〉与信 息名称<infoname>之间的映射关系,利用技术信息术语完成对信息码的检索由于在不同的 船舶装备交互式电子技术手册IETM系统中,相同的技术信息或者装备部件名称对应的编码 可能不同,为了防止运种映射不一致的情况,在相应的信息码和编码系统SNS码添加相应装 备类型标识码(Model identification code,MIC) ,MIC码起到定义装备名称和型号的作 用,是权威机构制定的唯一确定装备的编码;
[0066] 步骤103:将提取的词汇与对应编码信息分别存入装备部件名称词库和技术信息 术语词库,其中装备部件名称词库用于存放装备名称或零部件名称及对应的编码系统SNS 编码信息,技术信息术语词库用于存放技术信息术语及对应的信息码编码信息。
[0067] 上述技术方案的步骤4中,由于船舶装备缩略语W缩合和截略两种形式出现,因此 缩略语中出现的字符串必为原语(即为"缩略语"对应的全称)中字符,且满足缩略语中字符 的排列顺序相对原语不变;读入化左侧或者右侧的一位字符,设该候选字符为W。,判定Wc在 Wo中是否存在且满足与W2的排列顺序在Wo中不发生变化,如果满足条件,则判定Wc为候选缩 略语的边界字符,令化等于WcW2或化Wc,若不满足条件,则Wc不为缩略语中字符,当前方向字 符判定终止,边界确定,重复W上过程,直到两个方向的字符边界判断全部终止,此时的化 为最终候选缩略语。
[0068] 上述技术方案的步骤7中,索引用于快速定位所需的文本信息,从而避免检索过程 中大量的读写操作,索引使用特定的数据结构完成对词条的快速定位,本发明在通用的全 文检索工具包Lucene的基础上,设计适用于IETM全文检索装置与方法的索引结构,Lucene 中的索引结构从高到低共分为索引、段、文档、域和词条共五级层次,其中词条为索引的基 本单位,存放每一个经过分词处理后的字符串;域用于包含单篇文档中分开索引的不同信 息,如标题、正文、链接,域为用户可自行设计的结构,W便实现对不同类型文档的检索;文 档为建立索引的基本单位,在本发明中,一个索引文档存放一个数据模块文档处理后的信 息;段由多个文档组成,可视为一个小型索引,多个段最终构成索引。
[0069] 上述技术方案的步骤8中,标准编码系统(Standard Numbering Systems,SNS)编 码权重根据标准编码系统代表的装备部件层级确定,SNS码的数字描述了当前数据模块中 装备部件所处的装备层级,SNS码00-00-00、Oa-OO-OO、0a-b0-00、0a-bd-00及Oa-bd-fg,(a 辛0,b辛0,d辛0,f辛0 U g辛0)分别描述了装备层次结构中处于装备级、系统级、子系统级、 子子系统级和更底层装备划分级的装备部件,当检索关键词命中文档时,SNS码层次较高的 数据模块文档可能只有局部内容与用户所需信息挂钩,反而SNS码层次较低的数据模块文 档反映用户所需信息占文档内容的比例更高,因此,SNS码装备层次级别越低,相应的文档 的权重因子设置越高,装备级、系统级、子系统级、子子系统级和更底层装备划分级的SNS码 权重分别设置为1、2、3、4和5;
[0070] 信息码权重根据该信息码所描述的信息类别大小确定,信息码aOO和abc,(b辛0,c 辛0)分别描述了技术信息的大类别和子类别,当检索关键词命中文档时,粒度更小的信息 码级别与用户所需的内容关联的可能性更高,因此,子类别信息码设置比大类别更高的权 重,本发明设置大类别权重值为1,子类别权重值为2。
[0071]上述技术方案的步骤9中,结果集的排序依据向量空间模型(VSM,Vector Space Model)计算得到,具体公式如下:
[0073]设索引中文档为d,用户的检索关键词为q,q经过分词切分后结果为ti/t2/…/tn (Sdt是i从巧Ijn的结果,里面包括tn),其中n为切分后的词条总数,t功单个关键词词条,n> l,i为1到n之间的字符编号,Sqd表示在索引文档d中匹配检索关键词q的得分,为结果排序因 素,其值越高,在结果集中文档排序越靠前,coord(q,d)用于衡量索引文档d中不重复词条 的数目,通过计算索引文档d中存在不重复词条数目Numdt与检索关键词q中不重复词条数目 Numqt的商得到,querytnorm(q)为调节因子,对打分排序结果不影响,可设定该值用于整体 调节得分的大小,Sd康示在索引文档d中命中所有单个关键词词条ti的得分和,tf(ti,d)表 示单个关键词词条ti在索引文档d出现的词频得分,i壯(ti)表示单个关键词词条ti在多少 文档出现过,该值越高,说明ti出现的文档越少,单个关键词词条ti与特定主题相关性越大, Boostti为单个关键词词条ti的权重,根据分词时单个关键词词条ti所匹配词库确定,norm (t,d)为索引文档d的权重及长度因素汇总值,其中Boostd为索引文档d权重,该值大小根据 步骤7所述索引模块的索引文档各域权重设置来决定,Boostf为索引文档d中命中单个关键 词词条ti的域的权重,该值大小根据步骤7所述索引模块的索引文档各域权重设置决定, Numterm是索引文档d中的切分词条总数,该值越大,no;rm( t,d)得分越低;
[0074] 所述的检索关键词条的权重依据分词时匹配词库类型来决定,设置依据如下:
[0075] (1)从缩略语词库、技术信息术语词库和装备部件名称词库中命中的词条反映用 户检索意图较大,权重值设置为5。
[0076] (2)通用词库中匹配的词库反映用户检索意图较为片面,权重值设置为2。
[OOW] (3)分词过程中出现的单字划分粒度过细,检索时造成的噪声数据过多,权重值设 置为1。
[0078] 当排序完毕后,检索模块W-定形式输出结果集的排序结果,返回的结果页面每 页十个检索结果,每个结果输出命中词条所在的信息片段并加红高亮命中的词条,并给出 命中文档的标题和数据模块编码(Data Model Code,DMC)信息,用户可通过点击标题的超 链接访问原数据模块文档。
[0079] 本说明书未作详细描述的内容属于本领域专业技术人员公知的现有技术。
【主权项】
1. 一种船舶装备交互式电子技术手册全文检索装置,其特征在于:它包括数据库和功 能模块,其中,所述数据库包括公共源数据库(1)、技术信息术语数据库(5)、装备部件名称 数据库(6)、缩略语数据库(7)、通用词汇数据库(8)、检索记录数据库(9)和索引数据库 (13),所述功能模块包括专业词汇提取模块(2)、缩略语提取模块(3)、第一分词模块(4)、用 户检索命令通信模块(I 〇 )、检索模块(11 )、第二分词模块(12)和索引模块(14 ),其中公共源 数据库(1)为专业词汇提取模块(2)和缩略语提取模块(3)提供词汇提取源并为第一分词模 块(4)提供分词处理的内容,专业词汇提取模块(2)用于提取词汇并存入技术信息术语数据 库(5)和装备部件名称数据库(6),缩略语提取模块(3)用于提取词汇存入缩略语数据库 (7),第一分词模块(4)用于将处理后的分词内容导入索引模块(14)处理; 索引模块(14)用于建立索引并存入索引数据库(13),检索数据库(13)用于接收第二分 词模块(12)分词处理的检索内容进行匹配查找,并将匹配得到的结果集返回至检索模块 (11)进行排序,检索模块(11)用于将用户的检索内容发送至第二分词
当前第4页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1