一种支持用户自定义归类规则的信息归类方法_2

文档序号:8922629阅读:来源:国知局
则j加上1,跳转至步骤四; 步骤四,如果集合为空,则跳转至步骤七,否则从5exfs"fd中选出一个关键词 Key,并删除它,跳转至步骤五; 步骤五,以Key?为中心,在规则中搜索得到与之相关的三元组信息集合,跳至步 骤六; 步骤六,如果为空,则跳转至步骤四,否则从中选出一条三元组信息Temp,并删 除它。通过解析Temp,得到与Key相关的一个关键词w,以及通过解析关系权重和W 权重综合得到的权重weight,将w的信息,包括综合权重weight存入一个扩展中间集合 ^tsmp>跳至步骤六; 步骤七,去掉中的重复元素,如果stemp为空则跳至步骤三,否则从中选出一个 关键词,跳转至步骤八; 步骤八,把加入,并且判断是否已经被扩展过,如果没有,则 把加入,跳转至步骤七; 步骤九,去掉中的重复元素,按权重降序排序后,返回结果,程序停止。
[0022] 上述基于规则的关键词扩展算法中的相关变量定义如表2。
[0023] 表2.基于规则的关键词扩展算法中的变量 变量名 变童类型 含义 Set<String> 待扩展的关键词集合 Set<Atom¥ord> 关键词扩展的结果集合 Wwd String 检索语句分诃结果集中的关键词 j int 当前的扩展盾數 String 当前正在进行扩展的关键词 s Set<TrIpe> 通过关键诃扩展得到的三元组集合 Te,np Tripe 三元组集合中的一组三元组 w String 相关关键询的内容 double 相关吳键词的权重 ^ Set<Atom¥ord>过程集合,收集下次替要扩展_关键词 String 一个扩展关键词 注:表2中的AtomWord表示关键词信息,包括关键词的内容和权重。
[0024] 表2中的Tripe表示三元组信息,g卩(主语、谓语、宾语)。
[0025] 在得到关键词扩展结果之后,利用这些关键词在数据库中进行精确检索或者模糊 检索,即可以得到检索结果,最后将检索结果按照关键词的相关权重排序即可。在本发明的 实施中,用户可以按需定制相关的信息归类规则,包括新建规则和修改规则,并且在检索的 时候,用户可以直接检索一个语句,而不仅限于检索单个的关键词,本发明可以以用户定制 的归类规则为基础,对检索语句进行分词操作,提取出与归类规则有关的检索关键词。对于 分词得到的每一个关键词,本发明可以通过在用户定制的规则中进行关键词扩展,得到相 关或相近的其他关键词,通过对这些关键词进行数据库检索,得到了与用户初始检索内容 相关相近的内容。同理也可以得到规则中与检索关键词具有潜在语义关联的其他关键词, 因此也得到了与用户初始检索内容具有潜在联系的内容。
【主权项】
1. 一种支持用户自定义归类规则的信息归类方法,其特征在于该方法包括以下步骤: (1) 信息归类规则建模,将用于信息归类时的相关规则用一张图来描述,图中的每个节 点代表一个关键词信息,包括关键词内容和关键词权重,图中的每条边代表两个关键词之 间的关系信息,包括关系内容和关系权重,具体操作中,用一个三元组,即主语、谓语、宾语 信息来表示图中的一条边,即主语和宾语两个节点之间的关系是谓语,用户通过定制上述 规则关系图来定制用于信息归类时的相关规则; (2) 基于规则的检索语句分词,通过遍历用户定制的规则关系图,得到此规则中的所有 关键词,组成关键词集,在用户输入检索语句之后,在关键词集中找出匹配的关键词,得到 分词结果; (3) 基于规则的检索关键词扩展,以经过步骤(2)分词处理后得到的分词结果中的每一 个关键词分别作为核心关键词加以处理,在用户定制的搜索层数的控制下,得到与之相近 或相关的关键词以及相关权重,最后得到扩展关键词集; (4) 利用扩展得到的关键词集,在数据库中进行精确检索或者模糊检索得到相应的内 容。2. 根据权利要求1所述的支持用户自定义归类规则的信息归类方法,其特征在于:步 骤(1)中所述的信息归类规则建模过程,包括新建或者修改信息归类规则,即用户可以通过 新建一张图或者在原有图的基础上进行修改。3. 根据权利要求1所述的支持用户自定义归类规则的信息归类方法,其特征在于步骤 (2) 中所述的基于规则的检索语句分词过程如下: 第一步,设定当前考虑的字符串是从下标i开始的,i = O ; 第二步,从i开始,截取一个长度为MaxLen的字符串CutWord,其中,MaxLen为规则 关键词集中关键词的最长长度; 第三步,判断CutWord是否是规则关键词集中的词语,如果是,将CutWord加入到分 词结果集,转到第五步,否则转到第四步; 第四步,如果CutWord的长度为0,则转到第五步,否则删除CutWord的最后一个字 符,然后转到第三步; 第五步,删除匹配的部分,i值加1,如果?已经超过检索字符串长度,则程序停止,返回 分词结果集,否则转到第二步。4. 根据权利要求1所述的支持用户自定义归类规则的信息归类方法,其特征在于步骤 (3) 中基于规则的检索关键词扩展过程如下: 第一步,如果分词结果集为空,则转到第九步,否则,从中取出一个关键词Word,并删 除,转到第二步; 弟^?步,清空待扩展关键词集,把WoTcI丨目息加和扩展结果集 Amii,设置当前搜索层数j=2,转到第三步; 第三步,如果j超过定制的搜索层数,则转到第一步,否则j加上1,转到第四步; 第四步,如果集合为空,则转到第七步,否则从sexie"id中选出一个关键词 Key,并删除它,转到第五步; 第五步,以Key为中心,在规则中搜索得到与之相关的三元组信息集合&啡,转到第 六步; 第六步,如果&pSi为空,则转到第四步,否则从中选出一条三元组信息Temp,并删除 它,通过解析Temp,得到与Key相关的一个关键词W,以及通过解析关系权重和W权 重综合得到的权重weight,将胃的信息,包括综合权重'weiSht存入一个扩展中间集合 转到第七步; 第七步,去掉Sigmp中的重复元素,如果Stemp为空则转到第三步,否则从中选出一个 关键词A^viemp,转到第八步; 第八步,把加入Sqsuii,并且判断如知胃是否已经被扩展过,如果没有,则 把Areyf抓p加入Sex.細,转到第七步; 第九步,去掉Samit中的重复元素,按权重降序排序后,返回结果,程序停止。
【专利摘要】本发明属于数据库应用领域,具体涉及一种支持用户自定义归类规则的数据库中信息归类的方法,以用户定制的归类规则为基础,支持数据库进行语句检索,得到与检索语句相近或相似的信息内容,或具有潜在关系的信息内容,本发明方法将帮助用户获取到更加全面的信息。
【IPC分类】G06F17/30
【公开号】CN104899262
【申请号】CN201510262625
【发明人】叶俊民, 祝黄建, 叶竹君, 陈曙
【申请人】华中师范大学
【公开日】2015年9月9日
【申请日】2015年5月22日
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1