一种建立分词索引库的方法和装置与流程

文档序号:14774307发布日期:2018-06-23 02:38阅读:来源:国知局
一种建立分词索引库的方法和装置与流程

技术特征:

1.一种建立分词索引库的方法,其特征在于,包括:

根据待分词文本中的标点符号,获取待分词语句;

采用反向最大分词匹配算法拆分所述待分词语句,获得拆分后的词语作为索引项;

根据所述索引项和对应的索引信息,建立分词索引库,所述索引信息为索引项所属待分词文本的信息。

2.根据权利要求1所述的方法,其特征在于,所述采用反向最大分词匹配算法拆分所述待分词语句,获得拆分后的词语作为索引项,包括:

从所述待分词语句获取n-m后的m个字符,所述待分词语句有n个字符,所述m为最大分词字符;

若所述n-m后的m个字符是字典中的词语,则将所述n-m后的m个字符作为索引项,将n-m赋值给n,返回执行从所述待分词语句获取n-m后的m个字符,直至n=0;

若所述n-m后的m个字符不是字典中的词语,则将m-1赋值给m,返回执行从所述待分词语句获取n-m后的m个字符。

3.根据权利要求1所述的方法,其特征在于,所述根据所述索引项和对应的索引信息,建立分词索引库,具体为:

根据所述索引项和对应的索引信息,采用倒排索引的格式建立分词索引库。

4.根据权利要求1所述的方法,其特征在于,还包括:

获取待检索词语;

根据所述待检索词语检索所述分词索引库,获得目标索引项,所述目标索引项与所述待检索词语相匹配;

根据所述目标索引项,获得对应的目标索引信息。

5.根据权利要求1所述的方法,其特征在于,所述根据待分词文本中的标点符号,获取待分词语句,包括:

获取待分词文本,所述待分词文本包括待分词语句和标点符号;

通过所述标点符号拆分待分词文本,获得待分词语句。

6.一种建立分词索引库的装置,其特征在于,包括:

待分词语句获取单元,用于根据待分词文本中的标点符号,获取待分词语句;

索引项获得单元,用于采用反向最大分词匹配算法拆分所述待分词语句,获得拆分后的词语作为索引项;

分词索引库建立单元,用于根据所述索引项和对应的索引信息,建立分词索引库,所述索引信息为索引项所属待分词文本的信息。

7.根据权利要求6所述的装置,其特征在于,所述索引项获得单元包括:

字符获取子单元,用于从所述待分词语句获取n-m后的m个字符,所述待分词语句有n个字符,所述m为最大分词字符;

拆分返回子单元,用于若所述n-m后的m个字符是字典中的词语,则将所述n-m后的m个字符作为索引项,将n-m赋值给n,返回执行从所述待分词语句获取n-m后的m个字符,直至n=0;

返回子单元,用于若所述n-m后的m个字符不是字典中的词语,则将m-1赋值给m,返回执行从所述待分词语句获取n-m后的m个字符。

8.根据权利要求6所述的装置,其特征在于,所述分词索引库建立单元具体用于:根据所述索引项和对应的索引信息,采用倒排索引的格式建立分词索引库。

9.根据权利要求6所述的装置,其特征在于,还包括:

待检索词语获取单元,用于获取待检索词语;

目标索引项获得单元,用于根据所述待检索词语检索所述分词索引库,获得目标索引项,所述目标索引项与所述待检索词语相匹配;

目标索引信息获得单元,用于根据所述目标索引项,获得对应的目标索引信息。

10.根据权利要求6所述的装置,其特征在于,所述待分词语句获取单元包括:

待分词文本获取子单元,用于获取待分词文本,所述待分词文本包括待分词语句和标点符号;

待分词语句获取子单元,用于获取通过所述标点符号拆分待分词文本,获得待分词语句。

当前第2页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1