1.一种建立分词索引库的方法,其特征在于,包括:
根据待分词文本中的标点符号,获取待分词语句;
采用反向最大分词匹配算法拆分所述待分词语句,获得拆分后的词语作为索引项;
根据所述索引项和对应的索引信息,建立分词索引库,所述索引信息为索引项所属待分词文本的信息。
2.根据权利要求1所述的方法,其特征在于,所述采用反向最大分词匹配算法拆分所述待分词语句,获得拆分后的词语作为索引项,包括:
从所述待分词语句获取n-m后的m个字符,所述待分词语句有n个字符,所述m为最大分词字符;
若所述n-m后的m个字符是字典中的词语,则将所述n-m后的m个字符作为索引项,将n-m赋值给n,返回执行从所述待分词语句获取n-m后的m个字符,直至n=0;
若所述n-m后的m个字符不是字典中的词语,则将m-1赋值给m,返回执行从所述待分词语句获取n-m后的m个字符。
3.根据权利要求1所述的方法,其特征在于,所述根据所述索引项和对应的索引信息,建立分词索引库,具体为:
根据所述索引项和对应的索引信息,采用倒排索引的格式建立分词索引库。
4.根据权利要求1所述的方法,其特征在于,还包括:
获取待检索词语;
根据所述待检索词语检索所述分词索引库,获得目标索引项,所述目标索引项与所述待检索词语相匹配;
根据所述目标索引项,获得对应的目标索引信息。
5.根据权利要求1所述的方法,其特征在于,所述根据待分词文本中的标点符号,获取待分词语句,包括:
获取待分词文本,所述待分词文本包括待分词语句和标点符号;
通过所述标点符号拆分待分词文本,获得待分词语句。
6.一种建立分词索引库的装置,其特征在于,包括:
待分词语句获取单元,用于根据待分词文本中的标点符号,获取待分词语句;
索引项获得单元,用于采用反向最大分词匹配算法拆分所述待分词语句,获得拆分后的词语作为索引项;
分词索引库建立单元,用于根据所述索引项和对应的索引信息,建立分词索引库,所述索引信息为索引项所属待分词文本的信息。
7.根据权利要求6所述的装置,其特征在于,所述索引项获得单元包括:
字符获取子单元,用于从所述待分词语句获取n-m后的m个字符,所述待分词语句有n个字符,所述m为最大分词字符;
拆分返回子单元,用于若所述n-m后的m个字符是字典中的词语,则将所述n-m后的m个字符作为索引项,将n-m赋值给n,返回执行从所述待分词语句获取n-m后的m个字符,直至n=0;
返回子单元,用于若所述n-m后的m个字符不是字典中的词语,则将m-1赋值给m,返回执行从所述待分词语句获取n-m后的m个字符。
8.根据权利要求6所述的装置,其特征在于,所述分词索引库建立单元具体用于:根据所述索引项和对应的索引信息,采用倒排索引的格式建立分词索引库。
9.根据权利要求6所述的装置,其特征在于,还包括:
待检索词语获取单元,用于获取待检索词语;
目标索引项获得单元,用于根据所述待检索词语检索所述分词索引库,获得目标索引项,所述目标索引项与所述待检索词语相匹配;
目标索引信息获得单元,用于根据所述目标索引项,获得对应的目标索引信息。
10.根据权利要求6所述的装置,其特征在于,所述待分词语句获取单元包括:
待分词文本获取子单元,用于获取待分词文本,所述待分词文本包括待分词语句和标点符号;
待分词语句获取子单元,用于获取通过所述标点符号拆分待分词文本,获得待分词语句。