技术总结
本发明提供了一种全文索引数据的创建方法及装置,所述方法包括:并行对文档进行分词,记录单词位置和单词标记;按照用于记录单词位置和单词标记的存储数据块顺序对所述分词的结果依次进行封装,生成封装块和封装块的索引,所述索引包括:词编号及数量;根据所述索引对单词进行排序;对所述封装块进行拆包,对相同的单词进行归类。可以有效利用计算资源,减少分词时间,并可对并行分词结果排序处理,准确的得到索引数据。
技术研发人员:崔维力;武新;史大义;梁东阳
受保护的技术使用者:天津南大通用数据技术股份有限公司
文档号码:201611029689
技术研发日:2016.11.14
技术公布日:2017.05.31