一种从文本语料中提取持续性热点短语的方法、装置及存储介质

文档序号:25483159发布日期:2021-06-15 21:43阅读:来源:国知局

技术特征:

1.一种从文本语料中提取持续性热点短语的方法,其特征在于,所述方法包括:

将原始文本语料划分为多个与时间区间相对应的文本集合;

基于每个文本集合所包含的文本后缀及各文本后缀出现的频率构造每个文本集合对应的频率后缀树;

基于查询指令所指示的热点持续时间区间以及最小出现频率阈值遍历所述热点持续时间区间所对应的频率后缀树,查询获得在所述热点持续时间区间内出现频率不低于所述最小出现频率阈值的热点短语。

2.根据权利要求1所述的方法,其特征在于,所述将原始文本语料划分为多个与时间区间相对应的文本集合,包括:

将形成所述原始文本语料的时间段按照时间顺序以及设定的最小单位时间区间划分获得多个顺序的时间区间;

根据所述原始文本语料中的文本出现时间以及所述时间区间,将所述原始文本语料中的文本存储于各时间区间对应的文本集合。

3.根据权利要求2所述的方法,其特征在于,所述方法还包括:

针对每个文本集合,去除所述文本集合内文本数据中的设定符号与停用词,并在所述停用词与标点位置进行切分,获得多条纯文本数据串,以形成预处理后的文本集合;其中,每条纯文本数据串由多个顺序的单词组成。

4.根据权利要求3所述的方法,其特征在于,所述基于每个文本集合所包含的文本后缀及各文本后缀出现的频率构造每个文本集合对应的频率后缀树,包括:

针对每个文本集合,将每个纯文本数据串的结尾添加终止标记;

创建每个文本集合的初始频率树;其中,所述初始频率树只包括根节点,所述根节点的频率和子节点的指针均为空;

针对每个文本集合,采用乌科宁ukkonen算法将每个纯文本数据串的文本后缀插入至所述初始频率树,获得每个文本集合对应的后缀树;

对所述后缀树进行深度递归遍历,当遍历到叶子节点时,将所述叶子节点的频率值置1,并且将所述后缀树中除叶子节点以外的每个其他节点的频率值确定为所述每个其他节点的直接孩子节点的频率值之和,以获得每个文本集合对应的频率后缀树。

5.根据权利要求4所述的方法,其特征在于,所述方法还包括:

针对每个文本集合对应的频率后缀树,从根节点进行广度遍历,并将每个节点对应的节点标识、孩子节点数量、频率值以及与父节点连接边记录的文本数据串进行输出,以形成每个频率后缀树的序列化文件。

6.根据权利要求5所述的方法,其特征在于,所述基于查询指令所指示的热点持续时间区间以及最小出现频率阈值遍历所述热点持续时间区间所对应的频率后缀树,查询获得在所述热点持续时间区间内出现频率不低于所述最小出现频率阈值的热点短语,包括:

针对所述热点持续时间区间中的首个时间区间,将所述首个时间区间对应的频率后缀树的序列化文件还原为所述首个时间区间对应的频率后缀树;

从根节点出发中序遍历所述首个时间区间对应的频率后缀树,判定当前遍历节点的频率值是否不小于所述最小出现频率阈值:若是,则继续遍历所述当前遍历节点的下一级节点,直至被遍历节点的频率值小于所述最小出现频率阈值;

若当前遍历节点的频率值不小于所述最小出现频率阈值且所述当前遍历节点的所有孩子节点的频率值均小于所述最小出现频率阈值,将由所述根节点至所述当前遍历节点的路径边所记录的单词序列确定为所述首个时间区间内的候选热点短语;

针对所述热点持续时间区间中除所述首个时间区间之外的每个其他时间区间,将所述每个其他时间区间对应的频率后缀树的序列化文件还原为所述每个其他时间区间对应的频率后缀树;

针对所述热点持续时间区间中除所述首个时间区间之外的每个其他时间区间对应的频率后缀树,利用所述每个其他时间区间的前一个时间区间对应的候选热点短语集合中的每一个候选热点短语进行查询。

7.根据权利要求1所述的方法,其特征在于,所述方法还包括:

接收查询指令;其中,所述查询指令至少包括希望查询的热点持续时间区间以及设定的最小出现频率阈值。

8.一种从文本语料中提取持续性热点短语的装置,其特征在于,所述装置包括:划分部分、构造部分和查询部分;其中,

所述划分部分,经配置为将原始文本语料划分为多个与时间区间相对应的文本集合;

所述构造部分,经配置为基于每个文本集合所包含的文本后缀及各文本后缀出现的频率构造每个文本集合对应的频率后缀树;

所述查询部分,经配置为基于查询指令所指示的热点持续时间区间以及最小出现频率阈值遍历所述热点持续时间区间所对应的频率后缀树,查询获得在所述热点持续时间区间内出现频率不低于所述最小出现频率阈值的热点短语。

9.一种计算设备,其特征在于,所述计算设备包括:通信接口,存储器和处理器;其中,

所述通信接口,用于在与其他外部网元之间进行收发信息过程中,信号的接收和发送;

所述存储器,用于存储能够在所述处理器上运行的计算机程序;

所述处理器,用于在运行所述计算机程序时,执行权利要求1至7任一项所述从文本语料中提取持续性热点短语的方法的步骤。

10.一种计算机存储介质,其特征在于,所述计算机可读介质存储有从文本语料中提取持续性热点短语的程序,所述从文本语料中提取持续性热点短语的程序被至少一个处理器执行时实现权利要求1至7中任一项所述的从文本语料中提取持续性热点短语的方法的步骤。


技术总结
本发明实施例公开了一种从文本语料中提取持续性热点短语的方法、装置及存储介质;该方法可以包括:将原始文本语料划分为多个与时间区间相对应的文本集合;基于每个文本集合所包含的文本后缀及各文本后缀出现的频率构造每个文本集合对应的频率后缀树;基于查询指令所指示的热点持续时间区间以及最小出现频率阈值遍历所述热点持续时间区间所对应的频率后缀树,查询获得在所述热点持续时间区间内出现频率不低于所述最小出现频率阈值的热点短语。

技术研发人员:叶东;孙兆伟;李晖;赵翰墨;高祥博;王璐
受保护的技术使用者:哈尔滨工业大学
技术研发日:2021.01.21
技术公布日:2021.06.15
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1