本发明涉及大数据,尤其涉及一种信息汇集实时形成主题的方法。
背景技术:
1、目前针对文本主题分析和聚类的技术基本上可以分为两类:划分聚类法和层次聚类法,通过划分聚类法进行聚类的过程为:给定一个包含n个术语或者关键词的文档集,形成k个划分,其中每个划分代表一个簇,从而,生成k个主题簇,在同一个簇中的概念是相似的,而不同簇中的概念是相异的;层次聚类法将概念组成一棵聚类的树,根据层次分解是自底向上的,还是自顶向下形成的,层次聚类方法可以进一步分为聚类方法和分裂聚类方法,凝聚聚类方法将每一个概念视为一个小的主题聚类,然后逐渐收拢,分裂聚类方法是将所有概念视为一个大的主题聚类,进而按照一定的标准进行拆分。
2、然而,划分聚类法和层次聚类法在生成主题时依赖人工给定聚类边界、关联系数,并且这个参数往往难以界定;同时,划分聚类法和层次聚类法发现主题的过程仅仅使用了文本的构成信息,而没有使用更深度的语义信息,并且,在业务系统中,数据还有其他的描述信息,如来源、发表时间等,划分聚类法和层次聚类法并没有对这些信息进行考量;此外,划分聚类法和层次聚类法对包括主旨信息以及其他相关信息的一般的文字处理过程中,在进行主题关联时没有摒弃掉无关文本。
技术实现思路
1、本发明意在提供一种信息汇集实时形成主题的方法,以解决现有技术中存在的不足,本发明要解决的技术问题通过以下技术方案来实现。
2、本发明提供的信息汇集实时形成主题的方法,包括:
3、计算输入文本中各个句子之间的相似度,根据各个句子之间的相似度计算输入文本中各个句子的第一得分,根据输入文本中的各个句子是否为主旨段,获取输入文本中各个句子的第二得分,根据第二得分获取输入文本中的关键句;
4、基于k-d树来存储所有待使用文档的内容特征向量,将输入文本中的关键句作为输入文档,获取输入文档的内容特征向量,通过k-d树查询算法获取k-d树中n个与输入文档相似的候选文档;
5、构建n个<输入文档,候选文档>对,根据n个<输入文档,候选文档>对获取bert预训练模型的输入串,将输入串输入至bert预训练模型获取长向量,并根据长向量获取输入文档对应的主题或判断k-d树中没有输入文档对应的主题;
6、将输入文档的内容特征向量以及输入文档对应的主题存储到k-d树中。
7、在上述的方案中,所述计算输入文本中各个句子之间的相似度,根据各个句子之间的相似度计算输入文本中各个句子的第一得分,根据输入文本中的各个句子是否为主旨段,获取输入文本中各个句子的第二得分,根据第二得分获取输入文本中的关键句包括:
8、将输入文本中的一个句子视作查询语句,其余的句子视作待查询的文档,通过bm25算法中的相似度计算公式计算输入文本中各个句子之间的相似度;
9、以输入文本中每个句子作为图节点,将获取的相似度作为边权值,通过textrank得分计算公式计算输入文本中各个句子的第一得分;
10、根据输入文本中的各个句子是否为主旨段,对输入文本中各个句子的第一得分进行加权计算,获取各个句子的第二得分;
11、根据第二得分从高到低对输入文本中的句子进行排序,选择前k个句子作为输入文本的关键句。
12、在上述的方案中,所述获取输入文档的内容特征向量包括:
13、获取输入文档的词袋向量;
14、通过doc2vec模型对输入文档的词袋向量进行计算;
15、获取一个预设长度向量作为输入文档的内容特征向量。
16、在上述的方案中,所述构建n个<输入文档,候选文档>对,根据n个<输入文档,候选文档>对获取bert预训练模型的输入串,将输入串输入至bert预训练模型获取长向量,并根据长向量获取输入文档对应的主题或判断k-d树中没有输入文档对应的主题包括:
17、构建n个<输入文档,候选文档>对,分别计算n个<输入文档,候选文档>对中输入文档的上下文的特征向量与相似文档描述的特征向量;
18、对输入文档的上下文的特征向量与相似文档描述的特征向量进行字符串直接拼接,获取bert预训练模型的输入串;
19、将输入串输入至bert预训练模型,通过bert预训练模型对输入串进行转化、变换以及拼接获取一个长向量;
20、将长向量输入至预测结果标记处添加无法链接分类标签的mlp多层感知模型中,获取输入文档对应的主题或判断k-d树中没有输入文档对应的主题。
21、在上述的方案中,所述将输入串输入至bert预训练模型,通过bert预训练模型对输入串进行转化、变换以及拼接获取一个长向量包括:
22、将输入串输入至bert预训练模型,通过bert预训练模型对输入串转化为文本向量token_ids_i和位置向量segment_ids_i,其中,i为候选文档的序号;
23、对每一对文本向量token_ids_i和位置向量segment_ids_i进行functional变换;
24、将functional变换结果输入至concatenate层进行拼接,获取一个长向量。
25、在上述的方案中,所述将长向量输入至预测结果标记处添加无法链接分类标签的mlp多层感知模型中,获取输入文档对应的主题或判断k-d树中没有输入文档对应的主题包括:
26、将长向量输入至预测结果标记处添加无法链接分类标签的mlp多层感知模型的dence层中,dence层对输入的长向量进行dense线性变换;
27、将dense线性变换结果输入至预测结果标记处添加无法链接分类标签的mlp多层感知模型的softmax层中,得到每个预测结果的概率分布,将概率最高的预测结果作为输入文档对应的主题,或者判断k-d树中没有输入文档对应的主题。
28、在上述的方案中,所述bm25算法中的相似度计算公式为:
29、
30、其中,vi为输入文本中的第i个句子,vj为输入文本中的第j个句子,vjh为将对输入文本中的第j个句子vj进行分词处理得到的集合vj(vj1,vj2,…,vjn)中的词项,idf(vjh)为句子vj中词项vjh的逆文档频率,tf(vjh,vi)为输入文本中的第j个句子vj中词项vjh在输入文本中的第i个句子vi中出现的频率,avgdl为待查询的文档中所有文档的平均长度,k1、b均为调节因子。
31、在上述的方案中,所述textrank得分计算公式为:
32、
33、其中,ws(vj)为以输入文本中的第j个句子作为图节点vj得到的textrank得分,bm25(vi,vj)为输入文本中的第i个句子vi与输入文本中的第j个句子vj的相似度,in(vi)为所有指向图节点vi的集合,out(vj)为表示从图节点vj出发指向其他节点的集合。
34、在上述的方案中,所述预设长度向量的长度为128维。
35、在上述的方案中,所述通过k-d树查询算法获取k-d树中n个与输入文档相似的候选文档包括:
36、从k-d树root节点开始,采用深度优先搜索法进行搜索,直到叶子节点,同时在k-d树stack中顺序存储已经访问的节点;
37、如果搜索到叶子节点,当前的叶子节点被设为最近邻节点;
38、如果当前点的距离比最近邻点距离近,更新最近邻节点;
39、判断以最近距离为半径的圆是否与父节点的超平面相交;
40、当以最近距离为半径的圆与父节点的超平面相交时,则到父节点的另外一侧,采用深度优先搜索法搜索最近邻节点;
41、当以最近距离为半径的圆与父节点的超平面不相交时,则进行stack回溯,淘汰父节点的另一侧的叶子节点;
42、当搜索回到root节点时,搜索完成,得到n个最近邻节点;
43、将n个最近邻节点对应的n个待使用文档作为n个与输入文档相似的候选文档。
44、本发明实施例包括以下优点:
45、本发明实施例提供的信息汇集实时形成主题的方法,通过获取输入文本中的关键句,避免了多余文本干扰;同时,基于k-d树来存储所有待使用文档的内容特征向量,通过k-d树查询算法获取k-d树中n个与输入文档相似的候选文档,可充分利用所有特征;此外,通过构建n个<输入文档,候选文档>对,根据n个<输入文档,候选文档>对获取输入文档对应的主题或判断k-d树中没有输入文档对应的主题,借助深度学习强大的语义提取能力,选择文档所属主题,从而达到实时、有效的文档主题自动生成能力。