主题抽取方法、装置、设备及存储介质与流程

文档序号:30595916发布日期:2022-07-01 20:39阅读:237来源:国知局
主题抽取方法、装置、设备及存储介质与流程

1.本发明涉及自然语言处理技术领域,尤其涉及一种主题抽取方法、装置、设备及存储介质。


背景技术:

2.主题抽取是自然语言处理领域一项非常重要的任务。主题抽取是对给定的多个文本分析,确定出多个文本包含的主题分类,并得到每个主题分类下的关键词。
3.目前,在对文本进行主题抽取时,需要人工设置主题数量,并在主题抽取过程中根据经验不断调整主题数量,使得主题抽取的复杂度较高,很容易出现由于主题数量设置偏差而导致无法较好的归类出主题分类,从而出现由于主题归类存在偏差,而导致后续的工作受到影响,例如,在进行文本分析前通常会先进行文本的分类,在分类时就涉及到主题抽取和归类,如果文本的主题抽取和归类存在错误,后续的文本分析工作就会出现偏差。


技术实现要素:

4.鉴于上述问题,本发明提供一种克服上述问题或者至少部分地解决上述问题的一种主题抽取方法、装置、设备及存储介质。
5.一方面,本技术提供了一种主题抽取方法,包括:
6.对多个文本中包含的关键词进行聚类,得到聚类出的多个候选主题类别,每个候选主题类别包括至少一个关键词,其中,每个文本包含至少一个关键词;
7.分别确定每个文本归属的候选主题类别;
8.对于每个关键词,分别确定该关键词相对于每个候选主题类别的重要程度,其中,该重要程度是结合归属于该候选主题类别的文本集合中的各文本以及该文本集合中具有该关键词的各文本确定得到的;
9.对于每个文本,分别确定该文本与每个候选主题类别的关联程度,其中,所述关联程度是结合该文本中各关键词相对该候选主题类别的重要程度确定得到的;
10.结合所述关键词相对所述候选主题类别的重要程度,调整所述关键词所在的候选主题类别,并结合所述文本与所述候选主题类别的关联程度,调整所述文本归属的候选主题类别;
11.在本次调整所述文本归属的候选主题类别后,判断是否满足设定的主题抽取结束条件,如满足,则将当前得到的各候选主题类别确定为抽取出的主题;否则返回对于每个关键词,分别确定该关键词相对于每个候选主题类别的重要程度的操作,直至满足所述主题抽取结束条件。
12.在一种可能的实现方式中,所述分别确定每个文本归属的候选主题类别,包括:
13.针对任意一个文本,分别确定各所述候选主题类别中包含的属于所述文本中的关键词的数量,并将包含所述文本中关键词的数量最多的候选主题类别确定为所述文本归属的候选主题类别。
14.在又一种可能的实现方式中,在对于每个文本,分别确定该文本与每个候选主题类别的关联程度之前,还包括:
15.确定所述文本的文本特征向量和所述文本中各关键词的关键词特征向量;
16.针对所述文本中每个关键词,依据所述文本的文本特征向量和所述关键词的关键词特征向量,确定所述关键词与所述文本的特征相似度;
17.所述对于每个文本,分别确定该文本与每个候选主题类别的关联程度,包括:
18.结合所述文本中各关键词相对所述候选主题类别的重要程度以及文本中各关键词与所述文本的特征相似度,确定所述文本与所述候选主题类别的关联程度。
19.在又一种可能的实现方式中,所述关键词相对所述候选主题类别的重要程度为所述关键词相对所述候选主题类别的重要程度分值;
20.所述结合所述文本中各关键词相对所述候选主题类别的重要程度以及文本中各关键词与所述文本的特征相似度,确定所述文本与所述候选主题类别的关联程度,包括:
21.针对所述文本中每个关键词,计算所述关键词与所述文本的特征相似度与所述关键词相对所述候选主题类别的重要程度分值之间的乘积;
22.将所述文本中各个关键词对应的所述乘积之和确定为所述文本与所述候选主题类别的关联程度值。
23.在又一种可能的实现方式中,所述对于每个关键词,分别确定该关键词相对于每个候选主题类别的重要程度,包括:
24.确定归属于所述候选主题类别的文本集合,所述文本集合包括归属于所述候选主题类别的至少一个文本;
25.结合所述文本集合中各文本与所述候选主题类别的历史关联程度以及所述文本集合中具有所述关键词的各文本与所述候选主题类别的历史关联程度,确定所述关键词相对所述候选主题类别的重要程度;
26.其中,文本与候选主题类别的历史关联程度为当前时刻之前最近一次确定出的所述文本与所述候选主题类别的关联程度。
27.在又一种可能的实现方式中,所述文本与所述候选主题类别的关联程度为所述文本与所述候选主题类别的关联程度取值;
28.所述结合所述文本集合中各文本与所述候选主题类别的历史关联程度以及所述文本集合中具有所述关键词的各文本与所述候选主题类别的历史关联程度,确定所述关键词相对所述候选主题类别的重要程度,包括:
29.确定所述文本集合中各文本与所述候选主题类别的历史关联程度取值之和,得到第一加和值;
30.确定所述文本集合中具有所述关键词的各文本与所述候选主题类别的历史关联程度取值之和,得到第二加和值;
31.计算所述第二加和值与当前存在的候选主题类别的总个数之间的第一乘积;
32.计算所述第一加和值与包含所述关键词的候选主题类别的个数之间的第二乘积;
33.将所述第一乘积与所述第二乘积的比值确定为所述关键词相对所述候选主题类别的重要程度分值。
34.在又一种可能的实现方式中,在确定所述第一加和值和所述第二加和值之前,还
包括:
35.获得所述文本集合中各文本与所述候选主题类别的历史关联程度值;
36.如所述文本集合中的文本不存在与所述候选主题类别的历史关联程度取值,将所述文本与所述候选主题类别的历史关联程度取值设为1。
37.又一方面,本技术还提供了一种主题抽取装置,包括:
38.聚类单元,用于对多个文本中包含的关键词进行聚类,得到聚类出的多个候选主题类别,每个候选主题类别包括至少一个关键词,其中,每个文本包含至少一个关键词;
39.初始归类单元,用于分别确定每个文本归属的候选主题类别;
40.关键词分析单元,用于对于每个关键词,分别确定该关键词相对于每个候选主题类别的重要程度,其中,该重要程度是结合归属于该候选主题类别的文本集合中的各文本以及该文本集合中具有该关键词的各文本确定得到的;
41.文本分析单元,用于对于每个文本,分别确定该文本与每个候选主题类别的关联程度,其中,所述关联程度是结合该文本中各关键词相对该候选主题类别的重要程度确定得到的;
42.主题调整单元,用于结合所述关键词相对所述候选主题类别的重要程度,调整所述关键词所在的候选主题类别,并结合所述文本与所述候选主题类别的关联程度,调整所述文本归属的候选主题类别;
43.抽取控制单元,用于在本次调整所述文本归属的候选主题类别后,判断是否满足设定的主题抽取结束条件,如满足,则将当前得到的各候选主题类别确定为抽取出的主题;否则返回所述关键词分析单元的操作,直至满足所述主题抽取结束条件。
44.又一方面,本技术还提供了一种存储介质,所述存储介质包括存储的程序,其中,所述程序执行如上任意一项所述的主题抽取方法。
45.又一方面,本技术还提供了一种电子设备,包括至少一个处理器、与处理器连接的至少一个存储器以及总线;
46.其中,所述处理器、所述存储器通过总线完成相互间的通信;
47.所述处理器用于调用所述存储器中的程序指令,以执行如上任一项所述的主题抽取方法。
48.借由上述技术方案,本发明的方案会先将多个文本中包含的关键词聚类到多个候选主题类别,并确定各文本初始归属的候选主题类别。在此基础上,本发明会结合关键词相对各候选主题类别的重要程度以及文本与各候选主题类别的关联程度,不断迭代调整关键词所在的候选主题类别以及文本所归属的候选主题类别,从而可以在不需要人工设置主题数量的前提下,通过迭代不断调整候选主题类别并最终得到抽取出的主题,减少了主题抽取的复杂度。
49.而且,由于本发明每次迭代调整候选主题类别的迭代过程中,都会综合考虑关键词、文本以及候选主题类别之间的相互关系,从而有利于更为合理的抽取出文本的主题,提高主题抽取的准确度,从而可以减少由于主题归类存在偏差而导致基于归类出的主题所需进行的工作受到影响。
50.上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够
decision-tree,gbdt)等聚类算法,本技术对此不加限制。
69.可以理解的是,通过关键词聚类仅仅是基于关键词自身的语义等特征进行的聚类,并未综合考虑文本所反映的主题,使得聚类出的候选主题类别并没有并不能够准确反映出多个文本所涉及到的主题,因此,本技术需要通过后续步骤来调整候选主题类别。
70.s102,分别确定每个文本归属的候选主题类别。
71.该步骤s102仅仅是确定文本初始所归属的候选主题类别,后续会不断调整文本所归属的候选主题类别。
72.如,在一种可能的实现方式中,针对每个文本,可以随机选取一个候选主题类别作为该文本所归属的候选主题类别。
73.在又一种可能的实现方式中,为了能够减少抽取主题所需的迭代次数,以提高主题抽取效率,针对任意一个文本,分别确定每个候选主题类别中包含的属于该文本中的关键词的数量,并将包含该文本中关键词的数量最多的候选主题类别确定为该文本归属的候选主题类别。
74.如,文本1为例,假设存在候选主题类别1、候选主题类别2和候选主题类别3,同时,假设候选主题类别1包含的关键词中有5个属于文本1中的关键词,候选主题类别2中包含2个属于文本1的关键词,候选主题类别3中包含4个属于文本1的关键词,则可以得到候选主题类别1中包含属于文本1的关键词的数量最多,因此,可以将候选主题类别1确定为该文本初始归属的候选主题类别。
75.s103,对于每个关键词,分别确定该关键词相对于每个候选主题类别的重要程度。
76.其中,在计算关键词与某个候选主题类别的重要程度时,可以结合归属于该候选主题类别的文本集合中的各文本以及该文本集合中具有该关键词的各文本,确定该关键词相对候选主题类别的重要程度。
77.其中,归属于该候选主题类别的文本集合可以包括归属于该候选主题类别的各个文本。
78.其中,关键词相对候选主题类别的重要程度可以表征出关键词对于该候选主题类别所表征主题的相关性。相应的,关键词相对候选主题类别的重要程度越高,则说明关键词越能够准确反映该候选主题类别下各个文本的主题。
79.其中,该重要程度可以采集评分表示,如重要程度为重要程度分值,其中重要程度分值越高说明关键词与候选主题类别的相关性越高,即主题贴合度越高。当然,该重要程度还可以采用重要程度等级等方式表示,对此不加限制。
80.可以理解的是,针对一个关键词,如果归属于候选主题类别的文本中包含有该关键词的文本越多,则该关键词相对该候选主题类别的重要程度也会会相对较高。由此可知,结合候选主题类别下包含的文本以及候选主题类别下包含的文本中具有该关键词的文本可以分析出关键词相对该候选主题类别的重要程度。
81.如,针对任意一个关键词,可以结合归属于候选主题类别的文本集合中各文本与该候选主题类别之间的关联特征以及该文本集合中具有该关键词的文本与候选主题类别之间的关联特征,分析关键词相对该候选主题类别的重要程度。
82.其中,文本与候选主题类别之间的关联特征可以反映出文本与候选主题类别之间的关联程度。
83.该关联特征可以有多种可能,作为一种可选方式,考虑到本技术每次迭代调整候选主题类别的过程中,都会确定文本与候选主题类别之间的关联程度,因此,文本与候选主题类别之间的关联特征可以采用当前时刻之前最近一次确定出的该文本与候选主题类别之间的关联程度。为了便于区分,当前时刻之前最近一次确定出的该文本与候选主题类别之间的关联程度称为该文本与该候选主题类别的历史关联程度。
84.相应的,在确定出归属于候选主题类别的文本集合之后,结合该文本集合中各文本与该候选主题类别的历史关联程度以及该文本集合中具有该关键词的各文本与该候选主题类别的历史关联程度,确定该关键词相对所述候选主题类别的重要程度。
85.如,关联程度采用关联程度取值表示的情况下,历史关联程度同样为取值,即历史关联程度取值。相应的,可以计算文本集合中各文本与所述候选主题类别的历史关联程度之和,得到第一加和值,并确定文本集合中具有关键词的各文本与候选主题类别的历史关联程度取值之和,得到第二加和值。在此基础上,可以将第二加和值与第一加和值的比值,确定为该关键词相对候选主题类别的重要程度。
86.当然,此处仅仅是以确定重要程度的一种方式为例,在实际应用中,还可以有其他可能,对此不加限制。
87.可以理解的是,针对任意一个关键词而言,包含该关键词的候选主题类别的数量相对当前存在的候选主题类别的总数量越多,则该关键词能够表征一个主题的可能性越低,因此,关键词相对一个候选主题类别的重要性也就越低。
88.基于此,在确定关键词相对候选主题类别的重要程度时,除了考虑候选主题类别下的文本以及候选主题类别下具有该关键词的文本之外,还可以结合当前存在的候选主题类别的总个数以及包含该关键词的候选主题类别的个数,综合确定关键词相对候选主题类别的重要程度。
89.需要说明的是,针对每个关键词,需要分别确定该关键词相对每个候选主题类别的重要程度一个候选主题类别的重要程度,因此,通过该步骤s103最终需要得到该关键词分别相对多个候选主题类别的重要程度。
90.s104,对于每个文本,确定该文本与每个候选主题类别的关联程度。
91.其中,文本相对候选主题类别的关联程度为结合文本中各关键词相对该候选主题类别的重要程度确定得到的。
92.如,针对每个候选主题类别,可以将该文本中包含的各个关键词相对该候选主题类别的重要程度的加和,确定为该文本与该候选主题类别的关联程度。
93.在一种可能的实现方式中,为了能够更为准确的归类文本的主题,还可以分别确定文本中每个关键词与该文本的特征相似度。在此基础上,可以结合文本中各个关键词与文本的特征相似度以及文本中各关键词相对该候选主题类别的重要程度,确定文本与该候选主题类别的重要程度。
94.s105,结合关键词相对候选主题类别的重要程度,调整关键词所在的候选主题类别,并结合文本与候选主题类别的关联程度,调整文本归属的候选主题类别。
95.可以理解的是,由于关键词相对候选主题类别的重要程度可以反映出关键词与该候选主题类别的主题贴合程度,因此,根据关键词相对候选主题类别的重要程度可以确定出关键词所适合加入到一个或者多个候选主题类别。
96.如,在一种可能的实现方式中,结合关键词相对候选主题类别的重要程度调整关键词所在的候选主题类别可以包括:
97.对于每个关键词,针对任意一个候选主题类别,如果该关键词与该候选主题类别的重要程度低于设定的第一阈值且该关键词当前属于该候选主题类别,则将该关键词从该候选主题类别中删除。
98.如果关键词当前不属于候选主题类别且关键词与候选主题类别的重要程度高于第二阈值,则将该关键词加入到该候选主题类别中。
99.其中,该第一阈值和第二阈值可以根据需要分别设定,这两个阈值可以相同,也可以不同。
100.当然,以上是以一种调整关键词所处的候选主题类别的一种实现方式为例说明,在实际应用中还可以有其他调整方式,对此不加限制。
101.类似的,调整文本归属的候选主题类别是需要将文本调整到与该文本中各关键词所表达的主题更贴合的候选主题类别中。
102.如,在一种可的实现方式中,针对任意一个文本,可以将该文本添加到与该文本的关联程度最高的候选主题类别中。当然,如果文本当前所归属的候选主题类别与该文本的关联程度最高,则无需调整该文本所归属的候选主题类别。
103.s106,在本地调整文本归属的候选主题类别后,判断是否满足设定的主题抽取结束条件,如满足,则将当前得到的各候选主题类别确定为抽取出的主题;如果否,则返回步骤s103,直至满足该主题抽取结束条件。
104.其中,该主题抽取结束条件为完成多个文本的主题归类的条件。
105.如,在一种可能的情况中,该主题抽取结束条件可以为主题调整次数大于设定的最大迭代次数,该设定迭代次数可以根据需要设定。
106.在该种情况中,在该步骤s106之前,可以更新主题调整次数,如,将主题调整次数加一。其中,主题调整次数的初始值可以为零,在此基础上,每执行一次步骤s103到s105,该主题调整次数加一。基于此可知,如果更新后的主题调整次数大于设定的最大迭代次数,则将当前得到的各个候选主题类别确定出抽取出的主题。
107.在又一种可能的情况中,该主题抽取结束条件可以为本次调整后多个文本中的关键词所属的候选主题类别以及多个文本所属的候选主题类别出现变动的比例小于设定阈值。
108.其中,关键词从一个候选主题类别中删除或者加入到一个新的候选主题类别都属于该关键词所属的候选主题类别出现变动的情况。而文本所属的候选主题类别被调整也属于文本所属的候选主题类别出现变动。
109.可以理解的是,如果每个文本所属的候选主题类别保持不变或者基本保持不变,且多个文本中提取出的各关键词所属的候选主题类别也保持不变或者基本保持不变,则说明多个文本所归类出的候选主题类别已经达到最优,且每个候选主题类别中的关键词也趋于最优,因此,通过设定该种主题抽取结束条件可以有利于较为合理和准确对多文本进行主题抽取。
110.可以理解的是,将候选主题类别确定出抽取出的主题时,候选主题类别当前包含的关键词也就是该主题下的关键词。
111.本发明的方案会先将多个文本中包含的关键词聚类到多个候选主题类别,并确定各文本初始归属的候选主题类别。在此基础上,本发明会结合关键词相对各候选主题类别的重要程度以及文本与各候选主题类别的关联程度,不断迭代调整关键词所在的候选主题类别以及文本所归属的候选主题类别,从而可以在不需要人工设置主题数量的前提下,通过迭代不断调整候选主题类别并最终得到抽取出的主题,减少了主题抽取的复杂度。
112.而且,由于本发明每次迭代调整候选主题类别的迭代过程中,都会综合考虑关键词和文本信息,以及关键词、文本与候选主题类别之间关系,从而实现了更细粒度的信息分析,打破了主题抽取以文本为整体粒度为分析对象的思路,能够对于长文本以及含多主题的文本达到更好的主题抽取效果,进而有利于更为合理的抽取出文本的主题,提高主题抽取的准确度。
113.同时,由于本技术的方案可以提高主题归类的准确度,因此,可以减少由于从文本中抽取的主题存在偏差而导致后续的工作受到影响的情况。例如,在进行文本分析前通常会先进行文本的分类,在分类时就涉及到主题抽取和归类,如果文本的主题抽取和归类存在错误,后续的文本分析工作就会出现偏差导致无法准确获取所需的文本的情况,而通过本技术的方案可以提高主题归类的准确性,也就有利于更为准确的分析文本。
114.为了便于理解本技术的方案,下面以一种实现方式为例进行说明。
115.如图2,其示出了本技术一种主题抽取方法又一个实施例的流程示意图,本实施例的方法可以包括:
116.s201,获得待抽取主题的多个文本。
117.s202,针对每个文本,对文本进行关键词提取,提取出该文本中包含的至少一个关键词,得到多个文本包含的多个关键词。
118.其中,提取文本中关键词的方式可以有多种,如,可以采用无监督关键词抽取方法抽取文本中包含的关键词。例如,可以采用textrank、tfidf、ngram、依存句法、topwords等算法中的一种或者几种来抽取文本中的关键词。本技术对于从文本中提取关键词的具体实现方式不加限制。
119.s203,对多个文本包含的多个关键词进行聚类,得到聚类出的多个候选主题类别。
120.s204,针对每个文本,分别确定各候选主题类别中包含的属于该文本中的关键词的数量,并将包含该文本中关键词的数量最多的候选主题类别确定为该文本归属的候选主题类别。
121.如,文本di所归属的候选主题类别可以表示为如下公式一:
[0122][0123]
其中,i为从1到n的自然数,n为获得多个文本的总数量,topic
t
为第t个候选主题类别,t为从1到m的自然数,m为当前具有的候选主题类别的总数量,topics为所有候选主题类别的集合,wk为多个文本中抽取的第k个关键词,k为从1到k的自然数,k为文本中抽取出的关键词的总个数。“1,if w
k in di;else0”表示:如果关键词wk属于文本中的关键词,则取1,否则取0。
[0124]
该步骤具体参见前面的相关介绍,在此不再赘述。
[0125]
需要说明的是,该步骤s204是以为确定文本初始归属的候选主题类别的一种方式
为例说明,在实际应用中,通过前面实施例中提到的其他方式确定文本初始归属的候选主题类别也同样适用于本实施例。
[0126]
作为一种可选方式,在该步骤s204中,在确定出文本所属的候选主题类别之后,可以将表征有归属的候选主题类别的多个文本作为训练样本,训练词向量模型。通过该词向量模型可以确定文本的文本向量以及关键词的词向量。
[0127]
在一种可选方式中,为了能够综合文本上下文信息来确定词向量,以通过词向量更为准确表达文本中各词的关系,该词向量模型可以为fasttext模型等,fasttext是facebook开源的一款集word2vec、文本分类等一体的机器学习训练工具,一般情况下,使用fasttext进行文本分类的同时也会产生词的词向量。
[0128]
s205,对于多个关键词中每个关键词,分别确定该关键词相对于每个候选主题类别的重要程度。
[0129]
在本实施例中,关键词相对主题候选主题类别的重要程度可以结合该候选主题类别下的文本集合中各文本与该候选主题类别的历史关联程度、该文本集合中具有该关键词的各文本与该候选主题类别的历史关联程度、当前存在的候选主题的总个数以及包含该关键词的候选主题类别的个数,确定得到。其中,候选主题类别下的文本集合由归属于该候选主题类别的各文本构成。
[0130]
可以理解的是,在主题抽取过程中,随着不断迭代调整候选主题类别,候选主题类别的总个数也会可能会发生变化。如,在迭代过程中,如果某个候选主题类别中的关键词全部被删除,则该候选主题类别为空,因此,该候选主题类别实际上也被删除,导致候选主题类别的总数量可能会减少。因此,每次迭代过程中,都需要确定当前存在的候选主题类别的总个数。
[0131]
类似的,由于关键词所在的候选主题类别也会发生变化,因此,需要确定当前包含该关键词的候选主题类别的个数。
[0132]
其中,文本与候选主题类别的历史关联程度为当前时刻之前最近一次确定出的该文本与该候选主题类别的关联程度。
[0133]
可以理解的是,在该步骤确定关键词相对候选主题类别的重要程度之前,还可以先获得该文本集合中各文本与该候选主题类别的历史关联程度值。可以理解的是,如果该步骤s205为首次执行,则由于当前时刻之前未计算过文本与候选主题类别的关联程度,因此,不存在文本与候选主题类别的历史关联程度。在本技术中,如文本集合中的文本不存在与该候选主题类别的历史关联程度,可以将该文本与该候选主题类别的历史关联程度的取值设为1。
[0134]
在本技术实施例中,结合以上几种参数确定关键词相对该候选主题类别的重要程度的具体方式也可以有多种,本技术对此不加限制。为了便于理解,以一种情况为例说明:
[0135]
在文本与候选主题类别的关联程度为关联程度取值的情况下,文本与历史主题类别的历史关联程度同样为历史关联程度取值。
[0136]
在该种情况下,可以确定文本集合中各文本与候选主题类别的历史关联程度取值之和,为了便于区分,将该求和所得的值称为第一加和值。同时,本实施例还会确定文本集合中具有该关键词的各文本与该候选主题类别的历史关联程度取值之和,将此处求和所得的值称为第二加和值。在此基础上,可以将第一乘积与所述第二乘积的比值确定为所述关
键词相对该候选主题类别的重要程度的取值,即得到表征重要程度的重要程度分值。
[0137]
s206,对于每个文本,确定文本的文本特征向量和该文本中各关键词的关键词特征向量。
[0138]
本技术可以利用词向量模型来确定文本的向量,为了便于区分,将文本的向量称为文本特征向量。同时,还可以通过词向量模型确定关键词的词向量,将关键词的词向量称为关键词特征向量。
[0139]
其中,该词向量模型可以有多种可能,如可以为word2vector等词向量模型。
[0140]
作为一种可选方式,在步骤s204训练出fasttext模型的基础上,可以利用该fasttext模型转换出文本的文本特征向量以及关键词的词特征向量。
[0141]
其中,fasttext模型包括两种接口,即词向量接口和句向量接口。在文本或关键词中字符数量不超过设定数量,如设定数量可以为3,则可以调用fasttext模型中词向量接口来转换出词向量;如果文本或者关键词中字符的数量超过设定数量,则调用fasttext模型中句向量接口进行向量转换。
[0142]
s207,针对该文本中每个关键词,依据该文本的文本特征向量和关键词的关键词特征向量,确定该关键词与文本的特征相似度。
[0143]
如,可以通过计算该关键词的关键词特向向量与该文本的文本特征向量之间的余弦相似度,将计算出的余弦相似度确定为该特征相似度。
[0144]
s208,对于每个文本,分别确定该文本与每个候选主题类别的关联程度。
[0145]
其中,文本与候选主题类别的关联程度可以结合文本中各关键词相对该候选主题类别的重要程度以及文本中各关键词与该文本的特征相似度得到。
[0146]
如,在一种可能的实现方式中,针对任意一个候选主题类别,在确定文本与该候选主题类别的关联程度时,可以依据关键词与文本的特征相似度确定关键词的权重,然后对文本中各关键词相对该候选主题类别的重要程度进行加权求和,得到该关联程度。
[0147]
作为一种可选方式,可以将关键词与文本的特征相似度直接作为关键对应的权重。在该种情况中,关键词相对候选主题类别的重要程度可以为重要程度分值。
[0148]
相应的,对于该文本中每个关键词,计算该关键词与该文本的特征相似度与该关键词相对候选主题类别的重要程度分值之间的乘积。将该文本中各个关键词对应的乘积相加之和,确定为该文本与该候选主题类别的关联程度值。
[0149]
可以理解的是,基于关键词与文本的特征相似度,确定关键词的权重的方式可以有其他可能,对此不加限制。
[0150]
在实际应用中,除了基于关键词与文本的特征相似度,确定各个关键词的权重之外,结合文本中各关键词与文本的特征相似度以及文本中各关键词相对候选主题类别,还可以有其他确定文本与候选主题类别的关联程度的方式,对此不加限制。
[0151]
s209,结合关键词相对候选主题类别的重要程度,调整关键词所在的候选主题类别,并结合文本与候选主题类别的关联程度,调整文本归属的候选主题类别。
[0152]
s210,在本地调整文本归属的候选主题类别后,判断是否满足设定的主题抽取结束条件,如满足,则将当前得到的各候选主题类别确定为抽取出的主题;如果否,则返回步骤s205,直至满足主题抽取结束条件
[0153]
以上步骤s209和s210可以参见前面实施例的相关介绍,在此不再赘述。
[0154]
下面结合一种具体实现进行说明,如图3所示,其示出了本技术一种主题抽取方法又一个实施例的流程示意图,本实施例的方法可以包括:
[0155]
s301,获得待抽取主题的多个文本。
[0156]
s302,针对每个文本,对文本进行关键词提取,提取出该文本中包含的至少一个关键词,得到多个文本包含的多个关键词。
[0157]
s303,对多个文本包含的多个关键词进行聚类,得到聚类出的多个候选主题类别。
[0158]
s304,针对每个文本,分别确定各候选主题类别中包含的属于该文本中的关键词的数量,并将包含该文本中关键词的数量最多的候选主题类别确定为该文本归属的候选主题类别。
[0159]
s305,如果主题调整次数小于1,针对关键词wk和候选主题类别topic
t
,利用公式二,确定该关键词wk相对该候选主题类别topic
t
的重要程度并执行步骤s307。
[0160]
其中,关键词wk可以表示多个文本中抽取出的任意一个关键词,候选主题类别topic
t
可以表示任意一个候选主题类别,以便计算出任意一个关键词分别相对不同候选主题类别的重要程度。具体定义可以参见前面介绍。
[0161]
其中,确定该关键词wk相对该候选主题类别topic
t
的重要程度的公式二如下:
[0162][0163]
其中,候选主题类别的总个数是指当前存在的候选主题类别的总个数;
[0164]
该topic
t
下包含wk的文本的个数是指归属于该候选主题类别topic
t
的文本中,包含有该关键词wk的文本的数量。
[0165]
由于执行步骤s305时,仅仅是通过步骤s304将多个文本初始归类到不同候选主题类别中,因此,归属于topic
t
的文本的总数可以通过统计步骤s303确定出的各个文本所归属的候选主题类别得到。
[0166]
s306,如果主题调整次数不小于1,针对关键词wk和候选主题类别topic
t
,利用公式三,确定该关键词wk相对该候选主题类别topic
t
的重要程度并执行步骤s307。
[0167]
其中,公式三如下所示:
[0168][0169]
其中,表示topic
t
下包含的具有关键词wk的所有文本,为topic
t
包含的所有文本。
[0170]
为文本di与topic
t
的关联程度值,在此处公式三中,采用是上一次主题调整中所确定出的历史关联程度值。
[0171]
其中,公式三为步骤s205中计算重要程度的一种计算公式,其中,
为前面提到的第一加和值,该为前面提到的第二加和值。
[0172]
可以理解的是,对比公式二和公式三而知,将公式三中历史关联程度值设置1,则会得到公式二。由于在执行步骤s305时,尚未计算过文本与候选主题类别之间的关联程度,因此,则可以将每个历史关联程度值都认为是1。
[0173]
s307,对关键词wk相对该候选主题类别topic
t
的重要程度进行归一化,得到归一化的重要程度
[0174]
其中,重要程度的归一化可以采用如下公式四:
[0175][0176]
其中,wj为该候选主题类别topic
t
中第j个关键词,j为从1到j的自然数,j为候选主题类别topic
t
中关键词的总数。
[0177]
当然,该步骤s307为可选步骤,其目的是通过归一化提高不同关键词相对候选主题类别的可比性。
[0178]
s308,对于每个文本di,确定文本di的文本特征向量和该文本di中各关键词wk的关键词特征向量,并分别计算文本中各关键词wk的关键词特征向量与该文本di的文本特征向量之间的特征相似度
[0179]
s309,对于每个文本di和每个候选主题类别topic
t
,通过公式五计算该文本di和候选主题类别topic
t
的关联程度值
[0180]
其中,该关联程度值的计算公式如下:
[0181][0182]
其中,为topic
t
中包含的所有关键词。
[0183]“if w
k in di;else0”表示,如果关键词wk为文本di中的关键词,则计算的取值,否则取值为0。
[0184]
s310,结合关键词相对候选主题类别的重要程度,调整关键词所在的候选主题类别,并结合文本与候选主题类别的关联程度,调整文本归属的候选主题类别。
[0185]
s311,将主题更新次数加一。
[0186]
其中,主题更新次数实际上也就是调整文本归属的候选主题类别的次数。
[0187]
s312,检测主题更新次数是否大于设定的最大迭代次数,如果否,则返回步骤s306;如果是,将当前得到的各候选主题类别确定为抽取出的主题,结束调整候选主题类别的迭代。
[0188]
可以理解的是,本实施例是为了便于理解,以主题抽取结束条件为主题更新次数
是否大于设定的最大迭代次数为例说明,对于主题抽取结束条件为前面提到的其他情况也同样适用于本实施例,对此不加限制。
[0189]
对应本技术的一种主题抽取方法,本技术还提供了一种主题抽取装置,如图4所示,其示出了本技术一种主题抽取装置一个实施例的组成结构示意图,本实施例的装置可以包括:
[0190]
聚类单元401,用于对多个文本中包含的关键词进行聚类,得到聚类出的多个候选主题类别,每个候选主题类别包括至少一个关键词,其中,每个文本包含至少一个关键词;
[0191]
初始归类单元402,用于分别确定每个文本归属的候选主题类别;
[0192]
关键词分析单元403,用于对于每个关键词,分别确定该关键词相对于每个候选主题类别的重要程度,其中,该重要程度是结合归属于该候选主题类别的文本集合中的各文本以及该文本集合中具有该关键词的各文本确定得到的;
[0193]
文本分析单元404,用于对于每个文本,分别确定该文本与每个候选主题类别的关联程度,其中,所述关联程度是结合该文本中各关键词相对该候选主题类别的重要程度确定得到的;
[0194]
主题调整单元405,用于结合所述关键词相对所述候选主题类别的重要程度,调整所述关键词所在的候选主题类别,并结合所述文本与所述候选主题类别的关联程度,调整所述文本归属的候选主题类别;
[0195]
抽取控制单元406,用于在本次调整所述文本归属的候选主题类别后,判断是否满足设定的主题抽取结束条件,如满足,则将当前得到的各候选主题类别确定为抽取出的主题;否则返回所述关键词分析单元的操作,直至满足所述主题抽取结束条件。
[0196]
在一种可能的实现方式中,该初始归类单元,包括:
[0197]
初始归类子单元,用于针对任意一个文本,分别确定各所述候选主题类别中包含的属于所述文本中的关键词的数量,并将包含所述文本中关键词的数量最多的候选主题类别确定为所述文本归属的候选主题类别。
[0198]
在又一种可能的实现方式中,该装置还包括:
[0199]
向量确定单元,用于在文本分析单元分别确定该文本与每个候选主题类别的关联程度之前,确定所述文本的文本特征向量和所述文本中各关键词的关键词特征向量;
[0200]
相似度分析单元,用于针对所述文本中每个关键词,依据所述文本的文本特征向量和所述关键词的关键词特征向量,确定所述关键词与所述文本的特征相似度;
[0201]
该文本分析单元,具体为,用于针对每个文本,结合所述文本中各关键词相对候选主题类别的重要程度以及文本中各关键词与所述文本的特征相似度,确定所述文本与该候选主题类别的关联程度。
[0202]
在一种可能的实现方式中,所述关键词相对所述候选主题类别的重要程度为所述关键词相对所述候选主题类别的重要程度分值;
[0203]
该文本分析单元,
[0204]
第一文本分析单元,用于针对所述文本中每个关键词,计算所述关键词与所述文本的特征相似度与所述关键词相对所述候选主题类别的重要程度分值之间的乘积;
[0205]
第二文本分析单元,用于针对每个文本,将所述文本中各个关键词对应的所述乘积之和确定为所述文本与所述候选主题类别的关联程度值。
[0206]
在又一种可能的实现方式中,该关键词分析单元,包括:
[0207]
集合确定子单元,用于确定归属于所述候选主题类别的文本集合,所述文本集合包括归属于所述候选主题类别的至少一个文本;
[0208]
关键词分析子单元,用于结合所述文本集合中各文本与所述候选主题类别的历史关联程度以及所述文本集合中具有所述关键词的各文本与所述候选主题类别的历史关联程度,确定所述关键词相对所述候选主题类别的重要程度;
[0209]
其中,文本与候选主题类别的历史关联程度为当前时刻之前最近一次确定出的所述文本与所述候选主题类别的关联程度。
[0210]
在一种可选方式中,所述文本与所述候选主题类别的关联程度为所述文本与所述候选主题类别的关联程度取值;
[0211]
所述关键词分析子单元,包括:
[0212]
第一加和子单元,用于确定所述文本集合中各文本与所述候选主题类别的历史关联程度取值之和,得到第一加和值;
[0213]
第二加和子单元,用于确定所述文本集合中具有所述关键词的各文本与所述候选主题类别的历史关联程度取值之和,得到第二加和值;
[0214]
第一计算子单元,用于计算所述第二加和值与当前存在的候选主题类别的总个数之间的第一乘积;
[0215]
第二计算子单元,用于计算所述第一加和值与包含所述关键词的候选主题类别的个数之间的第二乘积;
[0216]
比值计算子单元,用于将所述第一乘积与所述第二乘积的比值确定为所述关键词相对所述候选主题类别的重要程度分值。
[0217]
在一种可选方式中,该装置还包括:
[0218]
历史值获得单元,用于在第一加和子单元确定所述第一加和值和所述第二加和值之前,获得所述文本集合中各文本与所述候选主题类别的历史关联程度值;
[0219]
取值设置单元,用于如所述文本集合中的文本不存在与所述候选主题类别的历史关联程度取值,将所述文本与所述候选主题类别的历史关联程度取值设为1。
[0220]
所述主题抽取装置包括处理器和存储器,上述聚类单元、初始归类单元、关键词分析单元、文本分析单元、主题调整单元和抽取控制单元等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元来实现相应的功能。
[0221]
处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数来提高主题抽取的准确度,减少由于主题归类错误而影响到准确分析文本的情况。
[0222]
本发明实施例提供了一种存储介质,其上存储有程序,该程序被处理器执行时实现所述主题抽取方法。
[0223]
本发明实施例提供了一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行所述主题抽取方法。
[0224]
本发明实施例提供了一种电子设备500,电子设备500包括至少一个处理器501、以及与处理器501连接的至少一个存储器502、总线503;其中,处理器501、存储器502通过总线503完成相互间的通信;处理器用于调用存储器中的程序指令,以执行上述的主题抽取方
法。本文中的电子设备可以是服务器、pc、pad、手机等。
[0225]
本技术还提供了一种计算机程序产品,当在电子设备上执行时,适于执行初始化有如下方法步骤的程序:
[0226]
对多个文本中包含的关键词进行聚类,得到聚类出的多个候选主题类别,每个候选主题类别包括至少一个关键词,其中,每个文本包含至少一个关键词;
[0227]
分别确定每个文本归属的候选主题类别;
[0228]
对于每个关键词,分别确定该关键词相对于每个候选主题类别的重要程度,其中,该重要程度是结合归属于该候选主题类别的文本集合中的各文本以及该文本集合中具有该关键词的各文本确定得到的;
[0229]
对于每个文本,分别确定该文本与每个候选主题类别的关联程度,其中,所述关联程度是结合该文本中各关键词相对该候选主题类别的重要程度确定得到的;
[0230]
结合所述关键词相对所述候选主题类别的重要程度,调整所述关键词所在的候选主题类别,并结合所述文本与所述候选主题类别的关联程度,调整所述文本归属的候选主题类别;
[0231]
在本次调整所述文本归属的候选主题类别后,判断是否满足设定的主题抽取结束条件,如满足,则将当前得到的各候选主题类别确定为抽取出的主题;否则返回对于每个关键词,分别确定该关键词相对于每个候选主题类别的重要程度的操作,直至满足所述主题抽取结束条件。
[0232]
在一种可能的实现方式中,所述分别确定每个文本归属的候选主题类别,包括:
[0233]
针对任意一个文本,分别确定各所述候选主题类别中包含的属于所述文本中的关键词的数量,并将包含所述文本中关键词的数量最多的候选主题类别确定为所述文本归属的候选主题类别。
[0234]
在一种可能的实现方式中,在对于每个文本,分别确定该文本与每个候选主题类别的关联程度之前,还包括:
[0235]
确定所述文本的文本特征向量和所述文本中各关键词的关键词特征向量;
[0236]
针对所述文本中每个关键词,依据所述文本的文本特征向量和所述关键词的关键词特征向量,确定所述关键词与所述文本的特征相似度;
[0237]
所述对于每个文本,分别确定该文本与每个候选主题类别的关联程度,包括:
[0238]
结合所述文本中各关键词相对所述候选主题类别的重要程度以及文本中各关键词与所述文本的特征相似度,确定所述文本与所述候选主题类别的关联程度。
[0239]
在一种可能的实现方式中,所述关键词相对所述候选主题类别的重要程度为所述关键词相对所述候选主题类别的重要程度分值;
[0240]
所述结合所述文本中各关键词相对所述候选主题类别的重要程度以及文本中各关键词与所述文本的特征相似度,确定所述文本与所述候选主题类别的关联程度,包括:
[0241]
针对所述文本中每个关键词,计算所述关键词与所述文本的特征相似度与所述关键词相对所述候选主题类别的重要程度分值之间的乘积;
[0242]
将所述文本中各个关键词对应的所述乘积之和确定为所述文本与所述候选主题类别的关联程度值。
[0243]
在一种可能的实现方式中,所述对于每个关键词,分别确定该关键词相对于每个
候选主题类别的重要程度,包括:
[0244]
确定归属于所述候选主题类别的文本集合,所述文本集合包括归属于所述候选主题类别的至少一个文本;
[0245]
结合所述文本集合中各文本与所述候选主题类别的历史关联程度以及所述文本集合中具有所述关键词的各文本与所述候选主题类别的历史关联程度,确定所述关键词相对所述候选主题类别的重要程度;
[0246]
其中,文本与候选主题类别的历史关联程度为当前时刻之前最近一次确定出的所述文本与所述候选主题类别的关联程度。
[0247]
在一种可能的实现方式中,所述文本与所述候选主题类别的关联程度为所述文本与所述候选主题类别的关联程度取值;
[0248]
所述结合所述文本集合中各文本与所述候选主题类别的历史关联程度以及所述文本集合中具有所述关键词的各文本与所述候选主题类别的历史关联程度,确定所述关键词相对所述候选主题类别的重要程度,包括:
[0249]
确定所述文本集合中各文本与所述候选主题类别的历史关联程度取值之和,得到第一加和值;
[0250]
确定所述文本集合中具有所述关键词的各文本与所述候选主题类别的历史关联程度取值之和,得到第二加和值;
[0251]
计算所述第二加和值与当前存在的候选主题类别的总个数之间的第一乘积;
[0252]
计算所述第一加和值与包含所述关键词的候选主题类别的个数之间的第二乘积;
[0253]
将所述第一乘积与所述第二乘积的比值确定为所述关键词相对所述候选主题类别的重要程度分值。
[0254]
在一种可能的实现方式中,在确定所述第一加和值和所述第二加和值之前,还包括:
[0255]
获得所述文本集合中各文本与所述候选主题类别的历史关联程度值;
[0256]
如所述文本集合中的文本不存在与所述候选主题类别的历史关联程度取值,将所述文本与所述候选主题类别的历史关联程度取值设为1。
[0257]
本技术是参照根据本技术实施例的方法、装置、电子设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程设备的处理器以产生一个机器,使得通过计算机或其他可编程设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
[0258]
在一个典型的配置中,电子设备包括一个或多个处理器(cpu)、存储器和总线。电子设备还可以包括输入/输出接口、网络接口等。
[0259]
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(ram)和/或非易失性内存等形式,如只读存储器(rom)或闪存(flash ram),存储器包括至少一个存储芯片。存储器是计算机可读介质的示例。
[0260]
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。
计算机的存储介质的例子包括,但不限于相变内存(pram)、静态随机存取存储器(sram)、动态随机存取存储器(dram)、其他类型的随机存取存储器(ram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、快闪记忆体或其他内存技术、只读光盘只读存储器(cd-rom)、数字多功能光盘(dvd)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
[0261]
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
[0262]
本领域技术人员应明白,本技术的实施例可提供为方法、系统或计算机程序产品。因此,本技术可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本技术可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。
[0263]
以上仅为本技术的实施例而已,并不用于限制本技术。对于本领域技术人员来说,本技术可以有各种更改和变化。凡在本技术的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本技术的权利要求范围之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1