热词的处理方法及装置与流程

文档序号:12802160阅读:250来源:国知局
热词的处理方法及装置与流程

本申请涉及计算机领域,具体而言,涉及一种热词的处理方法及装置。



背景技术:

在对一些话题进行分析时,通常都会需要统计话题中的热词,热词是指在与话题相关的文本中出现次数达到一定百分比的n个词。而在统计热词的过程中经常会遇到相同领域下,不同话题间的热词相似度很大的情况,以及一些该领域常见的热词会在该领域下的几乎所有话题中都会出现的情况。例如分析法律案件的话题时,无论话题是离婚案件还是交通事故案件或者民事纠纷案件,都会出现诸如“原告”、“被告”等词,此类词在所有法律案件的话题中都会出现,因此上述热词的特征程度较低,为非特征词。所以对于表述某个法律案件的话题的特征没有帮助,需要去除掉。现有技术中,通过人工统计的方式将所有话题中都出现的热词删除掉,上述人工统计的方式有如下缺点:第一,人工统计容易发生遗漏;第二,人工统计的准确度不高;第三,人工统计耗时较长。

针对上述的问题,目前尚未提出有效的解决方案。



技术实现要素:

本申请实施例提供了一种热词的处理方法及装置,以至少解决现有技术中由于采用人工方式删除特征程度较低的热词,导致效率低的技术问题。

根据本申请实施例的一个方面,提供了一种热词的处理方法,包括:获取各个话题的热词,得到多个热词;计算每个热词在话题集合中的熵值,其中,所述话题集合为所述各个话题的集合,所述熵值用于表征所述热词的特征程度;从所述多个热词中筛选出熵值大于第一预设阈值的热词,得到第一目标热词;在所述各个话题的热词中删除所述第一目标热词。

进一步地,计算每个热词在话题集合中的熵值包括:计算热词ai在目标话题bij中出现的概率pij,其中,i依次取1至n,n为所述多个热词的数量,j依次取1至m(i),m(i)为所述热词ai对应的目标话题的数量之和,所述目标话题bij为所述各个话题中所述热词ai出现的话题;根据概率pi1至概率pim(i)计算所述热词ai在所述话题集合中的熵值。

进一步地,根据概率pi1至概率pim(i)计算所述热词ai在所述话题集合中的熵值包括:根据公式计算所述热词ai在所述话题集合中的熵值,其中,hai为所述热词ai在所述话题集合中的熵值。

进一步地,计算热词ai在目标话题bij中出现的概率pij包括:统计所述热词ai在所述目标话题bij中出现的次数cij;统计所述目标话题bij中包含的热词的总出现次数cij';根据所述次数cij和所述总出现次数cij'计算所述热词ai在所述目标话题bij中出现的概率pij。

进一步地,从所述多个热词中筛选出熵值大于第一预设阈值的热词,得到第一目标热词包括:判断热词ai的熵值是否大于所述第一预设阈值,其中,i依次取1至n,n为所述多个热词的数量;在判断出所述热词ai的熵值大于所述第一预设阈值的情况下,确定所述热词ai为所述第一目标热词。

进一步地,在所述各个话题的热词中删除所述第一目标热词之后,所述方法还包括:从所述多个热词中筛选出熵值大于第二预设阈值的热词,得到第二目标热词,其中,所述第二预设阈值小于所述第一预设阈值;在所述各个话题的删除所述第一目标热词后的剩余热词中删除所述第二目标热词。

根据本申请实施例的另一方面,还提供了一种热词的处理装置,包括:获取单元,用于获取各个话题的热词,得到多个热词;计算单元,用于计算每个热词在话题集合中的熵值,其中,所述话题集合为所述各个话题的集合,所述熵值用于表征所述热词的特征程度;第一筛选单元,用于从所述多个热词中筛选出熵值大于第一预设阈值的热词,得到第一目标热词;第一删除单元,用于在所述各个话题的热词中删除所述第一目标热词。

进一步地,所述计算单元包括:第一计算模块,用于计算热词ai在目标话题bij中出现的概率pij,其中,i依次取1至n,n为所述多个热词的数量,j依次取1至m(i),m(i)为所述热词ai对应的目标话题的数量之和,所述目标话题bij为所述各个话题中所述热词ai出现的话题;第二计算模块,用于根据概率pi1至概率pim(i)计算所述热词ai在所述话题集合中的熵值。

进一步地,所述第二计算模块包括:第一计算子模块,用于根据公式计算所述热词ai在所述话题集合中的熵值,其中,hai为所述热词ai在所述话题集合中的熵值。

进一步地,所述第一计算模块包括:第一统计子模块,用于统计所述热词ai在所述目标话题bij中出现的次数cij;第二统计子模块,用于获取所述目标话题bij中包含的热词的总出现次数cij';第二计算子模块,用于根据所述次数cij和所述总出现次数cij'计算所述热词ai在所述目标话题bij中出现的概率pij。

进一步地,所述第一筛选单元包括:判断模块,判断热词ai的熵值是否大于所述第一预设阈值,其中,i依次取1至n,n为所述多个热词的数量;确定模块,用于在判断出所述热词ai的熵值大于所述第一预设阈值的情况下,确定所述热词ai为第一目标热词。

进一步地,所述装置还包括:第二筛选单元,用于在所述各个话题的热词中删除所述第一目标热词之后,从所述多个热词中筛选出熵值大于第二预设阈值的热词,得到第二目标热词,其中,所述第二预设阈值小于所述第一预设阈值;第二删除单元,用于在所述各个话题的删除所述第一目标热词后的剩余热词中删除所述第二目标热词。

在本申请实施例中,采用获取各个话题的热词,得到多个热词;计算每个热词在话题集合中的熵值,其中,所述话题集合为所述各个话题的集合,所述熵值用于表征所述热词的特征程度;从所述多个热词中筛选出熵值大于第一预设阈值的热词,得到第一目标热词;以及在所述各个话题的热词中删除所述第一目标热词的方式,通过计算每个热词在由各个话题组成的话题集合中的熵值,并根据熵值删除话题集合中的特征程度较低的热词(即,第一目标热词),与现有技术中通过人工统计的方式特征程度较低的热词相比,不仅能够较为准确的确定出特征程度较低的热词,还能够自动将上述特征程度较低的热词删除,进而解决了现有技术中由于采用人工方式删除特征程度较低的热词,导致效率低的技术问题,达到了提高工作效率的技术效果。

附图说明

此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:

图1是根据本申请实施例的一种热词的处理方法的流程图;以及

图2是根据本申请实施例的一种热词的处理装置的示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。

需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

根据本申请实施例,提供了一种热词的处理方法的方法实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。

图1是根据本申请实施例的一种热词的处理方法的流程图,如图1所示,该方法包括如下步骤:

步骤s102,获取各个话题的热词,得到多个热词。

步骤s104,计算每个热词在话题集合中的熵值,其中,话题集合为各个话题的集合,熵值用于表征热词的特征程度。

由于计算了每个热词在话题集合中的熵值,从而能够知晓每个热词在话题集合中特征程度的高低。

具体地,熵值越高,表示该热词在话题集合中出现的概率越大,从而特征程度越低,也就越普遍。

步骤s106,从多个热词中筛选出熵值大于第一预设阈值的热词,得到第一目标热词。

具体地,第一预设阈值可以根据用户需求设置。得到的第一目标热词的数量可以是一个,也可以是多个,具有由用户设定的预设阈值的大小以及热词的熵值共同决定。

步骤s108,在各个话题的热词中删除第一目标热词。

在本申请实施例中,通过计算每个热词在由各个话题组成的话题集合中的熵值,并根据熵值删除话题集合中特征程度较低的热词(即,第一目标热词),与现有技术中通过人工统计的方式特征程度较低的热词相比,不仅能够较为准确的确定出特征程度较低的热词,还能够自动将上述特征程度较低的热词删除,进而解决了现有技术中由于采用人工方式删除特征程度较低的热词,导致效率低的技术问题,达到了提高工作效率的技术效果。并且,本申请实施例所提供的热词的处理方式,无需人工参与,所以还达到了节约成本的效果。

可选地,在本申请实施例中,计算每个热词在话题集合中的熵值包括步骤s1041和步骤s1043,具体如下:

步骤s1041,计算热词ai在目标话题bij中出现的概率pij,其中,i依次取1至n,n为多个热词的数量,j依次取1至m(i),m(i)为热词ai对应的目标话题的数量之和,目标话题bij为各个话题中热词ai出现的话题。

具体地,目标话题bij为各个话题中热词ai所在的话题或者各个话题中包含热词ai的话题。

需要说明的是,一个热词可能出现在多个话题中,也可能只出现在一个话题中。如果上述热词出现在多个话题中,则该热词对应的目标话题就为多个,那么需要计算该热词在每个目标话题中出现的概率;如果上述热词只出现在一个话题中,则该热词对应的目标话题就为一个,那么只需计算该热词在上述一个目标话题中出现的概率,此时步骤s1041中的m(i)等于1,则j只取1。

通过上述内容可知,对于某个热词而言,其对应的目标话题的数量与计算出的概率的数量相等。也就是,该热词出现在多少个话题中,就会有多少个对应的目标话题,从而就计算出上述热词的多少个概率。

步骤s1043,根据概率pi1至概率pim(i)计算热词ai在话题集合中的熵值。

需要说明的是,对于只出现在一个话题中的热词,由于该热词对应的目标话题只有一个,因此只根据该热词在上述一个目标话题中出现的概率计算该热词在话题集合中的熵值。

通过对每个热词执行步骤s1041和步骤s1043,就可以计算出每个热词在话题集合中的熵值。

可选地,在本申请实施例中,根据概率pi1至概率pim(i)计算热词ai在话题集合中的熵值包括:根据公式计算热词ai在话题集合中的熵值,其中,hai为热词ai在话题集合中的熵值。

在本申请实施例中,通过上述公式能够准确,并且快速的计算出每个热词在话题集合中的熵值,达到了进一步提高删除特征程度较低的热词的工作效率的技术效果。另外,由于根据上述公式能够准确的计算出每个热词在话题集合中的熵值,因此为后续筛选出特征程度较低的热词提供了较为准确的数据基础,所以从各个话题的热词中删除了上述特征程度较低的热词后,剩余的大都是有参考价值的热词,还达到了提高话题集合中热词的对比度的效果。

可选地,在本申请实施例中,计算热词ai在目标话题bij中出现的概率pij包括步骤s1至步骤s5,具体如下:

步骤s1,统计热词ai在目标话题bij中出现的次数cij。

步骤s3,统计目标话题bij中包含的热词的总出现次数cij'。

具体地,上述总出现次数为目标话题bij中的每个热词在目标话题bij中的出现次数之和。

步骤s5,根据次数cij和总出现次数cij'计算热词ai在目标话题bij中出现的概率pij。

具体地,可以根据次数cij与总出现次数cij'比值,计算出热词ai在目标话题bij中出现的概率pij。

例如,假设热词a1为“原告”,“原告”在两个话题中出现,分别是话题n1和话题n2,则上述话题n1即为目标话题b11,上述话题n2即为目标话题b12。其中,“原告”在目标话题b11中的出现次数c11为200次,而目标话题b11中包含热词的总出现次数c11'为2000次,则“原告”在目标话题b11中出现的概率p11=200/2000=10%;“原告”在目标话题b12中的出现次数c12为300次,而目标话题b12中包含热词的总出现次数c12'为2500次,则“原告”在目标话题b12中出现的概率p12=300/2500=12%。

可选地,在本申请实施例中,从多个热词中筛选出熵值大于第一预设阈值的热词,得到第一目标热词包括:判断热词ai的熵值是否大于第一预设阈值,其中,i依次取1至n,n为多个热词的数量;在判断出热词ai的熵值大于第一预设阈值的情况下,确定热词ai为第一目标热词。

可选地,在各个话题中删除第一目标热词之后,方法还包括:从多个热词中筛选出熵值大于第二预设阈值的热词,得到第二目标热词,其中,第二预设阈值小于第一预设阈值;在各个话题的删除第一目标热词后的剩余热词中删除的第二目标热词。

具体地,第二预设阈值同样可以根据用户需求设置。

通过上述内容可知,如果用户对各个话题中删除了第一目标热词后的剩余的热词不满意,还可以通过再次设置预设阈值,以从上述剩余的热词中继续删除熵值低于再次设置的预设阈值的热词,直到达到满意的效果。

需要说明的是,用户可以根据上述方式,多次调整预设阈值。

根据本申请实施例,还提供了一种热词的处理装置,该热词的处理装置用于执行本申请实施例上述内容所提供的热词的处理方法,以下对本申请实施例所提供的热词的处理装置做具体介绍:

图2是根据本申请实施例的一种热词的处理装置的示意图,如图2所示,该处理装置主要包括获取单元21、计算单元23、第一筛选单元25和第一删除单元27,其中:

获取单元21用于获取各个话题的热词,得到多个热词。

计算单元23用于计算每个热词在话题集合中的熵值,其中,话题集合为各个话题的集合,熵值用于表征热词的特征程度。

由于计算了每个热词在话题集合中的熵值,从而能够知晓每个热词在话题集合中特征程度的高低。

具体地,熵值越高,表示该热词在话题集合中出现的概率越大,从而特征程度越低,也就越普遍。

第一筛选单元25用于从多个热词中筛选出熵值大于第一预设阈值的热词,得到第一目标热词。

具体地,第一预设阈值可以根据用户需求设置。得到的第一目标热词的数量可以是一个,也可以是多个,具有由用户设定的预设阈值的大小以及热词的熵值共同决定。

第一删除单元27用于在各个话题的热词中删除第一目标热词。

在本申请实施例中,通过计算每个热词在由各个话题组成的话题集合中的熵值,并根据熵值删除话题集合中特征程度较低的热词(即,第一目标热词),与现有技术中通过人工统计的方式特征程度较低的热词相比,不仅能够较为准确的确定出特征程度较低的热词,还能够自动将上述特征程度较低的热词删除,进而解决了现有技术中由于采用人工方式删除特征程度较低的热词,导致效率低的技术问题,达到了提高工作效率的技术效果。并且,本申请实施例所提供的热词的处理方式,无需人工参与,所以还达到了节约成本的效果。

可选地,在本申请实施例中,计算单元包括:第一计算模块和第二计算模块,其中:

第一计算模块用于计算热词ai在目标话题bij中出现的概率pij,其中,i依次取1至n,n为多个热词的数量,j依次取1至m(i),m(i)为热词ai对应的目标话题的数量之和,目标话题bij为各个话题中热词ai出现的话题。

具体地,目标话题bij为各个话题中热词ai所在的话题或者各个话题中包含热词ai的话题。

需要说明的是,一个热词可能出现在多个话题中,也可能只出现在一个话题中。如果上述热词出现在多个话题中,则该热词对应的目标话题就为多个,那么需要计算该热词在每个目标话题中出现的概率;如果上述热词只出现在一个话题中,则该热词对应的目标话题就为一个,那么只需计算该热词在上述一个目标话题中出现的概率,此时第一计算模块中的m(i)等于1,则j只取1。

通过上述内容可知,对于某个热词而言,其对应的目标话题的数量与计算出的概率的数量相等。也就是,该热词出现在多少个话题中,就有多少个对应的目标话题,从而就计算出上述热词的多少个概率。

第二计算模块用于根据概率pi1至概率pim(i)计算热词ai在话题集合中的熵值。

需要说明的是,对于只出现在一个话题中的热词,由于该热词对应的目标话题只有一个,因此只根据该热词在上述一个目标话题中出现的概率计算该热词在话题集合中的熵值。

通过对每个热词调用第一计算模块和第二计算模块,就可以计算出每个热词在话题集合中的熵值。

可选地,在本申请实施例中,第二计算模块包括第一计算子模块。其中,第一计算子模块用于根据公式计算热词ai在话题集合中的熵值,其中,hai为热词ai在话题集合中的熵值。

在本申请实施例中,通过上述公式能够准确,并且快速的计算出每个热词在话题集合中的熵值,达到了进一步提高删除特征程度较低的热词的工作效率的技术效果。另外,由于根据上述公式能够准确的计算出每个热词在话题集合中的熵值,因此为后续筛选出特征程度较低的热词提供了较为准确的数据基础,所以从各个话题的热词中删除了上述特征程度较低的热词后,剩余的大都是有参考价值的热词,还达到了提高话题集合中热词的对比度的效果。

可选地,在本申请实施例中,第一计算模块包括:第一统计子模块、第二统计子模块和第二计算子模块,其中:

第一统计子模块用于统计热词ai在目标话题bij中出现的次数cij。

第二统计子模块用于获取目标话题bij中包含的热词的总出现次数cij'。

具体地,上述总出现次数为目标话题bij中每个热词的出现次数之和。

第二计算子模块用于根据次数cij和总出现次数cij'计算热词ai在目标话题bij中出现的概率pij。

具体地,可以根据次数cij与总出现次数cij'比值,计算出热词ai在目标话题bij中出现的概率pij。

例如,假设热词a1为“原告”,“原告”在两个话题中出现,分别是话题n1和话题n2,则上述话题n1即为目标话题b11,上述话题n2即为目标话题b12。其中,“原告”在目标话题b11中的出现次数c11为200次,而目标话题b11中包含热词的总出现次数c11'为2000次,则“原告”在目标话题b11中出现的概率p11=200/2000=10%;“原告”在目标话题b12中的出现次数c12为300次,而目标话题b12中包含热词的总出现次数c12'为2500次,则“原告”在目标话题b12中出现的概率p12=300/2500=12%。

可选地,在本申请实施例中,第一筛选单元包括:判断模块和确定模块。其中,判断模块用于判断热词ai的熵值是否大于第一预设阈值,其中,i依次取1至n,n为多个热词的数量;确定模块用于在判断出热词ai的熵值大于第一预设阈值的情况下,确定热词ai为第一目标热词。

可选地,在本申请实施例中,装置还包括:第二筛选单元和第二删除单元。其中,第二筛选单元用于在各个话题的热词中删除第一目标热词之后,从多个热词中筛选出熵值大于第二预设阈值的热词,得到第二目标热词,其中,第二预设阈值小于第一预设阈值;第二删除单元用于在各个话题的删除第一目标热词后的剩余热词中删除第二目标热词。

具体地,第二预设阈值同样可以根据用户需求设置。

通过上述内容可知,如果用户对各个话题中删除了第一目标热词后的剩余的热词不满意,还可以通过再次设置预设阈值,以从上述剩余的热词中继续删除熵值低于再次设置的预设阈值的热词,直到达到满意的效果。

需要说明的是,用户可以根据上述方式,多次调整预设阈值。

所述热词的处理装置包括处理器和存储器,上述获取单元、计算单元、第一筛选单元和第一删除单元等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元。

处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数来自动筛选以及删除特征程度较低的热词。

存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(ram)和/或非易失性内存等形式,如只读存储器(rom)或闪存(flashram),存储器包括至少一个存储芯片。

本申请还提供了一种计算机程序产品的实施例,当在数据处理设备上执行时,适于执行初始化有如下方法步骤的程序代码:获取各个话题的热词,得到多个热词;计算每个热词在话题集合中的熵值,其中,所述话题集合为所述各个话题的集合,所述熵值用于表征所述热词的特征程度;从所述多个热词中筛选出熵值大于所述第一预设阈值的热词,得到第一目标热词;以及在所述各个话题的热词中删除所述第一目标热词的。

上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。

在本申请的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,可以为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、只读存储器(rom,read-onlymemory)、随机存取存储器(ram,randomaccessmemory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅是本申请的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1