一种热点词发现方法和装置与流程

文档序号:14175322阅读:281来源:国知局
一种热点词发现方法和装置与流程

本发明的实施例涉及信息处理领域,尤其涉及一种热点词发现方法和装置。



背景技术:

汉语的构词能力很强,从理论上讲,任何两个及以上的汉字字符组合在一起都有构成词语的可能,这种强构词性使得新词识别变得极为困难。

一般地,新词识别的研究方法主要有两种:基于规则方法和基于统计方法。前者利用构词学规则、配合语义信息或词性信息来构造模板,最后通过匹配来发现和识别新词;而后者是通过对语料中的词条组成或特征信息进行统计来识别新词。目前大部分研究者使用规则和统计相结合的方法,以期发挥组合优势,从而有效改进新词识别效果。

另外一种新词识别是基于字典的分词方法,其主旨思想在于将待分词的字串与已有的字典、词库中的现有词条进行匹配,若在词典中找到某个字符串,则匹配成功。另外,在无词库的分词实现上一般是基于词的频度统计,它不依靠词典,而是将文章中任意两个字同时出现的频率进行统计,次数越高的就可能是一个词。它首先切分出与词表匹配的所有可能的词,运用统计语言模型和决策算法决定最优的切分结果。

通过对文本进行分词后,对词频进行统计,对于词频较高的词汇为经常出现的词汇,通过与常用词汇的对比,筛选掉高频词汇即可得到热点词汇。然而无论是专业领域内的热点词发现还是在时间轴上的热点词发现,其中一个很重要的方法就是相互间的比对,即找出领域内或时间段前后的词汇差异,但是单纯的对词频或者比例变化的计算都不能收到很好的效果。



技术实现要素:

本发明的实施例提供一种热点词发现方法和装置,能够有效地捕获热点词,以提高系统的自适应性。

第一方面,提供一种热点词发现方法,包括:

采集网络系统生成的数据;

基于信息熵模型对所述数据中的字符串进行分词获取候选词;

将所述候选词与词库中的词进行匹配获取新词;

按照所述新词的出现频率和评分进行贝叶斯平均计算,获取所述新词的贝叶斯平均值;

若确定所述贝叶斯平均值满足预定条件则确定所述新词为热点词。

第二方面,提供一种热点词发现装置,包括:

采集单元,用于采集网络系统生成的数据;

分词单元,用于基于信息熵模型对所述采集单元采集的数据中的字符串进行分词获取候选词;

匹配单元,用于将所述分词单元获取的所述候选词与词库中的词进行匹配获取新词;

热点词获取单元,用于按照所述匹配单元获取的所述新词的出现频率和评分进行贝叶斯平均计算,获取所述新词的贝叶斯平均值;若确定所述贝叶斯平均值满足预定条件则确定所述新词为热点词。

在上述方案中,热点词发现装置采集网络系统生成的数据;基于信息熵模型对数据中的字符串进行分词获取候选词;将候选词与词库中的词进行匹配获取新词;按照新词的出现频率和评分进行贝叶斯平均计算,获取新词的贝叶斯平均值;若确定贝叶斯平均值满足预定条件则确定新词为热点词;其中在热点词选取时,参考了新词的出现频率和评分的贝叶斯平均值,相对于单纯按照新词的出现频率或者比例确定热点词,能够有效地捕获热点词,以提高系统的自适应性。

附图说明

为了更清楚地说明本发明实施例的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本发明实施例提供一种应用场景示意图;

图2为本发明实施例提供的一种热点词发现方法的流程图;

图3为本发明实施例提供的一种热点词发现装置的结构图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

本发明实施例描述的系统架构以及业务场景是为了更加清楚的说明本发明实施例的技术方案,并不构成对于本发明实施例提供的技术方案的限定,本领域普通技术人员可知,随着系统架构的演变和新业务场景的出现,本发明实施例提供的技术方案对于类似的技术问题,同样适用。

下面结合具体实施例对上述方法进行详细描述。参照图1所示,本发明的实施例应用于如下场景:包括数据库11、热点词发现装置12、数据分析和挖掘服务器13、管理平台14、展示及业务支持设备15;

其中数据库11用于存储供热点词发现装置使用的网络系统的数据、热点词发现装置12生成的热点词、以及供数据分析和挖掘服务器13使用的其他数据;管理平台14用于对其他各部分进行状态监测、权限管理以及安全保障;数据分析和挖掘服务器13主要用于利用热点词发现装置12生成的热点词、数据库11提供的其他数据进行内容关联分析、时间序列分析、传播态势分析、热点话题识别、自动摘要生成、话题跟踪等等舆情分析,展示及业务支持设备15可以为一个终端设备,其作为人机交互设备主要用于依据数据分析和挖掘服务器13的分析结果实现舆情预警、统计报表、可视化、传播拓扑等等功能。本发明的实施例主要提供一种热点词发现装置12,其主要包括数据采集、数据清洗、以及新词发现和热点词筛选功能。

具体的结合图2所示,本发明的实施例提供一种热点词发现方法,包括:

101、采集网络系统生成的数据。

其中,在步骤101之后还包括:对数据进行数据清洗。其中,新词,通常指之前没有出现过或者并没有在词库中收录的词语。在新词识别领域,对“新词”这个概念尚无统一界定,目前的研究包括未登录词识别(unknownwordsidentificationuwi)和新词识别(nwi)两方面。其中,未登录词是指未在当前所用词典中出现的词,uwi是中文自动分词过程中的重要阶段,这方面的研究开展得较早,取得了很多成果;而所谓的新词(newword)是指随着时代的发展而新出现或旧词新用的词,如“非典”、“山寨”等。此意义上的新词识别近些年才发展起来。但由于新词也属于未登录词,因此许多研究者对这两个概念不加区别,本申请中也不做明确区分。

新词识别主要任务在于候选新词提取以及垃圾字串的过滤。候选新词提取是指提取满足初步条件的字符串作为候选新词。因为汉字具有极强的构词能力,理论上任何相邻的汉字组合在一起都有成词的可能性,所以新词识别的首要步骤就是从语料中提取字符串作为候选词。为避免提取出的候选词中出现非词垃圾字符串,因此需要进行垃圾字串的过滤,即数据清洗,其中数据清洗可以采用关键词过滤、长度过滤、特定格式过滤等方式。

102、基于信息熵模型对数据中的字符串进行分词获取候选词。

具体的步骤102包括:

sa、获取数据中的字符串。

sb、计算字符串的左侧信息熵和右侧信息熵。

其中步骤sb具体为:

在这里本申请的实施例引入“自由程度”的概念,自由程度指的是对于字符串s左、右词边界的丰富程度,如果字符串s的左、右词边界比较多样,那么我们可以认为字符串s可以作为左、右词边界。例如,给定数据如下:

“目前计算机的性能有了很大提高,人们对计算机的依赖也越来越大”

字符串“计”,“计算”和“计算机”的左侧搭配的字是“前”和“对”,如果数据足够长,字符串“计算机”出现的次数足够多,就会发现在“计”,“计算”和“计算机”左侧出现的字很不确定,这样的字符串都被认为是左词边界。而对于左侧出现字比较固定的字符串,则认为它们不是左词边界。如例句中的“前计”,“的性”等只出现一次的字符串,它们左侧出现字的条件概率为1,搭配很固定;字符串“算机”出现多次,但其左侧出现的汉字都是“计”,搭配也很固定,所以它们都不是左词边界。我们通过计算字符串的信息熵来估计这种字符串搭配的不确定性:

根据公式hl(s)=-∑a∈ap(sla|s)*log(p(sla|s))(1-1)

计算字符串的左侧信息熵,其中,s表示所述字符串,hl(s)表示s的左侧信息熵,a为s左侧出现的汉字的集合,sla表示由s左侧的汉字a与s结合所构成的字符串,p(sla|s)表示所述数据中出现s的前提下,在s左侧出现汉字a的条件概率。

hl(s)反映了字符串s左侧出现汉字的平均不确定性。hl(s)越大,则s左侧搭配的汉字越不确定。

如果字符串s满足如下条件:

hl(s)>hmin(1-2)

则认为s为左词边界。

hmin为一常数,表示词边界的最小信息熵。

同理,判断字符串s是否为右词边界的方法如下:

根据公式hγ(s)=-∑b∈bp(sγb|s)*log(p(sγb|s))(1-3)

计算字符串的右侧信息熵,其中hγ(s)表示s的右侧信息熵,b是s右侧出现的汉字的集合,sγb为由s右侧的汉字b与s结合所构成的字符串,p(sγb|s)表示数据中出现s的前提下,在s的右侧出现汉字b的条件概率。

sc、根据字符串的左侧信息熵和右侧信息熵对所述数据中的字符串进行分词得到候选短语,在候选短语中确定获取候选词。

这样,根据公式(1-1)、(1-3)我们就可以从数据中抽取出那些既是左词边界又是右词边界的字符串,这些字符串就是我们所得到的词。因为这些字符串出现的频率一般比较高,至少要大于2,所以它们一般都是高频词,给定的hmin越大,这些词的频率也就越高。

步骤sc中在候选短语中确定获取候选词具体为:根据公式

对所述候选短语的字符串进行凝固程度计算,其中所述指由字符串si组成的候选短语的凝固程度,指由字符串si组成的候选短语在所述数据中出现的概率,p(si)指字符串si在所述数据中出现的概率;若确定满足预定条件,则确定所述候选短语为候选词。

通过对字符串“自由程度”的计算我们可以确定字符串的灵活程度,从而确定字符串是否能作为词边界,但是仅通过信息熵并不能够完全作为分词的依据。因此我们还需要引入“凝固程度”来对候选词串仅凭内部稳定程度的判定。举例说明,若候选短语由字符串a、b组成则公式(1-4)变换为:

nj(ab)=p(ab)/p(a)*p(b)(1-5)

其中nj(ab)是指有字符串a、b组成的候选短语,p(ab)表示由a、b组成的候选短语在数据中出现的频率,p(a)、p(b)分别表示字符串a、b在数据中出现的频率。

103、将候选词与词库中的词进行匹配获取新词。

104、按照新词的出现频率和评分进行贝叶斯平均计算,获取新词的贝叶斯平均值。

105、若确定贝叶斯平均值满足预定条件则确定新词为热点词。

其中,贝叶斯平均是与贝叶斯理论相一致的一种估计数据平均值的方法,在这种方法中并不是根据现有的数据集进行严格的平均,而是为了能够减少大偏差对结果的影响将与数据有关的存在信息也纳入到计算中来,或者是当数据集很小时直接默认一个值。

贝叶斯决策就是在不完全情报下,对部分未知的状态用主观概率估计,然后用贝叶斯公式对发生概率进行修正,最后再利用期望值和修正概率做出最优决策。如果说贝叶斯理论可以理解为一个理想情况下的理智的人如何对一个结果的可信度给出答案那么贝叶斯平均值就是根据贝叶斯理论给出的一种计算平均值的方法。贝叶斯平均值公式如下:

其中c是一个常量,与数据集的大小成正比,m是数据集的算术平均值,n是数据集的总数。

贝叶斯平均的公式并不能显而易见的说明它在计算平均值中所起到的作用,下面我们有一个例子来说明。例如购买一本关于数据挖掘的书籍,在网站上发现a、b、c三本书,书a有3人打分,平均分5.0分;书b有10个人打分,平均分4.8分;书c有50人打分,平均分为4.5分。

如果按照平均分排序,书a是最佳选择。但是平时我们都有一种感觉,很多人去买,这个东西就更可信,只有一两个人说好,可能是托。所以我们需要借助众人的智慧,也就是说越多人打分,这个产品的评分就越可信,就应当获得更高的权重。所以贝叶斯平均其实是综合了打分人数和平均分的平均方法。贝叶斯平均的特性,即能够结合次数和分数两个方面来进行排序,这在热点词汇的筛选中能够起到重要的作用。

无论是专业领域内的热点词发现还是在时间轴上的热点词发现,其中一个很重要的方法就是相互间的比对,即找出领域内或时间段前后的词汇差异,但是单纯的对词频或者比例变化的计算都不能收到很好的效果。对于频次较小的词汇,其贝叶斯平均值在整体平均分左右,而词频较大的词汇可以使贝叶斯平均值接近原来的评分,这样的计算结果符合热点词的特点,即一方面是需要有相对的变化,另一方面要保证是群体现象,即有足够的频次。

在上述方案中,热点词发现装置采集网络系统生成的数据;基于信息熵模型对数据中的字符串进行分词获取候选词;将候选词与词库中的词进行匹配获取新词;按照新词的出现频率和评分进行贝叶斯平均计算,获取新词的贝叶斯平均值;若确定贝叶斯平均值满足预定条件则确定新词为热点词;其中在热点词选取时,参考了新词的出现频率和评分的贝叶斯平均值,相对于单纯按照新词的出现频率或者比例确定热点词,能够有效地捕获热点词,以提高系统的自适应性。

如图3所示,本发明的实施例提供一种热点词发现装置,包括:

采集单元31,用于采集网络系统生成的数据;

分词单元32,用于基于信息熵模型对所述采集单元31采集的数据中的字符串进行分词获取候选词;

匹配单元33,用于将所述分词单元32获取的所述候选词与词库中的词进行匹配获取新词;

热点词获取单元34,用于按照所述匹配单元33获取的所述新词的出现频率和评分进行贝叶斯平均计算,获取所述新词的贝叶斯平均值;若确定所述贝叶斯平均值满足预定条件则确定所述新词为热点词。

在一种示例性的实现方式中,还包括:数据清洗单元35,用于对所述采集单元采集的数据进行数据清洗。

在一种示例性的实现方式中,所述热点词获取单元34具体用于:获取所述数据中的字符串;计算所述字符串的左侧信息熵和右侧信息熵;根据所述字符串的左侧信息熵和右侧信息熵对所述数据中的字符串进行分词得到候选短语,在所述候选短语中确定获取候选词。

在一种示例性的实现方式中,所述热点词获取单元34具体用于根据公式对所述候选短语的字符串进行凝固程度计算,其中所述指由字符串si组成的候选短语的凝固程度,指由字符串si组成的候选短语在所述数据中出现的概率,p(si)指字符串si在所述数据中出现的概率;若确定满足预定条件,则确定所述候选短语为候选词。

在一种示例性的实现方式中,所述热点词获取单元34具体用于根据公式hl(s)=-∑a∈ap(sla|s)*log(p(sla|s))计算字符串的左侧信息熵,其中,s表示所述字符串,hl(s)表示s的左侧信息熵,a为s左侧出现的汉字的集合,sla表示由s左侧的汉字a与s结合所构成的字符串,p(sla|s)表示所述数据中出现s的前提下,在s左侧出现汉字a的条件概率;根据公式hγ(s)=-∑b∈bp(sγb|s)*log(p(sγb|s))计算字符串的右侧信息熵,其中hγ(s)表示s的右侧信息熵,b是s右侧出现的汉字的集合,sγb为由s右侧的汉字b与s结合所构成的字符串,p(sγb|s)表示所述数据中出现s的前提下,在s的右侧出现汉字b的条件概率。

由于本申请实施例中的装置可以应用于上述热点词发现方法,因此,其所能获得的技术效果也可参考上述方法实施例,本申请实施例在此不再赘述。

需要说明的是,采集单元31、分词单元32、匹配单元33、热点词获取单元34、数据清洗单元35可以为单独设立的处理器,也可以集成在控制器的某一个处理器中实现,此外,也可以以程序代码的形式存储于控制器的存储器中,由控制器的某一个处理器调用并执行以上各单元的功能。这里所述的处理器可以是一个中央处理器(centralprocessingunit,cpu),或者是特定集成电路(applicationspecificintegratedcircuit,asic),或者是被配置成实施本申请实施例的一个或多个集成电路。

应理解,在本申请的各种实施例中,上述各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。

此外,还提供一种计算可读媒体(或介质),包括在被执行时进行上述实施例中的方法的操作的计算机可读指令。

另外,还提供一种计算机程序产品,包括上述计算机可读媒体(或介质)。

应理解,在本发明的各种实施例中,上述各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。

本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。

所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。

在本申请所提供的几个实施例中,应该理解到,所揭露的系统、设备和方法,可以通过其它的方式实现。例如,以上所描述的设备实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,设备或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(英文全称:read-onlymemory,英文简称:rom)、随机存取存储器(英文全称:randomaccessmemory,英文简称:ram)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1