文章分类方法和装置与流程

文档序号:12719444阅读:323来源:国知局
文章分类方法和装置与流程
本发明涉及文字处理
技术领域
,特别是涉及一种文章分类方法和装置。
背景技术
:文章是一种重要的信息载体,是人类思想的传播工具。文章包括各种文体的著作或者作品,如诗歌、戏剧、小说、科学论文,记叙文、议论文、说明文或者应用文。很多文章具有地域属性,比如文章内容涉及地域,或者文章作者来自于特定地域,或者文章标题涉及特定地域等等。将文章按照地域分类,可以方便用户按照地域划分来查找文章,从而高效地查找到与特定地域相关的文章。目前对文章进行分类,一般采用三种分类方式:人工分类方式、按文章来源分类方式以及基于机器学习的文章自动分类方式。其中人工分类方式是最传统的一种文章分类方式,就是通过编辑人员阅读文章进行分类。这种分类方式分类精确,但是效率太低,在信息爆炸的当下,每天都会有大量文章涌现,人工分类方式无法满足文章分类需求。按文章来源分类方式,就是按照文章的来源将文章归类到相应来源所在的地域类别,比如来源于某区域的报刊的所有文章均归类到该区域的分类。这种分类方式实现容易,但误判率太高;而且某些来源难以按照地域分类,比如来源于网络的文章,因此适用范围有限。基于机器学习的文章自动分类方式,通过大量的人工标记的文章训练出分类特征模型,然后计算待分类的文章的特征向量,利用训练好的分类特征模型对文章进行分类。这种分类方式要达到较高的分类准确性,需要海量的训练样本进行训练,每个训练样本需要经过人工标记,一般难以获取到。而且这种分类方式所需的计算资源较大,通常需要依托分布式计算来实现。因此,目前的文章分类方式或分类准确性低,或分类效率低,或消耗计算资源大,均难以满足文章分类需求。技术实现要素:基于此,有必要针对目前的分类方式所存在的上述问题,提供一种准确性高、分类效率高并且消耗计算资源小的文章分类方法和装置。一种文章分类方法,所述方法包括:获取预设的地域关键词序列;所述地域关键词序列包括地域相关的多个地域关键词;将待分类的文章进行分词处理,获得词集合;获取所述地域关键词序列中的各地域关键词相对于所述词集合的词频度;根据所述各个地域关键词的词频度获得所述文章与所述地域关键词序列的分类可信度;根据所述分类可信度获得所述文章是否属于所述地域关键词序列对应的地域类别的分类结果。一种文章分类装置,所述装置包括:地域关键词序列获取模块,用于获取预设的地域关键词序列;所述地域关键词序列包括地域相关的多个地域关键词;分词模块,用于将待分类的文章进行分词处理,获得词集合;词频度获取模块,用于获取所述地域关键词序列中的各地域关键词相对于所述词集合的词频度;分类可信度获取模块,用于根据所述各个地域关键词的词频度获得所述文章与所述地域关键词序列的分类可信度;分类模块,用于根据所述分类可信度获得所述文章是否属于所述地域关键词序列对应的地域类别的分类结果。上述文章分类方法和装置,利用待分类的文章与预设的地域关键词序列的分类可信度来进行分类,在获取分类可信度时采取分词以及地域关键词匹配的手段,计算复杂度低,消耗计算资源小,分类效率高。而且地域关键词序列中 包括了地域相关的多个地域关键词,在获得分类可信度时综合考虑了这些具有地域相关性的多个地域关键词的词频度,使得最终的分类结果更加准确和可靠。附图说明图1为一个实施例中文章推荐系统的应用环境图;图2为一个实施例中用于实现文件分类方法的服务器的结构示意图;图3为一个实施例中文章分类方法的流程示意图;图4为一个实施例中根据各个地域关键词的词频度获得文章与地域关键词序列的分类可信度的步骤的流程示意图;图5为一个实施例中文章分类装置的结构框图;图6为另一个实施例中文章分类装置的结构框图;图7为一个实施例中分类可信度获取模块的结构框图;图8为再一个实施例中文章分类装置的结构框图。具体实施方式为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。如图1所示,在一个实施例中,提供了一种文章推荐系统,包括通过网络连接的服务器101和终端102。其中服务器101可以是独立的物理服务器,也可以是物理服务器的集群。终端102包括台式计算机和移动终端,移动终端包括智能手机、平板电脑、个人数字助理(PDA)以及膝上型便携计算机中的至少一种。如图2所示,在一个实施例中,服务器101包括通过系统总线连接的处理器、非易失性存储介质、内存储器以及网络接口。其中处理器具有计算功能和控制服务器101工作的功能,该处理器被配置为执行一种文章分类方法。非易失性存储介质包括磁存储介质、光存储介质和闪存式存储介质中的至少一种,非易失性存储介质存储有操作系统和文章分类装置,该文章分类装置用于实现 一种文章分类方法。网络接口用于使服务器101连接到网络与终端102通信。如图3所示,在一个实施例中,提供了一种文章分类方法,本实施例以该方法应用于上述图1和图2中的服务器101来举例说明,在其它实施例中该方法也可以应用于一个独立的电子设备中。本实施例中该方法具体包括如下步骤:步骤302,获取预设的地域关键词序列;地域关键词序列包括地域相关的多个地域关键词。其中地域关键词序列是包括两个或多于两个的地域关键词的集合,地域关键词序列中的各个地域关键词可通过第一预设分隔符分隔开,预设分隔符比如空格、逗号或者分号等与地域关键词不相关的字符。关键词(keywords)是指可用来检索数据的词汇,地域关键词则是与地域相关的关键词,可用来检索与关键词所表示的地域相关的数据。进一步地,多个地域关键词之间地域相关,是指多个地域关键词各自所表示的地域在地理上具有相关性,地域相关包括地域从属以及地域邻近中的至少一种,也可以包括其它种类的地理相关。地域关键词之间的地域从属关系,是指相应的地域关键词所表示的地域具有地理上的从属关系,比如地域关键词“广东”和“深圳”中,“深圳”从属于“广东”;地域从属也可以称为地域包含,比如“广东”包含“深圳”。地域关键词之间的地域邻近关系,是指相应的地域关键词所表示的地域具有地理上的邻近关系,比如属于同一省或者属于同一行政地区。举例说明,对于预设的地域关键词序列“中国-广东-深圳-南山区”,包括4个地域关键词,分别为:“中国”、“广东”、“深圳”和“南山区”。其中“南山区”从属于“深圳”,“深圳”从属于“广东”,而“广东”从属于“中国”,因此这4个地域关键词是依次地域从属的关系,而且这4个地域关键词按照地域从属层级从高到低依次为:“中国”、“广东”、“深圳”以及“南山区”。再比如,对于预设的地域关键词序列“中国-广东-潮汕-汕头-揭阳-潮州”,包括6个地域关键词,分别为:“中国”、“广东”、“潮汕”、“汕头”、“揭阳”以及“潮州”。其中“潮汕”、“汕头”和“揭阳”均从属于“广东”,而“潮汕”、“汕头”和“揭阳”之间则是地域邻近关系。在一个实施例中,步骤302包括:从预设的地域关键词序列列表中获取地域关键词序列。具体地,每个预设的地域关键词序列作为地域关键词序列列表的一个条目存储在地域关键词序列列表中,各个条目之间可以用区别于第一预设分隔符的第二预设分隔符分隔开,第二预设分隔符比如回车符。服务器可以遍历地域关键词序列列表的每一条目从而获取到列表中所有的地域关键词序列。在一个实施例中,地域关键词序列列表中的地域关键词序列可按照相应的最低地域从属层级的地域关键词进行分类和/或排序。在对文章分类进行优化时,只需要调整地域关键词序列列表中的地域关键词序列即可。举例说明,预设的地域关键词序列列表的部分内容可如下表一所示:表一:地域关键词序列:对应的地域类别…………中国-广东-深圳-南山区深圳南山中国-广东-潮汕-汕头-揭阳-潮州潮汕地区…………步骤304,将待分类的文章进行分词处理,获得词集合。具体地,待分类的文章是指需要按照地域进行分类的文章,一篇文章是若干字符的集合,包括文章标题和文章正文,还可以包括文章摘要、作者描述信息以及评论信息等文章相关信息。所谓分词是指将文字序列分割成单独的词的过程,将文字分词获得一个个单独的词,构成词集合。词集合不进行去重处理。在一个实施例中,可根据待分类的文章的组成结构,将文章的不同组成部分分别进行分词处理,获得相应的组成部分的词集合。比如词集合可以包括文章标题词集合和文章正文词集合,分别是对待分类的文章的标题部分和正文部分进行分词处理后获得的相应的词集合。对文章进行分词处理,可以采用三种分词处理方式:基于字符匹配的分词处理方式、基于语义理解的分词处理方式以及基于统计的分词处理方式。其中基于字符匹配的分词处理方式是将待分词的字符串与一个充分大的机器词典中 的词条进行匹配,常用的算法有:正向最大匹配算法、逆向最大匹配算法和最少切分法。基于语义理解的分词处理方式在分词的同时进行句法语义分析以模拟人对句子的理解,需要大量的语言知识信息。基于统计的分词处理方式则是考虑到相邻的字同时出现的次数越多,越有可能构成一个词语,对语料中的字组频度进行统计,不需要切词字典,但错误率很高。可以采用基于字符匹配的分词处理方式进行关键词分词,再采用基于统计的分词处理方式识别出新词组,从而将基于字符匹配的分词处理方式和基于统计的分词处理方式相结合,提高分词准确率。在一个实施例中,步骤304之后还包括:从词集合中过滤掉属于预设的停用词表的词,停用词表最好不包括涉及地域的词。在信息检索中,为节省存储空间和提高检索效率,在处理自然语言数据之前或之后会自动过滤掉某些字或词,这些被过滤的字或词即被称为停用词(StopWords)。停用词表可以包括连接词、标点符号以及语气词等。本实施实例中采用停用词表对词集合进行过滤,可以提高对文章按地域分类的效率。步骤306,获取地域关键词序列中的各地域关键词相对于词集合的词频度。具体地,所谓词频度是指反映词在特定的字符集合中出现频率的量化度量。对于地域关键词序列中的每一个地域关键词,需获得该地域关键词相对于上述词集合的词频度,这里的词集合应当是采用停用词表过滤前的词集合。地域关键词相对于词集合的词频度,也就是相应地域关键词相对于待分类的文章的词频度,反映的是相应的地域关键词在待分类的文章中出现的频率。在一个实施例中,步骤306包括:根据地域关键词序列中的各地域关键词在词集合中出现的次数与相应地域关键词的字数占文章总字数比例的乘积获得相应地域关键词的词频度。具体地,可以先统计出地域关键词序列中的每个地域关键词在词集合中出现的次数,并获取每个地域关键词的字数以及文章总字数,从而对于每个地域关键词,将统计的相应的次数乘以地域关键词的字数再除以文章总字数,便可以获得每个地域关键词相对于词集合的词频度,也就是每个地域关键词相对于待分类的文章的词频度。其中统计文章总字数时可以过滤掉标点符号,文章总 字数可以等于词集合中所有词的字数的和。具体可以采用下述公式(1)来计算地域关键词序列中的各地域关键词相对于词集合的词频度:公式(1)公式(1)中,fi为地域关键词序列中第i个地域关键词相对于文章的词频度,为地域关键词序列中第i个地域关键词在文章中出现的次数,为地域关键词序列中第i个地域关键词的字数,wtotal为文章总字数,n为地域关键词序列中地域关键词的总数量。在一个实施例中,步骤306包括:根据地域关键词序列中的各地域关键词在词集合中出现的次数占词集合中总词数的比例获得相应地域关键词的词频度。具体地,可以采用以下公式(2)来计算地域关键词序列中的各地域关键词相对于词集合的词频度:公式(2)公式(2)中fi为地域关键词序列中第i个地域关键词相对于文章的词频度,为地域关键词序列中第i个地域关键词在文章中出现的次数,Ctotal为文章总次数即词集合中总次数,n为地域关键词序列中地域关键词的总数量。上述利用公式(1)和公式(2)均可以计算词频度,考虑到文章的长度是不可控的,词频度与词的出现次数相比更能够反映出相应的地域关键词在对文章按地域分类时的重要性。公式(1)比公式(2)更加精确,公式(2)则计算更为简单,可根据实际需求选择合适的公式来计算词频度。步骤308,根据各个地域关键词的词频度获得文章与地域关键词序列的分类可信度。具体地,文章与地域关键词序列的分类可信度,是指将文章划分到该地域关键词序列对应的地域类别的可信程度的量化度量。各个地域关键词的词频度就是地域关键词序列中各个地域关键词相对于词集合的词频度,各个地域关键 词的词频度与分类可信度正相关。所谓正相关是指自变量增长因变量也随着增长,即分类可信度随着各个地域关键词的词频度的增大而增大,减小而减小。可将各个地域关键词的词频度代入用于进行正相关运算的第一预设函数来获得分类可信度,其中第一预设函数的每个自变量均与因变量正相关,且自变量的数量自适应地与地域关键词序列中的地域关键词的数量相等。第一预设函数可以是求和函数、求平均函数、加权求和函数或者加权求平均函数中的任意一种。步骤310,根据分类可信度获得文章是否属于地域关键词序列对应的地域类别的分类结果。具体地,可判断分类可信度是否大于预设阈值,若是则将文章分类到该地域关键词序列对应的地域类别;若否,则可以不分类,并继续处理地域关键词序列列表中的下一个地域关键词序列。该预设阈值是预先通过统计分析若干样本而获得的一个基准值,当分类可信度大于预设阈值时,表示文章被分类到地域关键词序列对应的地域类别的可信程度很高,可以直接获得文章的一个分类结果。文章可以被分到一个或多个地域类别。在一个实施例中,可以将地域关键词序列列表中可计算出分类可信度的地域关键词序列的分类可信度进行比较,找出最大的分类可信度,将文章划分到该最大的分类可信度对应的地域关键词序列所对应的地域类别。可计算出分类可信度的地域关键词序列,是指地域关键词序列中至少有一个地域关键词在文章中出现过至少一次;若地域关键词序列中所有地域关键词均没有在文章中出现过,则可称该地域关键词序列为无法计算分类可信度的地域关键词序列。上述文章分类方法,利用待分类的文章与预设的地域关键词序列的分类可信度来进行分类,在获取分类可信度时采取分词以及地域关键词匹配的手段,计算复杂度低,消耗计算资源小,分类效率高。而且地域关键词序列中包括了地域相关的多个地域关键词,在获得分类可信度时综合考虑了这些具有地域相关性的多个地域关键词的词频度,使得最终的分类结果更加准确和可靠。在一个实施例中,词集合包括文章标题词集合和文章正文词集合;且步骤308包括:根据各个地域关键词相对于文章标题词集合的词频度以及相对于文章 正文词集合的词频度,计算文章与地域关键词序列的分类可信度;各个地域关键词相对于文章标题词集合的词频度和相对于文章正文词集合的词频度均与分类可信度正相关。具体地,可综合地域关键词序列中各个地域关键词相对于文章标题词集合的词频度以及地域关键词序列中各个地域关键词相对于文章正文词集合的词频度,来计算文章与地域关键词序列的分类可信度。进一步地,可先将各个地域关键词相对于文章标题词集合的词频度进行正相关运算得到第一中间值,并将各个地域关键词相对于文章正文词集合的词频度进行正相关运算得到第二中间值,将第一中间值和第二中间值进行正相关运算得到分类可信度,使得各个地域关键词相对于文章标题词集合的词频度和相对于文章正文词集合的词频度均与分类可信度正相关。进行正相关运算具体可求和、求平均、加权求和或者加权求平均。本实施例中,将文章分为文章标题和文章正文,并分别统计词频度,可以使得计算出的分类可信度更加精确,使得最终的分类结果更加准确。在一个实施例中,可分别对文章的各组成部分分别进行分词处理获得相应的词集合,在步骤308中可根据各个地域关键词相对于文章的各个组成部分的词集合的词频度来计算分类可信度。如图4所示,在一个实施例中,步骤308具体包括如下步骤:步骤402,计算各个地域关键词相对于文章标题词集合的词频度的第一加权和。具体地,可将各个地域关键词相对于文章标题词集合的词频度,分别乘以相应地域关键词的用于计算第一加权和的权重后相加,获得第一加权和。其中各个地域关键词的用于计算第一加权和的权重可以记录在地域关键词序列列表中,也可以独立于地域关键词序列列表单独记录在另一个数据表中。地域关键词序列中的各个地域关键词的用于计算第一加权和的权重可以构成权重序列,且其中权重的次序与地域关键词序列中的各个地域关键词的次序一致。步骤404,计算各个地域关键词相对于文章正文词集合的词频度的第二加权和。具体地,可将各个地域关键词相对于文章正文词集合的词频度,分别乘以相应地域关键词的用于计算第二加权和的权重后相加,获得第二加权和。其中各个地域关键词的用于计算第二加权和的权重可以记录在地域关键词序列列表中,也可以独立于地域关键词序列列表单独记录在另一个数据表中。地域关键词序列中的各个地域关键词的用于计算第二加权和的权重可以构成权重序列,且其中权重的次序与地域关键词序列中的各个地域关键词的次序一致。步骤406,根据第一加权和及第二加权和计算文章与地域关键词序列的分类可信度;第一加权和及第二加权和均与分类可信度正相关。具体地,可将第一加权和与第二加权和进行正相关运算得到分类可信度,从而使得第一加权和及第二加权和均与分类可信度正相关。进行正相关运算具体可求和、求平均、加权求和或者加权求平均。在一个实施例中,可采用以下公式(3)来计算文章与地域关键词序列的分类可信度T:公式(3)其中,f1i为地域关键词序列中第i个地域关键词相对于文章标题的词频度,λ1i为地域关键词序列中第i个地域关键词的用于计算第一加权和的权重,为第一加权和;f2i为地域关键词序列中第i个地域关键词相对于文章正文的词频度,λ2i为地域关键词序列中第i个地域关键词的用于计算第二加权和的权重,为第二加权和;n为地域关键词序列中地域关键词的总数量。本实施例中,将文章分为文章标题和文章正文,并分别统计词频度,可以使得加权求和计算出的分类可信度更加精确,使得最终的分类结果更加准确。在一个实施例中,地域关键词序列中的各个地域关键词的用于计算第二加权和的权重,在相应的地域关键词相对于文章标题词集合的词频度等于0时的值,小于该权重在相应的地域关键词相对于文章标题词集合的词频度大于0时的值。具体地,地域关键词序列中的各个地域关键词的用于计算第二加权和的权重,也就是在计算第二加权和时相应的地域关键词相对于文章正文词集合的词频度的权重。具体可以用以下公式(4)表示:且δi>0,θ>1。其中,λ1i为地域关键词序列中第i个地域关键词的用于计算第一加权和的权重,f2i为地域关键词序列中第i个地域关键词相对于文章正文的词频度,δi和θ为常量。当文章标题中不存在第i个地域关键词时,f2i=0;当文章标题中存在第i个地域关键词时,f2i>0。本实施例中,根据文章标题中是否存在地域关键词,进而将相应的地域关键词在计算分类可信度时的权重作出动态的调整,具体当文章标题中存在地域关键词时,相应地域关键词在计算分类可信度时的重要性增加。这样突出了文章标题中地域词的作用,而文章标题中的地域词通常在将文章按地域进行分类时具有重要作用,使得最终的分类结果更加准确。在一个实施例中,地域关键词序列所包括的多个地域关键词之间具有地域从属关系,且地域关键词在地域关键词序列中的地域从属层级越低则相应的用于计算第一加权和或者第二加权和的权重越大。具体地,地域关键词序列中地域关键词的地域从属层级,表示的是相应的地域关键词所表示的地域包含或者从属的属性大小,也反映了相应的地域关键词所表示的地域大小,地域从属层级越高,表示的地域越大;地域从属层级越小,表示的地域越小。地域关键词在地域关键词序列中的地域从属层级越低,则相应的用于计算第一加权和或者第二加权和的权重越大;地域关键词在地域关键词序列中的地域从属层级越高,则相应的用于计算第一加权和或者第二加权和的权重越小。本实施例中,地域关键词序列所包括的多个地域关键词之间具有地域从属关系,而且地域从属层级越低在计算第一加权和或者第二加权和时的权重越大。考虑到越具体、所表示地域越小的地域关键词如果出现在文章中,则该文章被分类到该地域关键词所属序列对应的地域类别的可能性越大,分类准确性越高。在一个实施例中,该文章分类方法还包括:获取具有与文章所属的地域类别相同的地域类别的属性的用户标识,并向获取的用户标识所对应的终端推送文章。其中用户标识所具有的上述地域类别的属性,可由用户设定或者通过用户的阅读历史记录分析出。此时该文章分类方法可以称之为文章推荐方法。如图5所示,在一个实施例中,提供了一种文章分类装置500,包括地域关键词序列获取模块510、分词模块520、词频度获取模块530、分类可信度获取模块540和分类模块550。地域关键词序列获取模块510,用于获取预设的地域关键词序列;地域关键词序列包括地域相关的多个地域关键词。其中地域关键词序列是包括两个或多于两个的地域关键词的集合,地域关键词序列中的各个地域关键词可通过第一预设分隔符分隔开,预设分隔符比如空格、逗号或者分号等与地域关键词不相关的字符。关键词是指可用来检索数据的词汇,地域关键词则是与地域相关的关键词,可用来检索与关键词所表示的地域相关的数据。进一步地,多个地域关键词之间地域相关,是指多个地域关键词各自所表示的地域在地理上具有相关性,地域相关包括地域从属以及地域邻近中的至少一种,也可以包括其它种类的地理相关。地域关键词之间的地域从属关系,是指相应的地域关键词所表示的地域具有地理上的从属关系,比如地域关键词“广东”和“深圳”中,“深圳”从属于“广东”;地域从属也可以称为地域包含,比如“广东”包含“深圳”。地域关键词之间的地域邻近关系,是指相应的地域关键词所表示的地域具有地理上的邻近关系,比如属于同一省或者属于同一行政地区。举例说明,对于预设的地域关键词序列“中国-广东-深圳-南山区”,包括4个地域关键词,分别为:“中国”、“广东”、“深圳”和“南山区”。其中“南山区”从属于“深圳”,“深圳”从属于“广东”,而“广东”从属于“中国”,因此这4个地域关键词是依次地域从属的关系,而且这4个地域关键词按照地域从属层级从高到低依次为:“中国”、“广东”、“深圳”以及“南山区”。再比如,对于预设的地域关键词序列“中国-广东-潮汕-汕头-揭阳-潮州”,包括6个地域关键词,分别为:“中国”、“广东”、“潮汕”、“汕头”、“揭阳”以及“潮州”。其中“潮汕”、“汕头”和“揭阳”均从属于“广东”,而“潮汕”、“汕头”和“揭阳”之间则是地域邻近关系。在一个实施例中,地域关键词序列获取模块510具体用于从预设的地域关键词序列列表中获取地域关键词序列。具体地,每个预设的地域关键词序列作为地域关键词序列列表的一个条目存储在地域关键词序列列表中,各个条目之间可以用区别于第一预设分隔符的第二预设分隔符分隔开,第二预设分隔符比如回车符。服务器可以遍历地域关键词序列列表的每一条目从而获取到列表中所有的地域关键词序列。在一个实施例中,地域关键词序列列表中的地域关键词序列可按照相应的最低地域从属层级的地域关键词进行分类和/或排序。分词模块520,用于将待分类的文章进行分词处理,获得词集合。具体地,待分类的文章是指需要按照地域进行分类的文章,一篇文章是若干字符的集合,包括文章标题和文章正文,还可以包括文章摘要、作者描述信息以及评论信息等文章相关信息。所谓分词是指将文字序列分割成单独的词的过程,将文字分词获得一个个单独的词,构成词集合。词集合不进行去重处理。在一个实施例中,分词模块520可用于根据待分类的文章的组成结构,将文章的不同组成部分分别进行分词处理,获得相应的组成部分的词集合。比如词集合可以包括文章标题词集合和文章正文词集合,分别是分词模块520对待分类的文章的标题部分和正文部分进行分词处理后获得的相应的词集合。分词模块520可用于采用三种分词处理方式对文章进行分词处理:基于字符匹配的分词处理方式、基于语义理解的分词处理方式以及基于统计的分词处理方式。其中基于字符匹配的分词处理方式是将待分词的字符串与一个充分大的机器词典中的词条进行匹配,常用的算法有:正向最大匹配算法、逆向最大匹配算法和最少切分法。基于语义理解的分词处理方式在分词的同时进行句法语义分析以模拟人对句子的理解,需要大量的语言知识信息。基于统计的分词处理方式则是考虑到相邻的字同时出现的次数越多,越有可能构成一个词语, 对语料中的字组频度进行统计,不需要切词字典,但错误率很高。可以采用基于字符匹配的分词处理方式进行关键词分词,再采用基于统计的分词处理方式识别出新词组,从而将基于字符匹配的分词处理方式和基于统计的分词处理方式相结合,提高分词准确率。词频度获取模块530,用于获取地域关键词序列中的各地域关键词相对于词集合的词频度。具体地,所谓词频度是指反映词在特定的字符集合中出现频率的量化度量。对于地域关键词序列中的每一个地域关键词,需获得该地域关键词相对于上述词集合的词频度,这里的词集合应当是采用停用词表过滤前的词集合。地域关键词相对于词集合的词频度,也就是相应地域关键词相对于待分类的文章的词频度,反映的是相应的地域关键词在待分类的文章中出现的频率。分类可信度获取模块540,用于根据各个地域关键词的词频度获得文章与地域关键词序列的分类可信度。具体地,文章与地域关键词序列的分类可信度,是指将文章划分到该地域关键词序列对应的地域类别的可信程度的量化度量。各个地域关键词的词频度就是地域关键词序列中各个地域关键词相对于词集合的词频度,各个地域关键词的词频度与分类可信度正相关。所谓正相关是指自变量增长因变量也随着增长,即分类可信度随着各个地域关键词的词频度的增大而增大,减小而减小。分类可信度获取模块540可用于将各个地域关键词的词频度代入用于进行正相关运算的第一预设函数来获得分类可信度,其中第一预设函数的每个自变量均与因变量正相关,且自变量的数量自适应地与地域关键词序列中的地域关键词的数量相等。第一预设函数可以是求和函数、求平均函数、加权求和函数或者加权求平均函数中的任意一种。分类模块550,用于根据分类可信度获得文章是否属于地域关键词序列对应的地域类别的分类结果。具体地,分类模块550可用于判断分类可信度是否大于预设阈值,若是则将文章分类到该地域关键词序列对应的地域类别;若否,则可以不分类,并继续处理地域关键词序列列表中的下一个地域关键词序列。该预设阈值是预先通 过统计分析若干样本而获得的一个基准值,当分类可信度大于预设阈值时,表示文章被分类到地域关键词序列对应的地域类别的可信程度很高,可以直接获得文章的一个分类结果。文章可以被分到一个或多个地域类别。在一个实施例中,分类模块550可以用于将地域关键词序列列表中可计算出分类可信度的地域关键词序列的分类可信度进行比较,找出最大的分类可信度,将文章划分到该最大的分类可信度对应的地域关键词序列所对应的地域类别。可计算出分类可信度的地域关键词序列,是指地域关键词序列中至少有一个地域关键词在文章中出现过至少一次;若地域关键词序列中所有地域关键词均没有在文章中出现过,则可称该地域关键词序列为无法计算分类可信度的地域关键词序列。上述文章分类装置500,利用待分类的文章与预设的地域关键词序列的分类可信度来进行分类,在获取分类可信度时采取分词以及地域关键词匹配的手段,计算复杂度低,消耗计算资源小,分类效率高。而且地域关键词序列中包括了地域相关的多个地域关键词,在获得分类可信度时综合考虑了这些具有地域相关性的多个地域关键词的词频度,使得最终的分类结果更加准确和可靠。如图6所示,在一个实施例中,文章分类装置500还包括过滤模块560,用于从词集合中过滤掉属于预设的停用词表的词,停用词表最好不包括涉及地域的词。在信息检索中,为节省存储空间和提高检索效率,在处理自然语言数据之前或之后会自动过滤掉某些字或词,这些被过滤的字或词即被称为停用词。停用词表可以包括连接词、标点符号以及语气词等。本实施实例中采用停用词表对词集合进行过滤,可以提高对文章按地域分类的效率。在一个实施例中,词频度获取模块530具体用于根据地域关键词序列中的各地域关键词在词集合中出现的次数与相应地域关键词的字数占文章总字数比例的乘积获得相应地域关键词的词频度。具体地,词频度获取模块530可以先统计出地域关键词序列中的每个地域关键词在词集合中出现的次数,并获取每个地域关键词的字数以及文章总字数,从而对于每个地域关键词,将统计的相应的次数乘以地域关键词的字数再除以文章总字数,便可以获得每个地域关键词相对于词集合的词频度,也就是每个 地域关键词相对于待分类的文章的词频度。其中统计文章总字数时可以过滤掉标点符号,文章总字数可以等于词集合中所有词的字数的和。具体词频度获取模块530可用于采用下述公式(1)来计算地域关键词序列中的各地域关键词相对于词集合的词频度:公式(1)公式(1)中,fi为地域关键词序列中第i个地域关键词相对于文章的词频度,为地域关键词序列中第i个地域关键词在文章中出现的次数,为地域关键词序列中第i个地域关键词的字数,wtotal为文章总字数,n为地域关键词序列中地域关键词的总数量。在一个实施例中,词频度获取模块530具体用于根据地域关键词序列中的各地域关键词在词集合中出现的次数占词集合中总词数的比例获得相应地域关键词的词频度。具体地,词频度获取模块530可以采用以下公式(2)来计算地域关键词序列中的各地域关键词相对于词集合的词频度:公式(2)公式(2)中fi为地域关键词序列中第i个地域关键词相对于文章的词频度,为地域关键词序列中第i个地域关键词在文章中出现的次数,Ctotal为文章总次数即词集合中总次数,n为地域关键词序列中地域关键词的总数量。上述利用公式(1)和公式(2)均可以计算词频度,考虑到文章的长度是不可控的,词频度与词的出现次数相比更能够反映出相应的地域关键词在对文章按地域分类时的重要性。公式(1)比公式(2)更加精确,公式(2)则计算更为简单,可根据实际需求选择合适的公式来计算词频度。在一个实施例中,词集合包括文章标题词集合和文章正文词集合;分类可信度获取模块540具体用于根据各个地域关键词相对于文章标题词集合的词频度以及相对于文章正文词集合的词频度,计算文章与地域关键词序列的分类可信度;各个地域关键词相对于文章标题词集合的词频度和相对于文章正文词集 合的词频度均与分类可信度正相关。具体地,分类可信度获取模块540可综合地域关键词序列中各个地域关键词相对于文章标题词集合的词频度以及地域关键词序列中各个地域关键词相对于文章正文词集合的词频度,来计算文章与地域关键词序列的分类可信度。进一步地,分类可信度获取模块540可先将各个地域关键词相对于文章标题词集合的词频度进行正相关运算得到第一中间值,并将各个地域关键词相对于文章正文词集合的词频度进行正相关运算得到第二中间值,将第一中间值和第二中间值进行正相关运算得到分类可信度,使得各个地域关键词相对于文章标题词集合的词频度和相对于文章正文词集合的词频度均与分类可信度正相关。进行正相关运算具体可求和、求平均、加权求和或者加权求平均。本实施例中,将文章分为文章标题和文章正文,并分别统计词频度,可以使得计算出的分类可信度更加精确,使得最终的分类结果更加准确。在一个实施例中,分词模块520可分别对文章的各组成部分分别进行分词处理获得相应的词集合,分类可信度获取模块540可根据各个地域关键词相对于文章的各个组成部分的词集合的词频度来计算分类可信度。如图7所示,在一个实施例中,分类可信度获取模块540包括:第一加权和模块541、第二加权和模块542和计算模块543。第一加权和模块541,用于计算各个地域关键词相对于文章标题词集合的词频度的第一加权和。具体地,第一加权和模块541可用于将各个地域关键词相对于文章标题词集合的词频度,分别乘以相应地域关键词的用于计算第一加权和的权重后相加,获得第一加权和。其中各个地域关键词的用于计算第一加权和的权重可以记录在地域关键词序列列表中,也可以独立于地域关键词序列列表单独记录在另一个数据表中。地域关键词序列中的各个地域关键词的用于计算第一加权和的权重可以构成权重序列,且其中权重的次序与地域关键词序列中的各个地域关键词的次序一致。第二加权和模块542,用于计算各个地域关键词相对于文章正文词集合的词频度的第二加权和。具体地,第二加权和模块542可用于将各个地域关键词相对于文章正文词集合的词频度,分别乘以相应地域关键词的用于计算第二加权和的权重后相加,获得第二加权和。其中各个地域关键词的用于计算第二加权和的权重可以记录在地域关键词序列列表中,也可以独立于地域关键词序列列表单独记录在另一个数据表中。地域关键词序列中的各个地域关键词的用于计算第二加权和的权重可以构成权重序列,且其中权重的次序与地域关键词序列中的各个地域关键词的次序一致。计算模块543,用于根据第一加权和及第二加权和计算文章与地域关键词序列的分类可信度;第一加权和及第二加权和均与分类可信度正相关。具体地,计算模块543可用于将第一加权和与第二加权和进行正相关运算得到分类可信度,从而使得第一加权和及第二加权和均与分类可信度正相关。进行正相关运算具体可求和、求平均、加权求和或者加权求平均。在一个实施例中,计算模块543可用于采用以下公式(3)来计算文章与地域关键词序列的分类可信度T:公式(3)其中,f1i为地域关键词序列中第i个地域关键词相对于文章标题的词频度,λ1i为地域关键词序列中第i个地域关键词的用于计算第一加权和的权重,为第一加权和;f2i为地域关键词序列中第i个地域关键词相对于文章正文的词频度,λ2i为地域关键词序列中第i个地域关键词的用于计算第二加权和的权重,为第二加权和;n为地域关键词序列中地域关键词的总数量。本实施例中,将文章分为文章标题和文章正文,并分别统计词频度,可以使得加权求和计算出的分类可信度更加精确,使得最终的分类结果更加准确。在一个实施例中,地域关键词序列中的各个地域关键词的用于计算第二加权和的权重,在相应的地域关键词相对于文章标题词集合的词频度等于0时的值,小于该权重在相应的地域关键词相对于文章标题词集合的词频度大于0时 的值。具体地,地域关键词序列中的各个地域关键词的用于计算第二加权和的权重,也就是在计算第二加权和时相应的地域关键词相对于文章正文词集合的词频度的权重。具体可以用以下公式(4)表示:且δi>0,θ>1。其中,λ1i为地域关键词序列中第i个地域关键词的用于计算第一加权和的权重,f2i为地域关键词序列中第i个地域关键词相对于文章正文的词频度,δi和θ为常量。当文章标题中不存在第i个地域关键词时,f2i=0;当文章标题中存在第i个地域关键词时,f2i>0。本实施例中,根据文章标题中是否存在地域关键词,进而将相应的地域关键词在计算分类可信度时的权重作出动态的调整,具体当文章标题中存在地域关键词时,相应地域关键词在计算分类可信度时的重要性增加。这样突出了文章标题中地域词的作用,而文章标题中的地域词通常在将文章按地域进行分类时具有重要作用,使得最终的分类结果更加准确。在一个实施例中,地域关键词序列所包括的多个地域关键词之间具有地域从属关系,且地域关键词在地域关键词序列中的地域从属层级越低则相应的用于计算第一加权和或者第二加权和的权重越大。具体地,地域关键词序列中地域关键词的地域从属层级,表示的是相应的地域关键词所表示的地域包含或者从属的属性大小,也反映了相应的地域关键词所表示的地域大小,地域从属层级越高,表示的地域越大;地域从属层级越小,表示的地域越小。地域关键词在地域关键词序列中的地域从属层级越低,则相应的用于计算第一加权和或者第二加权和的权重越大;地域关键词在地域关键词序列中的地域从属层级越高,则相应的用于计算第一加权和或者第二加权和的权重越小。本实施例中,地域关键词序列所包括的多个地域关键词之间具有地域从属关系,而且地域从属层级越低在计算第一加权和或者第二加权和时的权重越大。考虑到越具体、所表示地域越小的地域关键词如果出现在文章中,则该文章被 分类到该地域关键词所属序列对应的地域类别的可能性越大,分类准确性越高。如图8所示,在一个实施例中,该文章分类装置500还包括推荐模块570,用于获取具有与文章所属的地域类别相同的地域类别的属性的用户标识,并向获取的用户标识所对应的终端推送文章。其中用户标识所具有的上述地域类别的属性,可由用户设定或者通过用户的阅读历史记录分析出。此时该文章分类装置500可以称之为文章推荐装置。本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-OnlyMemory,ROM)等非易失性存储介质,或随机存储记忆体(RandomAccessMemory,RAM)等。以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。当前第1页1 2 3 
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1