一种给文章标注标签的方法和装置与流程

文档序号:11677662阅读:211来源:国知局
一种给文章标注标签的方法和装置与流程

本发明涉及信息处理技术领域,具体而言涉及一种给文章标注标签的方法和装置。



背景技术:

随着通信网络的推广和智能终端的普及,人们越来越习惯使用电子产品进行阅读。例如,在电子计算机上登录新闻网站或者小说网站阅读各种新闻或小说,也可以登录网上图书馆来阅读各种图书。再例如,使用智能手机或平板电脑等智能移动终端上安装的第三方应用来实现阅读,如新闻类的“今日头条”、小说类的“书旗小说”、还有其它期刊类的app等等。

无论是在电子计算机上登录新闻网站或者小说或期刊网站等阅读各种新闻或小说或论文等,还是使用提供阅读功能的第三方应用来进行阅读,都需要对大量的新闻内容进行归类整合,对大量的小说或论文进行归类整合,把整合好的数据作为基础数据,这样方便根据内容类别进行展示,或基于用户兴趣进行推荐。

在对新闻、小说或论文等文章归类整合的过程中,很多文章都来自于外部数据源,这些文章没有任何分类信息或标签信息,如何对这些文章进行归类是一件棘手的事情。传统的方法是通过运营人员根据经验判断文章属于那一类别。这种方法的缺陷有两个:

1、需要耗费巨大的人力成本。对于加入的每一个新文章,尤其是即时性很强的新闻类文章,运营人员需要快速阅读该文章,然后将其归类到已有类别。

2、效率低、成本高,对于专业性很强的文章需要专业人员来判断。依靠人工来一篇一篇归类,效率低;并且对于专业性很强的文章,例如经济、理财、投资等新闻,内容很相似,需要专业人员来判断才能保证正确分类,这会带来高成本。



技术实现要素:

本发明的目的在于提供一种给文章标注标签的方法和装置,以改善上述问题。

本发明实施例提供了一种给文章标注标签的方法,其包括:

从已有文章资源库里的所有文章里提取出多个关键词,建立关键词库,该关键词库包括但不限于:多个关键词,每个关键词在已有文章资源库里的每篇文章里出现的词频;

确定所述关键词库里的每个关键词对预先已建立的标签库里的每个标签的第一权重;

基于获得的所述第一权重和所述每个关键词的词频确定所述标签库里的每个标签对已有文章资源库里的每篇文章的第二权重;

基于所获得的第二权重按预定方式选取一定数量的标签给相应的文章标注上。

本发明实施例还提供一种给文章标注标签的装置,其包括:

关键词库建立单元,用于从已有文章资源库里的所有文章里提取出多个关键词,建立关键词库,该关键词库包括但不限于:多个关键词,每个关键词在已有文章资源库里的每篇文章里出现的词频;

第一权重确定单元,用于确定所述关键词库里的每个关键词对预先已建立的标签库里的每个标签的第一权重;

第二权重确定单元,用于基于获得的所述第一权重和所述每个关键词的词频确定所述标签库里的每个标签对已有文章资源库里的每篇文章的第二权重;

标签标注单元,用于基于所获得的第二权重按预定方式选取一定数量的标签给相应的文章标注上。

其中,建立关键词库的过程包括:

首先,使用分词技术从已有文章资源库里的所有文章里提取出多个分词词语,建立分词词语库;

接着,确定分词词语库里的每个分词词语的分辨率:

其中:

si表示分词词语i的分辨率;

θ为自定义的一个小数;

pl,i表示分词词语库里的分词词语i在已有文章资源库里的文章l中的词频,如果分词词语i没有出现在文章l中则pl,i=0;

|l|表示已有文章资源库里的所有文章的总数量;

pct([pl,i]l∈l,θ,1)表示将数组pl里的元素按数值大小做降序排列并且对排名在θ分位到最后1位的多个元素数值进行累加求和;

pct([pl,i]l∈l,0,θ)表示将数组pl里的元素按数值大小做降序排列并且对排名在第1位到第θ分位的多个元素数值进行累加求和;

l表示已有文章资源库里的所有文章的集合;

最后,根据所述分辨率按预设方式选取一定数量的词语作为多个关键词。

其中,确定所述第一权重的方法如下:

其中:

twt,w表示关键词库里的关键词w对预先已建立的标签库里的标签t的第一权重,如果标签t的文字内容里没有关键词w时twt,w为0;

pltl,t表示标签库里的标签t在已有文章资源库里的文章l里出现的词频;

plwl,w表示关键词库里的关键词w在已有文章资源库里的文章l里出现的词频;

|l|表示已有文章资源库里的所有文章的总数量;

l表示已有文章资源库里的所有文章的集合。

其中,确定所述标签对文章的第二权重的方法如下:

其中:

lpl,t表示预先已建立的标签库中的标签t对已有文章资源库里的文章l的第二权重;

twt,w表示关键词库里的关键词w对预先已建立的标签库里的标签t的第一权重,如果标签t的文字内容里没有关键词w则twt,w为0;

plwl,w表示关键词库里的关键词w在已有文章资源库里的文章l里出现的词频;

n为关键词库里的关键词的总数量。

优选的,对所述标签对文章的第二权重进行标准化处理以获得所述标签对文章的相对第二权重,方法如下:

其中:

lpcl,t表示预先已建立的标签库中的标签t对已有文章资源库里的文章l的相对第二权重;

lpl,t表示预先已建立的标签库中的标签t对已有文章资源库里的文章l的第二权重;

表示预先已建立的标签库中的标签t对已有文章资源库里的文章l的平均权重;

|l|表示已有文章资源库里的所有文章的总数量。

优选的,基于所获得的第二权重按预定方式选取一定数量的标签给相应的文章标注上的过程包括:根据第二权重的大小顺序选取一定数量的标签给相应的文章标注上,或者选择大于预设阈值的1个或多个第二权重所对应的1个或多个标签给相应的文章标注上。

根据本发明的一种给文章标注标签的方法和装置,通过建立标签库里的标签与文章之间的关联性,能够实现对来自外部数据源的新文章或者没有标签的文章自动标注上合适的标签,每个标签代表一个分类,或者多个标签指向一个分类,由此可以节省巨大的人力成本、使人工操作的低效率得到大幅度提升、大大降低运营成本。

附图说明

图1是本发明实施例提供的给文章标注标签的方法的流程图;

图2是本发明实施例提供的给文章标注标签的装置的示意性框图。

具体实施方式

下面将结合本发明实施例和附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。

图1是本发明实施例提供的给文章标注标签的方法的流程图。如图1所示,本发明的给文章标注标签的方法包括以下步骤:

s1:从已有文章资源库里的所有文章里提取出多个关键词,建立关键词库,该关键词库包括但不限于:多个关键词,每个关键词在已有文章资源库里的每篇文章里出现的词频。

提供用于在电子产品上进行文章阅读的网络服务商都会在服务器上建立文章资源库,以供用户使用计算机或智能终端等电子产品在线阅读或者下载到终端上阅读。这里所述的文章泛指各种可以进行文字阅读的书籍,包括但不限于:各种类型的小说、论文、期刊、各类学科的教科书、用于考试的各类辅导书、习题集等等。另外,为了管理方便,服务商也可以为建立多个文章资源库,例如针对小说类建立小说书籍资源库,针对论文和期刊等建立期刊资源库,针对教科书、辅导书和习题集等书籍建立专门的资源库,针对新闻资讯等文章建立资源库,这些可以根据资源管理策略由服务商自行制定,而不在本发明的讨论范围之内,这里统一称为文章资源库。

为了能够给文章自动标上标签,首先需要从已有文章资源库里的所有文章里提取出多个关键词,建立关键词库。实现这一步骤的具体方法如下:

首先,使用分词技术从已有文章资源库里的所有文章里提取出多个分词词语,建立分词词语库。

如上所述,在提供电子阅读的多个第三方应用的服务商都会在服务器上预先建立文章资源库,在资源库里保存所有文章,这是本领域技术人员常用方法,这里不多赘述。采用公知的任何分词技术来对已有文章资源库里的每一篇文章提取出多个分词词语,对这些分词词语建立分词词语库。该分词词语库可以包括但不限于:1、每个分词词语与每篇文章的关联性,即每个分词词语都来自于哪些文章;2、每个分词词语在每篇文章里的词频。

接着,确定分词词语库里的每个分词词语的分辨率:

其中:

si表示分词词语i的分辨率;

θ为自定义的一个小数,在实践中根据标签的数量取值为

|t|表示已有标签库里的所有标签的总数量;

pl,i表示分词词语库里的分词词语i在已有文章资源库里的文章l中的词频,如果分词词语i没有出现在文章l中则pl,i=0;

|l|表示已有文章资源库里的所有文章的总数量。

设p为一实数数组,α和β为[0,1]的实数,其中α<β,定义函数pct(p,α,β)表示对数组p的元素按数值大小做降序排序,对排名在α分位到β分位之间的多个元素的数值进行累加求和。注意:因为0≤α<β≤1,所以α和β的取值位数要小于数组元素的数量,例如数组元素的数量为1000,α和β的取值位数小于4位,即小数点后面只能取1-3位的位数。在执行分位时需要先将α和β扩大10n倍以整数化,n根据α和β的位数取值,然后从按元素数值大小降序排序的数组元素中选取α*10n的位置到β*10n的位置之间的多个元素数值,然后累加求和。例如,函数pct(p,α,β),数值p的元素有1万个,α=0.324,β=0.8792,则α*103=324,β*104=8792,这样从按元素数值大小降序排列的1到1万个数组元素里选取第324位置上的元素-第8792位置上的8469个元素,对这8469个元素的数值进行累加求和。

由上述可知:

pct([pl,i]l∈l,θ,1)表示将数组pl里的元素按数值大小做降序排列并且对排名在θ分位到最后1位的多个元素数值进行累加求和;

pct([pl,i]l∈l,0,θ)表示将数组pl里的元素按数值大小做降序排列并且对排名在第1位到第θ分位的多个元素数值进行累加求和;

l表示已有文章资源库里的所有文章的集合,所以l∈l表示所计算的文章l是属于已有文章资源库里的文章。

下面以一个具体实例来解释函数pct(p,α,β)的定义。

假设pct([0,1,3,2,5],0.2,1),首先对数组[0,1,3,2,5]的元素按数值大小做降序排序,降序排列后为[5,3,2,1,0],则排名在0.2分位的元素位置是0.2*10=2,即第2位的元素3,整数1分位的元素位置则为最后1位,即第5位的元素0,那么pct([0,1,3,2,5],0.2,1)=3+2+1+0=6。

最后,根据所述分辨率按预设方式选取一定数量的词语作为多个关键词。这样,针对这些选取出的多个关键词就可以建立关键词库了。当然,选取的多个关键词是来自于所述分词词语库,所以建立的关键词库里包含的内容与所述分词词语库包含的内容一样,包括但不限于:1、每个关键词与每篇文章的关联性,即每个关键词都来自于哪些文章;2、每个关键词在每篇文章里的词频。另外,根据所述分辨率按预设方式选取一定数量的词语作为多个关键词的优选方式包括:根据所述分辨率的大小顺序选取一定数量的分词词语作为多个关键词,或者从大于或等于预设阈值的分辨率所对应的分词词语里随机选取或者按顺序一定数量的分词词语作为多个关键词。

这里所述的分词词语i的分辨率si是用于表述分词词语i对于划分文章主题的能力,分辨率的值越高,其划分能力越强。例如:“考研”这个词直接关联“研究生考试”主题,而“学习”不能明确指向一个主题,那么“考研”的分辨率高于“学习”。

所述词频(tf)为本领域的通用术语,即在一篇给定的文章里,词频(tf)指的是某一个给定的词语在该文章中出现的次数。

该第一步骤的目的选取热门词语作为关键词,而标签内容也都属于热门的关键词,这样为执行下一步骤做好了铺垫。选取的关键词数量可以根据实践需要而定。这里采用的方式是根据文章资源库里的文章数量而定,按文章数量的一定百分比来选取关键词。例如,当文章数量达到千万数量级时,可以选取10万左右个关键词。可以将选取的多个关键词建立关键词库或是关键词列表等。这里以关键词库为例来进行说明。

上面还提到了已有标签库,要想实现给文章标注标签,无论是自动标注还是人工标注,都需要预先建立标签库,这样才能实现标注的标签标准化。所述标签库里的每个标签为指向某一主题的关键词语,例如“考研”、“炒股”等。而建立文章的标签库,可以采用任何公知的方法,例如采用运营人员根据经验提炼出的多个标签的方式来建立标签库;或者采用市面上已经有的文章标签的方式来建立标签库;还可以采用同行业者共同商讨建立统一的文章标签库的方式来来建立标签库,当然也可以是这几种方式的恰当组合来建立标签库,优选是由同行业者共同商讨建立统一的文章标签库。

s2:确定所述关键词库里的每个关键词对预先已建立的标签库里的每个标签的第一权重。

在建立了关键词库后,接着需要确定所述关键词库里的每个关键词对预先已建立的标签库里的每个标签的权重,这里命名为第一权重,确定所述第一权重的方法如下:

其中:

twt,w表示关键词库里的关键词w对预先已建立的标签库里的标签t的第一权重,如果标签t的文字内容里没有关键词w时twt,w为0;

pltl,t表示标签库里的标签t在已有文章资源库里的文章l里出现的词频;

plwl,w表示关键词库里的关键词w在已有文章资源库里的文章l里出现的词频;

|l|表示已有文章资源库里的所有文章的总数量。

l表示已有文章资源库里的所有文章的集合,所以l∈l表示所述文章l是属于已有文章资源库里的文章,∑l∈l(pltl,t·plwl,w)表示计算已有文章资源库里的所有文章的(pltl,t·plwl,w)值并且对这些值累加求和,也可以写成|l|表示已有文章资源库里的所有文章的总数量。

这样,以关键词库里的关键词w对预先已建立的标签库里的标签t的第一权重以纽带,为下一步建立标签与文章的关联性做好铺垫。

s3:基于获得的所述第一权重和所述每个关键词的词频,确定所述标签库里的每个标签对已有文章资源库里的每篇文章的第二权重。

统计每个关键词在所述已有文章资源库里的每篇文章里出现的词频,这在建立关键词库时就已经统计完成并且保存在关键词库里。例如,在一篇介绍股票买卖的文章a里,词语“炒股”在该文章里出现20次,则词语“炒股”在文章a里出现的词频为20。

这样,利用获得的所述关键词库里的每个关键词对每个标签的第一权重以及所述记录的每个关键词在文章资源库里的每篇文章里出现的词频,确定所述标签库里的每个标签对已有文章资源库里的每篇文章的权重,命名为第二权重,确定所述标签对文章的第二权重的方法如下:

其中:

lpl,t表示预先已建立的标签库中的标签t对已有文章资源库里的文章l的第二权重;

twt,w表示关键词库里的关键词w对预先已建立的标签库里的标签t的第一权重,如果标签t的文字内容里没有关键词w则twt,w为0;

plwl,w表示关键词库里的关键词w在已有文章资源库里的文章l里出现的词频;

n为关键词库里的关键词的总数量。

s4:基于所获得的第二权重按预定方式选取一定数量的标签给相应的文章标注上。

在得到预先已建立的标签库中的每个标签对已有文章资源库里的每篇文章的第二权重后,基于所获得的第二权重按预定方式选取一定数量的标签给相应的文章标注上。优选的,根据第二权重的大小顺序选取一定数量的标签给相应的文章标注上。例如,在得到标签库里的每个标签对一篇文章a的第二权重后,按照第二权重从大到小顺序选取一定数量的标签,例如选取排名在前1-3个或1-5个标签给这篇文章a标注上。或者,还可以预先设定一个阈值,选择大于该预设阈值的1个或多个第二权重所对应的1个或多个标签给相应的文章标注上。

在一个优选实施例中,为了使获得的标签库里的每个标签对每篇文章的第二权重放在同一量纲上进行比较大小,以使比较结果更准确,可以对所述标签对文章的第二权重进行标准化处理以获得所述标签对文章的相对第二权重,方法如下:

其中:

lpcl,t表示预先已建立的标签库中的标签t对已有文章资源库里的文章l的相对第二权重;

lpl,t表示预先已建立的标签库中的标签t对已有文章资源库里的文章l的第二权重;

表示预先已建立的标签库中的标签t对已有文章资源库里的文章l的平均权重;

|l|表示已有文章资源库里的所有文章的总数量。

所以,为计算预先已建立的标签库中的标签t对已有文章资源库里的所有文章的第二权重的累加之和除以已有文章资源库里的所有文章的总数量。

在得到所述相对第二权重后,基于所获得的相对第二权重按预定方式选取一定数量的标签给相应的文章标注上。

在一个优选实施例中,所述文章资源库的文章优选为主题性强的文章,例如:新闻类文章、论文类文章、描述类文章(例如应用商店应用描述文章)。

根据本发明的一种给文章标注标签的方法,通过建立标签库里的标签与文章之间的关联性,能够实现对来自外部数据源的新文章或者没有标签的文章自动标注上合适的标签,每个标签代表一个分类,或者多个标签指向一个分类,由此可以节省巨大的人力成本、使人工操作的低效率得到大幅度提升、大大降低运营成本。

图2是本发明实施例提供的给文章标注标签的装置的示意性框图。如图2所示,本发明的给文章标注标签的装置包括:

关键词库建立单元,用于从已有文章资源库里的所有文章里提取出多个关键词,建立关键词库,该关键词库包括但不限于:多个关键词,每个关键词在已有文章资源库里的每篇文章里出现的词频;

第一权重确定单元,用于确定所述关键词库里的每个关键词对预先已建立的标签库里的每个标签的第一权重;

第二权重确定单元,用于基于获得的所述第一权重和所述每个关键词的词频确定所述标签库里的每个标签对已有文章资源库里的每篇文章的第二权重;

标签标注单元,用于基于所获得的第二权重按预定方式选取一定数量的标签给相应的文章标注上。

其中,所述关键词库建立单元建立关键词库的具体方法如下:

首先,使用分词技术从已有文章资源库里的所有文章里提取出多个分词词语,建立分词词语库;

接着,确定分词词语库里的每个分词词语的分辨率:

其中:

si表示分词词语i的分辨率;

θ为自定义的一个小数,在实践中根据标签的数量取值为

|t|表示已有标签库里的所有标签的总数量;

pl,i表示分词词语库里的分词词语i在已有文章资源库里的文章l中的词频,如果分词词语i没有出现在文章l中则pl,i=0;

|l|表示已有文章资源库里的所有文章的总数量;

pct([pl,i]l∈l,θ,1)表示将数组pl里的元素按数值大小做降序排列并且对排名在θ分位到最后1位的多个元素数值进行累加求和;

pct([pl,i]l∈l,0,θ)表示将数组pl里的元素按数值大小做降序排列并且对排名在第1位到第θ分位的多个元素数值进行累加求和;

l表示已有文章资源库里的所有文章的集合;

最后,根据所述分辨率按预设方式选取一定数量的词语作为多个关键词。

其中,所述第一权重确定单元用于确定所述第一权重的方法如下:

其中:

twt,w表示关键词库里的关键词w对预先已建立的标签库里的标签t的第一权重,如果标签t的文字内容里没有关键词w时twt,w为0;

pltl,t表示标签库里的标签t在已有文章资源库里的文章l里出现的词频;

plwl,w表示关键词库里的关键词w在已有文章资源库里的文章l里出现的词频;

|l|表示已有文章资源库里的所有文章的总数量。

l表示已有文章资源库里的所有文章的集合,所以l∈l表示所述文章l是属于已有文章资源库里的文章,∑l∈l(pltl,t·plwl,w)表示计算已有文章资源库里的所有文章的(pltl,t·plwl,w)值并且对这些值累加求和,也可以写成|l|表示已有文章资源库里的所有文章的总数量。

其中,所述第二权重确定单元用于确定标签对文章的第二权重的方法如下:

其中:

lpl,t表示预先已建立的标签库中的标签t对已有文章资源库里的文章l的第二权重;

twt,w表示关键词库里的关键词w对预先已建立的标签库里的标签t的第一权重,如果标签t的文字内容里没有关键词w则twt,w为0;

plwl,w表示关键词库里的关键词w在已有文章资源库里的文章l里出现的词频;

n为关键词库里的关键词的总数量。

其中,标签标注单元基于所获得的第二权重按预定方式选取一定数量的标签给相应的文章标注上的优选方式包括:根据第二权重的大小顺序选取一定数量的标签给相应的文章标注上;或者,还可以预先设定一个阈值,选择大于该预设阈值的1个或多个第二权重所对应的1个或多个标签给相应的文章标注上。例如,在得到标签库里的每个标签对一篇文章a的第二权重后,按照第二权重从大到小顺序选取一定数量的标签,例如选取排名在前1-3个或1-5个标签给这篇文章a标注上。或者,还可以预先设定一个阈值,选择大于该预设阈值的1个或多个第二权重所对应的1个或多个标签给相应的文章标注上。

在一个优选实施例中,为了使获得的标签库里的每个标签对每篇文章的第二权重放在同一量纲上进行比较大小,以使比较结果更准确,本发明的给文章标注标签的装置还可以包括:相对第二权重确定单元(图中未示出),用于对所述标签对文章的第二权重进行标准化处理以获得所述标签对文章的相对第二权重,过程如下:

其中:

lpcl,t表示预先已建立的标签库中的标签t对已有文章资源库里的文章l的相对第二权重;

lpl,t表示预先已建立的标签库中的标签t对已有文章资源库里的文章l的第二权重;

表示预先已建立的标签库中的标签t对已有文章资源库里的文章l的平均权重;

|l|表示已有文章资源库里的所有文章的总数量。

所以,为计算预先已建立的标签库中的标签t对已有文章资源库里的所有文章的第二权重的累加之和除以已有文章资源库里的所有文章的总数量。

在得到所述相对第二权重后,所述标签标注单元基于所获得的相对第二权重按预定方式选取一定数量的标签给相应的文章标注上。

在一个优选实施例中,所述文章资源库的文章优选为主题性强的文章,例如:新闻类文章、论文类文章、描述类文章(例如应用商店应用描述文章)。

当然,本领域技术人员都知道,所述标签对文章的相对第二权重也可以由第二权重确定单元执行,不是必须由单独的相对第二权重确定单元来执行。

所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的装置的具体工作过程,可以参考前述方法实施例中的对应过程,前述方法实施例中列举的例子和相关描述,同样适用于解释装置的工作过程,在此不再重复描述。

根据本发明的一种给文章标注标签的装置,通过建立标签库里的标签与文章之间的关联性,能够实现对来自外部数据源的新文章或者没有标签的文章自动标注上合适的标签,每个标签代表一个分类,或者多个标签指向一个分类,由此可以节省巨大的人力成本、使人工操作的低效率得到大幅度提升、大大降低运营成本。

本发明实施例所提供的给文章标注标签的方法的计算机程序产品,包括存储了程序代码的计算机可读存储介质,所述程序代码包括的指令可用于执行前面方法实施例中所述的方法,具体实现可参见方法实施例,在此不再赘述。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,智能平板电脑,智能手机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom)、随机存取存储器(ram)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1