基于大数据的创新创意标签自动标注方法及系统与流程

文档序号:11627745阅读:377来源:国知局
基于大数据的创新创意标签自动标注方法及系统与流程

本发明涉及基于大数据的创新创意标签自动标注方法及系统。



背景技术:

随着互联网的快速发展与普及,信息呈爆炸式增长,使得互联网上积累了大量的信息。同时互联网用户不仅是互联网内容的浏览者,也在互联网创造各种信息,于是导致互联网信息形式多样化,这给信息筛选造成很大的难度。互联网信息中以文字为载体的信息占了很大的比例,信息量的增多与结构的混乱使人们在查找信息的过程中有了更多的参考性,信息的覆盖率更为全面,涉及人们生活的方方面面,极大地便利了人们的生活,然而大量的信息容易使人类陷入到无从选择的地步,从大量的信息中快速选出有效信息并不是一件容易的事情。

企业在进行创新工作时,应用大数据作为分析和计划的基础,需要分辨和查看分析有价值的数据。如何充分利用大数据并且快速有效获得企业所关注主题的相关数据,并且实现标注关键数据,排除杂乱无用的信息,使企业注意力集中在更有价值并且重要的信息上,是当前创新的难点,文本标注在这样的背景下应运而生。文本标注是指使用若干个具有专指性且能反映文本主题的词语或短语,这些词语或短语通常称为标签,读者通过阅读这些标签能够快速了解文本主题,从而判断是否为自己感兴趣的文本。

文本自动标注是随着互联网发展起来的一门新兴的研学科,它衍生自信息抽取和文本分类技术,并结合了信息检索以及协同过滤等方向的研究方法。近年来,发展起来的文本自动标注技术有基于用户的社会化标注、多标签分类标注、关键词提取标注;

上述介绍了目前文本标注的主要方法。其中,基于用户的社会化标注在系统服务初期,由于没有过往的数据提供参考,存在冷启动的问题;多标签分类标注方法大多是基于有监督学习的算法,需要大量的人工标注的数据集作为训练集,人工标注数据集不仅费时费力,还存在很大的主观性。



技术实现要素:

为了解决现有技术的不足,本发明提供了基于大数据的创新创意标签自动标注方法及系统,其具有采用关键词提取的方法标注文本,属于无监督学习的范畴,无需人工标注数据集的效果。

基于大数据的创新创意标签自动标注方法,包括:

步骤(1):模型训练:

使用语料库对文本深度表示模型word2vector进行训练,训练后得到语料库中所有词语和所有词语对应的向量模型文件,即得到训练好的word2vector模型;

使用语料库对文档主题生成模型lda进行训练得到lda结果集和训练好的lda模型,所述lda结果集包括若干个主题,每个主题包括属于所述主题的词语和词语属于所述主题的概率;

步骤(2):使用中科院ictclas分词系统对用户当前浏览页面的数据文档进行分词操作,然后去除停用词;得到预处理后的数据文档;

步骤(3):生成本文标签和主题标签;

步骤(4):实现对最终的本文标签和主题标签的可视化。

所述步骤(2)的停用词包括使用频率查过设定阈值的词和无实际意义的词。

所述无实际意义的词包括语气助词、副词、介词和连词。

所述去除停用词的步骤包括:在分词处理后,对词性进行标注,保留名词、动词和形容词,过滤掉其余词性的词,同时还需要过滤掉使用频率超出设定阈值的词。

所述步骤(3)的步骤为:

步骤(31):使用无监督学习的textrank算法对预处理后的数据文档标注本文标签,并且使用训练好的word2vector模型,基于向量模型文件计算词与词之间的相关性,利用词与词之间的相关性对本文标签进行修改;生成最终的本文标签;

步骤(32):使用lda结果集对预处理后的数据文档进行主题分析,生成主题标签。

所述步骤(31)包括:

步骤(311):读取预处理的数据文档,对数据文档中每个词的信息进行统计;所述每个词的信息包括:词频、词首次出现的位置、词末次出现的位置和词语总数;

步骤(312):计算词权重:分别计算词频因子、词位置因子和词跨度因子的值;

词wi的权重m(wi)计算公式:

m(wi)=tf(wi)*loc(wi)*span(wi);(1)

其中,tf(wi)为词wi的词频因子,loc(wi)为词wi的位置因子,span(wi)为词wi的跨度因子。

所述词频因子的计算公式为:

其中,fre(wi)表示词wi在数据文档中出现次数。

所述词位置因子的计算公式为:

其中,area(wi)表示词wi的位置值。

词位于文本中的位置不同时,所起的作用也不同,位于前10%的词对表达文本主题最重要,位于文本前10%-30%的词重要性次之。将文本数据划分为三个区域,位于前10%为第一区域,位置值设为50,位于前10%-30%为第二区域,位置值设置为30,最后区域位置值设为20,多区域都出现的词取最大值。

所述词跨度因子的计算公式为:

其中,first(wi)表示词在文本中首次出现的位置,last(wi)表示词在文本中末次出现的位置,sum为文本中包含的总词数。

词跨度反映词在文本中的覆盖范围,跨度越大,对反映全局信息作用越大。在标签提取中,跨度大的词,能反映文本全局主题。

步骤(313):计算词间距,以句子为单位,如果两个词同时出现在一个句子之中,则两个词的共现次数加1,词间距为共现次数倒数,如果两个词共现次数为0,则两个词的距离无穷大;

步骤(314):计算词吸引力,将步骤(313)的词间距代入词的吸引力量化公式之中,得出两个词的吸引力量化表示;如果两个词距离为无穷大,则表示两个词吸引力为0,两个词出现与否,不会受到彼此影响;

词的吸引力量化公式:

conn(wi,wj)=m(wi)*m(wj)/r(wi,wj)2;(5)

其中,m(wi)为词wi的权重,m(wj)为词wj的权重,conn(wi,wj)反映了拥有不同权重的两个词之间的联系;r(wi,wj)表示词wi和词wj的间距;

步骤(315):计算词之间的相关性,使用训练好的word2vector模型计算表示相关性大小的余弦值。

在使用语料库对文本深度表示模型word2vector进行训练过程中,得到包含语料库词语和所有词语对应的向量以后,通过向量相关性对所有词语进行k-means聚类,得到相关性高的词组成的聚簇。通过计算两个词的余弦值确定相关性,余弦值越大相关性越大。

假定词wi,wj都是n维向量,则相关性cos(wi,wj)计算公式:

进而得到改进后的词关系conn(wi,wj)公式:

conn(wi,wj)=conn(wi,wj)*(1+cos(wi,wj));(7)

得到改进后的textrank公式:

其中,textrank(wi)表示wi的重要性,textrank(wj)表示词wj的重要性;

步骤(316):计算词textrank值:初始化textrank值为1,将词关系计算结果代入改进后的textrank公式,设置迭代终止阈值为0.0001,不断使用改进后的textrank公式迭代,直至结果收敛,从而获得每一个词的textrank值;

步骤(317):按照计算的textrank值由高到低对词进行排序;

步骤(318):选取排序结果中的前20个词作为本文标签。

所述步骤(32)包括:

步骤(321):读取预处理的数据文档,记录文本词总数,对数据中每个词的信息进行统计;

步骤(322):通过lda结果集计算数据文档的主题分布概率;

lda结果集包含若干主题,每个主题都包括属于所述主题的词和词属于所述主题的概率,

所有的词按概率值从大到小进行排序;将预处理后的数据文档当作一个序列[w1,w2,w3......wn],其中wi表示第i个词,n表示一共有n个词。每个主题包含数据文档中词的数量的期望为假设有k个主题,得到数据文档属于不同主题的概率分布计算数据文档属于第i个主题ti的概率的公式:

其中,表示属于第i个主题ti的词数量的期望值,假设词wj属于第i个主题ti的概率为p(wj,ti),则计算公式为:

步骤(323):选择概率最大的主题,将该主题内包含的词语按照概率从高到低取5个词,组成本文主题标签。

进一步的,本发明还采用基于大数据的创新创意标签自动标注系统技术方案,其具有能够自动对用户浏览的数据文档添加本文标签和主题标签,方便用户发现文本重要信息,提高阅读效率的效果。

基于大数据的创新创意标签自动标注系统,包括:

模型训练单元:

使用语料库对文本深度表示模型word2vector进行训练,训练后得到语料库中所有词语和所有词语对应的向量模型文件,即得到训练好的word2vector模型;

使用语料库对文档主题生成模型lda进行训练得到lda结果集和训练好的lda模型,所述lda结果集包括若干个主题,每个主题包括属于所述主题的词语和词语属于所述主题的概率;

数据文档处理单元:使用中科院ictclas分词系统对用户当前浏览页面的数据文档进行分词操作,然后去除停用词;得到预处理后的数据文档;

标签生成单元:生成本文标签和主题标签;

可视化单元:实现对最终的本文标签和主题标签的可视化。

与现有技术相比,本发明的有益效果是:

采用改进的textrank算法来获取数据文档的关键词,与其他算法相比计算结果具有更高的准确率和代表性,提取出来的标签来源于文档本身,具有良好的代表性,达到能够准确表达文本内容的效果;

采用lda模型来生成文本的主题标签,解决了文本主题词不包含在文本之中的困难,能更好的反应文本的主题内容,综合本文标签,实现准确表达文本内容和主题的标签;

附图说明

构成本申请的一部分的说明书附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。

图1为本发明的预处理流程图;

图2为本发明的本文标签生成流程图;

图3为本发明的主题标签生成流程图。

具体实施方式

应该指出,以下详细说明都是例示性的,旨在对本申请提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本申请的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

本发明综合使用改进的基于textrank的文本标注算法、word2vector(谷歌的一个文本分析工具)计算词的相关性和lda(文档主题生成模型)提取文档主题来实现文本的自动标注。原始的textrank算法在计算过程中仅考虑了词之间的关系,而忽略了词本身的特征属性,导致在提取关键词的过程中未能充分利用文本信息。本发明对这一关系进行改进,首先利用词频、词位置、词跨度等信息计算词权重,接着利用该权重与词激活力模型建立词之间的吸引力关系,用以代替原来中的词关系。采用这种改进方式,一方面就词个体而言,充分利用了文本中的词频、词位置、词跨度等信息,另一方面就词之间的关系而言,考虑词在句子中的同现率,并且考虑词语之间的相关性,使用google提供的word2vector来计算相关性。文档的主题可能并不包括在文档的文字内容之中,于是无法使用文档内容中的词组成的标签来标注,所以使用lda来确定文档的主题,并提供该主题的标签。

本发明的技术方案是:对用户的查询结果或浏览页面,实现自动加标签标注相关创意所需数据,去除杂乱信息,并按相关性优先级排序。在大数据背景下,数据的可视化越来越重要,本专利使用标签云的形式将标注结果显示出来,并且将关键词突出显示出来。采用本发明,可以通过无监督学习方式实现数据集自动标注,标签来自于数据文档,噪声小,代表性好。用户可以在查询浏览过程中优先阅读自动标注的关键内容,可以将注意力注重到更重要的信息。

本发明通过以下技术方案来实现基于大数据的创新创意自动标注方法,具体步骤如下:

步骤一:使用语料库训练lda和word2vector。

步骤二:对用户浏览页面进行分词处理,过滤无用词。如图1所示;

步骤三:使用textrank算法结合lda生成标签,自动标注。如图2所示;

步骤四:标签和关键内容实现可视化。如图3所示;

步骤一中,使用搜狗语料库来对lda和word2vector进行训练。

1.word2vector是google开发出来的一个工具,它通过将词转换成向量,把训练集内容处理转化为固定维度向量空间中的向量运算,使用计算出来的向量之间的距离结果来表示文本词语之间的相关性。训练语料越大,词向量表达越好,使用搜狗语料库进行训练,得到包含语料库中所有的词语和其对应的向量的模型文件,可以实现计算词语之间相关性的任务。

2.word2vec是google在2013年年中开源的一款将词表征为实数值向量的高效工具,其利用深度学习的思想,可以通过训练,把对文本内容的处理简化为k维向量空间中的向量运算,而向量空间上的相似度可以用来表示文本语义上的相似度。word2vec输出的词向量可以被用来做很多nlp相关的工作,比如聚类、找同义词、词性分析等等。如果换个思路,把词当做特征,那么word2vec就可以把特征映射到k维向量空间,可以为文本数据寻求更加深层次的特征表示。

3.word2vec使用的是distributedrepresentation的词向量表示方式。distributedrepresentation最早由hinton在1986年提出。其基本思想是通过训练将每个词映射成k维实数向量(k一般为模型中的超参数),通过词之间的距离(比如cosine相似度、欧氏距离等)来判断它们之间的语义相似度.其采用一个三层的神经网络,输入层-隐层-输出层。有个核心的技术是根据词频用huffman编码,使得所有词频相似的词隐藏层激活的内容基本一致,出现频率越高的词语,他们激活的隐藏层数目越少,这样有效的降低了计算的复杂度。而word2vec大受欢迎的一个原因正是其高效性,mikolov在论文中指出,一个优化的单机版本一天可训练上千亿词。

4.这个三层神经网络本身是对语言模型进行建模,但也同时获得一种单词在向量空间上的表示,而这个副作用才是word2vec的真正目标。

5.与潜在语义分析(latentsemanticindex,lsi)、潜在狄立克雷分配(latentdirichletallocation,lda)的经典过程相比,word2vec利用了词的上下文,语义信息更加地丰富。

6.lda(latentdirichletallocation)是一种文档主题生成模型,包含词、主题和文档三层结构。生成模型认为一篇文章的每个词都是通过“以一定概率选择了某个主题,并从这个主题中以一定概率选择某个词语”这样一个过程得到。文档到主题服从多项式分布,主题到词服从多项式分布。

lda是一种非监督机器学习技术,可以用来识别语料库中潜藏的主题信息。它采用了词袋的方法,将每一篇文档视为一个词频向量,从而将文本信息转化为了易于建模的数字信息。每一篇文档代表了一些主题所构成的一个概率分布,而每一个主题又代表了很多单词所构成的一个概率分布。使用搜狗语料库来进行训练,得到若干个主题,以及每个主题中词的概率的集合,可以使用lda训练结果集来计算文档数据属于所有主题的概率分布。

步骤二中,使用中科院计算机所研发的ictclas分词系统对文本数据进行分词操作,然后去除停用词、词性过滤。

1.目前中文分词算法主要分为三大类:基于字符串的分词算法、基于理解的分词算法、基于统计的分词算法,尽管上述几种分词算法已经很成熟,但是由于中文语言本身的复杂性,中文内容带有歧义和不断出现新词,所以当前的分词系统都是综合使用多种分词算法。清华、北大、哈工大、中科院微软中国研究院、海量科技等都进行了中文分词研究,其中由中科院计算机所研发的ictclas分词系统最为突出。

具体的,ictclas分词系统共有五层隐马尔可夫模型,主要的分词过程包括初步分词、未登陆词识别、重新分词、词性标注,其中初步分词中采用了最短路径方法对中文词语粗分,未登录词识别对人名、地名、复杂机构名做处理,尽可能保证分词的精度。国内和国际权威的公开评测结果均表明该分词系统分词速度快,精确度高。下面是使用的api:

(1)初始化:boolictclas_init(constchar*pszinitdir=null);

pszinitdir为初始化路径。初始化成功返回true,否则返回false。

(2)退出分词:boolictclas_exit();

释放词典占用的内存空间,清除临时缓冲区及其它系统资源。

(3)文件处理:boolictclas_fileprocess(constchar*ssrcfilename,ecodetypeect,constchar*sdsnfilename,intbpostagged);

ssrcfilename为待分析的源文件路径,ecodetype为源文件的字符编码,

sdsnfilename为分词后的结果文件,bpostagged为是否需要进行词性标注,0为

否,1为是。文件分词成功返回true,否则返回false。

2.停用词一般分为两类:一类是使用十分广泛,甚至是过于频繁的一些词,如“我”,“就”等,另一类是在文本中出现频率很高,但实际意义又不大的词,主要为一些语气助词、副词、介词、连词等,如“的”、“在”、“和”之类的词。去停用词就是将这两类词从构建文本网络节点的词中去掉,降低网络的复杂度。标签的词性一般是名词、动词、形容词,且词长一般大于等于两个字,因此需要将文本分词后的结果进行词性标注,根据词性只保留这三类词性的词。

3.具体流程如图2所示:

(1)使用ictclas分词系统对文档数据进行分词处理;

(2)将分词结果执行去停用词操作,除去无用的停用词;

(3)对结果进行词性标注,保留可以作为标签的名词、动词和形容词,过滤掉其余的词,排除干扰。

步骤三中,使用无监督学习的textrank算法实现文本数据自动标注,并且对其进行改进,结合使用word2vector计算词与词之间的相关性。然后使用lda对文本数据进行主题分析,综合生成标签。

具体的,pagerank算法是google用来衡量一个网站好坏的唯一标准,是google创始人拉里佩奇和谢尔盖布林于1998年提出。该算法充分利用网页上的超链接结构评价网页的排名,其基本思想是将一个网页到另一网页的链接理解为前者对后者的投票。一个网页被链接的次数越多,意味着该网页拥有其它网页的投票越多,该网页越重要。同时投票网页的票数重要性取决于该网页自身的重要性,如果一个网页自身比较重要,则由它链接的网页相对而言也比较重要。pagerank算法可以应用于关键词和句子的抽取:将词或句子看作网页,词或句子之间的联系看作网页的链转关系,利用算法计算词或句子的重要性,提取出重要的词或句子。

1.rademihalcea和paultarau于2004年根据pagerank算法提出了textrank算法。textrank算法的本质是一种基于图的算法,在该算法中词或句子等同于图的节点,词或句子之间的联系等同于图的边,用dn=(w,r)表示文本网络,其中w为构成文本网络的词的集合,r为w中任意两个词的关系的集合。词之间的联系采用特定长度的滑动窗口中词共现的次数表示。

(1)与pagerank的思想相似,若一个词通过一条边直接与另一个词相连,则认为该词为后者投了一票,该词所投票的重要性又取决于它自身的重要性,这样一个词的重要性就由它所获得的票数及为它投票的其它词的重要性共同决定。在pagerank中认为由一个网页链接到其它网页的概率是随机均等的,因而获得的图是无权重的。然而在文本网络中,两个词之间有多种联系,考虑词之间联系的强弱是必要的。假设conn(wi,wj)表示词wi和wj之间的联系(此处为二者在长度为的词窗口内的共现次数),则词wi的textrank值的定义如式所示:

其中in(wi)表示指向词wi的词集合,out(wj)表示词wj所指向的词集合,d表示阻尼因子,取值为0.85。

(2)radamihalcea和paultarau通过实验证明将文本映射成为有向图提取关键词的准确率低于将文本映射成无向图的准确率,这说明词之间没有方向性。因此将有向图的textrank定义改为:

其中l(wi)和l(wj)分别表示与词wi和wj直接连接的词的集合。

2.改进textrank算法。

radamihalcea和paultarau提出的textrank算法中词之间的关系只考虑了词在特定窗口长度内的共现次数,而词在整个文本中本身的特征信息比如词频、词位置、词跨度等被忽略,另外,词与词之间的相关性只是从当前文本进行分析,这样导致词的相关性不够准确。本发明从以下三方面入手,对算法进行改进:首先通过词本身的信息(包括词频、词位置、词跨度)计算词权重,然后通过词权重和词与词之间共现的频率衡量词与词之间联系的紧密程度,最后,使用word2vector计算词与词之间的相关性。

(1)计算词权重。词权重计算通过词频、词位置和词跨度,词wi的权重计算公式:

m(wi)=tf(wi)*loc(wi)*span(wi)

其中m(wi)为词wi的权重,tf(wi)为词wi的词频因子,loc(wi)为词wi的位置因子,span(wi)为词wi的跨度因子。各因子的计算方法如下:

【1】词频因子。一个词的词频越高,该词在文本中就越重要。词频因子的计算采用非线性函数方法,假设词wi在文本中出现次数为fre(wi),则词频因子计算公式:

【2】词位置因子。词位于文本中的位置不同时,所起的作用也不同,位于前10%的词对表达文本主题最重要,位于文本前10%-30%的词重要性次之。将文本数据划分为三个区域,前10%为第一区域,位置值设为50,前10%-30%为第二区域,位置值设置为30,最后区域位置值设为20,多区域都出现的词取最大值。词wi的位置值用area(wi)表示,计算公式为:

【3】词跨度因子。词跨度反映词在文本中的覆盖范围,跨度越大,对反映全局信息作用越大。在标签提取中,需要跨度大的词,能反映文本全局主题。计算公式:

其中first(wi)和last(wi)分别表示词在文本中首次出现的位置与末次出现的位置,sum为文本中包含的总词数。

(2)词关系计算。

词与词之间存在互相激活的作用,有些词总是与其它词成对出现,当一个词出现时,往往会导致人们自然而然地想到另一个词,词之间的这种作用称为词激活力。另一方面,与该词经常搭配出现的词不止一个,需要根据具体的语言环境判断与之搭配的词。在不同的文本中,词与词互相激活的强度也不同,可以在一篇文本中根据词本身的重要性及词之间的激活作用建立词之间的联系。

词激活力的物理含义类似于万有引力,其最初的定义如下:假设词wi和wj在语料库中出现的次数分别为fre(wi)和fre(wj),二者共现的频率为co-occur(wi,wj),则词wi对词wj的激活力如式:

其中d(wi,wj)为词wi和wj共现时二者之间的平均距离。

【1】类比于万有引力公式可以发现,词激活力公式中,第一项和第二项分别表示两个物体的质量,d(wi,wj)表示物体之间的距离。词激活力反映了两个词之间“吸引力”的强度。然而原始的词激活力公式只考虑了词各自的词频和词共现的次数,并未将词本身的其它特性考虑在内,不能充分利用文本的信息。

在一个文档数据中,词的词频、位置、跨度等信息是该词在本文中的固有属性。同样,词与词之间存在着联系,类比万有引力公式,得到词之间的“吸引力”量化公式:

conn(wi,wj)=m(wi)*m(wj)/r(wi,wj)2

其中m(wi)和m(wj)分别为词wi和词wj的权重,conn(wi,wj)反映了拥有不同权重的两个词之间的联系。

【2】word2vector计算词与词之间的相关性。在训练过程中,得到包含语料库词语和其对应的向量以后,通过向量对所有词语进行k-means聚类,得到相关性高的词组成的聚簇。通过计算两个词的余弦值确定相关性,余弦值越大相关性越大。假定词wi,wj都是n维向量,则相关性值cos(wi,wj)计算公式:

于是,可以得到改进后的词关系conn(wi,wj)公式:

conn(wi,wj)=conn(wi,wj)*(1+cos(wi,wj))

将conn(wi,wj)替换上面的conn(wi,wj)即可得到改进后的textrank公式

3.lda结果集包含若干主题,每个主题都包括属于这个主题的词和词属于该主题的概率,所有的词按概率值从大到小进行排序。将处理过的数据文档当作一个序列[w1,w2,...wn]其中wi表示第i个词,n表示一共有n个词。通过每个主题包含数据文档中词的数量的期望假设有k个主题t,可以得到数据文档属于不同主题的概率分部计算每个主题概率的公式:

其中,表示属于主题i的词数量的期望值,假设词wj属于主题i的概率为p(wj,ti),则ti计算公式为:

4.具体流程:

(1)读取预处理的数据文档,记录词频,词首次和末次出现的位置,文本词总数,对数据中每个词的信息进行统计。

(2)计算词权重,分别计算词频因子、词位置因子和词跨度因子的值。

(3)计算词间距,以句子为单位,如果两个词同时出现在一个句子之中,则他们的共现次数加1,词间距为为共现次数倒数,如果两个词共现次数为0,则他们的距离无穷大。

(4)计算词吸引力,将上一步的词间距代入吸引力量化公式之中,即可得出两个词的吸引力量化表示。如果两个词距离为无穷大,则表示两个词吸引力为0,他们出现与否,不会受到彼此影响。

(5)计算词之间的相关性,使用word2vector计算表示相关性大小的余弦值。

(6)计算词textrank值。初始化textrank值为1,将计算结果代入改进后的textrank公式,设置迭代终止阈值为0.0001,不断使用该公式迭代,直至结果收敛,从而获得每一个词的textrank值。

(7)对词按照计算的textrank值由高到低进行排序。

(8)选取排序结果中的top20个词作为本文标签。

(9)通过lda计算数据文档的主题分布概率。

(10)选择概率最大的主题,将该主题内包含的词语按照概率从高到低取5个词,组成本文主题标签。

其中,步骤3-1包括(1)(2)(3)(4)(5)(6)(7)(8),如图2所示,生成本文标签,指标签数据都来自于数据文档中。

步骤3-1包括(1)(9)(10),如图3所示,生成文档的主题标签,标签数据不一定来自于数据文档。

步骤四中,实现对文档数据标签和关键内容的可视化。本发明使用两个标签,一个是本文标签,标签内容来自于本文数据。另一个是主题标签,标签数据来自于文档数据的主题,可以反映文档数据的主题,也可以解决本文数据不包括主题的问题。

本发明使用标签云的展现形式,使用pytagcloud来生成,pytagcloud是基于wordle技术实现的python扩展库。生成的标签云以不同的颜色展示不同的词语,本文标签展示排序的前五个词语,词语字体大小反映词语权重大小,词权重越大,在标签云中显示越醒目。另外,在文档数据中,将20个本文标签用不同于其他文字的颜色标注出来,方便用户阅读文档数据内容时,可以迅速找到重点。

以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1