人物实体的创作角度挖掘方法及装置与流程

文档序号:13736156阅读:159来源:国知局
人物实体的创作角度挖掘方法及装置与流程
本发明涉及互联网应用
技术领域
,特别是涉及一种人物实体的创作角度挖掘方法及装置。
背景技术
:随着社会信息化的发展,在信息大量涌现的同时,人们对于信息的要求也日益激增。目前大量信息主要以错综复杂、瞬息万变的信息流形式呈现。其中,信息流的呈现形态主要有文字、图片和视频等等,比较有代表性的有今日头条、网易新闻、天天快报等。此外,随着个人用户对互联网的深度使用,自媒体作为新兴的媒体应运而生。自媒体又称“公民媒体”或“个人媒体”,是私人化、平民化、普泛化、自主化的传播者,以现代化、电子化的手段,向不特定的大多数或者特定的单个人传递规范性及非规范性信息的新媒体的总称。自媒体对于当前信息流的发展起到了巨大地推动作用。而自媒体千姿百态,良莠不齐,优秀的自媒体可以让受众得到生活的启发或者有助于事业的成功,让人们发现生活的意义与价值。但大部分的自媒体只是一些简单的“网络移植”,记录一些鸡毛蒜皮、甚至是不健康的内容。长久以来,自媒体的内容已渐渐缺乏新意和创新点。而对于创作者来说,创作一篇文章的主要思路是围绕一个或多个实体,从若干个角度出发,加之个人的观点和理解,最后整理形成文章。而创作者熟悉的领域和思路角度是有限的,无法对所有的实体创作形成完整的框架。如果能够将每个实体创作的角度聚成一个可一目了然的形态,那么创作者就很容易知道哪些方面已经写过,哪些方面还没有创作过,以及哪些方面是写的比较频繁的。这对于作者进行新角度的创作有非常明显的帮助,同时对于读者也具有长久可持续的阅读价值。但是,目前还没有一个能够有效地为创作者提供写作角度和思路的方法。由于创作角度是一个比较抽象的概念,因此如何从一篇文章中找出可能的创作角度以及如何从大量的创作角度中找出实体最重要的角度是目前面临巨大挑战。技术实现要素:鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的人物实体的创作角度挖掘方法及装置。根据本发明的一方面,公开了一种人物实体的创作角度挖掘方法,包括:从网络数据来源中获取文章元数据,并解析出所述文章元数据中包含的人物实体词和与所述人物实体词相关的关键词;利用所述人物实体词和所述关键词作为网络节点构建人物关键词网络,对所述人物关键词网络中的网络节点添加标签;以相同标签作为社团划分依据,对所述人物关键词网络中的网络节点进行社团划分,将同一社团内的任意网络节点作为本社团中人物实体词的创作角度。可选地,所述利用所述人物实体词和所述关键词作为网络节点构建人物关键词网络,包括:以所述人物实体词和关键词作为网络节点,以人物实体词与关键词之间的连接权重和/或不同人物实体词之间的连接权重为边构建人物关键词网络,其中,所述连接权重表示网络节点之间的紧密度。可选地,所述对所述人物关键词网络中的网络节点添加标签,包括:利用预置的已添加标签的人物实体词和/或关键词与所述人物关键词网络中的网络节点进行匹配;若匹配成功,将相应的标签添加至匹配成功的网络节点,并获取与匹配成功的网络节点之间的连接权重达到预设阈值的网络节点;对获取到的连接权重达到预设阈值的网络节点添加相同标签。可选地,对所述人物关键词网络中的网络节点添加标签,包括:基于预置算法对所述人物关键词网络中的网络节点添加标签。可选地,所述预置算法包括:标签传播算法lpa。可选地,所述标签包括以下至少之一:所述人物实体词和/或所述关键词的属性信息;与所述人物实体词和/或所述关键词相关的人物信息;与所述人物实体词和/或所述关键词相关的事件信息。可选地,所述以所述人物实体词和关键词作为网络节点,以人物实体词与关键词之间的连接权重和/或不同人物实体词之间的连接权重为边构建人物关键词网络之前,还包括:统计所述人物实体词与关键词之间的连接权重和/或不同人物实体词之间的连接权重。可选地,所述统计所述人物实体词与关键词之间的连接权重和/或不同人物实体词之间的连接权重,包括:提取所述文章元数据中的文章标题,从所述文章标题中解析出人物实体词和关键词;统计所述文章标题中出现的共现词对,所述共现词对为同一文章标题中出现的人物实体词与关键词、不同人物实体词组成的词对;计算所述共现词对在不同文章中对应的权重值,并对相同共现词对在不同文章中对应的权重值求和,以作为所述人物关键词网络中与共现词对对应的人物实体词与关键词之间的连接权重和/或不同人物实体词之间的连接权重。可选地,所述计算所述共现词对在不同文章中对应的权重值,包括:提取所述文章元数据中的文章正文;依据所述共现词对所包含的共现词在所述文章正文中出现的次数,计算所述共现词对的权重值,其中,所述共现词为人物实体词和/或所述关键词。可选地,所述解析出所述文章元数据中包含的人物实体词和关键词,包括:提取所述文章元数据中的文章标题,对提取的文章标题进行分词;依据分词后的词频对高频词过滤,并对过滤后的词进行词性标注,其中,将人物名词标注为人物实体词,与所述人物实体词相关的其他词标注为关键词。根据本发明的另一方面,还提供了一种人物实体的创作角度挖掘装置,包括:解析模块,适于从网络数据来源中获取文章元数据,并解析出所述文章元数据中包含的人物实体词和与所述人物实体词相关的关键词;构建模块,适于利用所述人物实体词和所述关键词作为网络节点构建人物关键词网络,对所述人物关键词网络中的网络节点添加标签;挖掘模块,适于以相同标签作为社团划分依据,对所述人物关键词网络中的网络节点进行社团划分,将同一社团内的任意网络节点作为本社团中人物实体词的创作角度。可选地,所述构建模块还适于:以所述人物实体词和关键词作为网络节点,以人物实体词与关键词之间的连接权重和/或不同人物实体词之间的连接权重为边构建人物关键词网络,其中,所述连接权重表示网络节点之间的紧密度。可选地,所述构建模块还适于:利用预置的已添加标签的人物实体词和/或关键词与所述人物关键词网络中的网络节点进行匹配;若匹配成功,将相应的标签添加至匹配成功的网络节点,并获取与匹配成功的网络节点之间的连接权重达到预设阈值的网络节点;对获取到的连接权重达到预设阈值的网络节点添加相同标签。可选地,所述构建模块还适于:基于预置算法对所述人物关键词网络中的网络节点添加标签。可选地,所述预置算法包括:标签传播算法lpa。可选地,所述标签包括以下至少之一:所述人物实体词和/或所述关键词的属性信息;与所述人物实体词和/或所述关键词相关的人物信息;与所述人物实体词和/或所述关键词相关的事件信息。可选地,所述装置还包括:统计模块,适于在所述构建模块以所述人物实体词和关键词作为网络节点,以人物实体词与关键词之间的连接权重和/或不同人物实体词之间的连接权重为边构建人物关键词网络之前,统计所述人物实体词与关键词之间的连接权重和/或不同人物实体词之间的连接权重。可选地,所述统计模块还适于:提取所述文章元数据中的文章标题,从所述文章标题中解析出人物实体词和关键词;统计所述文章标题中出现的共现词对,所述共现词对为同一文章标题中出现的人物实体词与关键词、不同人物实体词组成的词对;计算所述共现词对在不同文章中对应的权重值,并对相同共现词对在不同文章中对应的权重值求和,以作为所述人物关键词网络中与共现词对对应的人物实体词与关键词之间的连接权重和/或不同人物实体词之间的连接权重。可选地,所述统计模块还适于:提取所述文章元数据中的文章正文;依据所述共现词对所包含的共现词在所述文章正文中出现的次数,计算所述共现词对的权重值,其中,所述共现词为人物实体词和/或所述关键词。可选地,所述解析模块还适于:提取所述文章元数据中的文章标题,对提取的文章标题进行分词;依据分词后的词频对高频词过滤,并对过滤后的词进行词性标注,其中,将人物名词标注为人物实体词,与所述人物实体词相关的其他词标注为关键词。根据本发明的再一方面,还提供了一种计算机程序,包括计算机可读代码,当所述计算机可读代码在计算设备上运行时,导致所述计算设备执行上文所述的基于社团划分的创作角度挖掘方法。根据本发明的再一方面,还提供了一种计算机可读介质,其中存储了如上文所述的计算机程序。在本发明实施例中,首先,从网络数据来源中获取文章元数据,并解析出文章元数据中包含的人物实体词和与人物实体词相关的关键词。然后,利用人物实体词和关键词作为网络节点构建人物关键词网络,并对人物关键词网络中的网络节点添加标签。最后,以相同标签作为社团划分依据,对人物关键词网络中的网络节点进行社团划分,将同一社团内的任意网络节点作为本社团中人物实体词的创作角度。由此,本发明实施例通过对大量网络数据的挖掘以提取出文章元数据中包含的人物实体词和关键词,在利用各词构建人物关键词网络之后,对该网络的网络节点进行社团划分,从而利用同一社团中的词作为本社团中人物实体词的创作角度,实现人物实体词的创作角度的聚类,以使人物实体词的创作角度汇聚成可一目了然的形态。本发明方案不仅能够为创作者提供更加新颖的写作角度,还可以拓宽创作者的创作思路,帮助创作者创作出更加多元化的文章。进一步地,采用本发明实施例的方案帮助创作者进行文章创作,对于文章的受众者也具有长久可持续的价值。上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。根据下文结合附图对本发明具体实施例的详细描述,本领域技术人员将会更加明了本发明的上述以及其他目的、优点和特征。附图说明通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:图1示出了根据本发明一个实施例的人物实体的创作角度挖掘方法的流程示意图;图2示出了根据本发明一个实施例的人物关键词网络结构示意图;图3示出了根据本发明另一个实施例的人物实体的创作角度挖掘方法的流程示意图;图4示出了根据本发明一个实施例的人物实体的创作角度挖掘装置的结构示意图;图5示出了根据本发明另一个实施例的人物实体的创作角度挖掘装置的结构示意图;图6示出了用于执行根据本发明的人物实体的创作角度挖掘方法的计算设备的框图;以及图7示出了用于保持或者携带实现根据本发明的人物实体的创作角度挖掘方法的程序代码的存储单元。具体实施方式下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。为解决上述技术问题,本发明实施例提供了一种人物实体的创作角度挖掘方法。图1示出了根据本发明一个实施例的人物实体的创作角度挖掘方法的流程示意图。参见图1,该方法至少可以包括步骤s102至步骤s106。步骤s102,从网络数据来源中获取文章元数据,并解析出文章元数据中包含的人物实体词和与人物实体词相关的关键词。在该步骤中,网络数据来源可以包括自媒体,如趣历史、凤凰新闻、腾讯新闻、今日头条、网易新闻、天天快报等等,也可以是微博信息、微信公众号发表的文章、博客文章等等。本发明实施例对网络数据的来源不做具体的限定。步骤s104,利用人物实体词和关键词作为网络节点构建人物关键词网络,并对人物关键词网络中的网络节点添加标签。在该步骤中,标签包括人物实体词和/或关键词的属性信息、与人物实体词和/或关键词相关的人物信息、与人物实体词和/或关键词相关的事件信息等中的至少之一。其中,人物实体词的属性信息包括个人基本信息、职业、爱好等等。例如,“诸葛亮”的属性信息包括:职业为“军师家”及“政治家”,爱好是“读书”等等。关键词的属性信息包括关键词所属类型、代表的含义等等。例如,关键词为“三国演义”的属性信息包括:题材为历史题材的小说等等。步骤s106,以相同标签作为社团划分依据,对人物关键词网络中的网络节点进行社团划分,将同一社团内的任意网络节点作为本社团中人物实体词的创作角度。本发明实施例通过对大量网络数据的挖掘以提取出文章元数据中包含的人物实体词和关键词,在利用各词构建人物关键词网络之后,对该网络的节点进行社团划分,从而利用同一社团中的词作为本社团中人物实体词的创作角度,实现人物实体词的创作角度的聚类,以使人物实体词的创作角度汇聚成可一目了然的形态。本发明方案不仅能够为创作者提供更加新颖的写作角度,还可以拓宽创作者的创作思路,帮助创作者创作出更加多元化的文章。进一步地,采用本发明实施例的方案帮助创作者进行文章创作,对于文章的受众者也具有长久可持续的价值。参见上文步骤s102,在本发明一实施例中,由于文章标题中的词是对文章的高度概括,因此,本发明实施例从标题中解析人物实体词和与其相关的关键词。具体的,提取文章元数据中的文章标题,对提取的文章标题进行分词。然后依据分词后的词频对高频词过滤,并对过滤后的词进行词性标注,其中,人物名词标注为人物实体词,与人物实体词相关的其他词标注为关键词。在该实施例中,可以将名词和动词作为候选的关键词,然后通过词频将高频词过滤掉,比如吃饭、生活等高频词将被过滤掉。进而将过滤后的名词和动词作为关键词,人物名词作为人物实体词。当然,在分词之后还可以采用其他词性的词作为关键词,本发明实施例对此不做具体限定。参见表1,表1中列举了从几篇娱乐、历史方面的文章中解析到的文章标题和各文章标题所包含的人物实体词、与人物实体词相关的关键词。表1参见上文步骤s104,在本发明一实施例中,在利用人物实体词和关键词作为网络节点构建人物关键词网络时,可以以人物实体词和关键词作为网络节点,以人物实体词与关键词之间的连接权重和/或不同人物实体词之间的连接权重为边构建人物关键词网络。其中,连接权重表示网络节点之间的紧密度。例如,连接权重越大,代表两个网络节点之间的关系越紧密。例如,图2为采用表1中解析出的人物实体词和关键词作为网络节点构建的人物关键词网络。在图2中的关键词“三国演义”直接连接有4个人物实体词,即分别为“诸葛亮”、“关羽”、“刘备”和“张飞”,其中“三国演义”与“诸葛亮”之间的连接权重最大为214,与“张飞”的连接权重最小为69,由此可知,“诸葛亮”和“三国演义”的紧密度比“张飞”和“三国演义”的紧密度要大一些。当然,图2中所示的各网络节点之间的连接权重的数值仅仅是示意性的,本发明实施例对此不做具体限定。继续参见上文步骤s104,在本发明一实施例中,对人物关键词网络中的网络节点添加标签的具体过程可以是:首先,利用预置的已添加标签的人物实体词和/或关键词与人物关键词网络中的网络节点进行匹配。若匹配成功,则将相应的标签添加至匹配成功的网络节点。然后,获取与匹配成功的网络节点之间的连接权重达到预设阈值的网络节点。进而,对获取到的连接权重达到预设阈值的网络节点添加相同标签。该实施例中,预设阈值可以由用户进行设定,本发明实施例对预设阈值不作具体限定。其中,预置的已添加标签的人物实体词和/或关键词可以是现有的人物知识图谱网络数据中包含的词语。人物知识图谱是可以通过百科构建的人物之间的关系,如夫妻、子女、兄弟等重要关系。但是,人物知识图谱中包含的关键词非常少,因此,可以采用人物知识图谱图谱作为已添加标签的源头,去预测本发明实施例中人物关键词网络中的网络节点的标签。此外,网络节点(如人物实体词和关键词)还可以以连接紧密的周边网络节点作为自身的标签。每个网络节点对于周边的网络节点都有个概率值,通过选择概率超过一定阈值的网络节点作为本网络节点的标签。例如,结合图2的内容,根据与“张三”连接的各网络节点之间的连接权重,由于人物实体词“张三”与关键词“出轨”的连接权重相对较高。因此,可以将“出轨”作为“张三”的标签信息。在本发明另一实施例中,对人物关键词网络中的网络节点添加标签时,可以基于预置算法对人物关键词网络中的网络节点添加标签。其中,预置算法可以包括标签传播算法(labelpropagationalgorithm,lpa)。标签传播算法是一种基于图的半监督学习方法,其基本思路是用已标记节点的标签信息去预测未标记节点的标签信息。利用样本间的关系建立关系完全图模型,在完全图中,节点包括已标注和未标注数据,其边表示两个节点的紧密度,节点的标签按相似度传递给其他节点。此处提及的紧密度即上文实施例中的连接权重,在人物关键词网络中,可以依据网络节点直接的连接权重的值的大小将标签传递至其他的网络节点。标签数据就像是一个源头,可以对无标签数据进行标注,节点的相似度越大,标签越容易传播。例如,结合图2和上文实施例,人物实体词“张三”与人物实体词“小容”的连接权重也较高。利用标签传播算法,可以将“张三”的标签“出轨”传递给“小容”。由此,之前连接不密切的关键词和人物实体词之间也建立的联系。参见上文步骤s106,在本发明一实施例中,以相同标签作为社团划分依据,对图2所示人物关键词网络中的网络节点进行社团划分,将同一社团内的任意网络节点作为本社团中人物实体词的创作角度。表2所示实施例中,每个人物实体词及其对应的重要角度代表划分之后的一个社团。人物实体词创作角度张三出轨,小容,李四,离婚,傻根刘备草鞋,关羽,张飞关羽刘备,过五关斩六将,温酒斩华雄朱元璋杀功臣,马皇后,和尚,乞丐,刘伯温小容张三,李四,财产分割,出轨表2在本发明一实施例中,创作角度不仅仅可以包括网络节点的内容,还可以是对网络节点添加的标签。例如,表2中有一些创作角度,如“离婚”、“傻根”、“过五关斩六将”等等是没有出现的图2所示的人物实体关键词网络中的,这些词语可以是在前面步骤对网络节点添加标签时所添加的标签词语。由于网络节点自身的标签与其关系紧密,因此,也可以将网络节点的标签作为社团中人物实体词的重要创作角度。上文介绍,网络节点还可以以连接紧密的周边网络节点作为自身的标签。因此,划分的社团中,一些网络节点并不会单一的划分到某一个特定的社团里。例如,在表2中,关键词“出轨”被分别划分到了“张三”和“小容”各自所在社团中。本发明实施例还提供了另一种人物实体的创作角度挖掘方法。图3示出了根据本发明另一个实施例的人物实体的创作角度挖掘方法的流程示意图。参见图3,该方法至少可以包括步骤s302至步骤s310。步骤s302,从网络数据来源中获取文章元数据,并解析出文章元数据中包含的人物实体词和与人物实体词相关的关键词。在该步骤中,人物实体词可以是名词,关键词可以是名词、动词等。本发明实施例对人物实体词和关键词的具体词性不做限定。步骤s304,统计人物实体词与关键词之间的连接权重和/或不同人物实体词之间的连接权重。在该步骤中,统计人物实体词与关键词之间的连接权重和/或不同人物实体词之间的连接权重的过程可以包括:首先,提取文章元数据中的文章标题,从文章标题中解析出人物实体词和关键词。然后,统计文章标题中出现的共现词对。其中,共现词对可以表示同一文章标题中出现的人物实体词与关键词组成的词对,也可以表示不同人物实体词之间组成的词对。最后,计算共现词对在不同文章中对应的权重值,并对相同共现词对在不同文章中对应的权重值求和,以作为人物关键词网络中与共现词对对应的人物实体词与关键词之间的连接权重和/或不同人物实体词之间的连接权重。在本发明一实施例中,计算共现词对在不同文章中对应的权重值时,可以先提取文章元数据中的文章正文。然后依据共现词对所包含的共现词在文章正文中出现的次数,计算共现词对的权重值,其中,共现词为人物实体词和/或关键词。为了更加清楚的体现本发明实施例的连接权重,下面以一个具体实施例对连接权重的统计过程进行说明。例如,对文章a的标题进行分词得到的词包括4个:w1,w2,w3,w4(假设w1和w2为人物实体词,w3和w4为其他类别词(即关键词))。由于词w1、w2、w3、w4同时出现在一个标题中,因此,此处认为这些词互为共现。接下来统计出现的共现词对,需要说明的是共现词对中必须包含有人物实体词,且共现词对是无序的,由此,统计的到的共现词对包括:<w1,w2>,<w1,w3>,<w1,w4>,<w2,w3>,<w2,w4>。在本发明实施例中,对于同一篇文章,共现次数只算一次,为了使网络节点之间的连接权重更准确,会给每个共现词对乘以一个权重值,权重值的计算过程如下。假设<w1,w2>的权重值用weighta代表,那么,weighta<w1,w2>=min(c(w1),c(w2))/max(c(w1),c(w2),c(w3),c(w4))。在该公式中,c(w)表示词w在文章中出现的次数。计算得到的权重值是一个小于等于1的数值。若w1和w2分别作为人物关键词网络中的网络节点,那么<w1,w2>的连接权重为所有包含这两个网络节点的文章标题对应的文章的权重值之和,计算公式为:weight<w1,w2>=∑weighta<w1,w2>。步骤s306,以人物实体词和关键词作为网络节点,以人物实体词与关键词之间的连接权重和/或不同人物实体词之间的连接权重为边构建人物关键词网络。在该步骤中,连接权重表示网络节点之间的紧密度。步骤s308,基于预置算法对人物关键词网络中的网络节点添加标签。步骤s310,以相同标签作为社团划分依据,对人物关键词网络中的网络节点进行社团划分,将同一社团内的任意网络节点作为本社团中人物实体词的创作角度。通过上文实施例划分得到多个社团之后,每个社团内的任意网络节点都可以作为本社团中人物实体词的创作角度。本发明实施例可以将创造角度推荐给创作者。具体的,当创作者通过相关写作app或者网站进行文章写作时,根据创作者之前的创作记录,将与其创作记录相关的创作角度推荐给创作者。例如,创作者小红经常会利用博客发表文章。由于小红是一个追星族,因此,小红在博客上经常发表的文章都是与明星相关的内容。小红是影视明星“王晓晓”的铁杆粉丝,发表的写关于她的文章最多。根据本发明实施例划分的社团,在“王晓晓”所在社团中还包含有关键词“烹饪”。实际上,“王晓晓”除了拍摄影视作品之外,还经常会做一些美食,但是,她喜欢做美食的事情外界很少有人知道。由此,通过本发明实施例可以将“烹饪”作为“王晓晓”新的创作角度推荐给小红,以为小红提供新的写作思路。本发明实施例中,为创作者推荐创作角度的形式可以包含有多种。例如,可以以弹窗的形式在创作者当前写作界面上推荐关于人物实体的多个创作角度,也可以以滚动条的形式在作者当前写作界面的任意位置推荐关于人物实体的多个创作角度。当然,在实际为创作者推荐关于人物实体的多个创作角度时,需要将推荐的内容展示在较为醒目的地方,以引起创作者的注意。同时,为了不影响创作者的写作工作,可以设定推荐内容的显示时间。例如,设定推荐的创作角度的显示时间为20秒、30秒、40秒等等。或者,设定推荐的创作角度每隔30秒更新一次,即每隔30秒推荐新的创作角度等等。本发明实施例对挖掘得到的创作角度的推荐形式不做具体的限定。基于同一发明构思,本发明实施例还提供了一种人物实体的创作角度挖掘装置,图4示出了根据本发明一个实施例的人物实体的创作角度挖掘装置的结构示意图,参见图4,人物实体的创作角度挖掘装置400至少可以包括解析模块410、构建模块420以及挖掘模块430。现介绍本发明实施例的人物实体的创作角度挖掘装置400的各组成或器件的功能以及各部分间的连接关系:解析模块410,适于从网络数据来源中获取文章元数据,并解析出文章元数据中包含的人物实体词和与人物实体词相关的关键词;构建模块420,与解析模块410耦合,适于利用人物实体词和关键词作为网络节点构建人物关键词网络,对人物关键词网络中的网络节点添加标签;其中,标签包括以下至少之一人物实体词和/或关键词的属性信息、与人物实体词和/或关键词相关的人物信息、与人物实体词和/或关键词相关的事件信息。挖掘模块430,与构建模块420耦合,适于以相同标签作为社团划分依据,对人物关键词网络中的网络节点进行社团划分,将同一社团内的任意网络节点作为本社团中人物实体词的创作角度。在本发明一实施例中,构建模块420还适于,以人物实体词和关键词作为网络节点,以人物实体词与关键词之间的连接权重和/或不同人物实体词之间的连接权重为边构建人物关键词网络,其中,连接权重表示网络节点之间的紧密度。在本发明一实施例中,构建模块420还适于,利用预置的已添加标签的人物实体词和/或关键词与人物关键词网络中的网络节点进行匹配。若匹配成功,将相应的标签添加至匹配成功的网络节点,并获取与匹配成功的网络节点之间的连接权重达到预设阈值的网络节点。进而,对获取到的连接权重达到预设阈值的网络节点添加相同标签。在本发明一实施例中,构建模块420还适于,基于预置算法对人物关键词网络中的网络节点添加标签。其中,预置算法包括标签传播算法lpa。在本发明一实施例中,解析模块410还适于,提取文章元数据中的文章标题,对提取的文章标题进行分词。并依据分词后的词频对高频词过滤,并对过滤后的词进行词性标注,其中,将人物名词标注为人物实体词,与人物实体词相关的其他词标注为关键词。本发明实施例还提供了另一种人物实体的创作角度挖掘装置,图5示出了根据本发明另一个实施例的人物实体的创作角度挖掘装置的结构示意图,参见图5,人物实体的创作角度挖掘装置400除了包含上述实施例中限定的各个模块之外,还可以包括统计模块440。统计模块440,与解析模块410和构建模块420分别耦合,适于在构建模块420以人物实体词和关键词作为网络节点,以人物实体词与关键词之间的连接权重和/或不同人物实体词之间的连接权重为边构建人物关键词网络之前,统计人物实体词与关键词之间的连接权重和/或不同人物实体词之间的连接权重。在本发明一实施例中,统计模块440还适于,提取文章元数据中的文章标题,从文章标题中解析出人物实体词和关键词。并统计文章标题中出现的共现词对,共现词对为同一文章标题中出现的人物实体词与关键词、不同人物实体词组成的词对。进而,计算共现词对在不同文章中对应的权重值,并对相同共现词对在不同文章中对应的权重值求和,以作为人物关键词网络中与共现词对对应的人物实体词与关键词之间的连接权重和/或不同人物实体词之间的连接权重。在本发明一实施例中,统计模块440还适于,提取文章元数据中的文章正文。并依据共现词对所包含的共现词在文章正文中出现的次数,计算共现词对的权重值,其中,共现词为人物实体词和/或关键词。根据上述任意一个优选实施例或多个优选实施例的组合,本发明实施例能够达到如下有益效果:在本发明实施例中,首先,从网络数据来源中获取文章元数据,并解析出文章元数据中包含的人物实体词和与人物实体词相关的关键词。然后,利用人物实体词和关键词作为网络节点构建人物关键词网络,并对人物关键词网络中的网络节点添加标签。最后,以相同标签作为社团划分依据,对人物关键词网络中的网络节点进行社团划分,将同一社团内的任意网络节点作为本社团中人物实体词的创作角度。由此,本发明实施例通过对大量网络数据的挖掘以提取出文章元数据中包含的人物实体词和关键词,在利用各词构建人物关键词网络之后,对该网络的节点进行社团划分,从而利用同一社团中的词作为本社团中人物实体词的创作角度,实现人物实体词的创作角度的聚类,以使人物实体词的创作角度汇聚成可一目了然的形态。本发明方案不仅能够为创作者提供更加新颖的写作角度,还可以拓宽创作者的创作思路,帮助创作者创作出更加多元化的文章。进一步地,采用本发明实施例的方案帮助创作者进行文章创作,对于文章的受众者也具有长久可持续的价值。在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。此外,本领域的技术人员能够理解,尽管在此的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(dsp)来实现根据本发明实施例的人物实体的创作角度挖掘装置中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。本发明实施例还提供了一种计算机程序,包括计算机可读代码,当计算机可读代码在计算设备上运行时,导致计算设备执行上文所述的基于社团划分的创作角度挖掘方法。还提供了一种计算机可读介质,其中存储了如上文所述的计算机程序。例如,图6示出了可以实现人物实体的创作角度挖掘方法的计算设备。该计算设备传统上包括处理器610和存储器620形式的计算机程序产品或者计算机可读介质。存储器620可以是诸如闪存、eeprom(电可擦除可编程只读存储器)、eprom、硬盘或者rom之类的电子存储器。存储器620具有存储用于执行上述方法中的任何方法步骤的程序代码631的存储空间630。例如,存储程序代码的存储空间630可以包括分别用于实现上面的方法中的各种步骤的各个程序代码631。这些程序代码可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。这些计算机程序产品包括诸如硬盘,紧致盘(cd)、存储卡或者软盘之类的程序代码载体。这样的计算机程序产品通常为例如图7所示的便携式或者固定存储单元。该存储单元可以具有与图6的计算设备中的存储器620类似布置的存储段、存储空间等。程序代码可以例如以适当形式进行压缩。通常,存储单元包括用于执行本发明的方法步骤的计算机可读代码631’,即可以由诸如610之类的处理器读取的代码,当这些代码由计算设备运行时,导致该计算设备执行上面所描述的方法中的各个步骤。应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。至此,本领域技术人员应认识到,虽然本文已详尽示出和描述了本发明的多个示例性实施例,但是,在不脱离本发明精神和范围的情况下,仍可根据本发明公开的内容直接确定或推导出符合本发明原理的许多其他变型或修改。因此,本发明的范围应被理解和认定为覆盖了所有这些其他变型或修改。当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1