一种关键词的提取方法、装置、计算机设备和存储介质与流程

文档序号:21363183发布日期:2020-07-04 04:37阅读:166来源:国知局
一种关键词的提取方法、装置、计算机设备和存储介质与流程
本发明实施例涉及自然语言处理的技术,尤其涉及一种关键词的提取方法、装置、计算机设备和存储介质。
背景技术
:在自然语言处理(naturallanguageprocessing,nlp)中,常使用关键词提取技术,即从业务对象的文本里面把跟业务对象意义最相关的一些词语抽取出来,这项技术在检索业务对象、对业务对象聚类/分类、推荐业务对象等方面有着重要的应用。目前,关键词提取技术,通常是建立在正式书写的内容上,如新闻、博客、小说等,这些内容具有结构化的时间顺序(即有序的段落和句子)。对于这些内容,通常是基于结构化的内容作为特征识别关键词,例如,如果某个词出现在段落的第一句中,该词较大概率为关键词。但是,如果业务对象为短视频数据、电影数据等视频数据,其相关的文本多为用户的评论,由于评论是不具有结构化的时间顺序,以及,评论通常携带了许多与业务对象无关的内容。因此,基于结构化的内容作为特征识别关键词,识别关键词的精确度较低,例如,针对视频,如果存在与视频内容无关的评论,很可能将诸如“video”(视频)、“subscribe”(订阅)等高频出现的词语识别为关键词。一方面,业务对象的评论的数据量大,识别关键词的精确度较低的情况,使得筛选关键词时所使用的cpu(centralprocessingunit,中央处理器)、内存等硬件资源的利用率低,造成资源的浪费。另一方面,为了提高关键词的精确度,往往在识别关键词之后,由大量的技术人员进行人工复查,成本高,导致效率较低。技术实现要素:本发明实施例提供一种关键词的提取方法、装置、计算机设备和存储介质,以解决基于结构化的内容作为特征从评论中识别关键词的精确度较低的问题。第一方面,本发明实施例提供了一种关键词的提取方法,包括:获取对业务对象进行评论的信息;从所述信息中提取评论词;根据所述信息与所述业务对象之间的相关性,对所述信息进行排序;根据所述信息在排序之后所处的位置,选定具有代表性的评论词,作为所述业务对象的关键词。第二方面,本发明实施例还提供了一种关键词的提取装置,包括:信息获取模块,用于获取对业务对象进行评论的信息;评论词提取模块,用于从所述信息中提取评论词;信息排序模块,用于根据所述信息与所述业务对象之间的相关性,对所述信息进行排序;关键词选定模块,用于根据所述信息在排序之后所处的位置,选定具有代表性的评论词,作为所述业务对象的关键词。第三方面,本发明实施例还提供了一种计算机设备,所述计算机设备包括:一个或多个处理器;存储器,用于存储一个或多个程序;当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如第一方面中任一所述的关键词的提取方法。第四方面,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如第一方面中任一所述的关键词的提取方法。在本实施例中,获取对业务对象进行评论的信息,从信息中提取评论词,根据信息与业务对象之间的相关性,对信息进行排序,根据信息在排序之后的位置,选定具有代表性的评论词,作为业务对象的关键词,对用于评论的信息按照相关性进行规范化,以其位置作为参考选定关键词,通过句子的相关性保证关键词的代表性,从而提高关键词的精确度,不仅提高筛选关键词时所使用的cpu、内存等硬件资源的利用率,减少资源的浪费,而且减少了在识别关键词之后、技术人员进行人工复查的频次,降低了成本,提高了效率。附图说明图1为本发明实施例一提供的一种关键词的提取方法的流程图;图2为本发明实施例二提供的一种关键词的提取方法的流程图;图3a是本发明实施例三提供的一种关键词的提取方法的流程图;图3b是本发明实施例三提供的一种短视频中的示例图;图4为本发明实施例四提供的一种关键词的提取装置的结构示意图;图5为本发明实施例五提供的一种计算机设备的结构示意图。具体实施方式下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。实施例一图1为本发明实施例一提供的一种关键词的提取方法的流程图,本实施例可适用于从评论中提取关键词的情况,该方法可以由关键词的提取装置来执行,该关键词的提取装置可以由软件和/或硬件实现,可配置在计算机设备中,例如,服务器、工作站、个人电脑,等等,该方法具体包括如下步骤:s101、获取对业务对象进行评论的信息。目前,众多业务平台向用户提供业务对象,即具有业务领域特征的对象,供用户浏览该业务对象,在浏览之后,用户可以就业务对象发表信息,从而对该业务对象进行评论。其中,该信息可以包括但不限于文本数据(如文字、字符等)、图像数据(如表情、动态图等)、音频数据,等等。对于不同业务领域而言,由于该业务领域的特性不同,业务对象的形式有所不同,本实施例对此不加以限制。例如,对于新闻媒体领域而言,业务对象可以为新闻数据;对于多媒体领域而言,业务对象可以为短视频数据、电影数据、电视剧数据、直播数据等;对于电子商务(electroniccommerce,ec)领域而言,业务对象可以为商品数据,等等。业务对象虽然承载不同的业务特性,但其本质仍然是数据,例如,文本、图像数据、音频数据、视频数据等等。需要说明的是,发表信息的用户,可以是在业务平台注册的用户,可以是未在业务平台注册的用户,本实施例对此不加以限制。一般情况下,用户评论业务对象的信息可以存储在该业务平台的数据库中,若计算机设备为该业务平台内部的设备,则可以直接从该数据库中提取针对同一个业务对象评论的信息。若计算机设备并非该业务平台内部的设备,则可以通过爬虫等方式,从该业务平台提供的、该业务对象所在的页面中,爬取针对同一个业务对象评论的信息。s102、从信息中提取评论词。对于每个信息,该信息中具有独立意义的文字可以认定为评论词,该过程可以称之为tokenization(标记化/分词)。需要说明的是,该评论词一般为字、词或者短语,此外,符号,如逗号、句号、心形等,作为记录思想、交流思想的载体,也属于文字的一部分。针对不同的语言,其对独立意义的定义也有所不同,则标记评论词的方式也有所不同,本实施例对此不加以限制。若信息所属语言为英文,则将信息作为句子,在信息中标记具有独立含义的行符token,该行符token一般为单词与符号。若该行符token并不包含复数、现在进行时、过去时等时态,则可以直接将行符token标记为评论词,若该行符token包含复数、现在进行时、过去时等时态,则去除时态,将行符token中的词干(或词目、词根)lemma标记为评论词。例如,信息为“thedogsaresleeping.”,则行符token分别为“the”、“dogs”、“are”、“sleeping”、“.”,其中,“the”、“are”、“.”可以直接标记为评论词,而“dogs”的词干lemma为“dog”、“sleeping”的词干lemma为“sleep”。若信息所属语言为中文,一种方式是基于词典对该信息进行分词,从而获得评论词,即将信息作为句子,按照字典切分成词,再寻找词的最佳组合方式;另一种方式是基于字对该信息进行分词,从而获得评论词,即由字构词,先把句子分成一个个字,再将字组合成词,寻找最优的切分策略,同时也可以转化成序列标注问题。s103、根据信息与业务对象之间的相关性,对信息进行排序。在本实施例中,对同一个业务对象进行的信息,可通过textrank、lexrank等文本排序算法,按照该信息与业务对象之间的相关性对该信息进行排序,变更该信息的位置。一般而言,排序与相关性正相关,即信息与业务对象之间的相关性越大,信息的排序越高,反之,信息与业务对象之间的相关性越小,信息的排序越低,使得相关的信息排序高于无关的信息。s104、根据信息在排序之后所处的位置,选定具有代表性的评论词,作为业务对象的关键词。在具体实现中,信息在排序之后所处的位置,表达了信息与业务对象之间的相关性,可以在一定程度上反映该信息中候选词与业务对象内容之间的适配关系,因此,在本实施例中,可参考信息在排序之后所处的位置,从该信息中包含的评论词中选定具有代表性的评论词,作为该业务对象的关键词。在本实施例中,获取对业务对象进行评论的信息,从信息中提取评论词,根据信息与业务对象之间的相关性,对信息进行排序,根据信息在排序之后的位置,选定具有代表性的评论词,作为业务对象的关键词,对用于评论的信息按照相关性进行规范化,以其位置作为参考选定关键词,通过句子的相关性保证关键词的代表性,从而提高关键词的精确度,不仅提高筛选关键词时所使用的cpu、内存等硬件资源的利用率,减少资源的浪费,而且减少了在识别关键词之后、技术人员进行人工复查的频次,降低了成本,提高了效率。实施例二图2为本发明实施例二提供的一种关键词的提取方法的流程图,本实施例以前述实施例为基础,进一步增加过滤非法评论、过滤无效评论、对业务对象进行业务处理等操作,该方法具体包括如下步骤:s201、获取对业务对象进行评论的信息。s202、获取对信息标记的标签。s203、若标签为非法评论,则删除信息。在本实施例中,除了收集对业务对象进行评论的信息本身之外,还可以收集该信息关联的元数据metadata,其中,该元数据metadata包括评论id、标签,等等。由于业务、法律法规等需求,可预先制定审核规范,按照该审核规范对业务对象进行评论的信息进行审核,并标记相应的标签。对于一些具有敏感内容的信息,如含有低俗、暴力、偏激等言论的信息,可以标记表示非法评论的标签,对于其他信息,可以标记表示合法评论的标签。在提取关键词的过程中,若检测到标签为非法评论的信息,则可以删除该信息,从而滤除一些非法的评论,不参与提取关键词的操作。s204、从信息中提取评论词。s205、识别信息对于评论的有效性。s206、若有效性为无效,则过滤信息。在本实施例中,可以对信息进行预处理,在提取关键词之前去除一些噪声,从而过滤一些对评论无效的信息,保留对评论有效的信息,提高关键词的准确率。在一个示例中,若信息中未包含对于信息所属语言具有意义的字符,则确定信息对于评论的有效性为无效。需要说明的是,对于不同种类的语言,其具有意义的字符也有所不同,例如,对于英文,具有意义的字符为[a-z]、[a-z],等等,本实施例对此不加以限制。在另一个示例中,预先设置正则表达式regex,该正则表达式regex用于描述对于评论无效的句子(即字符串)的模式,可以用来检查一个串是否含有某种子串、将匹配的子串替换或者从某个串中取出符合某个条件的子串等。则在本示例中,查找预设的正则表达式regex,将该正则表达式regex逐个与信息进行对比。若信息与正则表达式匹配,则确定信息对于评论的有效性为无效。在另一个示例中,预先设置搜索引擎,该搜索引擎可用于查询对评论表现负向作用(negative)的句子。具体地,认为对关键字提取无用的情感,例如,攻击性句子、请求喜欢的句子、跟随的句子、共享的句子等,这些句子索引到搜索引擎中,当提供待查询的句子时,搜索引擎将返回与待查询的句子相似的句子以及相似度,被认为与搜索引擎返回的句子相似的待查询的句子,可以被认为是对评论表现负向作用的句子。则在本示例中,可通过搜索引擎查找对评论表现负向作用的句子,计算信息与该句子之间的相似度,若信息与句子相似(变现为两者之间的相似度大于预设的相似度阈值),则确定该信息属于对评论表现负向作用的句子,对于评论的有效性为无效。当然,除了搜索引擎之外,还可以采用其他方式识别信息是否属于对评论表现负向作用的句子,例如,可以预先训练二元的分类器来对信息是否属于对评论表现负向作用的句子进行分类,等等,本实施例对此不加以限制。具体而言,可以管理用于对业务对象进行评论的信息,生成注释语料库,在注释语料库中,用二元标签(即“是”、“否”)注释每个信息,以指示该信息是否属于对评论表现负向作用的句子。使用适当的机器学习算法(如svm(supportvectormachine,支持向量机)、logistic回归、随机森林等)来训练分类器。给定一个待查询的信息,该分类器可以返回该信息属于对评论表现负向作用的句子的概率,如果高概率高于用户定义的概率阈值,则该信息属于对评论表现负向作用的句子。在另一个示例中,在信息中排除无效的评论词,获得有效的评论词,即剩余的评论词为有效的评论词,统计有效的评论词的数量,若数量小于预设的数量阈值,则确定信息对于评论的有效性为无效。其中,无效的评论词满足如下至少一种第一条件:长度在预设的长度范围外,即如果评论词太长或太短,则可以认为无效;未包含对于所属语言具有意义的字符;停用词(stopword)。需要说明的是,在本示例中,对于英文,可以直接以行符token的词干lemma与第一条件进行匹配,而不采用行符token本身与第一条件进行匹配。当然,上述识别评论有效性的方式只是作为示例,在实施本发明实施例时,可以根据实际情况设置其他识别评论有效性的方式,本发明实施例对此不加以限制。另外,除了上述识别评论有效性的方式外,本领域技术人员还可以根据实际需要采用其它识别评论有效性的方式,本发明实施例对此也不加以限制。s207、根据信息与业务对象之间的相关性,对信息进行排序。在本实施例中,在过滤非法评论、过滤无效评论之后,如果排序之后的信息的数量少于预设的信息阈值,则可以结束流程,不对业务对象提取关键词。s208、根据信息在排序之后所处的位置,选定具有代表性的评论词,作为业务对象的关键词。s209、根据关键词对业务对象进行业务处理。对于不同的业务领域,其业务特性有所不同,因此,对业务对象进行的业务处理也有所不同,如以关键词作为业务对象的索引、检索业务对象,以关键词作为标签(tag)、对业务对象进行聚类/分类,以业务对象作为标签(tag)、推荐业务对象,等等,本实施例对此不加以限制。以短视频数据、直播数据等视频数据为例,这些视频数据大多由用户制作、上传,用于描述该视频数据的文本较少,大多只有一个标题,这种上下文信息的缺乏,影响将视频数据推送给用户的策略。但是,在用户观看这些视频数据之后,用户经常针对视频数据的内容进行评论,使得这些视频数据可以累积大量的信息。在本示例中,可以通过这些信息中提取关键词,从而为视频数据标记关键词,由于关键词也是重要的文本信息,可用于视频搜索,即为视频数据提供附加的上下文信息,这有助于提高视频搜索的相关性,从而做出更准确的推送。当接收到用户提交的查询词时,可以查找与该查询词相同或相似的关键词,召回标记该关键词的视频数据,配合其他筛选视频数据的算法(如协同过滤等)、业务规则(如去除当前用户已经观看过的视频数据,某个制作者被处罚时、禁止推送该制作者发布的视频数据等)等选择合适的视频数据,推送给用户。例如,用户在客户端输入“dog”(查询词),并提交给服务器,服务器可以召回关键字之一为“dog”的视频数据,将该视频数据的信息(如缩略图、标题、超链接等)发送至客户端,用户点击该信息,则可以请求该视频数据并进行播放。在本实施例中,通过删除属于非法评论的信息、通过有效性识别过滤对评论无效的信息,可以有效去除噪声内容,不仅可以减少信息的数据量,减少cpu、内存等资源的耗费,而且可以提高关键词的精确度。实施例三图3a为本发明实施例三提供的一种关键词的提取方法的流程图,本实施例以前述实施例为基础,进一步增加过滤非法评论、过滤无效评论、对业务对象进行业务处理等操作,该方法具体包括如下步骤:s301、获取对业务对象进行评论的信息。s302、从信息中提取评论词。s303、将评论词转换为向量,作为词向量。在本实施例中,可以将评论词转换为固定维度的向量表示,从而将信息以向量的形式表征,为方便表述,本实施例将该向量称之为词向量。在一种转换向量的方式中,可以计算每个评论词的tf-idf(termfrequency–inversedocumentfrequency,词频-逆文本频率指数)权重,作为向量。其中,tf-idf是一种统计方法,用以评估一字词(如评论词)对于一个文件集或一个语料库(如对同一个业务对象评论的所有信息)中的其中一份文件(如对同一个业务对象评论的其中一条信息)的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。具体地,计算tf-idf权重的公式如下:tf-idf=tf*idf词频(termfrequency,tf)指的是某一个给定的字词在该文件中出现的次数,这个次数通常会被归一化(一般是词频除以文章总词数),以防止它偏向长的文件(同一个字词在长文件里可能会比短文件有更高的词频,而不管该词语重要与否)。tf=a/b其中,a为在某一类中词条出现的次数,b为该类中所有的词条的数目。逆向文件频率(inversedocumentfrequency,idf)的思想是:如果包含词条的文档越少,idf越大,则说明词条具有很好的类别区分能力。某一特定词条的idf,可以由总文件数目除以包含该词条之文件的数目,再将得到的商取对数得到。idf=log(c/(d+e))其中,c为语料库的文档总数,d为包含某个词条的文档数,e为非零的常数,如1,用于避免分母为0。因此,某一特定文件内的高词语频率,以及该词语在整个文件集合中的低文件频率,可以产生出高权重的tf-idf,即tf-idf倾向于过滤掉常见的词语,保留重要的词语。当然,除了tf-idf之外,还可以采用其他方式将评论词转换为向量,例如,使用句子编码方法(sentenceembeddingmethods),即从使用对业务对象进行评论的信息作为样本,训练句子编码模型。对于给定的信息,该句子嵌入模型可以直接返回该信息的向量,此外,通过计算两个句子向量之间的余弦值,可以获得一对句子之间的情感相似性。需要说明的是,在本实施例中,对于英文,可以直接以行符token本身计算词向量,而不采用行符token的词干lemma计算词向量。s304、基于词向量计算信息的分数。在本实施例中,通过词向量对信息计算一个分数,该信息的分数用于表示信息相对于其他信息的重要性,从而量化信息与业务对象之间的相关性。一般而言,该分数与相关性正相关,即信息与业务对象之间的相关性越高,则其重要性越高、分数越大,反之,信息与业务对象之间的相关性越低,则其重要性越低、分数越小。在一种方式中,生成第一图,该第一图中具有多个第一节点,第一节点之间具有第一边。将评论词添加到第一节点中,计算评论词的词向量之间的相似度,将相似度设置为第一边的权重,从而基于第一图计算信息的分数。以textrank为例,假设第一图为g=(v,e),其中,v表示第一节点、e表示第一边,e是v×v的子集。第一图中任两个第一节点vi与vj之间边的权重为wji,对于一个给定的第一节点vi,in(vi)为指向该第一节点的点集合,out(vi)为第一节点vi指向的点集合,点vi的分数定义如下:s305、按照信息的分数对信息进行排序。一般情况下,按照信息的分数,对信息进行倒序排序,即信息的分数越高,排序之后信息所处的位置越高/前,信息的分数越低,排序之后信息所处的位置越低/后。s306、选择部分评论词,作为关键词。在本实施例中,可以通过关键词算法,从信息的评论词中提取部分评论词,作为候选的关键词。在一个示例,若评论词满足预设的第三条件,则确定评论词为候选关键词。其中,第三条件包括如下的至少一种:词性(partofspeech,pos)为有效的词性,如名词、形容词等;长度在预设的范围内;包含所属语言中具有意义的字符;非停用词;非黑名单中的词,其中,黑名单中的词为与业务领域相关的词,如“video”、“subscribe”。进一步而言,上述全部第三条件同时运用,即评论词同时满足上述全部的第三条件,则确定评论词为候选关键词,此时,可有效提高准确率。s307、基于关键词所属信息在排序之后所处的位置、计算关键词的权重,作为词权重。在本实施例中,参考关键词所属信息在排序之后所处的位置、对关键词设置权重,该权重称之为词权重。一般而言,权重与位置本身正相关,以及,权重与位置的频繁程度正相关,即关键词的位置越前、关键词出现越多(位置的频繁程度越高),则权重越大,反之,关键词的位置越后、关键词出现越少(位置的频繁程度越低),则权重越小。在一个示例中,可以确定关键词所属信息在排序之后所处的位置,计算位置的倒数,将倒数之和设置为关键词的权重,作为词权重。例如,一个关键词在三个信息中出现,这三个信息在排序之后处于第1位、第4位、第5位,则该关键词的权重为当然,上述计算词权重的方式只是作为示例,在实施本发明实施例时,可以根据实际情况设置其他计算词权重的方式,本发明实施例对此不加以限制。另外,除了上述计算词权重的方式外,本领域技术人员还可以根据实际需要采用其它计算词权重的方式,本发明实施例对此也不加以限制。进一步而言,在计算所有评论词的词权重之后,可以通过min-max标准化、z-score标准化等方式对词权重进行归一化,使得所有词权重的总和等于1,从而消除指标之间的量纲影响。s308、使用词权重计算关键词的分数。在具体实现中,参考词权重为关键词计算一个分数,该关键词的分数用于表示关键词的代表性。一般而言,分数与代表性正相关,即代表性越强,分数越高,反之,代表性越弱,分数越低。在本发明的一个实施例中,s308包括如下步骤:s3081、计算关键词在同一个信息中间隔的距离。在本实施例中,对于在同一个信息中共现的两个关键词,可以测量该两个关键词间隔的距离,该距离一般与相间的评论词的数量负相关,即相间的评论词的数量越多,则距离越小,反之,相间的评论词的数量越少,则距离越大。在具体实现中,可确定关键词在同一个信息中的偏移量,该信息中自左向右第一个评论词的偏移量为1、第二个评论词的偏移量为2、如此类推。计算偏移量之间的差值,将差值的倒数设置为关键词在同一个信息中间隔的距离。需要说明的是,为了保证距离为正,因此,偏移量之间的差值取其绝对值,假设在同一个信息中,关键词vi的偏移量为posi,关键词vj的偏移量为posj,vi与vj的距离为1/|posi-posj|。此外,若两个关键词并不在任一信息中共现,则其这两个关键词的距离为0。s3082、生成矩阵。在本实施例中,生成一个矩阵,矩阵的行与列均为关键词,矩阵中元素的值为元素对应关键词之间的距离之和。在具体实现中,可创建第二图,第二图中具有多个第二节点,第二节点之间具有第二边。将关键词添加到第二节点中,以及,计算距离之和,作为第二边的权重,从而将第二图转换为矩阵。进一步地,在生成矩阵之后,可以通过min-max标准化、z-score标准化等方式对矩阵进行归一化,使得每列的总和等于1,从而消除指标之间的量纲影响。需要说明的是,如果第二图中第二节点的数量少于预设的节点阈值,则可以结束流程,不对业务对象提取关键词。s3083、基于矩阵与词权重计算关键词的分数。在本实施例中,参考该矩阵与词权重计算每个关键词的分数,该关键词的分数与矩阵中元素的值正相关,该关键词的分数与词权重正相关,即矩阵中元素的值越大、词权重越大,则关键词的分数越大,反之,矩阵中元素的值越小、词权重越小,则关键词的分数越小。在一种实现方式中,可以通过迭代优化的方式计算关键词的分数,从而提高关键词的精确度。具体而言,可确定关键词在上一次迭代的分数,计算预设的第一权重、上一次迭代的分数与矩阵之间的第一乘积,计算预设的第二权重与词权重之间的第二乘积,计算第一乘积与第二乘积之和,作为关键词在本次迭代的分数。进一步而言,可以用如下方式表示本次迭代与上次迭代之间的关系:其中,wi+1为第i+1次迭代的分数,wi为第i次迭代的分数,α为第一权重,(1-α)为第二权重,为矩阵(可选为归一化后的矩阵),为词权重(可选为归一化后的词权重)。需要说明的是,对于首次迭代,可以通过随机赋值、设置指定的值等方式设置关键词的分数,如将每个关键词的分数设置为1/v,其中,v为第二图中第二节点的数量。判断本次迭代是否满足预设的第四条件,例如,本次迭代的分数与上一次迭代的分数之间的差值小于预设的分数阈值,又如,本地迭代的迭代次数到达预设的次数阈值,再如,等等。若是,则确定本次迭代的分数为关键词的分数,可输出该分数。若否,则进入下一次迭代,返回确定关键词在上一次迭代的分数。s309、若关键词的分数符合预设的第二条件,则选定关键词为业务对象的关键词。在本实施例中,可以按照关键词的分数,对关键词进行降序排序,即关键词的分数越大,排序越高,反之,关键词的分数越小,排序越低。带有大量评论的业务对象可能会导致提取太多的关键字,因此,可以设置第二条件,用于从降序排序后的关键词中筛选合适的关键词。例如,第二条件为分数最高的n个关键词,即从降序排序后的关键词中,选择前n个关键词。又如,第二条件为分数最高的r%个关键词,即从降序排序后的关键词中,选择前r%个关键词。再如,第二条件为分数最高的n个关键词与分数最高的n个关键词,降序排序后的关键词中,选择前r%个关键词,如果前r%个关键词的数量大于n,则仅选择前n个关键词。为使本领域技术人员更好地理解本发明实施例,以下通过具体的示例来说明本发明实施例中关键词的提取方法。在本示例中,针对语言为中文、对短视频进行评论的信息提取关键词,提前设置如下参数:有意义的字符:汉字字符有效的评论词的数量:至少2个有效的评论词的长度范围:1至4有效的词性:名词(nn),形容词(va)正则表达式regex(r1):序列正则表达式1.*请给我\d+个分享.*2.*帮忙点赞[一二三四五六七八九十百千万]+次.*搜索引擎负向作用(negative)的句子(r2):序列句子1请跟随我,我会去跟随你。2请喜欢我的视频、订阅频道,评论和点击分享!停用词(r3):你我他的这请多么和个被了很太黑名单(r4):视频跟随分享订阅喜欢在某个用户发布的一个短视频中,截取如图3b所示的画面,三只穿着动物服饰(熊猫、狮子、独角兽)的狗在走廊上赛跑。在这个过程中,中间的穿着狮子服饰的狗(哈巴狗)推挤了左边穿着熊猫服饰的狗,最后跑第一,右边穿独角兽的狗跑第二,左边穿着熊猫服饰的狗跑第三。获取用户对这个视频进行评论的信息,对这些信息进行预处理,过滤一些对评论无效的信息,保留对评论有效的信息。其中,(分词处理后)信息及其过滤结果如表1所示。表1通过第三条件对上述信息提取候选关键词,为便于描述,列出有效的评论词,作为候选的关键词,如表2所示。(词和词性用“/”分割)表2对含有候选的关键词的信息进行排序,排序之后的位置如表3所示。表3计算位置的倒数,将倒数之和设置为关键词的权重(即词权重):以“可怜”作为候选的关键词的示例,根据上表,“可怜”出现在信息的位置为1,4,12,则词权重为而总的词权重(以下表4权重列的总和)为8.91302,则归一化的词权重为1.333333/8.91302=0.149594所有候选的关键词(总共14)的词权重和归一化的词权重如表4所示。表4计算关键词在同一个信息中间隔的距离,以“可爱”与“独角兽”作为示例,vi=可爱(i=3),vj=独角兽(j=12),根据表3、4,vi与vj同时出现的信息的序列为3,9,13,则计算距离如表5所示。表5信息posiposj|posi-posj|1/|posi-posj|321190.1111119181530.333333131320.5vi与vj距离总和:0.111111+0.333333+0.5=0.944444如此计算所有有效关键词之间的距离的和值,得到距离总和,如表6所示。表6根据表6的距离总和列,生成矩阵m(总共14个候选关键词,矩阵大小为14行,14列)。其中,在上述例子,vi=可爱(i=3),vj=独角兽(j=12),距离总和=0.944444,所以m的第3行,第12列为0.944444。矩阵m如下:归一化后的矩阵(每列的总和等于1)如下:上述总共14个候选的关键词,则v=14,初始化向量w0维度为v,w0的每个值设为1/v=0.071429,α设为0.85。利用上述(表4的归一化权重列)、算出下一次迭代分数wi+1。迭代停止后,最终候选的关键词的分数如表7所示。表7根据表7的关键词的分数,对关键词进行降序排序,如表8所示。表8序列候选关键词分数4哈巴狗0.1968849熊猫0.1928532可怜0.1209563可爱0.10517912独角兽0.08736110狗0.0780614聪明0.042497有趣0.03445113白色0.03436211狗熊猫0.0298671乖巧0.0277088流氓0.0227656开心0.0152665家0.011799候选的关键词总数为14,设n=3,r=30,可以通过如下第二条件从表8筛选合适的关键词:1、分数最高的n个关键词:选定前3个关键词:“哈巴狗”,“熊猫”,“可怜”。2、分数最高的r%个关键词:r%x14=30%x14=4.2≈4则选定前4个关键词:“哈巴狗”,“熊猫”,“可怜”,“可爱”。3、分数最高的r%个关键词与分数最高的n个关键词,选择前r%个关键词,如果前r%个关键词的数量大于n,则仅选择前n个关键词:r%x14=30%x14=4.2≈4则前30%个关键词的数量大于3,仅选择前3个关键词:“哈巴狗”,“熊猫”,“可怜”。实施例四图4为本发明实施例四提供的一种关键词的提取装置的结构示意图,该装置具体可以包括如下模块:信息获取模块401,用于获取对业务对象进行评论的信息;评论词提取模块402,用于从所述信息中提取评论词;信息排序模块403,用于根据所述信息与所述业务对象之间的相关性,对所述信息进行排序;关键词选定模块404,用于根据所述信息在排序之后所处的位置,选定具有代表性的评论词,作为所述业务对象的关键词。在本发明的一个实施例中,还包括:标签获取模块,用于获取对所述信息标记的标签;信息删除模块,用于若所述标签为非法评论,则删除所述信息。在本发明的一个实施例中,所述评论词提取模块402包括:文字标记子模块,用于若所述信息所属语言为英文,则在所述信息中标记具有独立含义的行符;评论词标记子模块,用于将所述行符标记为评论词,或者,将所述行符中的词干标记为评论词。在本发明的一个实施例中,还包括:有效性识别模块,用于识别所述信息对于评论的有效性;信息过滤模块,用于若所述有效性为无效,则过滤所述信息。在本发明的一个实施例中,所述有效性识别模块包括:第一取消确定子模块,用于若所述信息中未包含对于所述信息所属语言具有意义的字符,则确定所述信息对于评论的有效性为无效;和/或,正则表达式查找子模块,用于查找预设的正则表达式,所述正则表达式用于描述对于评论无效的句子的模式;第二取消确定子模块,用于若所述信息与所述正则表达式匹配,则确定所述信息对于评论的有效性为无效;和/或,句子查找子模块,用于查找对评论表现负向作用的句子;第三取消确定子模块,用于若所述信息与所述句子相似,则确定所述信息对于评论的有效性为无效;和/或,无效排除子模块,用于在所述信息中排除无效的评论词,获得有效的评论词;数量统计子模块,用于统计所述有效的评论词的数量;第四取消确定子模块,用于若所述数量小于预设的数量阈值,则确定所述信息对于评论的有效性为无效;其中,所述无效的评论词满足如下至少一种第一条件:长度在预设的长度范围外;未包含对于所属语言具有意义的字符;停用词。在本发明的一个实施例中,所述信息排序模块403包括:向量转换子模块,用于将所述评论词转换为向量,作为词向量;信息分数计算子模块,用于基于所述词向量计算所述信息的分数,所述信息的分数用于表示所述信息相对于其他信息的重要性;按照所述信息的分数对所述信息进行排序。在本发明的一个实施例中,所述信息分数计算子模块包括:第一图生成单元,用于生成第一图,所述第一图中具有多个第一节点,所述第一节点之间具有第一边;第一节点添加单元,用于将所述评论词添加到所述第一节点中;相似度计算单元,用于计算所述评论词的词向量之间的相似度;第一边权重设置单元,用于将所述相似度设置为所述第一边的权重;图计算单元,用于基于所述第一图计算所述信息的分数。在本发明的一个实施例中,所述关键词选定模块404包括:关键词选择子模块,用于选择部分所述评论词,作为关键词;词权重计算子模块,用于基于所述关键词所属信息在排序之后所处的位置、计算所述关键词的权重,作为词权重;关键词分数计算子模块,用于使用所述词权重计算所述关键词的分数,所述关键词的分数用于表示关键词的代表性;条件选定子模块,用于若所述关键词的分数符合预设的第二条件,则选定所述关键词为所述业务对象的关键词。在本发明的一个实施例中,所述关键词选择子模块包括:条件选择单元,用于若所述评论词满足预设的第三条件,则确定所述评论词为候选关键词;其中,所述第三条件包括如下的至少一种:词性为有效的词性;长度在预设的范围内;包含所属语言中具有意义的字符;非停用词;非黑名单中的词。在本发明的一个实施例中,所述词权重计算子模块包括:位置确定单元,用于确定所述关键词所属信息在排序之后所处的位置;倒数计算单元,用于计算所述位置的倒数;词权重设置单元,用于将所述倒数之和设置为所述关键词的权重,作为词权重。在本发明的一个实施例中,所述关键词分数计算子模块包括:距离计算单元,用于计算所述关键词在同一个所述信息中间隔的距离;矩阵生成单元,用于生成矩阵,所述矩阵中元素的值为所述元素对应关键词之间的距离之和;分数计算单元,用于基于所述矩阵与所述词权重计算所述关键词的分数。在本发明的一个实施例中,所述距离计算单元包括:偏移量确定子单元,用于确定所述关键词在同一个所述信息中的偏移量;差值计算子单元,用于计算所述偏移量之间的差值;距离设置子单元,用于将所述差值的倒数设置为所述关键词在同一个所述信息中间隔的距离。在本发明的一个实施例中,所述矩阵生成单元包括:第二图创建子单元,用于创建第二图,所述第二图中具有多个第二节点,所述第二节点之间具有第二边;第二节点添加子单元,用于将所述关键词添加到所述第二节点中;第二边权重计算子单元,用于计算所述距离之和,作为所述第二边的权重;矩阵转换子单元,用于将所述第二图转换为矩阵。在本发明的一个实施例中,所述分数计算单元包括:分数确定子单元,用于确定所述关键词在上一次迭代的分数;第一乘积计算子单元,用于计算预设的第一权重、上一次迭代的分数与所述矩阵之间的第一乘积;第二乘积计算子单元,用于计算预设的第二权重与所述词权重之间的第二乘积;乘积和计算子单元,用于计算所述第一乘积与所述第二乘积之和,作为所述关键词在本次迭代的分数;条件判断子单元,用于判断本次迭代是否满足预设的第四条件;若是,则调用分数确定子单元,若否,则返回调用所述分数确定子单元;分数确定子单元,用于确定本次迭代的分数为所述关键词的分数。示例性地,所述第四条件包括本次迭代的分数与上一次迭代的分数之间的差值小于预设的分数阈值,或者,本地迭代的迭代次数到达预设的次数阈值。本发明实施例所提供的关键词的提取装置可执行本发明任意实施例所提供的关键词的提取方法,具备执行方法相应的功能模块和有益效果。实施例五图5为本发明实施例五提供的一种计算机设备的结构示意图。如图5所示,该计算机设备包括处理器500、存储器501、通信模块502、输入装置503和输出装置504;计算机设备中处理器500的数量可以是一个或多个,图5中以一个处理器500为例;计算机设备中的处理器500、存储器501、通信模块502、输入装置503和输出装置504可以通过总线或其他方式连接,图5中以通过总线连接为例。存储器501作为一种计算机可读存储介质,可用于存储软件程序、计算机可执行程序以及模块,如本实施例中的关键词的提取方法对应的模块(例如,如图4所示的关键词的提取装置中的信息获取模块401、评论词提取模块402、信息排序模块403和关键词选定模块404)。处理器500通过运行存储在存储器501中的软件程序、指令以及模块,从而执行计算机设备的各种功能应用以及数据处理,即实现上述的关键词的提取方法。存储器501可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据计算机设备的使用所创建的数据等。此外,存储器501可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中,存储器501可进一步包括相对于处理器500远程设置的存储器,这些远程存储器可以通过网络连接至计算机设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。通信模块502,用于与显示屏建立连接,并实现与显示屏的数据交互。输入装置503可用于接收输入的数字或字符信息,以及产生与计算机设备的用户设置以及功能控制有关的键信号输入,还可以是用于获取图像的摄像头以及获取音频数据的拾音设备。输出装置504可以包括扬声器等音频设备。需要说明的是,输入装置503和输出装置504的具体组成可以根据实际情况设定。处理器500通过运行存储在存储器501中的软件程序、指令以及模块,从而执行设备的各种功能应用以及数据处理,即实现上述的电子白板的连接节点控制方法。本实施例提供的计算机设备,可执行本发明任一实施例提供的关键词的提取方法,具体相应的功能和有益效果。实施例五本发明实施例五还提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现一种关键词的提取方法,该方法包括:获取对业务对象进行评论的信息;从所述信息中提取评论词;根据所述信息与所述业务对象之间的相关性,对所述信息进行排序;根据所述信息在排序之后所处的位置,选定具有代表性的评论词,作为所述业务对象的关键词。当然,本发明实施例所提供的计算机可读存储介质,其计算机程序不限于如上所述的方法操作,还可以执行本发明任意实施例所提供的关键词的提取方法中的相关操作。通过以上关于实施方式的描述,所属领域的技术人员可以清楚地了解到,本发明可借助软件及必需的通用硬件来实现,当然也可以通过硬件实现,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如计算机的软盘、只读存储器(read-onlymemory,rom)、随机存取存储器(randomaccessmemory,ram)、闪存(flash)、硬盘或光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。值得注意的是,上述关键词的提取装置的实施例中,所包括的各个单元和模块只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各功能单元的具体名称也只是为了便于相互区分,并不用于限制本发明的保护范围。注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1