面向微博平台话题推荐的评估方法及装置与流程

文档序号:11950900阅读:265来源:国知局
面向微博平台话题推荐的评估方法及装置与流程

本发明涉及计算机应用技术与社交网络技术领域,特别涉及一种面向微博平台话题推荐的评估方法及装置。



背景技术:

个性化推荐系统是指在为用户和信息产品之间建立二元关系的基础上,利用用户以往的选择过程或与其他用户的相似性关系,挖掘出该用户的潜在感兴趣对象,进而进行个性化推荐的系统。一个完整的推荐系统由三部分组成:记录模块(手机用户信息的行为)、分析模块(分析用户的模型)和推荐算法建模。其中,推荐算法模块是最为核心的部分。根据国外学者的研究成果,个性化推荐算法主要可以分为协同过滤(collaborative filtering)算法和基于内容(content-based)的推荐算法以及两种相结合的算法等。

协同过滤系统是第一代被提出并得到广泛应用的推荐系统。传统的协同过滤系统的核心思想可以分为两部分:首先,是利用用户的历史信息计算用户之间的相似性;然后,利用与目标用户相似性较高的邻居对其他产品的评价来预测目标用户对特定产品的喜好程度。系统根据这一喜好程度来对目标用户进行推荐。这一方法并不依赖于产品本身的描述信息,只针对于用户之间的相似性以及用户对产品的评价上。因此,协同过滤算法能够很有效率的发现目标用户的潜在兴趣爱好,能够为其推荐新信息和新产品,并能够推荐难以进行内容分析的产品。较之以前的推荐策略:a.根据已有标签进行词语共现的推荐;b.根据文本特征(如标题、描述)来推荐;c.利用标签相关性度量来推荐。

基于内容的推荐系统可以分别对用户和产品建立配置文件,通过分析已经购买(或浏览)过的内容,建立或更新用户的配置文件。系统可以比较用户与产品配置文件的相似度,并直接向用户推荐与其配置文件最相似的产品。例如,在电影推荐中,基于内容的系统首先分析用户已经看过的打分比较高的电影的共性(演员、导演、风格等),再推荐与这些用户感趣的电影内容相似度高的其他电影。总体来讲,基于内容的推荐系统可以不受打分稀疏性问题的约束,能推荐新出现的产品,发现隐藏信息,通过列出推荐内容的特征,解释为什么推荐这些产品,使用户在使用时具有更好的用户体验。然而,现有的人工评定方法存在一定缺陷,有待改进。



技术实现要素:

本发明旨在至少在一定程度上解决相关技术中的技术问题之一。

为此,本发明的一个目的在于提出一种面向微博平台话题推荐的评估方法,该方法不仅可以节省人力,且评测结果更具有说服力。

本发明的另一个目的在于提出一种面向微博平台话题推荐的评估装置。

为达到上述目的,本发明一方面实施例提出了一种面向微博平台话题推荐的评估方法,包括以下步骤:从互联网上获取微博平台中多条微博文本;对所述多条微博文本进行分词;获取分词后的所述多条微博文本的词频,以得到微博内容;根据所述微博内容得到无监督话题推荐信息;根据所述无监督话题推荐信息的词向量与预设的测试集中话题的词向量的欧式距离得到评估结果。

本发明实施例的面向微博平台话题推荐的评估方法,可以对话题推荐方法结果进行自动评估,引入词向量替代现有的人工评定方式,节省人力且消除人工评定时的主观性,通过对无监督方法得到的推荐话题进行自动评估,实现对微博平台的无监督话题推荐方法的有效地自动评估检测,从而确定无监督方法的有效性,不仅可以节省人力,且评测结果更具有说服力。

另外,根据本发明上述实施例面向微博平台话题推荐的评估方法还可以具有以下附加的技术特征:

进一步地,在本发明的一个实施例中,在所述多条微博文本进行分词之前,还包括:对所述多条微博文本进行预处理,以去除无用信息,其中,所述无用信息包括html标签、URL和图片。

进一步地,在本发明的一个实施例中,所述根据所述文本数据得到无监督话题推荐信息进一步包括:通过预设的主题模型对所述微博文本内容进行建模,以根据利用概率最大的主题的TOP K个关键词作为话题推荐;获取所述无监督话题推荐信息。

可选地,在本发明的一个实施例中,所述主题模型为LDA(Latent Dirichlet Allocation,隐式狄利克雷分配)主题模型,以通过所述LDA主题模型对所述微博文本内容的主题信息进行建模。

进一步地,在本发明的一个实施例中,还包括:利用RNN(Recurrent neural Network,循环神经网络)模型训练得到所述测试集中话题的词向量。

为达到上述目的,本发明另一方面实施例提出了一种面向微博平台话题推荐的评估装置,包括:第一获取模块,用于从互联网上获取微博平台中多条微博文本;分词模块,用于对所述多条微博文本进行分词;第二获取模块,用于获取分词后的所述多条微博文本的词频,以得到微博内容;推荐模块,用于根据所述微博内容得到无监督话题推荐信息;评估模块,用于根据所述无监督话题推荐信息的词向量与预设的测试集中话题的词向量的欧式距离得到评估结果。

本发明实施例的面向微博平台话题推荐的评估装置,可以对话题推荐方法结果进行自动评估,引入词向量替代现有的人工评定方式,节省人力且消除人工评定时的主观性,通过对无监督方法得到的推荐话题进行自动评估,实现对微博平台的无监督话题推荐方法的有效地自动评估检测,从而确定无监督方法的有效性,不仅可以节省人力,且评测结果更具有说服力。

另外,根据本发明上述实施例的面向微博平台话题推荐的评估装置还可以具有以下附加的技术特征:

进一步地,在本发明的一个实施例中,还包括:预处理模块,用于对所述多条微博文本进行预处理,以去除无用信息,其中,所述无用信息包括html标签、URL和图片。

进一步地,在本发明的一个实施例中,所述推荐模块包括:推荐单元,用于通过预设的主题模型对所述微博文本内容进行建模,以根据利用概率最大的主题的TOP K个关键词作为话题推荐;获取单元,用于获取所述无监督话题推荐信息。

可选地,在本发明的一个实施例中,所述主题模型为LDA模型,以通过所述LDA模型对所述微博文本内容的主题信息进行建模。

进一步地,在本发明的一个实施例中,还包括:训练模块,用于利用RNN模型训练得到所述测试集中话题的词向量。

本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:

图1为相关技术中的神经网络示意图;

图2为根据本发明实施例的面向微博平台话题推荐的评估方法的流程图;

图3为根据本发明一个实施例的面向微博平台话题推荐的评估方法的流程图;

图4为根据本发明一个具体实施例的面向微博平台话题推荐的评估方法的流程图;

图5为根据本发明实施例的面向微博平台话题推荐的评估装置的结构示意图;

图6为根据本发明一个实施例的推荐模块的结构示意图;

图7为根据本发明一个具体实施例的面向微博平台话题推荐的评估方法装置的结构示意图。

具体实施方式

下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。

下面在描述根据本发明实施例提出的面向微博平台话题推荐的评估方法及装置之前,先来简单描述一下评估的重要性。

微博是最近几年才出现的新兴媒体。2006年,博客创始人威廉姆斯的公司Obvious创建了Twitter,这是世界上第一个微博网站。与此同时,国内出现了一些类似Twitter的网站,如做啥、饭否、叽歪等,但以上大部分网站在2009年7月因技术问题等关闭。目前,国内主要中为微博网站有新浪微博、腾讯微博和搜狐微博。

虽然微博出现时间较短,但其发展非常迅猛。微博是一个可以方便快捷地发布、分享、传播以及获取信息的平台,用户可以通过网页、WAP页面、短信、实时消息软件等发布接受信息,随时和朋友、关注的人以及粉丝进行交流。可以发布的信息包括简短的文本、图片、影音片段和超链接等。通常文本字数不超过140字。

微博有字数限制,因而往往短小。话题型微博又因为有一个明确的话题,人们是围绕这个话题发表意见,写微博,只要表达了心情、态度,三言两语也可,只字片语也行,所以与一般文体相比,话题型微博中句子相对简短,单句居多。

微博话题秉承了微博语录体叙事风格的传统,简短而不失精炼,提纲挈领,一语中的,标签化是话题的核心内容。虽然很多话题的内容是一致的,但在表述上,各有不同。同时,微博话题具有口语化、通俗化、趣味化的特点,它符合浅阅读时代人们的思维方式和文字消费方式,而且可以增强话题的吸引力。通过浏览标签化的话题,快速获取话题内容,让更多对此话题感兴趣的微博用户关注此话题并加入讨论。

话题具有高度的网民参与度,一般都具有共鸣性,因为话题的设置标准是能够引起微博用户的关注和讨论。

话题的特点之一是情感诉求明显,单位小时内真实有效的话题原创人数成为评价话题传播性的标准。由于传播空间的相对自由和匿名评论的相对隐秘,因而网友在表达观点时会采用一些比较极端和激烈的形式,又因微博字数的限制,无法以逻辑鲜明的论述方式进行理性表达,所以在话题型微博中,观点句的表达往往感情色彩强烈,而理性评价淡化,脏话、粗话等表现力强的不雅语汇大量出现,这也成为话题型微博观点句在表达情感和态度时一种较广泛的表达方式。

在话题型微博中,除了用一些很“给力”的词语明确表达观点外,人们还会采用一种隐晦的、非直接的方式,以言外之意表达观点。如:

(1)#食用油涨价#我可以说脏话吗?

这是一个疑问句,字面上看没有表达任何观点,然而在“食用油涨价”这一语境下,可以理解为说话者表达的是一种想用说脏话来发泄的冲动,因而也就间接地表达了对话题不满的情绪和贬斥的态度。

(2)#三亚春节宰客#

当地的政府部门这么做的用意是什么?掩耳盗铃?越抹越黑?还是让游客永远不去三亚?应该去测测智商了!“应该去测测智商”表达了说话者对“当地政府部门”的不满。

含有大量非规范性的语言文字,也是话题型微博语言的一个特点。这种非规范性可能有

几个方面的原因:一方面,是非人为的原因造成的输入失误或常识上的汉字书写错误;另一方面,微博表达自由,加之敏感话题在法律上的限制,会人为地加入一些噪声、非规范词、非规范符号和非规范语言格式。

其中,分布表示最早是Hinton在1986年的论文《Learning distributed representations of concepts》中提出的。虽然这篇文章没有说要将词做分布表示,但至少这种先进的思想在那个时候就在人们的心中埋下了火种,到2000年之后开始逐渐被人重视。分布表示用来表示词,通常被称为“Word Representation”或“Word Embedding”,中文俗称“词向量”。后文提到的所有“词向量”都是指用分布表示表示的词向量。如果用传统的稀疏表示法表示词,在解决某些任务的时候(比如构建语言模型)会造成维数灾难。使用低维的词向量就没这样的问题。同时从实践上看,高维的特征如果要套用深度学习,其复杂度几乎是难以接受的,因此低维的词向量在这里也饱受追捧。

Mikolov最早用循环神经网络做语言模型是在INTERSPEECH 2010上发表的《Recurrent neural network based language model》里。Recurrent neural network是循环神经网络,简称RNN。在之后的几年中,Mikolov在一直在RNNLM上做各种改进,有速度上的,也有准确率上的。

循环神经网络与前面各方法中用到的前馈网络在结构上有比较大的差别,但是原理还是一样的。

如图1所示,图中左边是网络的抽象结构,由于循环神经网络多用在时序序列上,因此里面的输入层、隐藏层和输出层都带上了(t)。w(t)是句子中第t个词的One-hot representation的向量,也就是说w是一个非常长的向量,里面只有一个元素是1。而下面的s(t-1)向量就是上一个隐藏层。最后隐藏层计算公式为:

s(t)=sigmoid(Uw(t)+Ws(t-1))s(t)=sigmoid(Uw(t)+Ws(t-1))。

进一步地,从图中右边可以看出循环神经网络是如何展开的。每来一个新词,就和上一个隐藏层联合计算出下一个隐藏层,隐藏层反复利用,一直保留着最新的状态。各隐藏层通过一层传统的前馈网络得到输出值。

可以理解的是,循环神经网络的最大优势在于,可以真正充分地利用所有上文信息来预测下一个词,而不像前面的其它工作那样,只能开一个n个词的窗口,只用前n个词来预测下一个词。

然而,现有的对话题推荐的无监督方法进行评估一般为人工评定,不但浪费人力,而且评价结果不具有说服力。

本发明正是基于上述问题,而提出了一种面向微博平台话题推荐的评估方法及装置。

下面参照附图描述根据本发明实施例提出的面向微博平台话题推荐的评估方法及装置,首先将参照附图描述根据本发明实施例提出的面向微博平台话题推荐的评估方法。

图2是本发明实施例的面向微博平台话题推荐的评估方法的流程图。

如图2所示,该面向微博平台话题推荐的评估方法包括以下步骤:

在步骤S201中,从互联网上获取微博平台中多条微博文本。

其中,在本发明的一个实施例中,在所述多条微博文本进行分词之前,还包括:对所述多条微博文本进行预处理,以去除无用信息,其中,所述无用信息包括html标签、URL和图片。

在步骤S202中,对所述多条微博文本进行分词。

具体而言,如图3所示,首先,可以利用爬虫技术获取微博平台上的微博内容。例如,利用Python语言撰写爬虫程序,对门户网站的新闻进行爬取并储存到后台MongoDB数据库中。其中,微博内容可以是新浪微博。

其次,对获取的微博文本内容进行数据预处理。具体地,抽取文本内容,由于爬虫获取的是原始数据,其中含有大量对文本摘要无关的杂乱信息,比如html标签、URL、图片等,将这些无关内容清除;然后对清理后的文本内容做中文分词处理。

在步骤S203中,获取分词后的所述多条微博文本的词频,以得到微博内容。

也就是说,进一步对分词后的词语计算词频,以将大量的低词频词语去掉。

在步骤S204中,根据所述微博内容得到无监督话题推荐信息。

进一步地,在本发明的一个实施例中,所述根据所述文本数据得到无监督话题推荐信息进一步包括:通过预设的主题模型对所述微博文本内容进行建模,以根据利用概率最大的主题的TOP K个关键词作为话题推荐;获取所述无监督话题推荐信息。

可选地,在本发明的一个实施例中,如图4所示,所述主题模型为LDA主题模型,以通过所述LDA主题模型对所述微博文本内容的主题信息进行建模。

具体地,采用基于主题模型的无监督话题推荐方法,需要说明的是,推荐方法不局限于何种无监督方法。LDA主题模型是一种对离散数据集建模的概率主题模型,是一种对文本数据的主题信息进行建模的方法,通过对文档进行一个简短的描述,保留本质的统计信息,有助于高效地处理大规模的文档集。它有3层生成式贝叶斯网络结构,基于这样一种前提假设:文档是由若干个隐含主题构成,而这些主题是由文本中若干个特定词汇构成,忽略文档中的句法结构和词语出现的先后顺序。

其中,主题模型可以对微博内容进行自动建模,利用概率最大的主题的TOP K个关键词作为话题推荐。

在步骤S205中,根据所述无监督话题推荐信息的词向量与预设的测试集中话题的词向量的欧式距离得到评估结果。

另外,在本发明的一个实施例中,还包括:利用RNN模型训练得到所述测试集中话题的词向量。

可以理解的是,利用RNN模型训练得到词向量,对测试集中话题求得词向量,然后得到推荐的话题的词向量,二者的欧氏距离作为评价标准,欧氏距离越小,说明推荐的话题更准确。

根据本发明实施例的面向微博平台话题推荐的评估方法,可以对话题推荐方法结果进行自动评估,引入词向量替代现有的人工评定方式,节省人力且消除人工评定时的主观性,通过对无监督方法得到的推荐话题进行自动评估,实现对微博平台的无监督话题推荐方法的有效地自动评估检测,从而确定无监督方法的有效性,不仅可以节省人力,且评测结果更具有说服力。

其次参照附图描述根据本发明实施例提出的面向微博平台话题推荐的评估装置。

图5是本发明实施例的面向微博平台话题推荐的评估装置的结构示意图。

如图5所示,该面向微博平台话题推荐的评估装置10包括:第一获取模块100、分词模块200、第二获取模块300、推荐模块400和评估模块500。

其中,第一获取模块100用于从互联网上获取微博平台中多条微博文本。分词模块200用于对多条微博文本进行分词。第二获取模块300用于获取分词后的多条微博文本的词频,以得到微博内容。推荐模块400用于根据微博内容得到无监督话题推荐信息。评估模块500用于根据无监督话题推荐信息的词向量与预设的测试集中话题的词向量的欧式距离得到评估结果。本发明实施例的评估装置10可以对各种无监督话题推荐方法得到的推荐话题进行评价,从而对各种无监督方法进行排序,实现自动评估的目的。

进一步地,在本发明的一个实施例中,本发明实施例的评估装置10还包括:预处理模块(图中未具体标识)。其中,预处理模块用于对多条微博文本进行预处理,以去除无用信息,其中,无用信息包括html标签、URL和图片。

进一步地,在本发明的一个实施例中,如图6所示,推荐模块400包括:推荐单元401和获取单元402。

其中,推荐单元401用于通过预设的主题模型对微博文本内容进行建模,以根据利用概率最大的主题的TOP K个关键词作为话题推荐。获取单元402用于获取无监督话题推荐信息。

可选地,在本发明的一个实施例中,主题模型为LDA模型,以通过LDA模型对微博文本内容的主题信息进行建模。

进一步地,在本发明的一个实施例中,本发明实施例的评估装置10还包括:训练模块。其中,训练模块用于利用RNN模型训练得到测试集中话题的词向量。

具体而言,对无监督话题推荐方法进行自动评估,包含两个阶段:首先是系统的自动预处理阶段,对获取的微博文本内容进行预处理包括去除html标签、URL、图片等无关信息,然后进行中文分词处理,并且计算词频,对处于停用词表和低词频的词语剔除,使用无监督方法对测试集进行话题推荐。

本发明实施例的评估装置10可以调用已预先训练好的词向量模型,得到测试集中话题和推荐的话题的词向量表示,计算推荐话题词向量和真实话题词向量之间的欧氏距离,欧氏距离越小的方法效果越好。

可以理解的是,如图7所示,整个评估装置10自顶向下可以分成三大主要层次,顶层是无监督话题推荐方法的评价结果和展示模块;中间是方法评估模型;底层是数据获取模块。其中,无监督话题推荐方法评价结果展示模块主要是给用户提供一个图形化的友好的用户操作界面,以方便浏览自动评估结果。方法评估模块主要是利用词向量计算真实话题和推荐话题之间的欧氏距离。底层功能模块主要是数据获取与储存。

其中,面向微博平台话题推荐的评估装置10的实施采用了爬虫技术、文本数据清洗技术、循环神经网络建模技术、主题模型建话题推荐技术等核心技术。这些算法和图形用户界面等功能模块可以分别用Python、C++和Java语言开发实现,并且支持基于Linux内核的操作系统部署。另外,基于上述开发平台,整个评估装置10的部署运行需要如下几个层次运行环境的支撑。首先在操作系统层,预测系统可以在基于Linux内核的平台之上运行;同时还需要程序运行支撑环境,也就是Python 2.7、GCC 4.7及以上和JRE 1.6运行支撑环境,数据库使用MongoDB。只有具备了上述支撑环境,评估系统才能正常地运行。

根据本发明实施例的面向微博平台话题推荐的评估装置,可以对话题推荐方法结果进行自动评估,引入词向量替代现有的人工评定方式,节省人力且消除人工评定时的主观性,通过对无监督方法得到的推荐话题进行自动评估,实现对微博平台的无监督话题推荐方法的有效地自动评估检测,从而确定无监督方法的有效性,不仅可以节省人力,且评测结果更具有说服力。

在本发明的描述中,需要理解的是,术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”、“顺时针”、“逆时针”、“轴向”、“径向”、“周向”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。

此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。

在本发明中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或成一体;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通或两个元件的相互作用关系,除非另有明确的限定。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。

在本发明中,除非另有明确的规定和限定,第一特征在第二特征“上”或“下”可以是第一和第二特征直接接触,或第一和第二特征通过中间媒介间接接触。而且,第一特征在第二特征“之上”、“上方”和“上面”可是第一特征在第二特征正上方或斜上方,或仅仅表示第一特征水平高度高于第二特征。第一特征在第二特征“之下”、“下方”和“下面”可以是第一特征在第二特征正下方或斜下方,或仅仅表示第一特征水平高度小于第二特征。

在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1