社交网络中领域的特征词库迭代更新方法和装置制造方法

文档序号:6547021阅读:147来源:国知局
社交网络中领域的特征词库迭代更新方法和装置制造方法
【专利摘要】本发明公开了一种社交网络中领域的特征词库迭代更新方法和装置,所述方法包括:根据社交网络中领域的用户群体发布的文本内容,对该领域的特征词库进行迭代更新;其中一次迭代更新过程包括:对于该领域的用户群体中的每个用户,根据当前的该领域的特征词库计算该用户发布的每篇文本内容与该领域的相关度;根据该用户发布的每篇文本内容与该领域的相关度,计算该用户与该领域的相关度;从该领域的用户群体中确定出与该领域的相关度大于第一相关度阈值的用户,将确定出的用户发布的、与该领域的相关度大于第二相关度阈值的文本内容作为该领域的语料,从中提取出该领域的特征词,得到该领域的特征词库。本发明可以提高领域的特征词库的准确度。
【专利说明】社交网络中领域的特征词库迭代更新方法和装置

【技术领域】
[0001] 本发明涉及互联网【技术领域】,尤其涉及一种社交网络中领域的特征词库迭代更新 方法和装置。

【背景技术】
[0002] 随着互联网技术的发展,通过社交网络来进行信息的分享、传播以及获取,已成为 广大网络用户的主要社交方式之一。例如,通过微博或Twitter (推特)等社交网络,用户 可以发布自己的最新动态等内容,也可以评论、收藏或转发其他用户发布的内容。
[0003] 在实际应用中,通过对微博等社交网络的观察和分析发现,在社交网络中分布着 大大小小的不同领域的社交圈。而对于社交网络中不同的领域,运营人员通常会为每个领 域建立一个特征词库,以对社交网络中存在的大量的用户进行领域划分或者对社交网络中 用户发布的文本内容进行分类等。其中,领域的特征词库中存储有能够表征该领域的文本 内容的特征的词语,即特征词。而且,运营人员还可以根据各领域的特征词挖掘出各领域的 高专业性的专家,为社交网络提供领域专家扩展服务,并为垂直领域项目提供数据支撑。
[0004] 现有存在一种人工构建特征词库的方法,具体为:对于社交网络中的每个领域,人 工收集整理一些与该领域相关的语料(比如社交网络中用户发布的该领域的文本内容), 根据通用分词词库对收集的语料进行分词后,对分词结果进行人工审核,将符合人工审核 条件的词语作为该领域的特征词存储至特征词库中。其中,通用分词词库为现有常用分词 器所采用的分词词库。实际应用中,人工收集的语料只能覆盖少数领域,且收集的语料与领 域的相关度存在较大的浮动,导致通过上述人工构建特征词库的方法所提取出的特征词库 的领域覆盖率和准确度都不高;而且,通过人工收集和人工审核进行特征词库的构建,存在 工作量大、且耗费时间长的不足。
[0005] 为了减少构建特征词库的工作量及耗费时间,现有还提出了一种基于网页爬取 内容的特征词库构建方法,其主要是针对每个领域,利用自动获取网页内容的网络爬虫 程序去网络上爬取一个或几个与该领域相关的网页作为语料存储至该领域的语料库中; 之后,通过本领域技术人员常用的N-gram模型或分词器对爬取的网页进行分词后,通过 TF-IDF (term frequency - inverse document frequency,词频-逆文档频率)统计方法确 定出该领域的特征词,存储到该领域的特征词库中。然而,由于相关领域的网站网页的内容 是经过网页编辑进行编辑过的,与社交网络中的偏向口语化的文本内容存在较大不同,因 此基于网页爬虫爬取的语料构建的特征词库应用于社交网络中时,其准确度并不高,进而 也会对社交网络中的文本内容分类或领域专家确定的准确度等产生影响。
[0006] 综上所述,现有的社交网络中领域的特征词库的准确度不够高。


【发明内容】

[0007] 针对上述现有技术存在的缺陷,本发明实施例提供了一种社交网络中领域的特征 词库迭代更新方法和装置,用以提高社交网络中领域的特征词库的准确度。
[0008] 本发明实施例提供了一种社交网络中领域的特征词库迭代更新方法,包括:
[0009] 对于社交网络中待更新特征词库所属的领域,根据所述领域的用户群体发布的文 本内容,对所述领域的特征词库进行设定次数的迭代更新;其中,一次迭代更新过程包括: [0010] 对于所述领域的用户群体中的每个用户,根据当前的所述领域的特征词库,计算 该用户发布的每篇文本内容与所述领域的相关度;并根据该用户发布的每篇文本内容与所 述领域的相关度,计算出该用户与所述领域的相关度;
[0011] 从所述领域的用户群体中确定出与所述领域的相关度大于预设的第一相关度阈 值的各用户,将确定出的各用户发布的、与所述领域的相关度大于预设的第二相关度阈值 的文本内容,作为所述领域的特征训练语料;
[0012] 从得到的所述领域的特征训练语料中提取出所述领域的特征词后,更新当前的所 述领域的特征词库,得到本次迭代更新后的所述领域的特征词库。
[0013] 较佳地,所述根据当前的所述领域的特征词库,计算该用户发布的每篇文本内容 与所述领域的相关度,具体包括:
[0014] 对于获取的该用户发布的每篇文本内容,对该篇文本内容进行分词,从分词后的 各词语中确定出与当前的所述领域的特征词库中的特征词相同的词语,作为该篇文本内容 的特征词;并根据该篇文本内容的特征词,计算该篇文本内容与所述领域的相关度。
[0015] 较佳地,所述根据该篇文本内容的特征词,计算该篇文本内容与所述领域的相关 度,具体包括:
[0016] 对于该篇文本内容的每个特征词,统计出该特征词在该篇文本内容中出现的频 次,并从当前的所述领域的特征词库中查找出该特征词的权重作为该特征词的领域权重;
[0017] 根据该篇文本内容的每个特征词在该篇文本内容中出现的频次以及领域权重,计 算出该篇文本内容与所述领域的相关度。
[0018] 较佳地,所述根据该篇文本内容的每个特征词在该篇文本内容中出现的频次以及 领域权重,计算出该篇文本内容与所述领域的相关度,具体为:
[0019] 根据如下公式1,计算出该篇文本内容与所述领域的相关度St :
[0020]

【权利要求】
1. 一种社交网络中领域的特征词库迭代更新方法,其特征在于,包括: 对于社交网络中待更新特征词库所属的领域,根据所述领域的用户群体发布的文本内 容,对所述领域的特征词库进行设定次数的迭代更新;其中,一次迭代更新过程包括: 对于所述领域的用户群体中的每个用户,根据当前的所述领域的特征词库,计算该用 户发布的每篇文本内容与所述领域的相关度;并根据该用户发布的每篇文本内容与所述领 域的相关度,计算出该用户与所述领域的相关度; 从所述领域的用户群体中确定出与所述领域的相关度大于预设的第一相关度阈值的 各用户,将确定出的各用户发布的、与所述领域的相关度大于预设的第二相关度阈值的文 本内容,作为所述领域的特征训练语料; 从得到的所述领域的特征训练语料中提取出所述领域的特征词后,更新当前的所述领 域的特征词库,得到本次迭代更新后的所述领域的特征词库。
2. 如权利要求1所述的方法,其特征在于,所述根据当前的所述领域的特征词库,计算 该用户发布的每篇文本内容与所述领域的相关度,具体包括: 对于获取的该用户发布的每篇文本内容,对该篇文本内容进行分词,从分词后的各词 语中确定出与当前的所述领域的特征词库中的特征词相同的词语,作为该篇文本内容的特 征词;并根据该篇文本内容的特征词,计算该篇文本内容与所述领域的相关度。
3. 如权利要求2所述的方法,其特征在于,所述根据该篇文本内容的特征词,计算该篇 文本内容与所述领域的相关度,具体包括: 对于该篇文本内容的每个特征词,统计出该特征词在该篇文本内容中出现的频次,并 从当前的所述领域的特征词库中查找出该特征词的权重作为该特征词的领域权重; 根据该篇文本内容的每个特征词在该篇文本内容中出现的频次以及领域权重,计算出 该篇文本内容与所述领域的相关度。
4. 如权利要求3所述的方法,其特征在于,所述根据该篇文本内容的每个特征词在该 篇文本内容中出现的频次以及领域权重,计算出该篇文本内容与所述领域的相关度,具体 为: 根据如下公式1,计算出该篇文本内容与所述领域的相关度St :
其中,η为该篇文本内容的特征词的总数,i为取值1?η的自然数,Wi为该篇文本内 容的第i个特征词的领域权重A为第i个特征词在该篇文本内容中出现的频次。
5. 如权利要求1-4任一所述的方法,其特征在于,所述根据该用户发布的每篇文本内 容与所述领域的相关度,计算出该用户与所述领域的相关度,具体包括: 从该用户发布的各篇文本内容中,确定出与所述领域的相关度大于第二相关度阈值的 文本内容的篇数,将其与该用户发布的文本内容的总篇数的比值,作为该用户与所述领域 的相关度;或者, 从该用户发布的各篇文本内容中,确定出与所述领域的相关度大于第二相关度阈值的 文本内容,将确定出的各文本内容与所述领域的相关度之和与该用户发布的文本内容的总 篇数的比值,作为该用户与所述领域的相关度。
6. -种社交网络中领域的特征词库迭代更新装置,其特征在于,包括: 迭代控制模块,用于在设置计数值初始值为0后,发送迭代更新通知;以及在接收到迭 代完成通知时,将所述计数值加1,并在判定所述计数值不大于设定次数后,发送所述迭代 更新通知; 用户领域相关度计算模块,用于接收到所述迭代更新通知后,对于社交网络中待更新 特征词库所属的领域的用户群体中的每个用户,根据当前的所述领域的特征词库,计算该 用户发布的每篇文本内容与所述领域的相关度;并根据该用户发布的每篇文本内容与所述 领域的相关度,计算出该用户与所述领域的相关度; 特征训练语料确定模块,用于根据所述用户领域相关度计算模块计算出的各用户与所 述领域的相关度,从所述领域的用户群体中确定出与所述领域的相关度大于预设的第一相 关度阈值的各用户,将确定出的各用户发布的、与所述领域的相关度大于预设的第二相关 度阈值的文本内容,作为所述领域的特征训练语料进行输出; 特征词库更新模块,用于从所述特征训练语料确定模块输出的所述领域的特征训练语 料中提取出所述领域的特征词后,构成本次迭代更新后的所述领域的特征词库,并向所述 迭代控制模块发送所述迭代完成通知。
7. 如权利要求6所述的装置,其特征在于,所述用户领域相关度计算模块具体包括: 文本内容获取单元,用于对于所述领域的用户群体中的每个用户,获取所述社交网络 中该用户发布的各篇文本内容; 文本内容领域相关度计算单元,用于针对所述领域的用户群体中的每个用户,对于获 取的该用户发布的每篇文本内容,对该篇文本内容进行分词,从分词后的各词语中确定出 与当前的所述领域的特征词库中的特征词相同的词语,作为该篇文本内容的特征词;并根 据该篇文本内容的特征词,计算该篇文本内容与所述领域的相关度; 用户领域相关度计算单元,用于针对所述领域的用户群体中的每个用户,根据该用户 发布的每篇文本内容与所述领域的相关度,计算出该用户与所述领域的相关度。
8. 如权利要求7所述的装置,其特征在于, 文本内容领域相关度计算单元具体用于在针对所述领域的用户群体中的每个用户,对 于获取的该用户发布的每篇文本内容,得到该篇文本内容的特征词之后,对于该篇文本内 容的每个特征词,统计出该特征词在该篇文本内容中出现的频次,并从当前的所述领域的 特征词库中查找出该特征词的权重作为该特征词的领域权重;根据该篇文本内容的每个特 征词在该篇文本内容中出现的频次以及领域权重,计算出该篇文本内容与所述领域的相关 度。
9. 如权利要求7或8所述的装置,其特征在于, 所述用户领域相关度计算单元具体用于针对所述领域的用户群体中的每个用户,从该 用户发布的各篇文本内容中,确定出与所述领域的相关度大于第二相关度阈值的文本内容 的篇数,将其与该用户发布的文本内容的总篇数的比值,作为该用户与所述领域的相关度。
10. 如权利要求7或8所述的装置,其特征在于, 所述用户领域相关度计算单元具体用于针对所述领域的用户群体中的每个用户,从 该用户发布的各篇文本内容中,确定出与所述领域的相关度大于第二相关度阈值的文本内 容,将确定出的各文本内容与所述领域的相关度之和与该用户发布的文本内容的总篇数的 比值,作为该用户与所述领域的相关度。
【文档编号】G06F17/30GK104063422SQ201410213846
【公开日】2014年9月24日 申请日期:2014年5月20日 优先权日:2014年5月20日
【发明者】李金奎, 谌贻荣 申请人:微梦创科网络科技(中国)有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1