一种基于外部数据源对用户生成内容进行语义标注的方法

文档序号:9911051阅读:416来源:国知局
一种基于外部数据源对用户生成内容进行语义标注的方法
【技术领域】
[0001] 本发明属计算机技术领域,具体涉及一种基于外部数据源对用户生成内容进行语 义标注的方法。
【背景技术】
[0002] 随着Web2.0的发展,互联网上越来越多的应用包含用户产生的数据,例如微 博,在线论坛,视频网站等;这些用户产生的数据被称之为用户生成内容UGC(即User -GeneratedContent),这些数据不同于传统的Web数据,它们是由用户自由提交的,能够直 接的体现用户讨论的事件话题。基于UGC进行语义提取能够更准确的把握用户正在讨论的 话题以及对话题的态度,对舆情分析,热门事件追踪具有重大作用。
[0003] 在研究UGC的过程中,掌握理解UGC的语义是至关重要的一点。例如:UGC中的一 个内容为"RI0"(里约大冒险)的词,对于不知道这部电影的用户而言,根本不知道这是什 么,此外,有的人会把它当做是里约这个地方而不是里约大冒险这部电影。可见,对UGC中 数据建立语义对于理解UGC而言是必要的。如果能够对"RI0"这个实体建立语义信息,如 { "里约大冒险","电影","3D","2011年","动画","CarlosSaldanha"......},那么,无论 是计算机还是用户,都能够对"RI0"这个实体有更加正确的理解。其实,语义网络这个概念 早就提出,它的主要思想是将网络中的信息用一些元数据进行描述,使用户或者应用程序 能够更好的处理它。那么,仿效语义网络,针对UGC而言,如果能够建立UGC的语义实体,对 于分析用户行为,掌握社会动态的研究将会得到显著提高。
[0004] 因为UGC是由用户直接生成的,它体现了用户的个性,具有重大意义;然而,也正 因为如此,UGC的质量不高。它没有固定的格式,可能包含一些错误信息,这给分析研究UGC 带来了巨大挑战。总结来说,UGC与互联网上普通的新闻数据不同,其低质量特性主要表现 在:1)对于一条信息而言,用户产生的数据通常是间断的,用几句话甚至是一句话来表达 用户的想法或事件。2)用户在互联网上输入信息的时候,通常会使用一些非正规的表达, 例如:缩写、别名、符号、表情等。3)用户产生的数据通常会包含很多人为错误,例如拼写错 误。4)用户产生的数据可能会夹杂多种语言。因此,与传统的信息抽取数据集如新闻数据 不同,UGC质量低,在应用传统的信息抽取方法例如SVM对其进行实体抽取的过程中,会因 为数据质量噪音高而造成抽取结果不理想。对于UGC的处理也成为信息抽取问题中较为棘 手的一个问题。针对新闻数据的传统数据挖掘和实体抽取方法在UGC上使用并不能完全适 用,需要发现一种新的方法去分析和处理UGC数据。
[0005] 在自然语言处理过程中,旨在使计算机了解人类的语言。而处理的过程中,通常从 文本语料库中学习词汇和结构的偏向性信息,对句法进行分析。这些学习是基于上下文及 统计信息的,如使用词频,互信息等,进行词法分析,使用马尔科夫模型,概率上下文无关文 法,概率句法分析等进行语法分析。这些方法都依赖于高质量的规范化的数据集。对于UGC 而言,语法结构随意,人们在表达时,通常不会特别注意语法结构,想到什么说什么,并且会 引入一些新词及通假字,这对自然语言处理来说,会将这些词视为不同的词对待,结果不甚 理想。
[0006] 在中文自然语言处理中,分词是一个难题。因为英语的词之间,是由空格进行分割 的,而中文中,只有句与句之间,由标点符号进行分割,词与词之间是没有明确界限的,若要 对中文自然语言进行处理,必须要得到高质量的分词结果。现有的中文分词技术有:字符串 匹配进行分析,如1)正向最大匹配法(由左到右的方向);2)逆向最大匹配法(由右到左 的方向);3)最少切分(使每一句中切出的词数最小);4)双向最大匹配法(进行由左到 右、由右到左两次扫描)。理解分词方法,模仿人类对语法的理解,同时使用句法和语法分 析,来处理歧义。同样,对于低质量的UGC而言,语法的随意性使得这些方法都没有办法得 到理想的处理结果。
[0007] 在信息抽取中,基于已经分词好的文本集合,抽取出相关的话题事件。常用的方法 有:监督式的学习方法,半监督式的学习方法,非监督式的学习方法。监督式的学习方法基 于已经标注好的训练集合,学习建模,主要有:支持向量机、最近邻居法、高斯混合模型、贝 叶斯算法、决策树等。然而,通常情况下,已经标注好的训练集合较难得到,半监督式的学习 方法就是通过少量的标注信息开始,迭代的处理建模,处理的结果作为下一次训练模型的 训练数据集。非监督式的学习方法不需要事先标注好的信息,常见的一种非监督式学习为 聚类,如单遍扫描。
[0008] 至此,通过自然语言处理及信息抽取方法,可以从UGC中抽取出话题,然而,如上 文所提,UGC的低质量特性对自然语言处理及信息抽取所产生的噪音较大,结果不甚理想, 需要对其进行优化改进。现有的研究中,在处理UGC数据的过程中,有的方法选择过滤掉质 量低下的数据。例如利用内容中的链接信息以及用户间的评分,从而给出数据的质量评分。 通过质量的评分,在进行抽取时,就可以过滤质量低的数据,直接在高质量的数据集上进行 工作。这种方法一定程度上绕过了 UGC质量低的问题,对处理一些知识问答类的社交网络 系统,如"Yahoo问答"有所贡献。然而,这种回避的方式却容易丢失许多重要信息。对于如 论坛,微博等UGC信息而言,它们短而随意,用户在不同时间心情不同所发表的内容质量也 不同,甚至于用不同工具发表的内容质量也有所差异:如电脑发布的质量稍高,手机发布的 质量稍低。因此,很难将数据按照用户划分进行质量打分。
[0009] 如今,使用外部资源的现状是,不少研究基于外部资源进行处理,如利用外部资源 建立词典,但主要是基于离线处理,使用一些外部资源的结构化信息形成训练数据集和训 练模型,并不涉及利用在线数据源对用户生成数据进行语义标注的研究。
[0010] 为了克服现有技术中中文分词结果的影响、过滤低质量数据而丢失重要信息以及 不支持在线数据源搜索等缺陷,本发明提出了一种基于外部数据源对用户生成内容进行语 义标注的方法。

【发明内容】

[0011] 本发明提出了一种基于外部数据源对用户生成内容进行语义标注的方法,包括如 下步骤:
[0012] 预处理步骤:对用户生成内容进行聚类,得到一个以上语义实体;
[0013] 配置步骤:根据所述语义实体中的关键词生成查询语句,根据所述查询语句搜索 外部资源,从中定位抓取与所述语义实体相关的页面集合,并根据相关程度对所述页面集 合中的各页面赋予权重值,所述权重值用于页面与语义实体的相关程度;权重值越高表示 其与语义实体的相关程度越高;
[0014] 语义标注步骤:按所述权重值在所述页面集合中抽取出与所述语义实体相关的信 息,用于对所述语义实体进行补充标注,得到扩展优化的语义实体。
[0015] 本发明提出的基于外部数据源对用户生成内容进行语义标注的方法中,在所述预 处理步骤中,利用神经语言程序学和信息抽取对所述用户生成内容进行聚类得到所述语义 实体,所述信息抽取技术包括单边扫描聚类算法和支持向量机。
[0016] 本发明提出的基于外部数据源对用户生成内容进行语义标注的方法中,所述语义 实体由一个以上关键词组成,将关键词经相互组合生成查询语句搜索外部资源的过程包括 如下步骤:
[0017] 步骤al :根据apriori算法从所述语义实体的单个关键词分别作为查询语句进行 搜索;
[0018] 步骤a2 :将搜索后得到返回结果的单个关键词组成临时集合,将所述临时结合内 的关键词依次与另一个单个关键词组合作为查询语句进行搜索;
[0019] 步骤a3 :重复上述步骤a2,直至所述临时集合中所有关键词的组合均没有返回结 果或者所有关键词均已组合作为查询语句进行搜索。
[0020] 本发明提出的基于外部数据源对用户生成内容进行语义标注的方法中,所述外部 资源为通过网络共享的在线数据源或者是已存储在本地设备的离线数据源。
[0021] 本发明提出的基于外部数据源对用户生成内容进行语义标注的方法中,若所述外 部资源为在线数据源,则搜索所述在线数据源抓取页面集合的过程包括如下步骤:
[0022] 步骤bl :设置搜索词、相关页面集合和关键词词组,所述关键词词组已按降序或 升序排序;
[0023] 步骤b2:将所述搜索词与所述关键词词组中的每一个词组合,按照组合后的搜索 词在外部资源进行搜索,若搜索得到相关的页面时,爬取所述页面添加至所述相关页面集 合中;
[0024] 步骤b3:对所述相关页面集合中的每一个页面赋予权重值,并按所述权重值以降 序或升序排序。
[0025] 本发明提出的基于外部数据源对用户生成内容进行语义标注的方法中,所述页面 的权重值的配置过程包括如下步骤:
[0026] 步骤cl :计算所述关键词位于所述查询语句中的位置权重参数;
[0027] 步骤c2 :计算所述页面在所述页面集合中被抓取次数的次数权重参数;
[0028] 步骤c3 :计算所述页面中与关键词匹配程度的匹配权重参数;
[0029] 步骤c4 :计算所述页面中特殊词组出现次数的特殊权重参数;
[0030] 步骤c5 :分别对所述位置权重参数、所述次数权重参数、所述匹配权重参数和所 述特殊权重参数进行正规化处理后相乘得到所述页面的权重值。
[0031] 本发明提出的基于外部数据源对用户生成内容进行语义标注的方法中,在所述预 处理步骤中,从所述页面集合中抽取相关的信息的优先级如以下所示:
[0032] Pt> P a-S > P-S > Pj-S > Pa-U > P-U > PrU ;
[0033] 其中,Pt表示页面标题(页面描述的语义实体的名字),Pa表示首段落(对语义实 体简短的介绍,类似于摘要),S表示所述页面集合的信息已存在于所述用户生成数据中, Pi表示信息盒(语义实体相关属性),P1表示剩余部分(除以上部分外的页面中对于语义 实体的描述),U表示所述页面集合的信息未存在于所述用户生成数据中。
[0034] 本发明提出的基于外部数据源对用户生成内容进行语义标注的方法中,在所述 预处理步骤中,基
当前第1页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1