基于语义标签库的多维度内容标注方法

文档序号:6380086阅读:519来源:国知局
专利名称:基于语义标签库的多维度内容标注方法
技术领域
本发明涉及数据挖掘、数据分析和知识推理领域,设计并实现了一种对资源内容进行多维度、语义化、结构化的标注方法。
背景技术
近年来,随着经济社会的高速发展,资源的数量迅速增加,而资源标注发展相对缓慢,资源的检索问题日益突出。研究资源标注方法可以有效的解决资源的管理和检索问题, 提高资源的使用率,满足了资源在效率、使用和管理上的要求,这将对我国现阶段智能标注的研究和发展、对资源的合理高效利用起到积极的推动作用。
目前,资源标注方法有很多,主要可以分为基于资源属性标注的方法、基于资源内容的特征标注方法、基于资源内容的标签标注方法和基于资源特定领域的本体的语义标注方法。
基于资源属性标注的方法主要通过为资源的属性特征标注相应的值的方式实现。 这种方式简单易用,可对资源的重要属性信息进行较好的描述,可作为资源检索的基础数据,但是属性信息仅为资源所含信息的小部分,缺少对资源内容语义信息的描述;属性项需在系统设计时确定,不易修改,扩展性较差;非规范化的简单文字匹配造成的语义歧义性难以避免。
基于资源内容的特征标注方法主要是提取资源的通用特征或领域相关特征来标注资源。这种方式一般用计算机自动化处理,并充分利用了资源本身所包含的丰富的内容信息,在特定领域应用良好,但是如何利用资源的特征来有效地表示资源内容成为亟需解决的问题。
基于资源内容的标签标注方法主要是用标签来标注资源。这种方式突破了属性标注的局限,揭示了资源的内容和主题特征,但是普通的社会化标签存在定义不严格、易变、 无人管理的不足,使得标签标注的主观性强,多义词和同义词容易造成语义混淆,标注效率低,检索与标注的用词匹配难以吻合。
基于资源特定领域的本体的语义标注方法主要是通过语义网中的本体技术来进行资源标注。这种方式将原来孤立的资源联系起来,加大了不同资源之间的耦合度,资源本体为标准化标注提供了形式化基础,而且标注后的资源与领域本体相对应,可以实现资源的智能检索;但是领域本体的构建并非一朝一夕就能完成的,而资源涉及的范畴极为广泛, 完全依赖本体进行资源的通用和完全的标注目前不具有实际操作性。发明内容
本发明的目的是提出一种基于语义标签库的多维度内容标注方法,以达到较高的资源标注效率,提高标注的精准度,为高效的资源检索奠定基础。
本发明一种基于语义标签库的多维度内容标注方法实现的具体步骤阐述如下
(I)建立语义标签库;语义标签库是指由规范标签库、扩展标签库、临时标签库、标签关联库和标签数据分析构成的标签语义体系,其中扩展标签库包含规范标签库的内容。
规范标签库中储存标注资源的正式标签,即规范标签。只有规范标签才被分配标注码。规范标签采用分组分层管理首先按词语类别划分分组,然后对每组规范标签分层, 构建一个树状结构的标签集合,并为每个规范标签自动分配一个标注码。同词异码表不该标签为多义词标签,同码异词表示该组标签为同义词标签组。此外,可使用标注码将不同语种的标签对应起来,实现多语种标签扩展。
扩展标签库中储存扩展标签及全部规范标签。扩展标签是指对应某个规范标签的一系列扩展词语,本身不具有标注码。扩展标签与资源不具有直接关联关系,而是通过其对应的规范标签具有间接关联关系。扩展标签一定会与某个或多个规范标签具有关联关系, 即通过规范标签可获取其对应的一组扩展标签,反之亦然。扩展标签库主要用途包括两个方面标注资源时,标引员输入词语时,系统从扩展标签库中匹配该词对应的规范标签,提示给标引员。检索资源时,用户输入关键词进行检索时,系统从扩展标签库中匹配该词对应的规范标签及其标注码,进而查找该标注码对应的资源。
临时标签是在资源标注过程中标引员临时添加的不属于规范标签和扩展标签的词语,不具有标注码。由于规范标签库是随着资源标注工作逐渐完善和扩充的,所以标引员或其他非专业用户在标注资源时,可以根据实际需要使用规范标签库和扩展标签库中没有的关键词(即临时标签)来标注资源。
标签数据分析主要是分析得出标签关联度、标签热度(综合标签被用于标注和检索的频度)等信息,将标签的语义信息更加丰富化,为资源标注和检索服务。可从如下三个方面进行数据分析(1)对某资源所标注标签进行标签共现分析;(2)对用户检索资源时所用标签进行记录和分析;(3)对相似资源(通过手动设置和自动识别的方法确定)所注标签进行统计分析。
标签关联库储存标签数据分析的结果,用于标签标注和检索时的智能推荐。
(2)配置可扩展的资源种类。
其中,资源支持图片、音频、视频等多媒体资源种类,并允许对其进行动态调整。
(3)建立多级、可配置的内容标注维度。将资源按照内容特征划分维度,建立多层次的内容维度。
其中,内容标注维度是指多个可分级的标注维度,支持不同种类的资源对应不同的标注维度,用于对资源的标签标注进行约束和规范。
(4)建立可配置、可修改的资源种类与内容标注维度的对应关系。
(5)进行基于语义标签库的资源内容标注。标注资源时,标引员可直接从规范标签库中选取规范标签进行标注,也可以输入标引词,系统自动对标引词在扩展标签库中进行匹配如果匹配成功,则在规范标签库中获取规范标签及其标注码,建立资源与标注码的对应关系;如果匹配不成功,则将标引词存入临时标签库并保留该词与被标注资源的对应关系。标注过程中系统根据标签关联库进行智能推荐。
(6)临时标签处理。
标签管理员对临时标签进行逐一审核,采用两种主要的处理方式一是按照规范标签和扩展标签的标准,将临时标签直接设定为规范标签或扩展标签;二是直接删除该临时标签。此外,还可以选择已有的规范标签或扩展标签代替该临时标签。
(7)基于语义标签库的资源检索。用户输入检索词,系统自动在扩展标签库中进行匹配;如果匹配成功,系统根据对应的标签标注码来检索对应图片;如果匹配不成功,系统可将检索词与资源描述信息进行匹配,同时系统将该检索词存入临时标签库。
本发明与现有技术相比,具有以下明显的优势和有益效果
首先,本发明在充分研究资源内容的基础上,提出了资源内容的多维度标注体系, 进一步细化的资源内容维度有助于更加精确的内容标注和检索。其次,为了避免语义歧义对于资源标注的影响,本发明首次在资源标注方面提出了语义标签库的语义智能支持体系设计规范标签支持多义词、同义词和多语言,扩展标签有效的提高了标注的准确性和检索的普适性,标签关联库进一步加强了标签语义信息的挖掘和利用。再次,本方法对于各类资源都是适用的,支持不同资源的个性化设定,标注维度可管、可配、可扩展,语义标签库中各个组成部分都具有良好的扩展性,其中标签的数据分析可采用日益完善的数据分析技术,获得更好的分析效果。实验证明该方法有效的提高了资源标注的精确度和效率,为资源检索和数据分析奠定了良好的基础。


图I为基于语义标签库的多维度内容标注方法流程图2为语义标签库结构示意图3为基于语义标签库的多维度内容标注方法结构示意图4为资源内容标注流程图5为资源检索流程图。
具体实施方式
以下结合说明书附图对本发明的具体实施例加以说明。
本发明以语义标签库为基础,对资源内容进行多维度、语义化、结构化的标注,为资源的有效检索和应用提供保障。语义标签库弥补了传统社会化分众标签存在的主观性强、歧义性、分散无序等不足,是一个可管理、可扩展、结构化、语义化的标签体系。
请参阅图I所示,为基于语义标签库的多维度内容标注方法流程图。
依序包括(1)建立图片的语义标签库;(2)配置可扩展的图片种类;(3)建立多级、可配置的图片内容标注维度;(4)建立可配置、可修改的图片种类与图片内容标注维度的对应关系;(5)基于语义标签库的图片内容标注;(6)临时标签处理;(7)基于语义标签库的图片检索。
如图3所示,基于语义标签库的多维度内容标注方法结构示意图。
该方法由规范标签库、扩展标签库、临时标签库、标签关联库构成语义标签库,在语义标签库基础上实现资源标注和资源检索。
以下加以详细叙述
( I)建立图片的语义标签库。
建立图片的语义标签库,如图2所示,语义标签库由规范标签库、扩展标签库、临时标签库、标签关联库和标签数据分析方法构成。
(a)规范标签库规范标签包含了标签组、标注码、同义词标签、多义词标签和多语种标签的语义概念。
首先按照图片内容特征将标签分组,如动作、特定人物、地域、政治、体育等标签组;
其次对每个标签组分层并为每个规范标签分配一个标注码,如标签组地域可分为中国、世界、城市、农村等一级标签,中国可分为东部、西部、中部等二级标签等;标注码可以自己制定码值规则,按照规则为每一个规范标签分配一个标注码。
在规范标签库中,同词异码表示该标签为多义词标签,同码异词表示该组标签为同义词标签,并可使用标注码将不同语种的标签对应起来,实现多语种标签的支持。如不同标注码的“李娜”可以是运动员的李娜,也可以是唱歌的李娜,二者是多义词标签,可以由不同的标注码、父级标签甚至标签组来区别;相同标注码的“高兴”和“喜悦”标示两者是同义词标签。
(b)扩展标签库图片扩展库中的扩展标签与图片没有直接关联关系,而是通过其对应的规范标签与图片建立间接关联关系。
如,规范标签“喜悦”可能对应一组扩展标签,包括“喜” “乐” “兴高采烈” “开心” 等。扩展标签是规范标签的扩展说明,增强了标签的语义涵义。
(C)临时标签库临时标签经过标签管理员审核后才可使用。由于规范标签库是随着图片标注工作逐渐完善和扩充的,所以标引员或其他非专业用户在标注图片时,可以根据实际需要使用规范标签库和扩展标签库中没有的关键词(即临时标签)来标注图片。
(d)标签关联库标签关联库中存放的是规范标签之间的语义关联关系,这种关联关系是由标签数据分析结果得出,标签关联库辅助完善智能推荐功能,提高标注和检索的效率和质量。
(e)标签数据分析可从如下方面进行数据分析对图片所标注标签进行标签共现分析;对用户检索图片时所用标签进行记录和分析;对相似图片(通过手动设置和自动识别的方法确定)所注标签进行统计分析。通过数据分析和挖掘规范标签之间的关联关系, 建立标签之间的语义关联,提闻图片标注和检索的效率和质量。
(2)配置可扩展的图片种类。
按照图片特征,将图片分为编辑类图片和创意类图片。
( 3 )建立多级、可配置的图片内容标注维度。
按照图片特征,将图片分为属性层、内容层等一级维度,内容层维度可分为人物、 拍摄地点等二级维度;人物维度可划分为特定人物、性别、年龄等三级维度;可以根据需要建立图片的多级内容维度。
(4)建立可配置、可修改的图片种类与图片内容标注维度的对应关系。
自行配置图片种类和维度的对应关系,如编辑类图片可与人物、拍摄地点等建立对应关系;可以根据实际需要修改维护种类和维度的对应关系。
( 5 )基于语义标签库的图片内容标注。
图片标注是基于语义标签库的多维度内容标注过程,如图4所示,可分为以下步骤
标注图片时,标引员可直接从规范标签库中选取规范标签进行标注,也可以输入标引词,系统自动对标引词在扩展标签库中进行匹配如果匹配成功,则在规范标签库中获取规范标签及其标注码,建立图片与标注码的对应关系;如果匹配不成功,则将标引词存入临时标签库并保留该词与被标注图片的对应关系。标注过程中系统根据标签关联库进行智能推荐。
(6)临时标签处理。
临时标签经过标签管理员审核才能正式用于图片内容标注,一是按照规范标签和扩展标签的标准,将临时标签直接设定为规范标签或扩展标签;二是直接删除该临时标签。 此外,还可以选择已有的规范标签或扩展标签代替该临时标签。
(7)基于语义标签库的图片检索。
图片检索是基于语义标签库,经过多维度标注后的检索使用过程,如图5所示,可分为以下步骤
检索图片时,用户输入检索词,系统自动在扩展标签库中进行匹配如果匹配成功,则获取此检索词的标注码,系统利用标注码智能推荐和检索图片;如果匹配不成功,则将检索词与图片描述信息,如关键词等进行匹配,同时系统将该检索词存入临时标签库;
其中,智能推荐指的是根据标注码,找到所有具有此标注码的规范标签,然后找到经过标签关联库提供的标签关联和扩展标签库提供的标签扩展关系推荐的具有语义关联的规范标签,根据这些标签检索图片。
权利要求
1 . 一种基于语义标签库的多维度内容标注方法,其特征在于,包括以下步骤 1.1建立语义标签库;语义标签库由规范标签库、扩展标签库、临时标签库、标签关联库和标签数据分析构成,其中扩展标签库包含规范标签库的内容; I. 2配置可扩展的资源种类; I. 3建立多级、可配置的内容标注维度;将资源按照内容特征划分维度,建立多层次的内容维度; I. 4建立可配置、可修改的资源种类与内容标注维度的对应关系; I. 5进行基于语义标签库的资源内容标注;标注资源时,直接从规范标签库中选取规范标签进行标注,也可以输入标弓I词,系统自动对标弓I词在扩展标签库中进行匹配如果匹配成功,则在规范标签库中获取规范标签及其标注码,建立资源与标注码的对应关系;如果匹配不成功,则将标引词存入临时标签库并保留该词与被标注资源的对应关系;标注过程中系统根据标签关联库进行智能推荐; I. 6临时标签处理;标签管理员将逐一审核临时标签,或者设定为新的规范标签或扩展标签,或者将其删除; 1.7基于语义标签库的资源检索;用户输入检索词,系统自动在扩展标签库中进行匹配如果匹配成功,系统根据对应的标签标注码来检索对应图片;如果匹配不成功,系统可将检索词与资源描述信息进行匹配,同时系统将该检索词存入临时标签库。
2.根据权利要求I所述的一种基于语义标签库的多维度内容标注方法,其特征在于所述的规范标签库中储存标注资源的正式标签,即规范标签;只有规范标签才被分配标注码;规范标签采用分组分层管理首先按词语类别划分分组,然后对每组规范标签分层,构建一个树状结构的标签集合,并为每个规范标签自动分配一个标注码;同词异码表不该标签为多义词标签,同码异词表示该组标签为同义词标签组;此外,可使用标注码将不同语种的标签对应起来,实现多语种标签扩展。
3.根据权利要求I所述的一种基于语义标签库的多维度内容标注方法,其特征在于所述的扩展标签库中储存扩展标签及全部规范标签;扩展标签为对应某个规范标签的一系列扩展词语,本身不具有标注码;扩展标签与资源不具有直接关联关系,而是通过其对应的规范标签具有间接关联关系;扩展标签一定会与某个或多个规范标签具有关联关系,即通过规范标签可获取其对应的一组扩展标签,反之亦然;扩展标签库包括两个方面标注资源时,标引员输入词语时,系统从扩展标签库中匹配该词对应的规范标签,提示给标引员;检索资源时,用户输入关键词进行检索时,系统从扩展标签库中匹配该词对应的规范标签及其标注码,进而查找该标注码对应的资源。
4.根据权利要求I所述的一种基于语义标签库的多维度内容标注方法,其特征在于所述的临时标签库是在资源标注过程中标引员临时添加的不属于规范标签和扩展标签的词语,不具有标注码;根据实际需要使用规范标签库和扩展标签库中没有的关键词标注资源。
5.根据权利要求I所述的一种基于语义标签库的多维度内容标注方法,其特征在于所述的标签关联库储存标签数据分析的结果,用于标签标注和检索时的智能推荐。
6.根据权利要求I所述的一种基于语义标签库的多维度内容标注方法,其特征在于所述的配置可扩展的资源种类,支持图片、音频、视频多媒体资源种类,并允许对其进行动态调整。
7.根据权利要求I所述的一种基于语义标签库的多维度内容标注方法,其特征在于所述的建立多级、可配置的内容标注维度,多个可分级的标注维度,支持不同种类的资源对应不同的标注维度,用于对资源的标签标注进行约束和规范。
8.根据权利要求I所述的一种基于语义标签库的多维度内容标注方法,其特征在于标签管理员对所述的临时标签进行审核,采用按照规范标签和扩展标签的标准,将临时标签直接设定为规范标签或扩展标签,或直接删除该临时标签;还可以选择已有的规范标签或扩展标签代替该临时标签。
全文摘要
本发明公开了一种基于语义标签库的多维度内容标注方法,包括建立语义标签库;配置可扩展的资源种类;建立多级、可配置的内容标注维度;将资源按照内容特征划分维度,建立多层次的内容维度;建立可配置、可修改的资源种类与内容标注维度的对应关系;进行基于语义标签库的资源内容标注;临时标签处理;基于语义标签库的资源检索;用户输入检索词,系统自动在扩展标签库中进行匹配如果匹配成功,系统根据对应的标签标注码来检索对应图片;如果匹配不成功,系统可将检索词与资源描述信息进行匹配,同时系统将该检索词存入临时标签库。有效的提高了资源标注的精确度和效率,为资源检索和数据分析奠定了良好的基础。
文档编号G06F17/30GK102982076SQ20121042452
公开日2013年3月20日 申请日期2012年10月30日 优先权日2012年10月30日
发明者吕锐, 张鹏洲, 张弛, 林波, 王民, 温宇俊, 龚隽鹏, 宋卿, 刘伟, 陈国伟 申请人:新华通讯社, 中国传媒大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1