基于标签集的信息资源自动贴标签并自动推送的方法与流程

文档序号:12748155阅读:340来源:国知局
基于标签集的信息资源自动贴标签并自动推送的方法与流程

技术领域

本发明涉及信息资源自动贴标签技术领域,具体地,涉及基于标签集的信息资源自动贴标签并自动推送的方法。



背景技术:

面对每天发布的海量信息,目前的互联网信息已经处于一种不规则增长态势之中,在web2.0时代,网络环境已经成为一个非线性、自组织的社会化网络。互联网已成为全球最大的信息资源库,它在给人类的生活和工作带来革命性变化的同时,也引发了“信息泛滥”“信息迷航”等问题。Web2.0时代的互联网最大的特色就是充分利用集体智慧,当更多的用户加入到这个集体时,个体属性的重要性将逐渐淡化,个体间的互动行为和个体间的关系将发挥更重要的作用。

人与网络的互动行为逐渐成为互联网发展的主流趋势,大众在作为信息消费者的同时也成为信息生产者,网络发展的同时带来了信息庞大,低质量信息大量涌入等问题。那么,整理、挖掘、组织出高质量的且用户需要的信息是互联网服务商、信息处理专家们所面临的前所未有的挑战。

标签,被大家看作web2.0时代的一个重要组成部分,但是标签往往被很多人当成其他产品的一个补充,很少有对其价值进行深入挖掘的例子。

标签,是对人的习惯、使用的一个非常好的划分,也是对信息资源主题和属性的一种简洁精炼地概括提炼,通过标签的记录,可以对这个网络热点的变化,对于个人关注点的变化都能体现出来。所以使用标签作为媒介,是实现信息资源有效组织整合,更好实现信息主动服务的有利工具。

现有技术在这一领域的研究还处于起步阶段,缺乏具有高度和深度的研究成果,而且在研究思路上也存在问题。

在实现本发明的过程中,发明人发现现有技术中至少存在无法对信息资源进行有效的整合,无法有效的整理、挖掘或组织出高质量的且用户需要的互联网信息。



技术实现要素:

本发明的目的在于,针对上述问题,提出基于标签集的信息资源自动贴标签并自动推送的方法,以实现有效的整理、挖掘或组织出高质量的且用户需要的互联网信息的优点。

为实现上述目的,本发明采用的技术方案是:一种基于标签集的信息资源自动贴标签并自动推送的方法,主要包括:

步骤1: 应用笛卡尔向量空间模型,将资源信息通过标签按维度分类,每个类目标签的权值描述资源信息在该维度的位置;

步骤2:利用爬虫爬取、字幕识别、视频提取和语音识别方式,实现资源信息的自动批量获取;

步骤3:通过标签库、规则库和同义词典库进行分词处理,进而将得到的标签进行排序清洗,最后得到符合资源信息主题及属性的内容标签,并将所得内容标签添加短数据包,形成内容标签集;

步骤4:利用步骤1-3对用户的行为习惯信息挖掘标签,得到用户行为习惯标签集;

步骤5:将最终得到的资源信息标签集和用户行为习惯标签集输入质量评估系统,对标签进行过滤和筛选,分别按照静态、动态分别进行标引,实现标签的矢量化标引,形成静态标签和动态标签,同时把这些标签反馈给标签库,更新其内容,使标签库的质量呈良性循环式地提高,同时实现标签库的与时俱进,不断收录反应时代发展潮流的标签,所述动态标签可实现定时自动更新,所述静态标签的更新为管理员手动操作更新;

步骤6:将内容标签集与用户行为习惯标签集进行匹配,将标签集自动推送到客户端,并根据客户端下载的资源信息调整推送内容。

进一步地,步骤1中,所述资源信息为外接资源媒资系统输入的资源信息,包括文本、图片、音频或视频资源内容及其用户评价内容。进一步地,步骤5中所述对标签进行过滤和筛选具体为,过滤掉拼错的、过于侠义的、指向模糊的或者具有不健康的思想倾向的标签,筛选出可以集中表达原文信息特征的可重用性好的高质量标签给标引系统。

进一步地,步骤6中,将内容标签集与用户行为习惯标签集进行匹配包括,第一段匹配,外接媒资系统发布的内容通过自动贴标签技术所过滤得到的标签中传达出内容语义信息,相关信息存储于标签集中,通过数据广播对外覆盖传输;以及第二段匹配,用户表达个人喜好,在终端设备上留下显性或隐性的历史记录,终端设备在广播短数据流中筛选出有限可能喜好品种的标签集,浏览者在看到标签集内容之后,舍去没有精力细读的全文,从近处的服务器中取得有精力细读的全文。

本发明各实施例的基于标签集的信息资源自动贴标签并自动推送的方法,由于主要包括:利用向量空间模型按维度对信息资源进行定位;对信息资源利用爬虫爬取、字幕识别、视频提取和语音识别的方式,获取信息资源数据;通过标签库、规则库、同义词典库对获取的数据进行分词处理,得到外接媒资系统资源标签和用户行为习惯信息资源标签;对标签进行排序清洗,并将标签添加短数据包,得到符合资源主题及属性的外接媒资系统资源标签集和用户行为习惯信息资源标签集;将标签集输入质量评估系统,对标签集进行筛选,并进行矢量化标引,最后将外接媒资系统资源标签集和用户行为习惯信息资源标签集反馈到标签库,更新标签内容;外接媒资系统资源标签集和用户行为习惯信息资源标签集进行匹配,将标签集推送至客户端;从而可以克服现有技术中无法对信息资源进行有效的整合,无法有效的整理、挖掘或组织出高质量的且用户需要的互联网信息的缺陷。

本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。

下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。

附图说明

附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:

图1为本发明实施例所述的基于标签集的信息资源自动贴标签并自动推送的方法的笛卡尔向量空间模型图;

图2为本发明实施例所述的基于标签集的信息资源自动贴标签并自动推送的方法的信息资源自动贴标签的整体构架图;

图3为本发明实施例所述的基于标签集的信息资源自动贴标签并自动推送的方法的自动贴标签的工作原理图;

图4为本发明实施例所述的基于标签集的信息资源自动贴标签并自动推送的方法的标签集形成原理图;

图5为本发明实施例所述的基于标签集的信息资源自动贴标签并自动推送的方法的使用标签集描述信息资源位置示意图;

图6为本发明实施例所述的基于标签集的信息资源自动贴标签并自动推送的方法的信息资源自动推送原理图。

具体实施方式

以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。

具体地,一种基于标签集的信息资源自动贴标签并自动推送的方法,主要包括:

步骤1: 应用笛卡尔向量空间模型,将资源信息通过标签按维度分类,每个类目标签的权值描述资源信息在该维度的位置;

步骤2:利用爬虫爬取、字幕识别、视频提取和语音识别方式,实现资源信息的自动批量获取;

步骤3:通过标签库、规则库和同义词典库进行分词处理,进而将得到的标签进行排序清洗,最后得到符合资源信息主题及属性的内容标签,并将所得内容标签添加短数据包,形成内容标签集;

步骤4:利用步骤1-3对用户的行为习惯信息挖掘标签,得到用户行为习惯标签集;

步骤5:将最终得到的资源信息标签集和用户行为习惯标签集输入质量评估系统,对标签进行过滤和筛选,分别按照静态、动态分别进行标引,实现标签的矢量化标引,形成静态标签和动态标签,同时把这些标签反馈给标签库,更新其内容,使标签库的质量呈良性循环式地提高,同时实现标签库的与时俱进,不断收录反应时代发展潮流的标签,所述动态标签可实现定时自动更新,所述静态标签的更新为管理员手动操作更新;

步骤6:将内容标签集与用户行为习惯标签集进行匹配,将标签集自动推送到客户端,并根据客户端下载的资源信息调整推送内容。

进一步地,步骤1中,所述资源信息为外接资源媒资系统输入的资源信息,包括文本、图片、音频或视频资源内容及其用户评价内容。进一步地,步骤5中所述对标签进行过滤和筛选具体为,过滤掉拼错的、过于侠义的、指向模糊的或者具有不健康的思想倾向的标签,筛选出可以集中表达原文信息特征的可重用性好的高质量标签给标引系统。

进一步地,步骤6中,将内容标签集与用户行为习惯标签集进行匹配包括,第一段匹配,外接媒资系统发布的内容通过自动贴标签技术所过滤得到的标签中传达出内容语义信息,相关信息存储于标签集中,通过数据广播对外覆盖传输;以及第二段匹配,用户表达个人喜好,在终端设备上留下显性或隐性的历史记录,终端设备在广播短数据流中筛选出有限可能喜好品种的标签集,浏览者在看到标签集内容之后,舍去没有精力细读的全文,从近处的服务器中取得有精力细读的全文。

结合图1,如今我国广电传统的按照编目对媒资信息进行分类整合的标准已难以组织目前快速增长的媒资信息,而如今的互联网,也急需一种能够更加有效整合信息的信息组织模型。

一条资源信息不一定确切地属于某种分类,可能属于多种分类,因此应用笛卡尔向量空间模型,利用标签的灵活性、海量性、简单性等资源整合优势,将资源信息通过标签按维度分类,每个类目标签的权值可以描述资源信息在该维度的位置,这样通过矢量化的标签实现对资源的管理,既提高了资源发布者的效率,降低其工作的复杂度,又方便用户检索查找到相关信息资源,更有利于各大媒资系统实现对用户的个性化推荐服务。

标签体现用户在兴趣、思考、表达方式上的相似性,用户添加标签可以帮助用户记录其关注点,作为检索利用的入口,也可以为其他对此同样感兴趣的用户提供利于检索的入口,根据标签属性可以分为静态标签、动态标签,比如一部电视剧拍摄完成后,导演、主演、制作公司等信息不会发生变化,所以称为静态标签;电视剧制作完毕后可以在不同的平台播出,多次播出,每次播出的收视人数、点击次数是不固定,称做动态标签。

通过设置标签,第一,可以使检索的内容更贴近主题,提高检索的准确率和查全率。第二,增加访问量,添加与主题相关的标签,可以让浏览者更容易通过相关资源信息和标签搜索到目标资源。第三,方便推荐,主动寻找同类资源,可以通过标签找到有共同爱好和关注领域的用户。

目前,已经在宏观上较为轻易地搜集到大量的标签,然而,缺乏质量监督机制来控制标签质量,导致标签的可重用性问题突出,而且目前对标签的应用来源主要是客户端的用户产生的标签,难以最大化的体现标签的利用价值,所以如何通过自动化的机制既辅助用户提高标签的质量,同时在资源发布时就为资源贴上合适地描述其核心内容主题及资源属性的标签,并且将其分为静态标签和动态标签分别进行标引,是实现资源有效整合,提高检索效率和推荐服务的关键问题。

结合图2,设计自反馈的自动贴标签系统,同时考察用户的历史行为记录及信息资源的情况,通过系统的反复反馈学习,建立高质量的标签库,实现标签全自动标引机制。该标签自动标引技术可以从文本信息内容中提取标签,也可以利用OCR技术识别图片及视频字幕信息,提取相应标签。因此可将其应用于广电、互联网及移动网络端的文本、图片、音频、视频等各类信息资源管理系统。

结合图3,从外接的媒资系统输入信息资源后,首先利用爬虫爬取、字幕识别、视频提取、语音识别,实现文本、图片、音频、视频等各类资源内容及其用户评价内容的自动批量获取,将其转换成系统可以处理的结构化语言;之后通过标签库,规则库,同意词典库等进行分词处理,进而将得到的标签进行排序清洗,最后得到符合资源主题及属性的标签。另一方面,在资源发布后,系统会结合用户的行为习惯,使用同样的方法挖掘出一部分标签。

将最终得到的所有标签输入质量评估系统,过滤掉拼错的、过于侠义的、指向模糊的或者具有不健康的思想倾向的标签,筛选出可以集中表达原文信息特征的可重用性好的高质量标签给标引系统,分别按照静态、动态分别进行标引,实现标签的矢量化标引,同时把这些标签反馈给标签词典,更新其内容,使标签库的质量呈良性循环式地提高,同时实现标签库的与时俱进,不断收录反应时代发展潮流的标签。

标签自动标引能够实现标签的自动更新,当检测到外部系统有新的资源发布或者已发布媒资的相关信息有更新变化后,会自动批量实现对其信息的爬取、过滤,完成标签标引。其中对已标引的标签进行更新时只针对动态标签,静态标签一经生成便无法实现自动修改,若需对其改动,需要管理员去做人工改动。

(1)文本类信息资源标签标引数据结构参考,如表1所示

(2)图片类信息资源标签标引数据结构参考表2:

(3)音频类信息资源标签标引数据结构参考,如表3所示

(4)视频类信息资源标签标引数据结构参考

结合图4,标签还存在标签歧义的问题,例如一个标签“笔记本”,无法判断它是文具类的笔记本,还是笔记本电脑,但如果把“PC”、“电脑”等标签和它聚合在一起便不会产生这种歧义问题,在检索结果中也不会产生与目标主题无相关的内容了。通过自动标引,可以应用短数据包,使用一个标签集去描述每一条信息资源,精准地表达其内容,这种短小精悍的标签集,既方便传输,同时避免了标签歧义问题。

结合图5,通过标签集,更为贴切地描述用户及资源发布方的标注行为,精准而精炼的标签集将更为准确地描述出实体在海量资源中更加符合特定用户偏好的实际位置。同时满足评估标引系统的准确率和查全率两个指标。

结合图6,信息资源标签集对内容的语义匹配分两段实施。第一段,资源发布者所发布的内容通过自动贴标签技术所过滤得到的标签中传达出内容语义信息,相关信息存储于标签集中,通过数据广播对外覆盖传输;第二段,浏览者表达他的喜好(如经常浏览何网站的何栏目,或表达对某些公共话题的兴趣),在终端设备上留下显性或隐性的历史记录,终端设备在广播短数据流中筛选出有限可能喜好品种的标签集,浏览者在看到标签集内容之后,舍去没有精力细读的全文,从近处的服务器中取得有精力细读的全文,经历两段匹配从而获得“内容自寻读者”的效果。使用标签作为媒介,实现信息主动服务,体现了web2.0时代“以人为本”的核心思想。

本发明主要包括:

(1)全自动的标签标引技术充分地利用标签的优势,实现对海量的信息资源的整合、检索、排序、推荐等。该技术可自动实现对文本、图片、音频、视频类信息资源的标签批量提取、去噪、质量审核、标引、检索、自动更新等功能,并具有自我学习的功能;

(2)标签自动标引分别按照静态标签、动态标签的不同方向,实现标签的矢量化标引,动态标签可实现自动更新,静态标签一经生成不可变更,如需要修改则需由管理人员手动操作;

(3)标签自动标引技术一方面用于信息资源发布端,使信息发布时自带高质量的标签集,实现信息自动全方位整合归类,方便传输,同时也使资源更容易被检索到;

(4)另一方面将其应用于用户端,实现用户行为习惯的个性化提取、挖掘,利于信息匹配推荐,从而真正实现内容主动寻找用户;

(5)资源内容自动寻址通过将用户的标签集和资源信息的标签集进行匹配,实现相关信息标签集的自动推送,用户可根据需求自行下载其想要的资源;

(6)资源内容自动寻址技术也具有自我学习行为,通过将每次用户最终选择下载浏览的信息资源反馈回去,不断调整推送内容,实现全面精准的匹配推荐。

至少可以达到以下有益效果:

(1)自动的质量控制策略,提高标签质量

(2)利用向量空间模型按维度给信息资源定位,灵活、准确、全面

(3)挖掘信息资源的潜在属性

(4)利于推荐,增加用户的使用体验,增加用户的粘着性

(5)标签更贴近资源内容,利于提高系统检索效果

(6)通过自反馈系统构建优质标签词典,形成良性循环,使标签系统既保证质量,又能与时俱进随时更新优化

(7)省时省力,节约成本,适应信息化社会

(8)顺应web2.0的发展,促进用户与互联网的信息交互

(9)形成统一标准格式的数据资源,方便资源整合,方便管理,提高资源利用率

(10)利用标签可视化使资源标签在可扩展的同时得到浏览优化,扁平化使标签系统较传统编目可扩展性增强,且通过聚类及标签可视化实现浏览优化,同时也克服了因扁平化可能造成页面无法完全显示所有标签的弊端

最后应说明的是:以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1