面向广域网的音视频智能编目信息获取方法

文档序号:6335507阅读:157来源:国知局
专利名称:面向广域网的音视频智能编目信息获取方法
技术领域
本发明属于计算机应用技术领域,涉及广域网环境中数字音视频资料的编目,为 广域网环境中专业和非专业的内容制作者及编目者提供高效、自动、智能的编目方法,能解 决目前编目系统面向局域网、专业性强、工作量大、重复劳动多、自动化程度低等问题,能显 著提高编目效率,降低人工劳动量。
背景技术
数字音视频资料的编目质量与速度直接影响资源的管理水平、成本效益及资源再 利用。国内从事的规模化视频编目工作基本始于2002年。由于媒体资产管理平台的建 立需要相当的技术和物质条件,所以在国内仅有几家单位建立了大规模媒体资产管理系统 和编目大规模生产,其中规模最大、年产量最高的是中央电视台音像资料馆,现在它所使用 的编目软件主要由索贝和中科大洋两家公司制作。在已有文献中,对图书馆、新闻等媒体形式的编目以及编目自动化技术进行了一 些研究,例如,中国科学院自动化研究所开发的“新闻视频编目方法及系统”,基于新闻节目 中字幕条、主持人、音频静音点信息对新闻视频进行了自动编目,该方法仅针对新闻视频本 身的一些局部内容进行分析、分离和匹配确定编目信息。其他还有针对自动抽帧、镜头分割 等方面的研究,例如,北京新岸线网络技术有限公司开发的“网络媒体智能编目系统”,其中 的“自动编目系统”,可以对媒体文件进行视频结构化分析、人脸分析、字幕分析、台标分析、 声音分析,从而形成相应的编目信息。这些方法针对视频内容本身,算法比较复杂,适应性 很弱,实现精度较低,受视频内容自身质量的影响较大。目前数字音视频资料的编目还存在以下主要问题一是编目项繁多,需要编目人 员根据专业知识逐项手工录入,工作量大,且容易出错;二是智能化和自动化程度低,不能 自动获取编目信息,效率低下;三是编目环境一般为局域网,限制了编目信息自动获取的来 源和渠道;四是对编目人员的专业化程度要求高,而随着音视频采集设备的逐渐普及,内容 制作开始走向个性化、公众化,编目工作也逐渐趋向由非专业人员完成。

发明内容
为了克服现有编目系统存在的上述问题,本发明提出了一种面向广域网的音视频 智能编目信息提取方法,能够智能、自动地为编目者提供著录项信息,减轻人工劳动量,提 高编目效率,而且能够适应专业和非专业编目者的不同需求,适应广域网环境。本发明的特征在于提出了基于关键词特征项位置因素的权重算法,对文档中不 同位置的特征项赋予不同的加权因子,进而更准确地计算网页内容的主题相似度;综合利 用网页内容相似度、超链接的URL目录层次信息、超链接的锚文本信息三方面因素,优化选 择主题相似度更高的链接。对搜索到的主题页面,采用基于本体和HTML的信息提取方法自 动提取出编目信息。采用改进的语义相似度计算方法,对提取到的编目信息进行规范化。
本发明的总体流程如

图1所示。本发明为用户提供了友好的编目界面,打开界面 之后,选择播放待编目的音视频文件,之后开始在编目输入框中进行著录。在著录过程中, 首先录入正题名和关键词作为输入值,然后在计算机上依次按下列步骤实现编目信息的自 动提取1.主题爬虫搜索网页本发明针对目前传统搜索引擎难以满足对特定编目信息检索的要求,采用垂直搜 索引擎搜索与特定主题相关的网络资源。将编目者录入的正题名和关键词作为爬虫的主题
皇A
朱口 ο本发明设计的主题爬虫搜索网页的过程如下(1)页面文档预处理获取并解析初始种子URL对应的网页,将其中的标题文本和正文文本进行分词, 形成关键词特征项集合,并将其与主题集合进行匹配,得到与主题向量维数相等的特征项向量。(2)关键词特征项权重计算本发明改进了传统向量空间模型中的TF权重算法。传统的TF权重算法只关注一 个网页中关键词特征项出现的频率,但在浏览网页时,标题文字和正文的重要性明显是不 一样的,TF权重算法忽略了关键词特征项在网页中的位置因素,导致关键词向量与主题向 量的相似度存在误差。本发明提出“基于关键词特征项位置因素的权重算法”,计算方法如 下a)定义特征项出现的不同位置,并对不同位置的特征项赋予不同的位置权重因子。将关键词特征项出现的位置定义为3类主题(Title)标签,标题(H1-H6)标签, 正文其他位置。这3类位置对于特征项的重要性是依次递减的。然后引入位置权重因子PG表示特征项在不同位置的重要性,PG越大,表示该位置 的特征项越重要。定义PGi (i = 1,2,3)为特征项在不同位置所对应的权重因子,i代表上 述3类位置。由于3类位置对于特征项的重要性是依次递减的,因此规定=PGi >= PGi+1(l < =i < = 2)。定义TF’ Ji = 1,2,3)为特征项t在不同位置出现的频率。b)计算基于位置因素的特征项权重。根据特征项的位置,计算页面文档D中某关键词特征项t的权重DWeight (t),公式 为DWeight(J) = Y^i=l(TF\x PG1)(公式 1)(3)页面内容主题相似度计算根据各关键词特征项的基于位置因素的权重,计算所搜索页面文档D中的关键词 特征项与主题Topic的相似度Sim(D)如下
^z _xDWeight{j) χ TopicWeight(J)Sim(D)=广一!(公式 2)
^ DWeightU)2 χ ^jJopicWeightUf
公式2中,所搜索页面文档D中的关键词特征项与主题Topic的维数相等,用ζ表 示;DWeight (j)表示文档D中第j个关键词特征项的权重,TopicWeight (j)表示主题Topic 中的第j个主题项的权重,J^z0根据实验分析,相似度阈值TH的取值范围为0. 4 0. 6能更准确地得到主题相关 网页。如果网页文档与主题的相似度值Sim(D)彡TH,则判定该网页文档与主题相似,否则 该文档与主题不相似。(4)链接相似度计算该步骤决定主题爬虫的搜索方向。通过本发明设计的主题搜索策略,对URL链接 进行相似度判定,并对URL优先级进行排序,给爬虫提供最优的URL链接,提高爬行效率。本发明综合利用以下三方面信息来计算候选URL的主题相似性本网页内容相似 度、本网页内超链接的URL目录层次信息、本网页中超链接的锚文本信息。具体计算步骤 为a)计算当前页面内容的主题相似度,即利用步骤(3)的计算结果;b)对于当前页面的每个链接,通过URL目录信息判断该链接和当前页面是否目录 位置相邻。如果是,根据当前页面内容的主题相似度来预估目标页面的相似度,如果否,则 通过对锚文本的分析来评价链接的相似度。计算公式如下
…、\Sim(D),如果C与D相邻 ^Sim(C) =(公式 3)其中D——当前网页;L——D网页中的超链接锚文本;C——L指向的目标网页;Sim(D)——网页D的主题相似度;Sim(L)——链接L的锚文本的主题相似度;Sim(C)——对L指向目标网页C主题相似度的预估值; χ—影响系数,x = 0~l, χ用于调节D和L两个因素的主题相似度的权重分配, X越大,则公式更倾向于锚文本,X越小则更倾向于父网页的主题相似度。根据实验,X可设 定为0. 7 0. 8。如果链接与主题的相似度值Sim(C) ^ TH,则判定该链接与主题相似,否则与主题 不相似。(5)将与主题相似的网页下载到数据库并建立索引,用于下一步的编目信息提取。2.基于本体和HTML的编目信息提取针对步骤1中搜索到的相似度较高的主题页面,采用基于本体和HTML的编目信息 提取方法,提取编目信息。通常的Web信息提取中,以HTML形式存在的网页结构易变化、网页内容缺乏语义 描述。本发明针对该问题,将基于HTML结构的信息提取技术和基于本体的信息提取技术的 特点相结合,在定位提取信息所在信息块的时候采用基于HTML结构的提取原理,在具体提 取信息的时候采用基于本体的提取原理,解决提取项描述的语义问题。具体执行过程如图2所示,步骤如下
7
(1)构建本体构建多媒体内容提取本体,本体中的概念定义为多媒体文件内容 描述信息的编目著录项,属性定义为各概念之间的关系,概念的标签属性定义各提取数据 源中提取著录项对应的多义词。(2)解析网页清洗HTML页面,改正页面错误信息,去掉冗余信息,转换成XHTML 文档,然后将该文档解析成DOM树结构。(3)生成提取规则通常情况下各个Web提取源中的提取信息都集中在一个连续 的信息块中。系统根据基于树路径和文本内容结合的定位方式来定位信息,生成XPath路 径,生成提取规则。(4)读取提取规则读取步骤(3)生成的提取规则。(5)读取本体读取多媒体内容提取本体,并对本体中的类、属性和实例进行操作。(6)执行提取算法将步骤(4)和(5)的提取规则和本体作为输入,执行提取 算法。具体步骤为将HTML解析形成的DOM树中待提取信息块中的具体信息分割成 key-value ;读取多媒体文件提取本体中的概念以及概念的标签属性值;如果DOM树中的 key与本体中的概念的标签属性值对应,则将本体的概念和对应的value值保存到XML文件 中,即,将网页信息块中包含的所有数据提取出来。提取出来的具体信息可以作为本体中概 念的具体实例添加到提取本体中,扩展本体模型。(7)信息融合存储根据每个网页数据源提取出相应的提取结果,多个数据源对 应各提取结果文件,每个结果文件所包含的信息有相同的也有不同的。系统通过对比分析 各个提取结果文件中的信息,进行信息融合,最终生成一个提取结果文件。3.基于自然语言的编目信息规范化首先,本发明初始化一个著录项规范词库;然后,针对步骤2中提取到的编目信 息,执行基于知网的语义相似度计算算法,生成规范化的编目著录项。系统读入步骤2中提取到的编目项信息,以及知网词库和义原树文件,找到匹配 的两个词语,之后计算两个词语的语义相似度。一个汉语词语由一个或多个义项(概念) 组成,两个词语的相似度是各概念的语义相似度的最大值,把两个汉语词语之间的相似度 问题归结到两个概念之间的相似度问题,而所有的概念都最终用义原来表示,因此,将按照 下列步骤,从义原相似度计算开始,逐步计算两个汉语词语的语义相似度。1)计算义原的语义相似度在义原构成的树状层次体系中,假设两个义原X和Y在其中的路径距离为dis ( — 个正整数),这两个义原之间的语义相似度Sim(X,Y)按公式4计算
权利要求
一种面向广域网的音视频智能编目信息获取方法,其特征在于,包括步骤(1)主题爬虫搜索网页采用基于关键词特征项位置因素的权重算法,计算网页内容的主题相关度;综合利用网页内容相似度、超链接的URL目录层次信息、超链接的锚文本信息三方面因素,计算链接主题相似度;基于关键词特征项位置因素的权重算法的具体步骤如下1)定义特征项出现的不同位置,并对不同位置的特征项赋予不同的位置权重因子;将关键词特征项出现的位置定义为3类主题标签,标题标签,正文其他位置;这3类位置对于特征项的重要性是依次递减的;然后引入位置权重因子PG表示特征项在不同位置的重要性,定义PGi(i=1,2,3)为特征项在不同位置所对应的权重因子,i代表上述3类位置,规定PGi>=PGi+1(1<=i<=2);定义TF′i(i=1,2,3)为特征项t在不同位置出现的频率;2)计算基于位置因素的特征项权重;根据特征项的位置,计算页面文档D中某关键词特征项t的权重DWeight(t),公式为 <mrow><mi>DWeight</mi><mrow> <mo>(</mo> <mi>t</mi> <mo>)</mo></mrow><mo>=</mo><msubsup> <mi>&Sigma;</mi> <mrow><mi>i</mi><mo>=</mo><mn>1</mn> </mrow> <mn>3</mn></msubsup><mrow> <mo>(</mo> <msub><msup> <mi>TF</mi> <mo>&prime;</mo></msup><mi>i</mi> </msub> <mo>&times;</mo> <msub><mi>PG</mi><mi>i</mi> </msub> <mo>)</mo></mrow> </mrow>(公式1)链接主题相似度计算的步骤如下1)计算当前页面内容的主题相似度 <mrow><mi>Sim</mi><mrow> <mo>(</mo> <mi>D</mi> <mo>)</mo></mrow><mo>=</mo><mfrac> <mrow><msubsup> <mi>&Sigma;</mi> <mrow><mi>j</mi><mo>=</mo><mn>1</mn> </mrow> <mi>z</mi></msubsup><mi>DWeight</mi><mrow> <mo>(</mo> <mi>j</mi> <mo>)</mo></mrow><mo>&times;</mo><mi>TopicWeight</mi><mrow> <mo>(</mo> <mi>j</mi> <mo>)</mo></mrow> </mrow> <mrow><msqrt> <msubsup><mi>&Sigma;</mi><mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn></mrow><mi>z</mi> </msubsup> <msup><mrow> <mi>DWeight</mi> <mrow><mo>(</mo><mi>j</mi><mo>)</mo> </mrow></mrow><mn>2</mn> </msup></msqrt><mo>&times;</mo><msqrt> <msubsup><mi>&Sigma;</mi><mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn></mrow><mi>z</mi> </msubsup> <msup><mrow> <mi>TopicWeight</mi> <mrow><mo>(</mo><mi>j</mi><mo>)</mo> </mrow></mrow><mn>2</mn> </msup></msqrt> </mrow></mfrac> </mrow>(公式2)公式2中,D是所搜索页面文档,z表示主题Topic的维数,DWeight(j)表示D中第j个关键词特征项的权重,TopicWeight(j)表示主题Topic中的第j个主题项的权重,1≤j≤z;2)对于当前页面的每个链接,通过URL目录信息判断该链接和当前页面是否目录位置相邻,如果是,根据当前页面内容的主题相似度来预估目标页面的相似度,如果否,则通过对锚文本的分析来评价链接的相似度;计算公式如下(公式3)其中D——当前网页;L——D网页中的超链接锚文本;C——L指向的目标网页;Sim(D)——网页D的主题相似度;Sim(L)——链接L的锚文本的主题相似度;Sim(C)——对L指向目标网页C主题相似度的预估值;x——影响系数,x=0~1,x用于调节D和锚L两个因素的主题相似度的权重分配,x越大,则公式更倾向于锚文本,x越小则更倾向于父网页的主题相似度;(2)基于本体和HTML的编目信息提取采用基于HTML结构的信息提取方法对HTML页面结构进行分析定位,生成抽取规则,并通过基于本体的信息提取方法解决语义问题;具体处理步骤如下1)构建本体构建多媒体内容提取本体,本体中的概念定义为多媒体文件内容描述信息的编目著录项,属性定义为各概念之间的关系,概念的标签属性定义各提取数据源中提取著录项对应的多义词;2)解析网页清洗HTML页面,改正页面错误信息,去掉冗余信息,转换成XHTML文档,然后将该文档解析成DOM树结构;3)生成提取规则根据基于树路径和文本内容结合的定位方式定位信息,生成XPath路径,生成提取规则;4)读取提取规则读取步骤3)生成的提取规则;5)读取本体读取多媒体内容提取本体,并对本体中的类、属性和实例进行操作;6)执行提取算法将步骤4)和5)的提取规则和本体作为输入,执行提取算法;具体步骤为将HTML解析形成的DOM树中待提取信息块中的具体信息分割成key value;读取多媒体文件提取本体中的概念以及概念的标签属性值;如果DOM树中的key与本体中的概念的标签属性值对应,则将本体的概念和对应的value值保存到XML文件中,即,将网页信息块中包含的所有数据提取出来;提取出来的具体信息可以作为本体中概念的具体实例添加到提取本体中,扩展本体模型;7)信息融合存储根据每个网页数据源提取出相应的提取结果,多个数据源对应各提取结果文件,每个结果文件所包含的信息有相同的也有不同的;系统通过对比分析各个提取结果文件中的信息,进行信息融合,最终生成一个提取结果文件;(3)基于自然语言的编目信息规范化采用语义相似度算法,并给出了改进的概念语义表达式相似度的计算方法,对步骤(2)提取到的编目信息与规范词库的信息进行相似度计算,进而确定规范化的编目项内容;具体过程为系统读入步骤(2)中提取到的编目项信息,以及知网词库和义原树文件,找到匹配的两个词语,之后计算两个词语的语义相似度;一个汉语词语由一个或多个义项(概念)组成,两个词语的相似度是各概念的语义相似度的最大值,把两个汉语词语之间的相似度问题归结到两个概念之间的相似度问题,而所有的概念都最终用义原来表示,按照下列步骤,从义原相似度计算开始,逐步计算两个汉语词语的语义相似度;1)计算义原的语义相似度在义原构成的树状层次体系中,假设两个义原X和Y在其中的路径距离为dis,dis为一个正整数,这两个义原之间的语义相似度Sim(X,Y)按公式4计算 <mrow><mi>Sim</mi><mrow> <mo>(</mo> <mi>X</mi> <mo>,</mo> <mi>Y</mi> <mo>)</mo></mrow><mo>=</mo><mfrac> <mi>&alpha;</mi> <mrow><mi>dis</mi><mo>+</mo><mi>&alpha;</mi> </mrow></mfrac> </mrow>(公式4)其中,α是表示相似度为0.5时的路径长度参数;分别按照公式4计算出第一独立义原、其他独立义原、关系义原和符号义原这四类义原的语义相似度;2)计算两个概念的语义相似度两个概念的相似度由上述四类义原的相似度加权平均得到;概念S1和概念S2之间的语义相似度Sim(S1,S2)按照公式5计算 <mrow><mi>Sim</mi><mrow> <mo>(</mo> <msub><mi>S</mi><mn>1</mn> </msub> <mo>,</mo> <msub><mi>S</mi><mn>2</mn> </msub> <mo>)</mo></mrow><mo>=</mo><munderover> <mi>&Sigma;</mi> <mrow><mi>k</mi><mo>=</mo><mn>1</mn> </mrow> <mn>4</mn></munderover><msub> <mi>&beta;</mi> <mi>k</mi></msub><munderover> <mi>&Pi;</mi> <mrow><mi>q</mi><mo>=</mo><mn>1</mn> </mrow> <mi>k</mi></munderover><msub> <mi>Sim</mi> <mi>q</mi></msub><mrow> <mo>(</mo> <mi>X</mi> <mo>,</mo> <mi>Y</mi> <mo>)</mo></mrow> </mrow>(公式5)其中,X和Y表示两个义原,Simq(X,Y)表示第q类义原的语义相似度,1≤q≤4;βk(1≤k≤4)是四类义原的权重,代表了四类义原对概念语义相似度的影响程度,且有β1+β2+β3+β4=1,β1≥β2≥β3≥β4;公式5中,对于权重较小但有可能相似度较大的义原,用多个义原相似度乘积的方式,使得整体相似度降低,即,主要义原的相似度值对于次要义原的相似度值起到制约作用,如果主要义原相似度比较低,那么次要义原的相似度对于整体相似度所起到的作用也要降低;3)计算两个汉语词语的语义相似度对于两个汉语词语W1和W2,如果W1有n个概念S11,S12,……,S1n,W2有m个概念S21,S22,……,S2m,采用步骤1)和2)计算出两个词语的每对概念的语义相似度,然后取结果的最大值,即,词语W1和词语W2的语义相似度Sim(W1,W2)是各个概念的相似度之最大值,用公式6计算 <mrow><mi>Sim</mi><mrow> <mo>(</mo> <msub><mi>W</mi><mn>1</mn> </msub> <mo>,</mo> <msub><mi>W</mi><mn>2</mn> </msub> <mo>)</mo></mrow><mo>=</mo><munder> <mi>Max</mi> <mrow><mi>v</mi><mo>=</mo><mn>1</mn><mo>.</mo><mo>.</mo><mo>.</mo><mi>n</mi><mo>;</mo><mi>w</mi><mo>=</mo><mn>1</mn><mo>.</mo><mo>.</mo><mo>.</mo><mi>m</mi> </mrow></munder><mi>Sim</mi><mrow> <mo>(</mo> <msub><mi>S</mi><mrow> <mn>1</mn> <mi>v</mi></mrow> </msub> <mo>,</mo> <msub><mi>S</mi><mrow> <mn>2</mn> <mi>w</mi></mrow> </msub> <mo>)</mo></mrow> </mrow>(公式6)其中,S1v表示词语W1中第v个概念,1≤v≤n,n是词语W1中概念的个数;S2w表示词语W2中第w个概念,1≤w≤m,m是词语W2中概念的个数;Sim(S1v,S2w)表示概念S1v和S2w的语义相似度,取各对概念的相似度的最大值,便得到两个词语的语义相似度。FSA00000339766500013.tif
全文摘要
面向广域网的音视频智能编目信息获取方法,属计算机应用领域。本发明特征在于,提出了基于关键词特征项位置因素的权重算法,对文档中不同位置的特征项赋予不同的加权因子,进而更准确地计算网页内容的主题相似度;综合利用网页内容相似度、超链接的URL目录层次信息、超链接的锚文本信息三方面因素,优化选择主题相似度更高的链接。对搜索到的主题页面,采用基于本体和HTML的信息提取方法自动提取出编目信息。采用改进的语义相似度计算方法,对提取到的编目信息进行规范化。本发明能够智能、自动地为编目者提供著录项信息,减轻人工劳动量,提高编目效率,能够适应专业和非专业编目者的不同需求,也能适应广域网环境。
文档编号G06F17/30GK101968819SQ20101053710
公开日2011年2月9日 申请日期2010年11月5日 优先权日2010年11月5日
发明者伏文龙, 王永滨, 隋爱娜 申请人:中国传媒大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1