基于多视角图中最小权重连通决定集的Web信息提取方法

文档序号：9687487阅读：572来源：国知局

基于多视角图中最小权重连通决定集的Web信息提取方法
【技术领域】
[0001] 本发明涉及一种新的对某主题进行Web信息提取方法，具体是一种通过多视角图中最小权重连通决定集生成图示故事轴的Web信息提取方法。
【背景技术】
[0002] 随着信息技术的飞速发展，互联网已经成为最流行的信息发布媒介。人们无论是发布信息还是阅读信息都变的极为方便。然而，随着互联网信息爆炸性地增长，人们在互联网上搜索信息时经常会遇到送种问题：浏览一个特别大的Web文档集并提取出有意义信息。近些年来，为解决送个问题，人们提出了各种类型的Web文档理解系统。例如，基于查询的多文档自动摘要系统，其目的是从文档中抽取摘要语句使其可W传递文档的原则性内容或与查询相关的内容；主题检测与跟踪系统，用来监测与某一话题有关的事件动态；时间轴生成系统，利用文档中出现的时间信息，通过生成摘要描述关于某个主题的事件演化。
[0003] 多文档自动摘要通过提取文档中原理性信息或与查询相关的信息把文档转换成一个很小的摘要。人们已经提出了各种各样的多文档自动摘要方法。最常用的是基于质必或基于图形的，另外还有如潜在语义分析（LSA)，非负矩阵分解（NMF)和基于语句的主题模型等，它们通过选择文档中语义重要的句子来生成摘要。大多数现有的方法从输入中提取语句而形成简短的摘要，但是忽略了可能存在于输入文档中的时序和结构信息。
[0004] 主题检测与跟踪（TDT)的目的是根据新闻类文章中讨论的主题对文章进行分组W 提取一些新的，W前未报告的事件，并跟踪该主题的未来事态。信息检索技术(如信息提取，过滤和文本聚类）通常被应用于送些问题。
[0005] 另外存在着在生成关于某个主题的时间轴和故事轴方面的研究。送些时间轴生成方法参考了时序信息，并W线性结构展示出来。谷歌新闻时间轴对新闻类文章依据主题进行分组，然后W时间次序排序。
[0006] 虽然送些文档的理解系统可W减少信息过载的问题，但他们仍然面临两大局限： (1)大多数系统侧重于突出和总结某个话题的事件而缺乏捕获事件演变的主题结构。虽然时间轴系统提出了一种基于时间顺序的事件序列，但线性结构的事件轴通常失去了事件演变过程的全面信息。（2)送些系统通常W文本的形式作出总结，但对读者来说文本有时可能看起来乏味和无趣。

【发明内容】

[0007] 1、本发明的目的。
[0008] 本发明所述的基于多视角图中最小权重连通决定集的Web信息提取方法不同于上述现有方法，本发明提出的方法集成了文本，图像和时间信息，并生成W故事轴为基础的摘要W反映给定主题的演变。本发明通过生成图示和时序的故事轴W解决上述所述的两个局限，即基于时序组织摘要，给读者提供可W用来跟踪的摘要结构，并且使用图示使摘要更易于阅读且更易于被读者理解。
[0009] 2、本发明所采用的技术方案。
[0010] (1)预处理：输入主题和关于该主题的对象的集合，其中每个对象包含图像附带时间戳和文本信息； (2)通过文本和图像分析，结合时序信息构建一个多视角对象图，图中每个顶点代表一幅图像，并与描述该图像的文本关联，多视角对象图中有两组边，无向边表示对象之间的相似度的等级，有向边表示按照类型的成对时序关系。每个顶点被分配一个权重值，权重值代表对象与查询之间的相似度； (3) 求解最小权重决定集，从而得到一组节点，即决定对象； (4) 通过使用有向Steiner树生成一个故事轴，输出由时间戳关联的对象组成的图示时序故事轴。
[0011] 更进一步，所述的多视角对象图构建按照如下步骤进行： (1) 定义；多视角图为一个；元组G二（ν'.己4)，其中P是顶点的集合，护是无向边的集合，棄是有向边的集合；按照所述的已知图像和带有时间戳的文本描述的集合，构造一个多视角对象图：将图像视为顶点r，基于文本和图像的相似度计算无向边基于时间戳的不同计算有向边I，使用四个非负实参洋，I，玲，猿:定义送些边； (2) 采用标准的词袋表示文本；在信息检索中，词袋即对于一个文本，忽略其词序和语法，句法，将其仅仅看做是一个词集合，文本中每个词的出现都是独立的，不依赖于其他词是否出现，或者说当送篇文章的作者在任意一个位置选择一个词汇都不受前面句子的影响而独立选择的； (3) 对于图像，我们采用颜色和边缘方向性描述，从颜色和纹理的角度计算它们的特征，用余弦度量来计算相似度。
[0012] 更进一步，所述的用余弦度量来计算特征向量相似度采用如下方法：假设游和是顶点护中的两个对象，用无向边I把送两个对象连起来当且仅当两者之间的文本相似度和图像相似度分别大于边α和边13,从鶴到猿画一条有向边I当且仅当辖鸿1::-?萬麟，其中辕粥耗分别是它们的时间戳，I!;鴻I为时间窗口；对每个顶点祭:，它的顶点权重携等于1减主题9和对象A之间的余弦相似度。
[0013] 更进一步，所述的通过最小权重决定集识别与查询相关的决定对象采用如下方法：如果一个图的顶点辑郝取之间有一条边相连，则定义为顶点辑诀定了图的另一个顶点tr ;无向图的顶点集的一个子集安是一个决定集，如果对每个顶点终，要么辉在签中，要么军中的一个顶点决定，寻找查询相关对象集的问题可W看作是在无向图（购态中找到最小巧， … 权重决定集问题即给定一个顶点加权无向图G，从所有G的决定集中找到所有顶点权重最小的一个决定集：步骤1 ;初始化决定集f:为空集◎，定义一个中间集合單，初始化为録；步骤2 ;对顶点集合f中每个未包含在中的顶点，找到与y相邻且不属于中间集合乎的顶点，计算其个数自?; 步骤3 ;计算每个V的权重与gi前比值，找到比值最小的顶点#; 步骤4 ;将知加到决定集固中，将於的相邻点加到中间集合乎中；步骤5 ;重复步骤2到步骤5,直到决定集S:中的顶点树大于决定集最大值；步骤6;最后得到无向图（1.·% 的最小权重决定集。
[0014] 更进一步，所述的通过有向Steiner树连接决定集中对象来生成故事轴按照如下方法生成，即决定集近似解从而得到对描述话题最有代表性的对象后，生成一个自然的故事轴，捕捉到查询相关事件的时间和结构信息：给定一个有向加权图技= :1?? W及顶点子集f e f，找到图巧中连接f中所有顶点的最小权值的一棵树，即Steiner树，其中集合f中的顶点被称作终端顶点；当議I;苗總时，Steiner问题就是经典的计算最小生成树的问题；当?魏纪單时， Steiner问题就变成求解两点之间最短路径问题；问题输出的Steiner树即为故事轴，该故事轴将根对象到所有其它决定集中的对象连接起来；已知该问题的输入^截藻/.键，其中釋:苯示顶点加权有向图，f'表示上述方法找到的最小决定集，接表示决定集大小，r表示Steiner树的根，为了找到Wir为根，覆盖f 中的个顶点的Steiner树Γ，采用如下的方法：步骤1 ;初始化乘为空集0 ; 步骤2 ;初始化为空集，初始化中所有顶点的权值为W ; 步骤3;对每个顶点r，I觀參巧缉，誠取1到k之间的每一个值，计算 ^曰嫌謀麵;，紙::縣麵;綾徽纖，如果嚇^冲顶点的权值大于^中顶点的权值则接。蝴护；步骤4 ;Τ·;户带終戮；步骤5 ;|i;片旨叫験鱗禱踩。。赛;長:袭嫌f該重复步骤2到步骤5,直到提驾潛；步骤6 ;返回带。
[0015] 3、本发明的有益效果。
[0016] (1)本发明提出的方法结合了图像时序和文本处理，并不简单的通过文本进行处理，改善了单纯的用语义分析，并向读者提供生动的图示摘要。
[0017] (2)将问题转化为基于图的优化问题并利用高效的启发式方法解决该问题。
[0018] (3)生成的故事轴同时实现了时间上的连续性和内容上的连贯性，使检索提取的速度大大提高，为读者提供了更丰富的信息和更好的结果。
【附图说明】
[0019] 图1是本发明的生成流程图。
【具体实施方式】
[0020] 为了使专利局的审查员尤其是公众能够更加清楚地理解本发明的技术实质和有益效果，申请人将在下面W实施例的方式作详细说明，但是对实施例的描述均不是对本发明方案的限制，任何依据本发明构思所作出的仅仅为形式上的而非实质性的等效变换都应视为本发明的技术方案范畴。实施例
[0021] 生成图示时序故事轴的问题可定义如下：输入；查询主题璋和豫;个对象的集合貧-，梦=，礙麓jJ:，其中每个对象C;是一个包含文本描述(例如，一个小段落或一句话）和时间戳鞍的一个图像。
[0022] 输出；一个可W概述查询相关话题的最具代表性对象组成的图示时序故事轴。
[0023] 下面我们将把送个问题转换成多视角图上的最小权重连通支配集问题，它可W被分解成两个优化问题；1)寻找最小权重支配集；2)使用有向Steiner树（Steiner化ee)连接支配集元素。
[0024] 1、多视角对象图构建定义；多视角图（Multi-View Graph)是一个Η元组G == ('，&^)，其中賢是顶点的集合，襄是无向边的集合，沫是有向边的集合。
[0025] 已知图像和带有时间戳的文本描述的集合，我们构造一个多视角对象图；将图像视为顶点积，基于文本和图像的相似度计算无向边餐，基于时间戳的不同计算有向边I::。我们使用四个非负实参;寒J，雅，稳锥义送些边。
[0026] 对于文本，我们采用标准的"词

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：李涛;李千目;王鹏飞;
技术所有人：南京理工大学常熟研究院有限公司;
我是此专利的发明人

上一篇：一种pdf文档目录的获取方法及装置的制造方法
上一篇：可携式电子装置及其信息处理方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。