Web视频页面的复杂命名实体的抽取方法及其系统的制作方法

文档序号:6575416阅读:155来源:国知局
专利名称:Web视频页面的复杂命名实体的抽取方法及其系统的制作方法
技术领域
该发明涉及信息抽取领域,尤其涉及Web视频页面的复杂命名实体的抽 取方法。
背景技术
随着网络带宽的增长和Web2. 0技术的应用,YouTube、优酷、土豆等视 频分享网站在国内外得到了快速的发展,互联网视频数量和用户规模大规模 增长。目前国内互联网共有超过300家视频站点,其中优酷、土豆网等网站 的视频数量已突破千万。如何从Web视频页面中准确有效的提取文本信息已 经成为信息抽取领域的重要问题,从网页中提取文本实质上是一种从半结构 化的文本中提取信息的过程。
Web视频页面中包含了大量的文本信息,如电影名、电视剧名、音乐名、 热点事件名等,若能从Web视频中抽取出该些信息,不仅能为用户提供准确、 全面的信息资讯,还能对视频的分类、内容聚合和个性推荐进行指导。该些 文本共有的重要特征是词都较长且普通词典中并不包含这些名称,因此被称 之为复杂命名实体(Complex Named Entities)。
复杂命名实体是指人名、地名等之外的更加具体、字面特征不明显、与 人们日常生活和休闲娱乐活动密切相关的实体名。把能够标识一个具体对象 或特殊现象的字符串称为一个实体词,比如"汶川地震"、"北京奥运"等 都认为是事件名;"隐形的翅膀"、"北京欢迎你"都认为是音乐名。
现有的命名实体抽取多数是在普通文本上进行,其识别对象多是MUC(请 Message Understanding Conference,消息理解会议)定义的七个类别,尤其 以人名、地名、机构名为主。命名实体识别分为两种方法, 一种是基于规则 的方法,另一种是基于统计的方法。基于规则的方法准确率较高,但是需要 耗费大量的人力物力,且规则都是基于一定应用领域制定,应用领域变化就 需重新制定规则与词典,因此系统的可移植性差;基于统计的方法的健壮性和灵活性更好,且不需要太多的人为干预,但它需要大规模的语料库训练。 现有的命名实体抽取算法主要利用命名实体在文本中的上下文信息和命
名实体本身的组成特征。但是在Web视频页面中,命名实体缺乏丰富的上下 文信息;同时现有技术中算法需要大规模的数据集合并进行长时间运算,不 适用于及时发现新出现的复杂命名实体。普通的命名实体与复杂命名实体在 概念和表现形式上都有很大差异,导致现有技术的算法无法直接应用到复杂 命名识别抽取中;同时现有技术中的算法也没有对命名实体做精细的类别划 分。

发明内容
为解决上述问题,本发明提供了 Web视频页面的复杂命名实体的抽取方 法及其系统,能够不需要经过长时间的模型训练而从Web视频页面中提取复 杂命名实体。
本发明公开了一种Web视频页面的复杂命名实体的抽取方法,
步骤l,对于Web视频页面集合中的每个Web视频页面,从所述Web视
频页面中抽取有效文本信息,所述有效文本信息组成视频文本,所有视频文
本组成训练集合;
步骤2,对Web视频页面进行归类,选择类别,对于每个被选的类别设 置引导词,从训练集合中选择同所述引导词相关并且在类别内均匀分布在类 别间集中分布的词为特征词;
步骤3,从训练集合中提取出同所述特征词相关的词为候选复杂命名实 体,按候选命名实体相关的特征词同类别的关联度,为各个被选类别从所述 候选命名实体中选择对应的复杂命名实体。
所述步骤l进一步为,
步骤21,为每个站点设置信息抽取模板;
步骤22,对于Web视频页面集合中的每个Web视频页面的HTML文本内 容构建D0M树;
步骤23,由所述Web视频页面所属站点的信息抽取模板和所述Web视频 页面的DOM树,从所述Web视频页面中抽取有效文本信息;
步骤24,所述有效文本信息组成视频文本,所有视频文本组成所述训练隹A 朱n o
所述有效文本信息包括视频的类别;
所述步骤2中对Web视频页面进行归类进一歩为,
歩骤31,设置站点的视频类别到标准类别的映射,将所述Web视频页面 的视频的类别映射为标准类别;
步骤32,根据所述Web视频页面的标准类别对所述Web视频页面进行归类。
所述步骤2中选择类别进一步为,
步骤41,从划分的类别中选择包含的Web视频页面数量大于第一预设值 的类别为选择的类别。
所述有效文本信息包括视频的标签,
所述步骤2中对于每个被选的类别设置引导词进一步为,
步骤51,从训练集合中被选类别的视频文本的标签中选择满足条件的词 作为引导词,所述条件为标签中包含该词的类别的数量小于第二预设值。
所述步骤2中从训练集合中选择同所述引导词相关并且在类别内均匀分 布在类别间集中分布的词为特征词进一步为,
步骤51,对于每个标签,如果所述标签包含引导词,则所述标签包含的 其他词为候选特征词;
步骤52,依据候选特征词在类别内的分布和类别间的分布计算所述候选 特征词对应于每个类别的得分,候选特征词在类别中出现的次数相对于其他 类别越多,并且在类别中分布越均匀,则所述候选特征词对应于所述类别的 得分越高;
步骤53,对于每个候选特征词,以候选特征词的最高得分作为所述候选 特征词的权重值,从候选特征词中选择权重值高的候选特征词作为特征词。 所述步骤3进一步为,
步骤71,从训练集合中提取出在标签中同特征词共同出现过的词作为候 选复杂命名实体,候选复杂命名实体和同所述候选复杂命名实体相关的特征 词组成文档;
步骤72,文档中特征词对应于类别的得分为所述特征词同类别的关联 度,由所述关联度计算文档中候选复杂命名实体对应于类别的得分,特征词对应于类别的得分的值越高,所述候选复杂命名实体对应于类别的得分的值 越高;
歩骤73,对于每个类别,将在所述类别的得分超过第三预设值或按得分 排序在所述类别中排在前n项的候选复杂命名实体作为所述类别的复杂命名 实体,其中,n为第四预设值。
本发明还公开了一种Web视频页面的复杂命名实体的抽取系统,包括
有效信息抽取模块,用于对于Web视频页面集合中的每个Web视频页面, 从所述Web视频页面中抽取有效文本信息,所述有效文本信息组成视频文本, 所有视频文本组成训练集合;
特征词选取模块,用于对Web视频页面进行归类,选择类别,对于每个 被选的类别设置引导词,从训练集合中选择同所述引导词相关并且在类别内 均匀分布在类别间集中分布的词为特征词;
复杂命名实体抽取模块,用于从训练集合中提取出同所述特征词相关的 词为候选复杂命名实体,按候选命名实体相关的特征词同类别的关联度,为 各个被选类别从所述候选命名实体中选择对应的复杂命名实体。
所述有效信息抽取模块进一步用于为每个站点设置信息抽取模板;对于 Web视频页面集合中的每个Web视频页面的HTML文本内容构建DOM树;由所 述Web视频页面所属站点的信息抽取模板和所述Web视频页面的DOM树,从 所述Web视频页面中抽取有效文本信息;所述有效文本信息组成视频文本, 所有视频文本组成所述训练集合。
所述有效文本信息包括视频的类别;
所述特征词选取模块在对Web视频页面进行归类时进一步用于设置站点 的视频类别到标准类别的映射,将所述Web视频页面的视频的类别映射为标 准类别;根据所述Web视频页面的标准类别对所述Web视频页面进行归类。
所述特征词选取模块在选择类别时进一步用于从划分的类别中选择包含 的Web视频页面数量大于第一预设值的类别为选择的类别。
所述有效文本信息包括视频的标签,
所述特征词选取模块在对于每个被选的类别设置引导词时进一步用于从 训练集合中被选类别的视频文本的标签中选择满足条件的词作为引导词,所 述条件为标签中包含该词的类别的数量小于第二预设值。所述特征词选取模块在从训练集合中选择同所述引导词相关并且在类别 内均匀分布在类别间集中分布的词为特征词时进一步用于对于每个标签,如 果所述标签包含引导词,则所述标签包含的其他词为候选特征词;依据候选 特征词在类别内的分布和类别间的分布计算所述候选特征词对应于每个类别 的得分,候选特征词在类别中出现的次数相对于其他类别越多,并且在类别 中分布越均匀,则所述候选特征词对应于所述类别的得分越高;对于每个候 选特征词,以候选特征词的最高得分作为所述候选特征词的权重值,从候选 特征词中选择权重值高的候选特征词作为特征词。
所述复杂命名实体抽取模块进一步用于从训练集合中提取出在标签中同 特征词共同出现过的词作为候选复杂命名实体,候选复杂命名实体和同所述 候选复杂命名实体相关的特征词组成文档;文档中特征词对应于类别的得分 为所述特征词同类别的关联度,由所述关联度计算文档中候选复杂命名实体 对应于类别的得分,特征词对应于类别的得分的值越高,所述候选复杂命名 实体对应于类别的得分的值越高;对于每个类别,将在所述类别的得分超过 第三预设值或按得分排序在所述类别中排在前n项的候选复杂命名实体作为 所述类别的复杂命名实体,其中,n为第四预设值。
本发明的有益效果在于,通过采用基于抽取模板的信息抽取方法,精确 提取Web视频页面中的文本信息;通过进行文本分类,能够抽取出各个类别 中的复杂命名实体,为用户推荐最新最热门的各类信息;通过特征词方法抽 取复杂命名实体,能够不需要经过长时间的模型训练,并且能随Web视频页 面的变化发现新的复杂命名实体,具有及时、快速、准确的技术效果;通过 从候选特征词中选择出在类别内均匀分布在类别间集中分布的词为特征词, 去除存在干扰的特征词,提高抽取准确性。


图1是本发明Web视频页面的复杂命名实体的抽取方法的流程图; 图2是本发明Web视频页面的复杂命名实体的抽取系统的结构图。
具体实施例方式
下面结合附图,对本发明做进一步的详细描述。
10本发明方法如图l所示。
步骤S100,对于Web视频页面集合中的每个Web视频页面,从该Web视 频页面中抽取有效文本信息,有效文本信息组成视频文本,所有视频文本组 成训练集合。
步骤S100的具体实现方式如下所述。
步骤IIO,为每个站点设置信息抽取模板。
对于绝大多数视频网站,其网页大多数是由脚本或程序从数据库提供的 接口中读出数据,然后以固定的格式生成HTML页面的,因此在同一网站中, 具有相同或相似语义内容的网页通常也具有相同或相似HTML语法结构。
由于HTML网页的特殊性,提取网页文本可以采用预设提取规则,然后根 据该提取规则来提取文本的方法。提取规则是一系列规定的语法和标签,该 些语法和标签表述如何在一系列结构相似有相同语义内容的网页中找到指定 的文本资源,然后根据该些描述进行文本信息提取。
上述提取规则为所述的信息抽取模板。
步骤120,对于Web视频页面集合中的每个Web视频页面的HTML文本内 容构建D0M树。
步骤130,由Web视频页面所属站点的信息抽取模板和该Web视频页面 的DOM树,从该Web视频页面中抽取有效文本信息。
将DOM树与信息抽取模板匹配,抽取Web视频网页中有效的文本内容, 如标题、标签、描述、类别;从而去除无关信息,如广告、导航链接。
步骤140,有效文本信息组成视频文本,所有视频文本组成训练集合。 步骤S200,对Web视频页面进行归类,选择类别,对于每个被选的类别
设置引导词,从训练集合中选择同引导词相关并且在类别内均匀分布在类别
间集中分布的词为特征词。
所述步骤S200的具体实施方式
如下。
步骤S200中涉及术语定义如下。
复杂命名实体(NE),是指人名、地名等之外的更加具体、字面特征不明 显、与人们日常生活和休闲娱乐活动密切相关的实体名,如电影名、电视剧 名、音乐名、热点事件名等。
引导词(Seed),为每一个类别选取的属于该类别的复杂命名实体,用以提取对该类别有标识意义的特征词。
特征词(Feature),用以表达用户对该命名实体的信息需求的词。 步骤210,对Web视频页面进行归类。
设置站点的视频类别到标准类别的映射,将所述Web视频页面的视频的 类别映射为标准类别;根据Web视频页面的标准类别对该Web视频页面进行 归类。
由于各个视频站点标注的类别信息并不一致,例如同一视频在不同网站 分别被标注为"新闻"类和"资讯"类,在本发明中利用ODP (Open Directory Project,开放目录项目)的层次结构选择了类别和每个类别下的子类,并建 立了各站点视频类别到标准类别的映射关系。如"电影"类别包括"大陆电 影"、"港台电影"等子类。
步骤220,选择类别。
从划分的类别中选择包含的Web视频页面数量大于第一预设值的类别为 选择的类别。
选择类别的原则还包括覆盖一定的视频集合;跟人们的需求密切相关; 以及同其他类别比较边界清晰的类别。
关于边界清晰,"音乐"类与"电影"类特征差异明显,而"电影"与 "电视"类特征差异较小,如"DVD版"都是它们的特征词。因此,选择时, 选择"音乐"和"电影",而不会同时选择"电影"和"电视"类。
步骤230,对于每个被选的类别设置引导词。
所述步骤230具体实施方式
如下所述。
歩骤231,从训练集合中被选类别的视频文本的标签中选择满足条件的 词作为引导词,所述条件为标签中包含该词的类别的数量小于第二预设值。 实施例中为只在同一个类别的Web视频页面的标签中出现的词为引导词,也 就是第二预设值为2。
各类别中引导词的选择,是从Web视频页面的标签组成的标签集合中为 各个类别选取一部分命名实体作为弓I导词。
引导词的选择原则为避免兼类,否则在识别某一类别的特征词时会引 入其他类的特征词;覆盖所有子类,否则会遗漏某些子类的特征词。
步骤240,从训练集合中选择同所述引导词相关并且在类别内均匀分布
12在类别间集中分布的词为特征词。
所述步骤240具体实施方式
如下所述。
步骤241,对于每个视频的标签,如果该标签包含引导词,则该标签包
含的其他词为候选特征词。
步骤242,依候选特征词在类别内分布和类别间分布计算该候选特征词 对应于每个类别的得分,候选特征词在类别中出现的次数相对于其他类别越 多,在类别分布越均匀,该候选特征词对应于该类别的得分越高。
弓I入基于现有技术中分布的单类别特征选择框架从候选特征词中选取特 征词。
按如下公式计算候选特征词对应于类别的得分。
s度e(f, c,.) = c,.) - P7C(,, c,.)
其中
c,) = A £ w.g",, c,) - 。.)), c,) - F" 。 ))2
c,) = Z 力-c, ))2
I c, I -1 rfec,
计算公式中的符号解释如下。
t表示一个候选特征词,C表示一个类别,d表示一个特征词文档。特征 词文档由一个引导词和同它相关的候选特征词组成。
e'是第y个选择的类别,其中,l&、iv, N是选择的类别个数。
"g"W是符号函数s—(力41 ,x^。 log(w(,,d) +1) x魂。)
s/ze C +1
s/ze —d + 1
其中,d表示由一个候选复杂命名实体和它周围的特征词组成的文档; w"力表示某个特征词t在文档d中出现的次数;
w(^')表示在步骤B中计算出的特征词t在类别e'中的得分",(^')。
^e-e表示在类别C中去重后的特征词个数; ^e-d表示在文档d中去重后的特征词个数。
步骤330,对于每个类别,将在该类别的得分超过第四预设值或按得分 排列在该类别中排在前n项的候选复杂命名实体作为所述类别的复杂命名实 体,其中,n为第五预设值。具体实施例中,n值为50。
通过直接计算候选复杂命名实体在每一个类别上的得分,满足一定得分或 者得分排名在前N,实施例中N选为50,则把候选复杂命名实体划分为该类 别的复杂命名实体;否则,候选复杂命名实体不为该类别的复杂命名实体, 最终抽取出各个类别中的复杂命名实体。
一种Web视频页面的复杂命名实体的抽取系统如图2所示。 有效信息抽取模块100,用于对于Web视频页面集合中的每个Web视频 页面,从所述Web视频页面中抽取有效文本信息,所述有效文本信息组成视 频文本,所有视频文本组成训练集合。
有效信息抽取模块100进一步用于为每个站点设置信息抽取模板;对于 Web视频页面集合中的每个Web视频页面的HTML文本内容构建DOM树;由所 述Web视频页面所属站点的信息抽取模板和所述Web视频页面的DOM树,从 所述Web视频页面中抽取有效文本信息;所述有效文本信息组成视频文本,
15所有视频文本组成所述训练集合。
特征词选取模块200,用于对Web视频页面进行归类,选择类别,对于 每个被选的类别设置引导词,从训练集合中选择同所述引导词相关并且在类 别内均匀分布在类别间集中分布的词为特征词。
所述有效文本信息包括视频的类别;
特征词选取模块200在对Web视频页面进行归类时进一步用于设置站点 的视频类别到标准类别的映射,将所述Web视频页面的视频的类别映射为标 准类别;根据所述Web视频页面的标准类别对所述Web视频页面进行归类。
特征词选取模块200在选择类别时进一步用于从划分的类别中选择包含 的Web视频页面数量大于第一预设值的类别为选择的类别。
所述有效文本信息包括视频的标签,
特征词选取模块200在对于每个被选的类别设置引导词时进一步用于从 训练集合中被选类别的视频文本的标签中选择满足条件的词作为引导词,所 述条件为标签中包含该词的类别的数量小于第二预设值。
特征词选取模块200在从训练集合中选择同所述引导词相关并且在类别 内均匀分布在类别间集中分布的词为特征词时进一步用于对于每个标签,如 果所述标签包含引导词,则所述标签包含的其他词为候选特征词;依据候选 特征词在类别内的分布和类别间的分布计算所述候选特征词对应于每个类别 的得分,候选特征词在类别中出现的次数相对于其他类别越多,并且在类别 中分布越均匀,则所述候选特征词对应于所述类别的得分越高;对于每个候 选特征词,以候选特征词的最高得分作为所述候选特征词的权重值,从候选 特征词中选择权重值高的候选特征词作为特征词。
复杂命名实体抽取模块300,用于从训练集合中提取出同所述特征词相 关的词为候选复杂命名实体,按候选命名实体相关的特征词同类别的关联度, 为各个被选类别从所述候选命名实体中选择对应的复杂命名实体。
复杂命名实体抽取模块300进一步用于从训练集合中提取出在标签中同 特征词共同出现过的词作为候选复杂命名实体,候选复杂命名实体和同所述 候选复杂命名实体相关的特征词组成文档;文档中特征词对应于类别的得分 为所述特征词同类别的关联度,由所述关联度计算文档中候选复杂命名实体 对应于类别的得分,特征词对应于类别的得分的值越高,所述候选复杂命名实体对应于类别的得分的值越高;对于每个类别,将在所述类别的得分超过
第三预设值或按得分排序在所述类别中排在前n项的候选复杂命名实体作为 所述类别的复杂命名实体,其中,n为第四预设值。
本领域的技术人员在不脱离权利要求书确定的本发明的精神和范围的条 件下,还可以对以上内容进行各种各样的修改。因此本发明的范围并不仅限 于以上的说明,而是由权利要求书的范围来确定的。
权利要求
1.一种Web视频页面的复杂命名实体的抽取方法,其特征在于,步骤1,对于Web视频页面集合中的每个Web视频页面,从所述Web视频页面中抽取有效文本信息,所述有效文本信息组成视频文本,所有视频文本组成训练集合;步骤2,对Web视频页面进行归类,选择类别,对于每个被选的类别设置引导词,从训练集合中选择同所述引导词相关并且在类别内均匀分布在类别间集中分布的词为特征词;步骤3,从训练集合中提取出同所述特征词相关的词为候选复杂命名实体,按候选命名实体相关的特征词同类别的关联度,为各个被选类别从所述候选命名实体中选择对应的复杂命名实体。
2. 如权利要求l所述的Web视频页面的复杂命名实体的抽取方法,其特 征在于,所述步骤l进一步为,步骤21,为每个站点设置信息抽取模板;步骤22,对于Web视频页面集合中的每个Web视频页面的HTML文本内 容构建D0M树;步骤23,由所述Web视频页面所属站点的信息抽取模板和所述Web视频 页面的DOM树,从所述Web视频页面中抽取有效文本信息;步骤24,所述有效文本信息组成视频文本,所有视频文本组成所述训练鱼厶朱口 o
3. 如权利要求1所述的Web视频页面的复杂命名实体的抽取方法,其特 征在于,所述有效文本信息包括视频的类别;所述步骤2中对Web视频页面进行归类进一步为,步骤31,设置站点的视频类别到标准类别的映射,将所述Web视频页面 的视频的类别映射为标准类别;步骤32,根据所述Web视频页面的标准类别对所述Web视频页面进行归类。2
4. 如权利要求1所述的Web视频页面的复杂命名实体的抽取方法,其特 征在于,所述步骤2中选择类别进一步为,歩骤41,从划分的类别中选择包含的Web视频页面数量大于第一预设值 的类别为选择的类别。
5. 如权利要求1所述的Web视频页面的复杂命名实体的抽取方法,其特 征在于,所述有效文本信息包括视频的标签, 所述步骤2中对于每个被选的类别设置引导词进一步为, 步骤51,从训练集合中被选类别的视频文本的标签中选择满足条件的词 作为引导词,所述条件为标签中包含该词的类别的数量小于第二预设值。
6. 如权利要求5所述的Web视频页面的复杂命名实体的抽取方法,其特 征在于,所述步骤2中从训练集合中选择同所述引导词相关并且在类别内均匀分 布在类别间集中分布的词为特征词进一步为,步骤51,对于每个标签,如果所述标签包含引导词,则所述标签包含的 其他词为候选特征词;步骤52,依据候选特征词在类别内的分布和类别间的分布计算所述候选 特征词对应于每个类别的得分,候选特征词在类别中出现的次数相对于其他 类别越多,并且在类别中分布越均匀,则所述候选特征词对应于所述类别的 得分越高;步骤53,对于每个候选特征词,以候选特征词的最高得分作为所述候选 特征词的权重值,从候选特征词中选择权重值高的候选特征词作为特征词。
7. 如权利要求6所述的Web视频页面的复杂命名实体的抽取方法,其特 征在于,所述步骤3进一步为,步骤71,从训练集合中提取出在标签中同特征词共同出现过的词作为候 选复杂命名实体,候选复杂命名实体和同所述候选复杂命名实体相关的特征 词组成文档;步骤72,文档中特征词对应于类别的得分为所述特征词同类别的关联 度,由所述关联度计算文档中候选复杂命名实体对应于类别的得分,特征词对应于类别的得分的值越高,所述候选复杂命名实体对应于类别的得分的值 越高;步骤73,对于每个类别,将在所述类别的得分超过第三预设值或按得分 排序在所述类别中排在前n项的候选复杂命名实体作为所述类别的复杂命名 实体,其中,n为第四预设值。
8. —种Web视频页面的复杂命名实体的抽取系统,其特征在于,包括 有效信息抽取模块,用于对于Web视频页面集合中的每个Web视频页面,从所述Web视频页面中抽取有效文本信息,所述有效文本信息组成视频文本, 所有视频文本组成训练集合;特征词选取模块,用于对Web视频页面进行归类,选择类别,对于每个 被选的类别设置引导词,从训练集合中选择同所述引导词相关并且在类别内 均匀分布在类别间集中分布的词为特征词;复杂命名实体抽取模块,用于从训练集合中提取出同所述特征词相关的 词为候选复杂命名实体,按候选命名实体相关的特征词同类别的关联度,为 各个被选类别从所述候选命名实体中选择对应的复杂命名实体。
9. 如权利要求8所述的Web视频页面的复杂命名实体的抽取系统,其特征在于,所述有效信息抽取模块进一步用于为每个站点设置信息抽取模板;对于 Web视频页面集合中的每个Web视频页面的HTML文本内容构建DOM树;由所 述Web视频页面所属站点的信息抽取模板和所述Web视频页面的DOM树,从 所述Web视频页面中抽取有效文本信息;所述有效文本信息组成视频文本, 所有视频文本组成所述训练集合。
10. 如权利要求8所述的Web视频页面的复杂命名实体的抽取系统,其 特征在于,所述有效文本信息包括视频的类别;所述特征词选取模块在对Web视频页面进行归类时进一步用于设置站点 的视频类别到标准类别的映射,将所述Web视频页面的视频的类别映射为标 准类别;根据所述Web视频页面的标准类别对所述Web视频页面进行归类。
11. 如权利要求8所述的Web视频页面的复杂命名实体的抽取系统,其 特征在于,所述特征词选取模块在选择类别时进一步用于从划分的类别中选择包含的Web视频页面数量大于第一预设值的类别为选择的类别。
12. 如权利要求8所述的Web视频页面的复杂命名实体的抽取系统,其 特征在于,所述有效文本信息包括视频的标签,所述特征词选取模块在对于每个被选的类别设置引导词时进一步用于从 训练集合中被选类别的视频文本的标签中选择满足条件的词作为引导词,所 述条件为标签中包含该词的类别的数量小于第二预设值。
13. 如权利要求12所述的Web视频页面的复杂命名实体的抽取系统,其特征在于,所述特征词选取模块在从训练集合中选择同所述引导词相关并且在类别 内均匀分布在类别间集中分布的词为特征词时进一步用于对于每个标签,如 果所述标签包含引导词,则所述标签包含的其他词为候选特征词;依据候选 特征词在类别内的分布和类别间的分布计算所述候选特征词对应于每个类别 的得分,候选特征词在类别中出现的次数相对于其他类别越多,并且在类别 中分布越均匀,则所述候选特征词对应于所述类别的得分越高;对于每个候 选特征词,以候选特征词的最高得分作为所述候选特征词的权重值,从候选 特征词中选择权重值高的候选特征词作为特征词。
14. 如权利要求13所述的Web视频页面的复杂命名实体的抽取系统,其 特征在于,所述复杂命名实体抽取模块进一步用于从训练集合中提取出在标签中同 特征词共同出现过的词作为候选复杂命名实体,候选复杂命名实体和同所述 候选复杂命名实体相关的特征词组成文档;文档中特征词对应于类别的得分 为所述特征词同类别的关联度,由所述关联度计算文档中候选复杂命名实体 对应于类别的得分,特征词对应于类别的得分的值越高,所述候选复杂命名 实体对应于类别的得分的值越高;对于每个类别,将在所述类别的得分超过 第三预设值或按得分排序在所述类别中排在前n项的候选复杂命名实体作为 所述类别的复杂命名实体,其中,n为第四预设值。
全文摘要
本发明涉及Web视频页面的复杂命名实体的抽取方法及系统,方法包括步骤1,对于Web视频页面集合中的每个Web视频页面,从Web视频页面中抽取有效文本信息,有效文本信息组成视频文本,所有视频文本组成训练集合;步骤2,对Web视频页面进行归类,选择类别,对于每个被选的类别设置引导词,从训练集合中选择同引导词相关并且在类别内均匀分布在类别间集中分布的词为特征词;步骤3,从训练集合中提取出同特征词相关的词为候选复杂命名实体,按候选命名实体相关的特征词同类别的关联度,为各个被选类别从候选命名实体中选择对应的复杂命名实体。本发明能够不需要经过长时间的模型训练而从Web视频页面中提取复杂命名实体。
文档编号G06F17/30GK101625695SQ20091009137
公开日2010年1月13日 申请日期2009年8月20日 优先权日2009年8月20日
发明者张勇东, 刚 郑, 郭俊波 申请人:中国科学院计算技术研究所
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1