知识提取过程生成设备和知识提取过程调整设备及其方法

文档序号:6469745阅读:118来源:国知局
专利名称:知识提取过程生成设备和知识提取过程调整设备及其方法
技术领域
本发明涉及知识提取过程的领域,具体地,涉及一种知识提取过程 生成设备及其方法以及一种知识提取过程调整设备及其方法。
背景技术
知识提取过程是一种根据知识提取任务来提取所需的知识的过 程。知识提取过程可以处理非结构化的信息,从中提取出结构化的信
息。例如从一个HTML文件中提取出其中的公司信息。知识提取过程 的构建是非常重要的,当构建的知识提取过程提取功能较优时,可以 提取出有用的知识。此外,知识提取过程的质量提升是非常有用的, 它可以让用户得到的知识的数量更多,知识的内容更精确。例如,一 个知识提取过程可以得到50个产品,经过质量提升后,该知识提取过 程可以得到80个更为精确的产品。
目前已经存在一些与知识提取相关的专利申请文件。
US20020165839描述了一种分词的质量提升方法。它可以自动选 择分词特征(TF-IDF,词性标注等)和分类器(贝叶斯分类器,SVM 分类器等),来使分词结果变得更好(获得更高的准确率和召回率)。
JP2005-316904描述了一个打印控制设备。它预先定义了一个工 作流生成规则库,其手工定义了构成一个打印任务的各步骤之间的次 序,然后根据工作流生成规则库来发现各打印任务之间的次序。
JP8006970描述了一个信息检索设备。当根据初始的搜索条件找 到的搜索结果数目较少时,它可以扩展初始的搜索条件以得到预期数 量的搜索结果。
综合上述现有的方法,都不能根据以往的知识提取结果来自动选 择相应的知识提取步骤,决定各步骤的次序,以及调整各步骤的参 数。

发明内容
为了解决上述问题,本发明提出了一种知识提取过程生成设备及 其方法, 一种知识提取过程调整设备及其方法。
根据本发明第一方面,提出了一种知识提取过程生成设备,包括: 引擎选择装置,用于根据知识提取任务选择引擎序列;以及参数值调
整装置,用于对选择的引擎序列中的引擎的参数的参数值进行调整, 以获得调整参数值的引擎序列,作为知识提取过程。
根据本发明第二方面,提出了一种知识提取过程生成方法,包括
引擎选择步骤,根据知识提取任务选择引擎序列;以及参数值调整步
骤,对选择的引擎序列中的引擎的参数的参数值进行调整,以获得调 整参数值的引擎序列,作为知识提取过程。
根据本发明第三方面,提出了一种知识提取过程调整设备,包括 知识提取结果分析装置,用于分析作为知识提取过程的引擎序列的知
识提取结果的质量是否满足目标质量;引擎选择装置,用于在知识提 取结果不满足目标质量时根据知识提取任务选择引擎序列;以及参数 值调整装置,用于对选择出的引擎序列的引擎的参数的参数值进行调 整,以获得调整参数值的引擎序列,作为调整的知识提取过程。
根据本发明第四方面,提出了一种知识提取过程调整方法,包括
知识提取结果分析步骤,分析作为知识提取过程的引擎序列的知识提
取结果的质量是否满足目标质量;引擎选择步骤,在知识提取结果不 满足目标质量时根据知识提取任务选择引擎序列;以及参数值调整步 骤,对选择出的引擎序列的引擎的参数的参数值进行调整,以获得调 整参数值的引擎序列,作为调整的知识提取过程。
根据本发明第五方面,提出了一种知识提取过程调整设备,包括
知识提取结果分析装置,用于分析作为知识提取过程的引擎序列的知
识提取结果的质量是否满足目标质量;以及参数值调整装置,用于在 知识提取结果不满足目标质量时对引擎序列的引擎的参数的参数值进 行调整,以获得调整参数值的引擎序列,作为调整的知识提取过程。
根据本发明第六方面,提出了一种知识提取过程调整方法,包括知识提取结果分析步骤,分析作为知识提取过程的引擎序列的知识提
取结果的质量是否满足目标质量;以及参数值调整步骤,在知识提取 结果不满足目标质量时对引擎序列的引擎的参数的参数值进行调整, 以获得调整参数值的引擎序列,作为调整的知识提取过程。
由于采用本发明的知识提取过程生成设备和方法可以自动生成知 识提取精度较高的知识提取过程,以及通过采用知识提取过程调整设 备和方法可以对知识提取过程的参数进行调整,从而参数调整后的知 识提取过程的质量得到了较大提高,以向用户提供更多数目和更精确 的知识。


图la是示出了根据本发明的知识提取过程生成设备的示意图lb是示出了根据本发明的知识提取过程生成方法的流程图2a是示出了根据本发明的知识提取过程调整设备的示意图2b是示出了根据本发明的知识提取过程调整方法的示意图3a是示出了根据本发明的引擎选择装置的结构图3b是示出了根据本发明的参数值调整装置的结构图4是示出了根据本发明的知识提取过程调整设备执行引擎选择和参
数调整方法的流程图5示出了一个引擎库的示例;
图6示出了一个引擎管理界面;
图7示出了知识提取过程的一个示例;
图8示出了网站内容提取模板的一个示例,-
图9示出了利用网站内容提取模板构建产品提取过程的一个示例; 图10示出了知识提取过程开发界面的一个示例; 图ll示出了自动选择引擎序列的一个示例; 图12示出了调整知识提取过程的一个示例。
具体实施例方式
下面,将参考附图描述本发明的优选实施例。在附图中,相同的
10元件将由相同的参考符号或数字表示。此外,在本发明的下列描述中, 将省略对已知功能和配置的具体描述,以避免使本发明的主题不清楚。
图la示出了根据本发明的知识提取过程生成设备的示意图。该知 识提取过程生成设备包括输入装置(未示出),用于输入知识提取任务; 生成部分l,包括引擎选择装置IO和参数值调整装置12;存储部分 2,存储有知识提取过程历史库14和模板库16;输出装置(未示出), 用于输出生成的知识提取过程。一个知识提取过程就是一个引擎序列。 其中知识提取过程历史库14存储的是历史生成的知识提取过程,模板 库16存储了多个模板,每个模板定义了一种经常使用的引擎序列,引 擎序列是由一序列引擎构成的,每个引擎可以执行某个特定的知识提 取任务,且引擎可以包括基本描述部分,功能部分以及参数定义部分。 引擎选择装置IO用于根据输入的知识提取任务选择引擎序列,其中, 引擎选择装置IO可以利用模板库16来选择引擎序列,或者可以根据 知识提取过程历史库14中存储的知识提取过程来选择引擎序列。参数 值调整装置12,用于对选择的引擎序列的引擎的参数定义部分中的参 数的参数值进行调整,作为生成的知识提取过程。
图lb示出了根据本发明的知识提取过程生成方法的流程图。如图 lb所示,在S201,输入装置输入知识提取任务。在S202,引擎选择 装置10根据知识提取任务选择相应的引擎序列,用于提取知识。在 S203,参数值调整装置12对选择的引擎序列的引擎的参数的参数值 进行调整,以获得知识提取质量较高的知识提取过程,最后,在S204, 输出装置输出生成的知识提取过程。
通过本发明的知识提取过程生成设备生成的知识提取过程可以获 得数量较多且精度较高的提取的知识。
此外,本发明还提供一种知识提取过程调整设备,用于灵活地、 持续不断地调整知识提取过程,从而获得高质量的提取的知识。
下面将对根据本发明的知识提取过程调整设备进行描述。其中, 将对上述引擎选择装置IO,参数值调整装置12,知识提取过程历史库 14以及模板库16进行详细的描述。
图2a示出了根据本发明的知识提取过程调整设备的示意图。该知识提取过程调整设备包括调整部分3和存储部分4。调整部分3包括 知识提取过程构建装置30,知识提取结果分析装置32,引擎选择装置 10,参数值调整装置12。存储部分4包括知识提取过程历史库14,模 板库16以及引擎库18。
首先将对引擎库18,模板库16以及知识提取过程历史库14进行
描述o
弹库
图5示出了引擎库18的一个示例。引擎库存储了多个用于知识提 取的引擎,每个引擎执行某个特定的知识提取任务,例如提取产品信 息或者提取公司信息。
如前所述, 一个引擎通常包括基本描述部分、功能部分和参数定 义部分。
*基本描述部分包括引擎的基本信息,具体包括Name(名称), Type(类别,即属于哪类知识提取任务),Owner(所有者,艮口 , 引擎是谁开发的),Description(描述,即引擎的基本介绍), Quality(质量,艮口,性能好坏的评价)等。
參功能部分包括引擎的可执行代码,即如何实现该引擎,通常是 一个Java类或一个Web service (网页服务)。功能部分使引擎
可以运行,以实现某个特定的知识提取任务。 *参数定义部分包括可以由用户配置的参数。例如Web Crawler (网页爬取器)引擎包括参数Thread Count (线程数目),表示 线程数,如Thread Count=3表示同时启动3个线程去抓取网页。 再如Content Filtering (内容过滤)引擎包括参数remove Advertisement (去除广告)表示是否删除网页中的广告,如 remove Advertisement=true,贝lj表示册!j除广告。 图5所示出的引擎库包括3条记录,其中第一条记录描述了 Web Crawler引擎,属于Data Source Collector (数据源收集器)类型,由 Group 1, NEC Labs China开发,用来从网站中抓取网页,质量为9分(满 分为10分),其通过Java类com.nec.iusp.engine.WebCrawlerEngine来 实现,包括参数ThreadCount。第二条记录描述了 Content Filtering引擎,第三条记录描述了 Product Extractor (产品提取器)引擎。可以由 人工对引擎的基本描述部分,功能部分和参数定义部分进行定义,并 作为各条记录放入到引擎库中。
图6示出了一个引擎管理界面的示例,该示例为引擎注册管理界 面,其中用户将Web Crawler引擎注册到引擎库中。通过该引擎管理 界面,可以方便用户对引擎库进行管理,进行引擎注册,引擎修改, 以及引擎删除等操作。
勿縦攻鹏妙库
知识提取过程历史库14存储了各用户之前构建的所有知识提取 过程的记录。每个记录可以包括知识提取过程名称、引擎序列、质量 评价和构建者。
例如对于 一 条记录"Company Extractor ; Web Site->Web Crawler-〉Content Filtering-〉Company Extractor (公司提取器;网站-> 网页爬取器->内容过滤->公司提取器);优秀;Tom"表示了一个名为 "Company Extractor"的知识提取过程,其引擎序列为"Web Site->Web Crawler->Content Filtering->Company Extractor",质量评价为优秀,该 过程是由用户Tom构建的。
微库
模板库16存储了多个模板,每个模板定义了一种经常使用的引擎 序列,其中各引擎的参数都被看作是该模板的参数。图8示出了一个 网站内容提取模板,由Web Site, Web Crawler和Content Filtering组 成。该引擎序列的使用频率较高,例如用于提取公司信息和产品信息 等。模板库可以方便用户去构建知识提取过程,用户可以直接从模板 库中选择所需使用的模板。图7示出了知识提取过程的一个示例。图 9示出了利用网站内容提取模板构建产品知识提取过程的一个示例, 用户将网站内容提取模板和Product Extractor引擎连在一起,并配置 网站内容提取模板的参数URL,从而得到了产品知识提取过程。利用 图9获得的模板构成的知识提取过程与图7的相同。
可以以手动方式获得模板库,也可以自动获得模板库。由用户根 据自己的经验来总结每个常用的引擎序列并将其作为模板来获得模板库。或者通过分析知识提取过程历史库,从中学习重复次数多(出现频 率高)的引擎序列,作为模板。例如,如果各用户以前建立过的产品提
取过程和公司提取过程都包含引擎序列"Web Site->Web Crawler->Content Filtering",则将该引擎序列提取出来作为一个模板。
下面结合引擎库18,模板库16以及知识提取过程历史库14对根 据本发明的调整装置3进行描述。
调整装置3的知识提取过程构建装置30根据知识提取任务,从引 擎库18中选择相关的引擎并按照引擎的功能次序连接在一起,并配置 各个引擎的所需的参数的参数值。从而用户可以利用知识提取过程构 建装置30根据知识提取任务从引擎库18中手工选择引擎序列,或者 知识提取过程构建装置30自动从引擎库18中选择引擎序列。图10 示出了知识提取过程开发界面的一个示例。该界面允许用户方便地拖 拽引擎,快速建立一个知识提取过程。另外,利用该界面,用户还可 以运行知识提取过程和査看知识提取结果。
调整装置3的知识提取结果分析装置32,用于分析构建的知识提 取过程运行后的提取结果是否满足目标质量。目标质量可以根据知识 提取任务设定,例如可以将目标质量设定为包括数量和/或准确度等, 可以用一个正则表达式来表示设定的目标质量,例如 "Number(Product)〉110 & AverageNumber(Property)〉二3.4"所表示的目
标质量的含义是提取出的产品个数需大于110并且每个产品的平均属 性数至少是3.4个。通过判断正则表达式的值为"真"还是"假"确 定提取结果是否满足目标质量。如果为"真",则满足目标质量,如果 为"假",则不满足目标质量。
调整装置3的引擎选择装置IO,用于在知识提取结果分析装置32 分析是构建的知识提取过程的知识提取结果不满足目标质量时,根据 知识提取任务来选择引擎序列。引擎选择装置IO可以根据知识提取任 务对知识提取过程历史库14中的相关的知识提取过程进行分析,从中 自动学习引擎序列,或者引擎选择装置IO可以从模板库16中直接选 择所需的引擎序列。
调整装置3的参数值调整装置12,用于对引擎选择装置10选择出的引擎序列的引擎的参数的参数值进行调整,以使得知识提取过程 获得的知识提取结果满足目标质量。
虽然图2a示出了知识提取过程调整设备包括引擎选择装置10和 模板库16,但是,知识提取过程调整设备也可以不包括引擎选择装置 10和模板库16,从而在知识提取结果分析单元32分析出知识提取过 程构建装置30构建的知识提取过程运行后的提取结果不满足目标质 量时,由参数值调整装置12对构建的知识提取过程的参数进行调整。
图2b是示出了根据本发明的知识提取过程调整方法的示意图。
首先,在S401,知识提取过程构建装置30根据知识提取任务, 从引擎库中选择相关的多个引擎,作为引擎序列。
在S402,知识提取结果分析装置32对引擎序列的运行结果(提 取结果)进行分析,判断其提取结果是否满足一个预设的目标质量。
如果满足目标质量,则结束处理。否则,在S403,引擎选择装置 10根据知识提取任务选择新的引擎序列。引擎选择装置10可以使用 两种方法来根据知识提取任务选择新的引擎序列第一种方法是利用 分析以往用户建立的有相同知识提取任务的知识提取过程,并自动学 习所需的引擎序列;第二种方法是利用模板库来选择引擎序列。根据 知识提取任务,引擎选择装置10从模板库中选择一个包括引擎序列的 模板,以构成一个完成知识提取任务的引擎序列。例如,对于"提取 产品信息"的知识提取任务,引擎选择装置IO从模板库中选择"网站 内容提取模板",从而获得知识提取过程"网站内容提取模板^roduct Extractor "。
之后,在S404,参数值调整装置12对选择的引擎序列的参数的 参数值进行调整,可以利用排序的方式对参数值实现调整。
图3a示出了通过对知识提取过程进行分析来选择引擎序列的引 擎选择装置10的结构图。该引擎选择装置10包括历史知识提取过 程获取单元101,路径图建立单元102,路径得分计算单元103以及引 擎选择单元104。
图3b是示出了根据本发明的参数值调整装置的结构图。该引擎选 择装置12包括参数值获取单元120,参数值排序单元122,候选参数
15值选择单元124以及候选参数值验证单元126。下面将结合图3a,图3b,图4对本发明的知识提取过程调整设备 如何执行引擎选择和参数调整进行具体描述。在S601,历史知识提取过程获取单元101从知识提取过程历史库 14中找到知识提取任务与当前知识提取任务相同的所有历史知识提 取过程。在S602,路径图建立单元102根据获取的历史提取过程建立一 张路径图,具体方法是将各历史提取过程中的每个引擎作为路径图的 一个结点,引擎间的顺序关系作为路径图的一条边,从而路径图中的每条路径都描述了一种可能的引擎序列。在S603,路径得分计算单元103从路径图中得到分数最高的路 径。路径的分数等于该路径中的各个引擎的分数的求和平均。其中某 个引擎的分数可以是它在路径图中的出入度,或者是它被用户使用的 频率即在知识提取过程历史库中出现了多少次,或者是知识提取过程 历史库中引擎开发者对它的质量评价,或者是出入度、频率和质量评价的加权平均。之后,在S604,擎选择单元104将分数最高的路径形成的引擎序列作为选择的引擎序列。图11示出了自动选择引擎序列的一个示例。对于知识提取任务 "提取产品信息",根据知识提取过程历史库中的产品提取过程 "E1->E2->E3->E4", " E1->E3->E5->E6 " , " E2->E3->E6->E7 "禾口 "E1->E2->E5->E7"(其中E1,E2,...是引擎),建立一张路径图,其中 不同的引擎构成了各个节点,节点之间的路径表示了不同引擎之间的 顺序关系。之后,根据知识提取过程历史库中对各个引擎的质量评价, 计算路径图中各路径的分数,例如引擎E1—E7的质量评价分别是9, 6, 7, 6, 8, 8和9,于是可得路径"E1->E3->E6->E7"的分数是 (9+7+8+9)/4=8.25, "E1->E2->E5->E7"的分数是(9+6+3+9)/4=6.75。 最后找出分数最高的路径"E1->E3-〉E6->E7"作为引擎序列的自动选 择的结果。另外还可以将出入度之和作为引擎的分数,例如引擎El 的出度和入度分别是2和0,于是路径"E1->E3->E6->E7"的分数是(2+5+3+2)/4=3。另外还可以将用户使用频率作为引擎的分数,例如引 擎El在知识提取过程历史库中出现了 3次,于是路径 "El-〉E3)E6》E7"的分数是(3+3+2+2)/4^2.5。另外还可以将出入度、 频率和质量评价的加权平均作为引擎的分数,例如在对出入度、频率 和质量评价赋予相同的权重后,引擎E1的分数是(2+3+9)/3=4.67,于 是路径"E1->E3->E6->E7"的分数是(4.67+5+4.3+4.3)/4=4.57。在S605,参数值获取单元120根据选择的引擎序列获得其每个引擎在所有历史知识提取过程中配置的参数的参数值。在S606,参数值排序单元122根据知识提取过程历史库14中的 引擎序列的质量,对每个引擎的各参数值进行排序,此外,还可以采 用其它已知的排序方式。在S607,候选参数值选择单元124从排序后的参数值中选择前n 个质量最高的作为候选参数值,从而得到调整了参数值的引擎序列。在S608,候选参数值验证单元126为该引擎序列中的每个引擎配 置任意候选参数值,然后运行该引擎序列,运行结束后检查运行的知 识提取结果是否满足目标质量(方法与知识提取结果分析装置所采用 的方法相同),如果不满足,则将引擎的参数配置为下一个候选参数值, 再运行该引擎序列,直到知识提取结果满足目标质量为止,并将满足 知识目标质量的候选参数值作为引擎序列调整的参数值。例如假设自动选择的引擎序列为"Web Site-〉Web Crawler->Content Filtering->Product Extractor",在知识提取过程历史库中有三个与该引擎序列有相同引擎的高质量的知识提取过程a) POS Tagging Process (词性标注过程),用于词性标注,其引 擎序列为"Document Reader (文档读取器)-〉Content Filtering (removeAdvertisement=tme)->Tokenization (符号化)"。该过程运行后得到的提取结果的质量很高。b) Company Extractor Process (公司提取器过程),用于提取公 司信息,其引擎序列为"Web Site(URL=company websites)->Web Crawler->Content Filtering (removeAdvertisement=false)->Company Extractor"。 i亥过禾呈运17行后得到的提取结果的质量一般。c) Product Extractor Process (产品提取器过程),用于提取产品 信息,其引擎序列为"Web Site (URL=product websites and company websites)->Web Crawler->Product Extractor"。该过禾呈 运行后得到的提取结果的质量一般。 那么根据上面三个知识提取过程,得到Web Site (网站)的参数 URL有两个候选值"company websites(公司网站)"和"product websites and company websites (产品网站和公司网站)",Content Filtering的参 数removeAdvertisement有两个候选值"false (假)"禾B "true (真)", 由于参数值为"company websites"的知识提取过程company Extractor Process与参数值为"product websites and company websites "的知识 提取过程的质量都是一般,所以,候值"company websites"和"product websites and company websites "处于同 一 级另U 。Company Extractor Process由于参数值为"true"的知识提取过程 POS Tagging Process比参数值为"false"的知识提取过程Company Extractor Process的质量高,因此将"true"排在前面。然后可以进行参数验证。对自动选择的引擎序列"WebSite->Web Crawler-〉Content Filtering->Product Extractor"进行不同的参数配置, 得到以下4种有着不同参数配置的引擎序列,然后依次运行并检查其 知识提取结果是否满足目标质量"Number(Product)>110 & AverageNumber(Property)>=3.4 ",最后发现第③种引擎序列的知识提 取结果满足目标质量,这是因为数据源不但包含了公司网站还包含了 产品网站,所以提取出的产品数目得到了增加,而且对无用广告的过 滤也提高了产品提取的准确度。① 第一种参数配置的引擎序列为"Web Site(URL=company websites)->Web Crawler->Content Filtering (removeAdvertisement=true)->Product Extractor", 其物理意义是 只从公司网站中获取网页,并过滤掉网页中的广告后再进行产 品提取;② 第二种参数配置的引擎序列为"Web Site(URL=companyFiltering(removeAdvertisement=false)->Product Extractor",其物理意义是 只从公司网站中获取网页,不过滤广告直接进行产品提取; ③第三种参数配置的引擎序列为"Web Site(URL=product websites andcompanywebsites)->WebCrawl er->Content Filtering (removeAdvertisement=true)->Product Extractor", 其物理意义是 从产品网站和公司网站中获取网页,并过滤掉网页中的广告后 再进行产品提取; 第四种参数配置的引擎序列为"Web Site(URL=product websites and company websites)->Web Crawler->Content Filtering (removeAdvertisement=false)->Product Extractor", 其物理意义是从产 品网站和公司网站中获取网页,不过滤广告直接进行产品提取。图12示出了调整知识提取过程的一个示例,其中左侧的图示出了 用户手工创建的产品提取过程,右侧的图示出了通过引擎选择和参数 调整后的质量得到提升的产品提取过程。尽管已经参照具体实施例,对本发明进行了描述,但本发明不应 当由这些实施例来限定,而应当仅由所附权利要求来限定。应当清楚, 在不偏离本发明的范围和精神的前提下,本领域普通技术人员可以对 实施例迸行改变或修改。
权利要求
1.一种知识提取过程生成设备,包括引擎选择装置,用于根据知识提取任务选择引擎序列;以及参数值调整装置,用于对选择的引擎序列中的引擎的参数的参数值进行调整,以获得调整参数值的引擎序列,作为知识提取过程。
2. 如权利要求l所述的知识提取过程生成设备,其中引擎选择装 置根据知识提取任务从一个包括多个引擎序列的模板库中选择引擎序 列。
3. 如权利要求l所述的知识提取过程生成设备,其中引擎选择装 置包括历史知识提取过程获取单元,用于从知识提取过程历史库中获得知识提取任务与当前知识提取任务相同的历史知识提取过程;路径图建立单元,用于将历史知识提取过程中的每个引擎作为结点,引擎之间的顺序关系作为边以建立知识提取过程的路径图;路径得分计算单元,用于计算路径图中的各个路径的得分;以及 引擎选择单元,用于选择得分最高的路径所对应的引擎序列。
4. 如权利要求3所述的知识提取过程生成设备,其中路径得分计 算单元计算与路径对应的引擎序列中的每个引擎的分数的求和平均, 作为路径的得分,其中根据该引擎在路径图中的出入度,用户使用该引擎的频率以及该引擎的质量评价之一计算每个引擎的分数。
5. 如权利要求3所述的知识提取过程生成设备,其中路径得分计算单元计算与路径对应的引擎序列中的每个引擎的分数的求和平均, 作为路径的得分,其中根据该引擎在路径图中的出入度,用户使用该 引擎的频率以及该引擎的质量评价的加权平均计算每个引擎的分数。
6. 如权利要求l所述的知识提取过程生成设备,其中参数值调整 装置包括参数值获取单元,用于从知识提取过程历史库获取选择的引擎序列中的每个引擎的参数的参数值;参数值排序单元,用于对获取的每个引擎的参数的参数值进行排序;以及候选参数值选择单元,用于从排序的参数值中选择候选参数值。
7. 如权利要求6所述的知识提取过程生成设备,其中参数值调整 装置还包括候选参数值验证单元,用于对候选参数值进行验证,从引 擎的候选参数值中选出使得引擎序列满足目标质量的候选参数值。
8. 如权利要求6所述的知识提取过程生成设备,其中参数值排序 单元根据知识提取过程历史库中的引擎序列的质量,对每个引擎的参 数值进行排序。
9. 一种知识提取过程生成方法,包括 引擎选择步骤,根据知识提取任务选择引擎序列;以及 参数值调整步骤,对选择的引擎序列中的引擎的参数的参数值进行调整,以获得调整参数值的引擎序列,作为知识提取过程。
10. 如权利要求9所述的知识提取过程生成方法,其中引擎选择步骤包括根据知识提取任务从一个包括多个引擎序列的模板库中选择引 擎序列的步骤。
11. 如权利要求9所述的知识提取过程生成方法,其中引擎选择 步骤包括历史知识提取过程获取步骤,从知识提取过程历史库中获得知识 提取任务与当前知识提取任务相同的历史知识提取过程;路径图建立步骤,将历史知识提取过程中的每个引擎作为结点, 引擎之间的顺序关系作为边以建立知识提取过程的路径图;路径得分计算步骤,计算路径图中的各个路径的得分;以及引擎选择步骤,选择得分最高的路径所对应的引擎序列。
12. 如权利要求ll所述的知识提取过程生成方法,其中路径得分 计算步骤包括计算与路径对应的引擎序列中的每个引擎的分数的求和 平均,作为路径的得分的步骤,其中根据该引擎在路径图中的出入度, 用户使用该引擎的频率以及该引擎的质量评价之一计算每个引擎的分 数。
13. 如权利要求ll所述的知识提取过程生成方法,其中路径得分 计算步骤包括计算与路径对应的引擎序列中的每个引擎的分数的求和平均,作为路径的得分的步骤,其中根据该引擎在路径图中的出入度, 用户使用该引擎的频率以及该引擎的质量评价的加权平均计算每个引 擎的分数。 、
14. 如权利要求9所述的知识提取过程生成方法,其中参数值调整步骤包括参数值获取步骤,从知识提取过程历史库获取选择的引擎序列中 的每个引擎的参数的参数值;参数值排序步骤,对获取的每个引擎的参数的参数值进行排序;以及候选参数值选择步骤,从排序的参数值中选择候选参数值。
15. 如权利要求14所述的知识提取过程生成方法,其中参数值调 整步骤还包括候选参数值验证步骤,对候选参数值进行验证,从引擎 的候选参数值中选出使得引擎序列满足目标质量的候选参数值。
16. 如权利要求14所述的知识提取过程生成方法,其中参数值排序步骤包括根据知识提取过程历史库中的引擎序列的质量,对每个引 擎的参数值进行排序的步骤。
17. —种知识提取过程调整设备,包括知识提取结果分析装置,用于分析作为知识提取过程的引擎序列 的知识提取结果的质量是否满足目标质量;引擎选择装置,用于在知识提取结果不满足目标质量时根据知识 提取任务选择引擎序列;以及参数值调整装置,用于对选择出的引擎序列的引擎的参数的参数 值进行调整,以获得调整参数值的引擎序列,作为调整的知识提取过 程。
18. 如权利要求17所述的知识提取过程调整设备,还包括知识提取过程构建装置,用于根据知识提取任务从引擎库中选择 多个引擎,构成作为知识提取过程的引擎序列。
19. 如权利要求17所述的知识提取过程调整设备,其中引擎选择装 置根据知识提取任务从一个包括多个引擎序列的模板库中选择引擎序 列。
20. 如权利要求17所述的知识提取过程调整设备,其中引擎选择装置包括历史知识提取过程获取单元,用于从知识提取过程历史库中获得知识提取任务与当前知识提取任务相同的历史知识提取过程;路径图建立单元,用于将历史知识提取过程中的每个引擎作为结点,引擎之间的顺序关系作为边以建立知识提取过程的路径图;路径得分计算单元,用于计算路径图中的各个路径的得分;以及 引擎选择单元,用于选择得分最高的路径所对应的引擎序列。
21. 如权利要求20所述的知识提取过程调整设备,其中路径得分 计算单元计算与路径对应的引擎序列中的每个引擎的分数的求和平 均,作为路径的得分,其中根据该引擎在路径图中的出入度,用户使 用该引擎的频率以及该引擎的质量评价之一计算每个引擎的分数。
22. 如权利要求20所述的知识提取过程调整设备,其中路径得分 计算单元计算与路径对应的引擎序列中的每个引擎的分数的求和平均,作为路径的得分,其中根据该引擎在路径图中的出入度,用户使 用该引擎的频率以及该引擎的质量评价的加权平均计算每个引擎的分 数。
23. 如权利要求17所述的知识提取过程调整设备,其中参数值调 整装置包括参数值获取单元,用于从知识提取过程历史库获取选择的引擎序列中的每个引擎的参数的参数值;参数值排序单元,用于对获取的每个引擎的参数的参数值进行排 序;以及候选参数值选择单元,用于从排序的参数值中选择候选参数值。
24. 如权利要求23所述的知识提取过程调整设备,其中参数值调 整装置还包括候选参数值验证单元,用于对候选参数值进行验证,从 引擎的候选参数值中选出使得引擎序列满足目标质量的候选参数值。
25. 如权利要求23所述的知识提取过程生成设备,其中参数值排序单元根据知识提取过程历史库中的引擎序列的质量,对每个引擎的 参数值进行排序。
26. —种知识提取过程调整方法,包括知识提取结果分析步骤,分析作为知识提取过程的引擎序列的知 识提取结果的质量是否满足目标质量;引擎选择步骤,在知识提取结果不满足目标质量时根据知识提取任务选择引擎序列;以及参数值调整步骤,对选择出的引擎序列的引擎的参数的参数值进 行调整,以获得调整参数值的引擎序列,作为调整的知识提取过程。
27. 如权利要求26所述的知识提取过程调整方法,还包括 知识提取过程构建步骤,根据知识提取任务从引擎库中选择多个引擎,构成作为知识提取过程的引擎序列。
28. 如权利要求26所述的知识提取过程调整方法,其中引擎选择步骤包括根据知识提取任务从一个包括多个引擎序列的模板库中选择引 擎序列。
29. 如权利要求26所述的知识提取过程调整方法,其中引擎选择 步骤包括历史知识提取过程获取步骤,从知识提取过程历史库中获得知识 提取任务与当前知识提取任务相同的历史知识提取过程;路径图建立步骤,将历史知识提取过程中的每个引擎作为结点, 引擎之间的顺序关系作为边以建立知识提取过程的路径图;路径得分计算步骤,计算路径图中的各个路径的得分;以及引擎选择步骤,选择得分最高的路径所对应的引擎序列。
30. 如权利要求29所述的知识提取过程调整方法,其中路径得分 计算步骤包括计算与路径对应的引擎序列中的每个引擎的分数的求和 平均,作为路径的得分的步骤,其中根据该引擎在路径图中的出入度, 用户使用该引擎的频率以及该引擎的质量评价之一计算每个引擎的分 数。
31. 如权利要求29所述的知识提取过程调整方法,其中路径得分 计算步骤包括计算与路径对应的引擎序列中的每个引擎的分数的求和 平均,作为路径的得分的步骤,其中根据该引擎在路径图中的出入度, 用户使用该引擎的频率以及该引擎的质量评价的加权平均计算每个引擎的分数。
32. 如权利要求26所述的知识提取过程调整方法,其中参数值调整步骤包括参数值获取步骤,从知识提取过程历史库获取选择的引擎序列中 的每个引擎的参数的参数值;参数值排序步骤,对获取的每个引擎的参数的参数值进行排序;以及候选参数值选择步骤,从排序的参数值中选择候选参数值。
33. 如权利要求32所述的知识提取过程调整方法,其中参数值调 整步骤还包括候选参数值验证步骤,对候选参数值进行验证,从引擎 的候选参数值中选出使得引擎序列满足目标质量的候选参数值。
34. 如权利要求32所述的知识提取过程生成方法,其中参数值排序步骤包括根据知识提取过程历史库中的引擎序列的质量,对每个引 擎的参数值进行排序的步骤。
35. —种知识提取过程调整设备,包括知识提取结果分析装置,用于分析作为知识提取过程的引擎序列 的知识提取结果的质量是否满足目标质量;以及参数值调整装置,用于在知识提取结果不满足目标质量时对引擎 序列的引擎的参数的参数值进行调整,以获得调整参数值的引擎序列, 作为调整的知识提取过程。
36. —种知识提取过程调整方法,包括知识提取结果分析步骤,分析作为知识提取过程的引擎序列的知 识提取结果的质量是否满足目标质量;以及参数值调整步骤,在知识提取结果不满足目标质量时对引擎序列 的引擎的参数的参数值进行调整,以获得调整参数值的引擎序列,作 为调整的知识提取过程。
全文摘要
本发明提供一种知识提取过程生成设备及其方法。其中,所述知识提取过程生成设备,包括引擎选择装置,用于根据知识提取任务选择引擎序列;以及参数值调整装置,用于对选择的引擎序列中的引擎的参数的参数值进行调整,以获得调整参数值的引擎序列,作为知识提取过程。以及本发明提供一种知识提取过程调整设备及其方法。通过采用本发明的知识提取过程生成设备和方法可以自动生成知识提取精度较高的知识提取过程,以及通过采用知识提取过程调整设备和方法可以对知识提取过程的参数进行调整,以获得质量提升的知识提取过程。
文档编号G06F17/30GK101655850SQ200810210068
公开日2010年2月24日 申请日期2008年8月21日 优先权日2008年8月21日
发明者丰强泽, 梁邦勇, 齐红威 申请人:日电(中国)有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1