数据语义化器的制作方法

文档序号:6651542阅读:207来源:国知局
专利名称:数据语义化器的制作方法
技术领域
本发明一般地涉及一种为数据提供语义信息的方法和计算机系统。更具体地,本发明涉及一种用语义注解大量半结构化或者非结构化数据的方法和计算机系统。
背景技术
包括计算、网络和检测设备等在内的技术进步已导致大量的数据被产生。通常需要对收集的数据进行分析,而且传统上这在单个应用内完成。然而,在诸如生物情报学、气象学等许多领域中,由一个应用产生/收集的数据可能需要进一步用于其他应用中。此外,往往希望各学科间的合作,尤其是在科学界。因此,一个关键问题是交换信息的能力方面的协同性(句法协同性)和使用被交换的信息的能力方面的协同性(语义协同性)。IEEE标准计算机词典IEEE标准计算机术语表汇编(ACompilation of IEEE Standard Computer Glossaries),IEEE,1990。
涉及信息的基于本体的表达的常规语义环球网(即“网络”)技术使得计算机和人类之间能够合作,并且可以用来帮助数据共享和管理。通过本体表达(ontological representation),领域中的实体和关系的建模使得软件和计算机可以前所未有地处理信息[www.sys-con.com/xml/article.cfm?id=577,2004年10月22日检索]。常规语义网络技术是环球网的扩展,该技术依赖于对网页的检索并且将该网页带到语义网页级。因此,常规语义网页技术处理被认为是完全结构化文件的网页,网页为标签文件(tagged document),诸如超文本链接标记语言(HTML)文件。此外,常规语义网络技术仅用于表达,而不用于任务计算(即,计算设备任务处理的计算设备)。WEB SCRAPER软件是将作为结构化文件的网页带到语义级的常规语义网络技术的一个示例。然而,将语义加入半结构化或者非结构化数据(诸如平面文件(flat file))中并非微不足道的任务,而且传统上这个功能以逐案(case-by-case)的方式(每个输入数据地)完成,这种方式可能枯燥并且易于出错。即使当自动进行注解时,这种自动也仅限于要被注解的特定领域。
因此,现有的针对半结构化和非结构化数据注解的方法完全依赖用户的知识和手工处理,这不适合于注解任意格式和任意领域的大量数据,因为这种现有的数据注解方法太枯燥并易于出错以致于无法用于任意格式和任意领域的大量数据。例如,现有的方法,诸如GENE ONTOLOGY(GO)注解[www.geneontology.org,2004年10月22日检索]和南加州大学信息科学研究所(ISI)的TRELLIS[www.isi.edu/ikcap/trellis,2004年10月22日检索],完全依赖用户的知识、是数据专用的,并且基于每个输入数据,这会枯燥且易于出错。具体地,GENE ONTOLOGY(GO)提供用基因本体注解的语义数据,但是GO仅能用于基因产品并且严重依赖基因产品方面的专业知识(即,基本为手工注解,并且即使提供了某种类型的自动化,该自动化也仅限于或专用于基因产品领域)。此外,在TRELLIS中,用户通过观察、观点和结论将语义注解加入文件中,但是TRELLIS同样严重依赖于用户基于他们的专业知识来加入新的知识,并且在TRELLIS中,语义注解导致每个被考察的文件一个语义实例。
为了充分利用半结构化或者非结构化格式的任何收集数据用于成功的数据共享和管理,非常需要更容易地用语义注解数据的方法。

发明内容
一种计算机系统,帮助用户用语义注解包括半结构化到非结构化的电子数据在内的任何格式、任何领域的大量电子数据。因此,本发明提供了任何格式和任何领域的电子数据的本体表达。
这里说明的实施例是计算机实现的方法和系统定义一组注解元素,以将概念映射到作为输入数据的电子数据;按照所定义的注解元素集和输入数据的样本,生成映射规则;通过对输入数据应用该映射规则将概念映射到输入数据;并且基于概念对输入数据的映射生成输入数据的语义实例。
根据所述实施例的一方面,将概念映射到输入数据的该组注解元素是相应于输入数据选出的本体、从选出的本体中选出的本体概念、样本输入数据中的词或词组(作为数据点)对从选出的本体中选出的本体概念的映射、以及与样本输入数据的结构相关的被映射词或词组的范式。
以上和附加的方面和优点部分将在下面的说明中阐明,部分将从该说明中明了或通过实践所描述的实施例来领会。


通过下文描述和主张的结构和操作的细节,这些以及其他方面和优点随后将清楚明了,对附图的参照也构成其一部分,其中相同的附图标记通篇代表相同的部分。
图1是根据本发明的实施例的语义化数据的流程图。
图2是根据本发明的实施例的语义化作为输入电子数据的电邮文本的流程图。
图3是根据本发明的实施例的数据语义化器的功能框图。
图4是根据本发明的实施例的数据语义化器的计算机显示的图形用户界面的示例图。
图5是根据本发明的实施例对作为要被注解的输入电子数据的示例的生物信息数据进行语义化的流程图。
图6-7是根据本发明的实施例的数据语义化器对作为输入电子数据的生物信息进行语义化的图形用户界面的示例图。
图8A-8H是根据本发明实施例的语义实例的输出的示例。
图9是被任务计算环境使用以在计算设备网络中实现任务计算的计算设备网络和本发明的数据语义化器的图。
具体实施例方式
现在将具体说明本发明的实施例,这些实施例的示例在附图中示出。下面通过参照附图描述实施例以解释本发明。
图1是根据本发明的实施例的、对数据进行语义化的流程图。本发明提供了一种计算机系统作为数据语义化器100,帮助用户用语义注解包括半结构化到非结构化电子数据在内的任何格式、任何领域的大量电子数据108。数据语义化器100使用直观和有效的方法用语义注解任何格式、任何领域的数据108,从而该数据集可以被输入它们的知识库(知识库是解决问题所需的事实和规则的集合)。
例如,数据语义化器100可以用于结构化的数据。作为另一个示例,当数据为很好理解的格式时,可以使用数据语义化器100,但是来自不同软件应用程序的各个数据输出可能是独特的。可以看到,各应用(诸如生物信息学分析应用)以很好理解的格式生成数据,但是该应用程序的每次运行可能是独特的。例如,在生物信息学的情况下,BASIC LOCALALIGNMENT SEARCH TOOL(基本本地排列搜索工具(BLAST),该程序将新序列与以前描绘的序列进行比较)的输出随输入参数而改变,并且该输出在匹配序列的数量和匹配序列的位置等方面不同。美国国家健康研究所的国家生物技术信息中心(NCBI)提供了关于BLAST的信息[www.ncbi.nih.gov/Education/BLASTinfo/information3.html,2004年10月22日检索]以及同样由Altschul等说明的Basic Local AlignmentSearch Tool,Journal of Molecular Biology,251403-410。与网页不同,在BLAST的输出中没有使用特殊的标签或类似的机制以标识数据结构。数据语义化器100基于选出的本体创建这种半结构化数据的语义实例。一旦提供了语义标签,就可以标识数据属性(这些数据属性原本因输入和输出数据中很多变化而分辨不清)。例如,在BLAST的情况中,可以与该多个输出表达无关地识别实际的基因序列。因此,当没有特殊标签或者类似机制用来标识数据的结构时,可以通过允许本体挑选对任意领域中被视为半结构化到非结构化格式的数据使用数据语义化器100。
图1是在控制计算机的计算机软件中实现的数据语义化器100用语义注解任何格式、任何领域的电子数据108的流程图。在图1中,数据语义化器100执行的语义化流程包括规则集生成102(在虚线框中示出)和语义实例生成104(在双实线多边形中示出)两个语义化操作。规则集生成102可以是一次(单次)处理(但不限于单次处理)并且可以,例如由领域专家或者系统管理员完成。领域专家或者系统管理员可以是人、计算机实现或者其任意组合。操作102生成语义化规则集110。一旦在操作102获得规则集110,则在操作104可以基于该规则集110生成语义实例118。“语义实例”118是基于概念对个体项目(individual item)的描述集。项目可以是输入数据108的任何部分。
更具体地,如图1中所示,本发明提供了一种计算机实现的方法,包括在操作106,定义了一组注解元素(实现为语义化规则编辑器106)以将概念映射到作为输入数据的电子数据108。操作106基本上使得可以捕获电子数据108的结构。根据所定义的该注解元素集和输入数据108的样本114生成映射规则110,以捕获输入数据108的结构并将概念映射到输入数据108(即,确定/生成语义化或映射规则集110)。操作112包括通过将映射规则110用于输入数据108来将概念映射到输入数据108,以基于对输入数据108使用的映射规则110生成输入数据108的语义实例118。用于将概念映射到输入数据108或者用于捕获输入数据108结构的该组注解元素在语义化规则编辑器106中实现,该组注解元素包括输入数据108的选出样本114、与输入数据108对应的选出本体116、从选出的本体116中选出的本体概念、样本输入数据114中的词或词组(即成为数据点示例的词或词组)到从选出的本体116中选出的本体概念的映射、以及与样本输入数据114的结构相关的被映射的词或词组(即,被映射到从选出的本体116中选出的本体概念的被选出的样本输入数据114中的词组和/或词组区)的范式(pattern)。
本体116可以是按照电子信息格式(诸如网络本体语言(OWL)文件格式)在计算机可读介质中存储的一个或者更多个相同和/或不同的领域本体。因此,数据语义化器100不限于生成对应单个本体116的语义实例118,数据语义化器100可以生成不同的数据部分映射到多个不同的本体116的语义实例118。例如,考虑输入数据108字符串“富士通美国实验室(FLA)的研究人员领导一个任务计算项目。他在FLA的在职期间还涉足LSM、Agent和其他项目。他还是马里兰大学(UM)指导几名学生的副教授”。为了注解这样的数据108,很可能涉及FLA本体116(例如项目管理、项目涉及属性等)和UM本体116(例如指导的学生、课题属性等)中定义的本体概念。
用以将概念映射到输入数据108或者捕获输入数据108的结构的映射规则110的生成包括在操作106,建议将概念(即从选出的本体116中选出的本体概念)映射到样本输入数据114中的词或词组的样本映射,作为输入数据108的映射规则,并选择一所建议的映射作为输入数据108的映射规则或者输入数据108的数据结构规则。在操作112,将映射规则110应用于输入数据108以将概念映射到输入数据108以输出语义实例118。因此,“映射规则”(图1中的语义化规则集)110基于与输入数据108的结构相关的词或词组的映射。样本输入数据114可以是例如样本数目个打开的输入数据文件114(例如,上百个文件中的10个各自包含一封电邮的文件),或者可以是一个包含多个记录的输入数据文件114(例如多个文件中的一个包含上百封电邮的文件,虽然用户用到该一个文件中的一封电邮,但是系统建议在文件其余部分中出现的所有电邮地址或者电邮地址的任意子集)。
数据语义化器100解决的一个主要挑战是捕获半结构化到非结构化电子数据108的结构以进行语义化。当不完全知道数据格式时,数据语义化器100在操作106使用数据108的少量代表性样本114,作为数据结构捕获元素,或者注解元素。作为另一个数据结构捕获元素,在操作106,进行选出的样本输入数据114中的词组/词组区到从选出的本体116中选出的本体概念的映射。此外,在操作106,作为捕获输入数据结构的另外两个元素,位置信息、规则表达(regular expression),或者其任意组合用在规则的生成中以在选出的样本输入数据114中定位词组和/或确定该词组区,该词组被映射到从选出的本体116中选出的本体概念。
基于位置和基于规则表达的两个示例数据结构捕获元素不使用数据格式的在先知识,也不用来自用户的帮助。然而,数据语义化器100可以有效地(例如,简单、迅速和高效地)并入来自用户的帮助,这将使得捕获数据108结构的处理更为容易。有了具有领域专业知识的用户和选出的本体116的帮助,数据语义化器100生成语义化规则集110,然后使用该语义化规则集为大量半结构化到非结构化的数据108生成语义实例。在注解数据的过程中,可能不会完全消除与人类领域专家的人类交互,但是在对任意格式、任意领域的大量数据108进行语义化中,数据语义化器100充分减少了人类专家的帮助并降低了依赖性。因此,数据语义化器100支持为应用数据108提供语义信息的半自动方法。
数据语义化器100的作用是用语义注解数据以将数据带到较高级的抽象。低级数据可以容易地从较高级抽象中提取,但在另一个方向则不行。一个例子是对比结构化数据和非结构化数据。结构化的数据容易以纯文本格式(plain text format)表现。例如,LATEX文件可以容易地转换成用于显示器或者打印机的格式(LATEX到设备独立文件(DVI)文件格式到位图)。然而将位图转换成LATEX文件会非常困难;这正是数据语义化器100起作用之处,因为有效定义的元素集(实现为语义规则编辑器)用以捕获作为输入数据的电子数据的结构,根据定义的元素集生成规则以捕获输入数据的结构,将该规则应用于输入数据,并且基于对输入数据使用的规则生成输入数据的语义实例。通过数据语义化器100,可以完成用语义注解数据的过程,减少人类交互。因此,根据本发明,引入一个新的术语“语义化”来表示向数据加入语义注解。
在图1中,作为操作106的示例,通过捕获输入数据的结构生成将概念映射到输入数据的映射规则110的操作包括定义原子规则,该原子规则包括例如作为注解或者数据结构捕获元素的6元(tuple)组<C,W,R,K,P,O>,其中“C”是来自选出本体116的概念,对应于用户想要为其生成实例的类及其属性。
“W”是样本数据114中正在被概念化的词或词组。用户可以通过例如对显示的样本数据114(例如,作为输入数据108的多个文件中的被显示的样本文件)中的该词进行突出来表示“W”。“C”和“W”是可以加入用户帮助的数据结构捕获元素。
“R”是与输入数据108-(或者输入数据108的一部分)的结构相关的词或词组“W”的区域,例如文件。在本发明中,典型地,与数据108的样本114(或者样本114的一部分)的结构相关地确定该“R”元素。说明了确定“R”元素以捕获输入数据结构的两种方法—位置信息和规则表达。下面将进一步说明作为数据结构捕获元素的这两种方法的细节。由作为“C”和“W”的代表的系统(语义化规则编辑器106)执行“R”元素。在本发明中,数据结构捕获元素“R”是基于本体和被映射到本体中的概念的数据点(例如,词或词组,和/或其他类型的数据点)的,从而提供了用以捕获输入数据的结构的基于领域或者本体规则的知识体系。本发明提供了定义用以将概念映射到电子数据的注解元素集的方法。
“K”是将显示的样本数据114中一个完整的概念“C”唯一地与另一个概念“C”区分的颜色。例如,假设生成名为Person(人)的类的实例,其中hasFirstName(名)和hasLastName(姓)是属性。当生成类Person的语义实例时,在显示的样本数据114中,规则编辑器106自动地列出这两个属性,并且通过分配相同的颜色将它们分组为同一类的属性。本发明不限于为用颜色区分显示的概念,而是还可以使用其他可感知的区分特性/属性/技术(例如可视的和/或可听的),诸如(不限于)通过字体、字体大小、下划线、粗体、斜体、编号、显示图标等视觉地区分计算机显示屏上的特征。
“P”是规则的优先级。当在操作112应用了所生成的输入数据108的多个映射规则110时,可使用优先级在提高效率的同时减少错误。优先级可以用来确定规则集110的错误应用。当不能应用高优先级规则时,语义实例的生成过程停止,而可以安全地忽略低优先级的规则。例如,当试图将来自样本文件114的词与来自本体116的本体概念匹配时,某些词可能比其他词重要。例如,如果基因序列包括版本号,则可以给予实际基因序列比版本号更高的优先级,从而如果某些文件忽略了版本号,系统不会不能生成语义实例(即,如果需要,则抹去版本号)。
“O”是应用所生成的多个映射规则110的顺序,例如,O1是要被应用的第一个规则,O2是要被应用的第二个规则等。
因此,一组原子规则一起定义了一个规则集110,被称为映射、语义化或数据结构捕获,规则集110将概念映射到任意格式和任意领域的输入数据108(诸如文件、电邮消息等)。最小的原子规则包括一组3个注解或者数据结构捕获元素,元<C,W,R>,其中“C”和“W”可以加入用户的帮助。在上例中,数据结构捕获元素<K,P,O>可以增强性能,但是并不要求。此外,3元组<C,W,R>可以与其他数据结构捕获元素(例如<K,P,O>数据结构捕获元素)进行任意的组合。
下面更具体地说明用于确定词的区域(“R”元素)的方法的两个示例(包括其任意组合)。因此,位置信息可以与规则表达结合作为确定“R”元素的另一个方法以捕获输入数据的结构。
位置信息——在样本数据114中使用被突出的位置信息,“R”由4元<L,S,N,E>(定位数据结构捕获元素)表示,其中L是行号,S是开始字符的位置,N是行数,以及E是结束字符的位置基本上捕获了对应要被概念化的词的“列”。
位置元素基本上捕获了样品输入数据114中的对应于作为元素“W”的词或词组的位置,该元素“W”将被映射到从本体116中选出的本体概念而被概念化。
规则表达(范式)——另选地,规则表达可以用来通过样品数据114推导出用于词的区间(“R”元素)的输入数据108中的范式。在该方法中,“R”是规则表达,下面按照假设、输入、输出和处理的顺序进行描述假设示例下面是用于示例输入数据108格式的示例指导方针该数据由多个记录构成,每个记录具有多个字段。
记录之间的分隔符容易辨认。
记录中的各字段具有某些定义特性,将该字段与其他字段区分。
输入数据108示例
包含用户希望分析的数据的记录的列表。
来自数据内的子字符串的开始和结束标记,这是用户希望提取的数据——“W”数据结构捕获元素——的示例。
定义了可接受的匹配的容许量值。
处理操作示例1.通过传递作为参数的示例子字符串和要被分析的数据(样本114)调用输入数据108的分析。例如可以通过任何已知的选择技术(诸如突出、敲击、敲击并拖拉等)在输入数据108的显示中选取该示例子字符串。
2.范式产生器/分析器(语义化规则编辑器106)检查被传递的参数示例子字符串并且基于一组模板构造规则表达(范式),该规则表达与示例子字符串匹配。
3.然后分析器将规则表达用于样本数据114中的各个记录,记录分析器发现的任何匹配的开始和结束位置。
4.在处理了各个记录之后,检查特定规则表达的匹配总数。如果匹配总计数没有落入容许量水平之内(记录的数目±容许量值)则自动拒绝该规则表达。在这种情况下,分析器返回操作2。
5.否则,作为建议向用户呈现由该分析做出的匹配列表以供检查。如果用户接受这些建议,则该分析完成。否则,该规则表达(范式)被拒绝并且分析器返回操作2。处理继续直到用户接受分析器的匹配或者分析器用尽了规则表达。因此,范式产生器/分析器106的输出是被建议的匹配的列表。
图2是按照本发明的实施例的、对作为输入电子数据的电邮文本进行语义化的流程图。更具体地,参照图2,示出了语义化器100按照以上处理操作1至5进行语义化的示例,其使用电邮(电邮消息/文本)作为输入数据108,并且使用上述数据结构捕获元素“R”的规则表达来确定数据结构捕获元素“W”(该数据结构捕获元素“W”将被映射到输入数据108的样本114中的数据结构捕获元素“C”)的区间。
图2中,在操作150,输入文件108包含一组电邮首部,并且“dean@cs.umd.edu”是示例子字符串(数据结构捕获元素“W”),它被映射到(如通过突出显示示出)从本体116中选出的本体概念(图2中未示出,但参见图4)并且用作来自输入文件108的样本数据114。在操作152,范式产生器(也称为语义化规则编辑器106)尝试基于规则表达模板160对给出的输入文件108的结构进行近似。在操作154中,范式产生器106向用户建议规则表达160以捕获输入文件108的结构。在操作156,用户检查该建议。在操作156,用户可以接受或者拒绝作为输入数据108的结构规则的规则表达的建议。
更具体地,在图2中,操作154最左边的情况示出了使用示例字符串“dean@cs.umd.edu”作为规则表达(数据结构捕获元素“R”)时作为匹配的字符串“dean@cs.umd.edu”。然而,输入文件108仅包含一个与规则表达“dean@cs.umd.edu”确切匹配的字符串(通过显示画面黄色突出表示)并且由于该规则表达产生的匹配太少因此可以忽略该规则表达。操作154的中间的情况示出使用规则表达“\w+@\w+.\w+.”而匹配了所有电邮地址的情况。该规则表达匹配了在输入文件108中出现的所有电邮地址;然而,由于它产生了太多的匹配,因而该表达同样被跳过。操作154中的第三种情况示出了使用规则表达“From\S+@\S+”的匹配,其中向用户建议该匹配以供检查。在图2的示例中,按照可配置的应用设计标准,系统100内部消除了情况1(左边)和情况2(中间),但是所主张的本发明不限于这种配置,而是可以控制(编程)系统100例如向用户建议包括推荐建议在内的范式产生器106的所有输出。
规则表达模板可以基于关于输入数据108或领域专用的假设开发规则表达模板。例如,一个假设可以是记录中的各个字段具有某些定义特性。模板被设计为充分多样化对任何情景进行近似。系统100可以升级,即可以开发附加的模板以适应不同类型的输入数据108。
图3是按照本发明实施例的数据语义化器的功能框图。图4是按照本发明实施例的数据语义化器的计算机显示图形用户界面的示例图。图3中示出的数据语义化器100向用户提供语义化数据108所需的功能并包括以下组件本体阅读器工具200本体阅读器200在本发明中典型地是软件工具的组合,允许本领域专家阅读和修改本体。如果需要可以生成新的本体。可以使用现有的本体编辑器,诸如SWOOP[www.mindswap.org/2004/SWOOP/,2004年10月22日检索],它是可升级的OWL(网络本体语言)本体浏览器和编辑器。SWOOP支持对多种不同视图(包括传统的树结构以及用于轻松导航的超链接界面)的多个本体的阅读。图4示出了本体阅读器工具200的计算机显示图形用户界面窗口。
数据阅读器202数据阅读器202允许显示作为输入电子数据的从结构化到半结构化到非结构化的任何格式和任何领域的多数据文档108,并将其一批语义化。数据阅读器202支持的格式可以是,例如txt、rtf和html文档。仅需要一个文档(或者其一部分)作为样本114产生初始的规则集110。图4示出了数据阅读器202的计算机显示图形用户界面窗口。
语义化规则编辑器106语义化规则编辑器106以来自数据集108的样本114及其对应的本体116作为输入,并且帮助用户定义每个数据集108的语义化规则集110。在本发明中,典型地,在熟悉该数据集的领域专家的帮助下生成规则集110。在图4中,计算机显示的图形用户界面窗口204是可选的用户界面窗口,它可以显示由语义化规则编辑器106(即语义化规则阅读器204)进行的操作的各种表达,诸如显示所生成的规则表达一数据结构捕获元素“R”。在图4中,用户界面窗口204显示被映射到数据阅读器用户界面窗口202中显示的数据的本体概念,包括其数量。例如,图4示出了biopax-level 1的protein(蛋白质)概念(子类)的COMMENT属性PhysicalEntity类208被映射一次(1)并且该本体概念映射也通过相同的颜色(在本例中为红色且由线段连接)——数据捕获结构元素“K”——可视地在语义化规则编辑器用户界面窗口204和数据阅读器用户界面窗口202中指出。
语义化器引擎112语义化器引擎112是被编程的计算机处理器,其在本发明中典型地在后台运行,它取得一个大的数据集108和要被应用于该数据集108的语义化规则集110,并且产生对应于数据集108的语义实例118。
可以向本体阅读器工具200和数据阅读器202环境加入一些由日本川崎富士通有限公司(本申请的受让人)开发的附加的组件或其他组件。这些组件包括本体映射工具、推理引擎和数据可视化工具。本体映射工具,诸如ONTOLINK[www.mindswap.org/2004/Ontolink,2004年10月22日检索],可以用来指定不同本体中定义的概念之间的句法以及语义映射和变换。推理引擎,诸如PELLET[www.mindswap.org/2003/pellet/index.shtml,2004年10月22日检索]和RACER[www.cs.concordia.ca/~haarslev/racer/,2004年10月22日检索],可以帮助检查在本体和对类进行进一步分类中的矛盾。数据可视化工具,诸如JAMBALAYA[www.thechiselgroup.org/jambalaya,2004年10月22日检索]和RACER INTERACTIVE CLIENT ENVIRONMENT(RICE)[www.cs.concordia.ca/~haarslev/racer/,2004年10月22日检索],可以用来表达针对其本体116的语义实例118(即由数据语义化器100注解了的数据内容108),提供可视化的被注解了的数据118,其可在数据阅读器用户界面窗口202中显示。换言之,可以使用任何其他第三方的本体阅读器和数据阅读器,诸如可视化工具JAMBALAYA和RICE,以表达针对其本体的被注解数据内容或知识库,但是这种可视化工具不具有注解能力。
因此,在图4中,数据语义化器100的计算机显示图形用户界面(GUI)包括三个窗格(pane)左上方的本体阅读器200,左下方的规则阅读器204,和右方的数据阅读器202。图4示出了基本状态的数据语义化器100,其中本体116已经载入本体阅读器200中,数据窗格202中已经打开一些数据108,并且如规则阅读器204中所示,已经加入了一小组规则(即被映射到数据阅读器用户界面窗口202中显示的数据108的本体概念,包括其数量)。换言之,规则阅读器204显示用户希望实例化的类的对象和数据属性。而且,关于与各个属性关联的数据点的数量也可以在规则窗格204中找到。
因此,在图4中,规则窗格204用作本体概念116和原始数据108之间的联系的定义的容器,这些联系称为“映射规则110”(即规则窗格204实现为存储映射规则和基于该映射规则的GUI的计算机可读介质)。“映射规则”110是本体阅读器200中显示的本体代表116(诸如网络本体语言(OWL)属性)和数据窗格202中显示的某种形式的原始数据108(诸如文本的字符串)之间的映射。在图4中,例如,语义化规则编辑器106将作为样本114的数据点205映射到选出的本体类属性NAME,如本体阅读器200和规则阅读器204中所示(即,由相同的“K”值表示,在本例中针对NAME用蓝色突出),并且通过“将文本与规则关联”302通过将数据点205(例如文本)与规则相关联,基于数据结构捕获元素“R”对其确定“映射规则”110。“映射规则”110的目的是收集数据114的样本,智能分析器(语义化规则编辑器106)可以使用该样本通过建议来试图发现余下的数据库108中相似的数据,以下参照图6更具体地说明。因此,“映射规则”110基于选出的领域本体基本捕获了数据108的结构,或者“映射规则”捕获数据108的本体结构。根据本发明的一方面,当智能分析器106正确地辨认数据时,该智能分析器106将其发现加回到原始的映射规则定义中。因此,理论上,智能分析器106每个正确的猜测提高了它辨认随后类似数据108的能力。因为输入文件108可能没有设置用于分析的范式,所以分析器106是“智能”的。在大多数分析器中,输入文件的结构是已知的并且分析器利用该已知的结构使分析处理自动化。没有这种在先的结构知识,将非常难以使分析处理自动化。分析器106通过尝试多个模板、多次试探和多个阈值使分析自动化以建议本体概念映射,同时在本发明中典型地将接受建议的最终决定处理留给人进行,并且其中该建议可以反映或者用来推出输入文件108的结构。一旦终端用户确认数据语义化器100建议的“映射规则”110是正确的,那么该“映射规则”110被存储并可通过规则窗格204表现。当数据语义化器100收集了较多的已经被人确定为正确的规则110时,如果又出现类似的范式,则数据语义化器可以在余下的数据语义化处理(操作104)中使用这些之前被确认的规则。换言之,工具106利用了它学习的关于输入文件108的知识。
数据窗格202显示用户希望从中提取数据的数据108。被注解的数据将依赖于与其相关的属性以不同颜色(作为数据结构捕获元素“K”)突出。作为向数据语义化器100输入控制命令的一个示例,使用键区206作为便利的菜单型控制面板,这允许用户迅速地执行某些常用任务,诸如(没有限制,并以其任意组合)加入规则(即将数据点映射到选出的本体概念)、从规则中删除选择、将文本与规则关联以产生数据结构捕获元素“R”、和/或产生实例。本发明不限于键区206的实现,并且例如,为了将样本数据点映射到本体概念,在本发明中典型地可以使用任何可用的显示数据选择技术,诸如在数据阅读器202中选出被显示的样本输入数据114的区,并且将该抓取的选择放进本体阅读器200中被显示的本体概念116。
图5是根据本发明的实施例的、对作为要被注解的输入电子数据的示例的生物信息数据进行语义化的流程图。在图5中,对数据进行语义化的计算机实现的方法包括在操作250,选择电子数据作为要语义化的输入数据108;在操作252,选出至少一个本体116,在本发明中典型地由用户选择该本体;在操作254,从输入数据108中选出一个(或视情况为更多个)输入数据;在操作256,从选出的本体116选出一个本体概念,在本发明中典型地由用户选择该本体概念;在操作258,将选出的本体概念映射到选出的一个(或更多个)输入数据,在本发明中这典型地并入用户的帮助/交互;在操作260,基于该选出的本体概念到一个(或更多个)输入数据的映射生成映射规则或生成数据结构捕获规则,这由语义化规则编辑器106完成;在操作262,基于该映射规则建议从选出的本体概念到输入数据108的样本114的映射,作为样本映射;在操作264,通过修改或调整选出的本体、该个输入数据、选出的本体概念、选出的本体概念到该个输入数据的映射或者其任何组合来修改/优化映射规则,在本发明中,典型地映射规则修改或优化并入了用户的帮助/交互;以及,在操作266,如果映射规则建议被接受,则在操作268,基于可接受的映射建议,通过对全部输入数据108应用或施加生成的优化映射规则,对输入数据108进行语义化,在本发明中典型地,如果用户接受了语义化规则编辑器106的选出的概念本体映射到样本输入数据114的映射建议,则映射规则被接受。例如,在操作264,为了优化映射规则110,可以修改本体116,也可以修改或者改变本体116的选择,或者它们的任何组合。
因此,在图5中,操作252至258提供了一种可动态配置的语义化或者注解指导270,在本发明中典型地利用本体阅读器工具200、数据阅读器202和语义化规则编辑器106通过领域专家的输入获得。注解指导270提供了输入数据108的样本114中何种和何处的数据点应当被映射到本体116的指导,并且基于此指导270生成可用于全体输入数据108的数据结构捕获规则或者注解/语义化规则。在现有的方法中,用户将不得不处理一个文件,作为一个输入数据,将该文件映射到本体,并且移到下一个文件,这实质上是人工注解处理。
在图5中,在操作260,在本发明中典型地,语义化规则编辑器106被设置为通过内部生成规则并且将该规则应用于输入数据108的样本114,依赖于预定的阈值(例如,匹配太多,匹配太少等等)自动地拒绝或者消除数据结构捕获规则,而且在操作262,通过样本数据点114和本体116的可感知的(例如可视的和/或可听见的)映射仅建议满足或者超过阈值的规则。
在图5中,在操作268,输出了语义实例118。在给出规则集110和数据集108的情况下,数据语义化器100生成相应的语义实例118。图6-7是按照本发明的实施例的、语义化作为输入电子数据的生物信息的数据语义化器的图形用户界面的示例图。更具体地,图6-7示出了使用规则表达方法作为数据结构捕获元素“R”来注解生物信息数据的数据语义化器100的示例。当用户通过与图2中示出的过程类似的过程接受了数据语义化器100建议的匹配时,用户可以选择用输入文件108中的数据扩充规则110。常规的显示可选菜单键区206提供了访问常用菜单项的方便途径。
虽然这里参照图6-7的说明旨在为数据窗格202中的打开的数据文件108的所有数据点生成实例(在图6的数据窗格202中显示了三个数据点(>gi...)),但是用户可以选择为打开的数据文件108的几个被选数据点生成语义实例。由于数据语义化器100可以根据需要随选地生成更新的语义实例118,因此这是一个重要的能力。例如,可以注解并使用来自数据库108的单个记录,而不是从数据库108中的所有记录生成一大组语义实例。因此,虽然上述参照图5描述了的实施例使用了输入本体116、来自多个输入数据108中的至少一个输入数据108、和输入数据108的样本114,但是数据语义化器100不限于这种配置,而是可以使用一个或者更多个本体116、多个输入数据108和多个样本114、或者其任意组合以生成一个或者更多个语义实例118。
在图6中,针对每一个选出的本体类及其映射到数据点108的所有属性,如本体阅读器200和规则阅读器204中所示(即,通过选择“加入规则”300进行映射,由相同的“K”值表示,在本例中是针对COMMENT(描述…)的橙色突出、针对NAME的黄色突出、针对SEQUENCE的红色突出、针对SHORT-NAME的深绿色突出、和针对SYNONYMS的浅绿色突出),通过“将文本与规则关联”302(图5中的操作260)将数据点(例如文本)与规则关联,基于数据结构捕获元素“R”确定“映射规则”,并提供用于接受、拒绝和/或优化(图5中的操作262、264和/或266)的建议匹配306。具体地,图6示出了分析器106针对数据点205刚完成在数据库108的剩余样本114中发现类似NAME本体类属性的数据308的情况,该NAME本体类属性在选择了“将文本与规则关联”302时以黄色突出,并且分析器106提供用红色字体显示的类似数据建议308。
一旦接受了建议并成功完成检错的机制,可以通过“生成实例”选项304,使用以下步骤生成语义实例1.针对颜色“K”相同的各行,使用存储的“列信息”生成具有属性值的类的实例。
2.运行错误检查机制该数据确认处理包括一组测试来从数据文件中检错;例如,正确的数据文件被正确地语义化;即,找到所有高优先级的规则。例如,如果初始数据文件所有字符被解释,那么数据文件的剩余部分也该如此。
3.如果所有检测都通过,那么生成新的实例(图5中的操作268)。
图7示出了在选择生成实例304之后所有属性都已被完全扩展的情况,如用相同的“K”值表示,在本例中是针对COMMENT(描述…)的橙色突出,针对NAME的黄色突出,针对SEQUENCE的红色突出,针对SHORT-NAME的深绿色突出,和针对SYNONYMS的浅绿色突出。在图4、6和7中,画出的线段也示出了本体概念到数据点的映射。
数据语义化器100在可被生成的实例和文件的数量方面是灵活的。包含多个数据点的单个输入文件可以导致具有多个语义实例的单个输出文件或者各包含数据点的一个语义实例的多个输出文件。同样,多个输入文件可以导致多个输出文件或者具有来自多个输入文件的所有数据点的语义实例的单个输出文件。此外,各自具有多个数据点的多个输入文件可以导致各自具有不是必须来自对应的输入文件的多个数据点的多个输出文件。例如,用户可能希望基于某种类别对输入数据点进行分类。
图8A-8H是按照本发明的实施例的语义实例的示例输出。在图8中,语义实例输出118按照资源描述框架(RDF)/网络本体语言(OWL)格式。RDF/OWL的概念是公知的。换言之,数据语义化器可以直接将语义对象118插入RDF/WOL存储中。更具体地,图8A是由数据语义化器100输出的、作为使用BIOPAX LEVEL1本体116生物信息应用数据108的语义实例118的OWL文档。在[www.biopax.org,2004年12月16日检索]中说明了BIOPAX LEVEL 1的本体。作为非限制性的示例,图8A至8H的描述如下图8A一个数据点(在本情况下,使用非生物数据)被映射到BIOPAX本体116的protein类的三个属性(name(名称),short name(短名)和synonym(同义词))。输出正好包含一个数据点,示出了每个输出文件(test1.OWL)生成一个语义实例118的能力。
图8B一个数据点被映射到terrorism(恐怖主义)本体116的“city(城市)”类的名称属性。同样,输出文件test2.OWL正好包含一个数据点作为语义实例118。这里示出工具100还可以用于其他领域(除生物信息领域以外的其他领域)。Terrorism本体的参考见[www.mindswap.org/2003/owl/swint/terrorism,2004年12月16日检索]。
图8C-8E7个数据点被映射到BIOPAX本体116的protein类的2个属性(comment和synonyms)。输入数据点是生物数据。这个语义实例输出118示例表明在一个输出文件(test3.OWL)中生成多个语义实例118的能力。
图8F-8H12个数据点被映射到BIOPAX本体116的“dataSource”类的comment属性。除了示出了在一个输出文件(test4.OWL)中生成多个语义实例118的能力之外,它还示出了当输入文件108中没有明显的范式时分析器106正确捕获了输入文件108。具体地,在图8F-8H中示出的test4.OWL中,在输入文件108中有12个数据点。按照出现的顺序,它们是MINDSWAP、FLACP、FLACP、FLACP、UMIACS、UMIACS、MINDSWAP、MINDSWAP、MINDSWAP、UMIACS、UMIACS和UMIACS。当输入文件108中没有范式时,数据语义化器100生成规则表达110以捕获该12个数据点。
图9是被任务计算(TC)环境使用以实现计算设备网络中的任务计算的计算设备网络和本发明的数据语义化器100的图。任务计算使得人能够轻松地用很多设备、应用程序和服务来工作。向现有任务计算环境500加入的一个方面是集成现有数据(包括数据库、平面数据文件等等)(输入电子数据108)的能力。集成这种输入电子数据要求用语义注解数据。数据语义化器100是一种软件工具,它通过以下步骤帮助用户将输入电子数据108(即,将作为输入的非语义数据)带到语义层生成语义服务502、通过输出语义数据118,提供到非语义数据的访问途径,或者输出可用来提供作为服务504a-n的输出语义数据的语义数据118,跨接现有的抽象级和想要的语义抽象之间的差距。因此,使用数据语义化器100,任务计算环境500可以定址语义层中的数据并且使得设备、应用程序、服务和数据能最终集成。数据语义化器100可以向数据108提供语义抽象至少有两种不同的方法(虽然不限于两种)。第一,数据语义化器100可以提供语义服务502,该语义服务502提供访问非语义数据108的途径。第二,数据语义化器100可以输出经注解的语义输出118,然后该经注解的语义输出118可被数据提供服务504a-n(例如目录印刷服务504a)所用,以提供作为服务的语义数据,或者被管理工具504b(诸如WHITE HOLE)所用,以提供作为服务的语义数据。
在图9中,任务计算环境500体系结构例如包括表达层506、网络服务应用编程接口(API)508、中间设备层510、服务层512和实现层514。数据语义化器100基于任意格式和任意领域的输入数据108,使用生成的语义实例118,提供资源和服务抽象(实现层514),并且基于输入数据108的资源和服务抽象514生成任务计算环境500。换言之,本发明作为服务提供语义实例118,作为输入数据108的抽象,可用在任务计算环境500内。然后可用的数据语义118将使得它更容易与新的应用程序和平台接口和转移到新的应用程序和平台。一旦被注解,自明的语义数据更有可能在上下文中正确使用,并且人们还可以容易地索引和检索语义注解的数据,使得更容易管理大量数据。
更具体地,本发明提供了一种计算机系统,作为数据语义化器100,以帮助用户用语义注解包括半结构化至非结构化电子数据的任意格式、任意领域的大量电子数据。因此,本发明提供了任意格式和任意领域的电子数据的本体表现。通过资源和服务抽象使用语义网络技术提供互操作性,从而提供了任务计算环境,这被日本川崎富士通有限公司(本申请的受让人)在以下出版物和/或专利申请(所有这些在此通过引用并入)中成功地展示和说明R.Masuoka,Y.Labrou,B.Parsis and E.Sirin,Ontology-Enabled Pervasive Computing Application,IEEE IntelligentSystem,vol.18,no.5,Sep./Oct.2003,pp.68-72;R.Masuoka,B.Parsis andY.Labrou,Task Computing-the Semantic Web meets Pervasive Computing,Proceedings of the 2nd International Semantic Web Conference 2003,October 20-23,2003,Sundial Resort,Sanibel Island,Florida,USA;Z.Song,Y.Labrou and R.Masuoka,Dynamic Service Discovery and Management inTask Computing,MobiQuitous 2004,August 22-25,2004,Boston,USA;Ryusuke Masuoka,Yannis Labrou and Zhexuan Song,Semantic Web andUbiquitous Computing-Task Computing as an Example,AIS SIGSEMISBulletin,Vol.1 No.3,October 2004,pp.21-24;Ryusuke Masuoka andYannis Labrou,Task Computing-Semantic-web enabled,user-driven,interactive environments,WWW Based Communities For KnowledgePresentation,Sharing,Mining and Protection(The PSMP workshop)withinCIC 2003,June 23-26,2003,las Vegas,USA;2003年12月12日提交的未决美国非临时实用新型专利申请第10/733,328号和美国临时申请第60/434,432、60/501,012和60/511,741号。任务计算基于语义输入和输出描述向用户呈现可用服务的可能组合并生成环境,其中非计算专家可以像计算专家一样受益于可用资源和服务。数据语义化器100具有将类似的互操作性带给任意格式和任意领域中的应用程序数据集的优点。
现有的数据注解方法完全依赖于用户知识和人工处理,不适合注解大量数据。它们往往太过枯燥和易于出错以致于不能应用。数据语义化器100帮助用户生成规则集110以用于由相似范式文件构成的大数据集108,并使得用规则集110注解数据108的处理自动化。本方法使得在用语义注解数据时涉及的人类努力和人类依赖性最小化。
此外,数据语义化器100的被自动化的数据注解过程允许对语义数据118的快速开发。测试结果表明一旦用户接受了建议,则各包括550Fast-A格式蛋白质序列的两个文件可以使用BIOPAX LEVEL 1本体116在约20秒内无错地注解。
使用数据语义化器的一个重大优点是人们可以利用关于输出的被注解数据集118的语义网络技术。数据与应用程序兼容性的确定被简化并且在某些情况下可以自动化。数据可能更容易和更正确地在不同应用程序和组织之间共享,使能进行互操作。例如,目前由数据语义化器100生成的语义数据118已经用于BIO-STEER和BIO-CENTRAL两个应用程序中。BIO-STEER是生物信息领域中任务计算的应用程序,它给用户提供了组合语义定义的进行生物信息分析的服务的灵活性(例如种族基因分析)。这些作为一个服务的输出的语义服务交换语义数据用作下一步的输入。使用数据语义化器100,现在可以用适当的翻译将语义数据118传递给其他语义服务。
BIO-CENTRAL是允许访问基于知识的语义注解生物数据的网站。它例示了语义描述的数据的优点。数据语义化器100可以用BIOPAX-LEVEL1(生物学路径交换语言)[Bader et al.“BioPAX Biological Pathways Exchange Language,Level 1,Version 1.0 Documentation”,BioPAXRecommendation,[www.biopax.org/Download/Level1v1.0/biopax-level.zip,2004年10月22日检索]]本体注解来自生物分子相互作用网络数据库(BIND)[Bader,Betel,and Hogue,“BINDThe Bimolecular Interaction Network Database,”Nucleic Acids,Res,PMID,Vol.31,No.1,2003]的分子相互作用数据。然后经注解的数据118被存放到BIO-CENTRAL数据库中。
当用丰富语义注解数据时,数据可以被容易地操作、变换和以多种不同方式使用。然而,将数据“推上”较高级的工作并非微不足道。数据语义化器100的结构象“泵”一样工作,并且通过以下步骤来帮助用户以容易得多的方式完成该过程定义(在软件中实现)一组注解元素以捕获作为输入数据的电子数据的结构;按照所定义的该组注解元素和输入数据的样本生成规则以捕获输入数据的结构;将该规则应用于输入数据;并且基于用于输入数据的规则生成输入数据的语义实例。
近年,两个领域中越来越多的研究者正认识到将语义网络和Grid合在一起的好处和优点[E-Science,IEEE Intelligent Systems,Vol.19,No.1,Jan/Feb 2004]。为了充分利用Grid中的语义网络,必须将语义注解加入现有数据。少数研究者已经历了用语义注解数据之路。然而,现有的方法,诸如GENE ONTOLOGY ANNOTATION[www.geneontology.org,2004年10月22日检索]和TRELLIS[www.isi.edu/ikcap/trellis,2004年10月22日检索],完全依赖用户的知识,往往枯燥且易于出错。数据语义化器100提供了一种减少对人的依赖性地向数据加入语义的方法。
此外,数据语义化器100在输入数据类型和应用领域方面很灵活。它不仅可以用于纯文本数据,还可以用于其他数据类型,诸如关系数据库、可扩展的标记语言(XML)数据库、媒体(例如图像、视频、声音等等)文件,并且甚至可用于Grid计算中的数据访问模型。数据语义化器中使用的方法不是领域专用的,因为它可用于多个应用领域,诸如生命科学、政府、商业等等。数据语义化器100还将在语义网络技术的开发中扮演重要的角色。此外,数据语义化器100提供以下优点(a)单个输入文件的任意组合或者多个输入文件可以导致生成包含多个语义实例的单个输出文件或者各自包含一个或更多个来自输入数据的语义实例的多个输出文件;(b)可以提供生成用户选择的一个语义实例的服务;(c)可以提供生成用户选择的语义实例的列表的服务;(d)可以提供生成输入文件的所有语义实例的列表的服务;以及(e)可以直接将语义对象插入RDF/OWL存储器和/或关系数据库(RDB)中。
包括上述处理的数据语义化器100以软件实现(存储在任何已知的计算机可读介质中)和/或控制计算设备(任何类型的计算装置,诸如(不限于)个人计算机、在客户-服务器网络结构中的服务器和/或客户端计算机,在分布式网络结构中的联网的计算机)的计算硬件。
从详细的说明书中本发明的许多特征和优点清楚明了,并且所附权利要求旨在覆盖落入本发明的真实精神和范围之内的本发明的所有这些特征和优点。此外,由于本领域技术人员将容易得到许多修改和变型,因此并不想将本发明限制到图示出和说明的精确的构造和操作,所以所有适当的修改和等同物都落入本发明的范围之内。
权利要求
1.一种计算机实现的方法,包括定义一组注解元素以将概念映射到作为输入数据的电子数据;根据所定义的该组注解元素和输入数据的样本生成映射规则;通过将该映射规则应用于输入数据将所述概念映射到输入数据;以及基于从概念到输入数据的映射生成输入数据的语义实例。
2.根据权利要求1所述的方法,其中将概念映射到输入数据的该组注解元素包括对应输入数据选出的本体、作为要映射的概念的从选出本体中选出的本体概念、样本输入数据中的词或词组到从选出的本体中选出的本体概念的映射、以及与样本输入数据的结构相关的被映射的词或词组的范式。
3.根据权利要求1所述的方法,其中生成映射规则的步骤包括建议概念到样本输入数据中的词或词组的样本映射,作为输入数据的映射规则;以及将该映射规则用在将概念映射到输入数据的映射中。
4.根据权利要求1所述的方法,还包括提供一种服务,该服务提供作为输入数据的抽象的语义实例,可在任务计算环境中使用。
5.根据权利要求2所述的方法,还包括显示输入数据,其中被定义为将概念映射到输入数据的该组元素还包括对映射到显示的输入数据的样本的选出本体的被选出的本体概念的可感知区分,并且所述可感知区分包括通过涂色、字体、字体大小、下划线、粗体、斜体、编号、显示图标或者其任意组合可视地区分出相同的本体概念。
6.根据权利要求2所述的方法,还包括在第一图形用户界面窗口中显示输入数据的样本,并且在第二图形用户界面窗口中显示选出的本体,其中将样本输入数据中的词或词组映射到选出的本体概念的步骤按照在第一和第二图形用户界面之间敲击拖拉进行。
7.根据权利要求3所述的方法,其中从选出本体中选出的本体概念到样本输入数据中的词或词组的样本映射的建议包括与选出的本体概念一样的样本输入数据中的词或词组的可感知区分。
8.根据权利要求1所述的方法,其中输入数据是结构化的、半结构化的、非结构化的或者其任意组合。
9.根据权利要求2所述的方法,其中位置信息、规则表达或者其任意组合确定了与样本输入数据的结构有关的被映射的词或词组的范式。
10.根据权利要求9所述的方法,其中依赖于输入数据的位置信息和规则表达的模板用来确定与样本输入数据有关的被映射的词或词组的范式。
11.根据权利要求1所述的方法,其中生成多个映射规则并且该方法还包括给各个映射规则分配优先级;以及按照分配的映射规则优先级将映射规则应用于输入数据。
12.根据权利要求1所述的方法,其中生成多个映射规则并且该方法还包括给各个映射规则分配顺序;以及按照映射规则的顺序将映射规则应用于输入数据。
13.根据权利要求2所述的方法,其中模板用来确定与样本输入数据的结构有关的被映射的词或词组的范式。
14.一种计算机实现的方法,包括选出作为要语义化的输入数据的电子数据;由用户选出本体;从输入数据中选出输入数据;由用户从选出的本体中选出本体概念;由用户将选出的本体概念映射到输入数据;基于选出的本体概念到输入数据的映射生成数据结构捕获规则;存储数据结构捕获规则;基于该数据结构捕获规则向用户建议所述选出的本体概念到所述输入数据的样本的映射;通过修改选出本体、输入数据、选出的本体概念、所述选出的本体概念到输入数据的映射,或者其任意组合来按照用户的输入优化生成的数据结构捕获规则;以及如果用户接受将选出的本体概念映射到样本输入数据的映射建议,则通过将生成的优化数据结构捕获规则应用于全体输入数据来语义化输入数据。
15.一种计算机实现的方法,包括选出应用于输入的电子数据的本体;选出数据的样本;基于数据的选出本体,使用数据的样本捕获输入电子数据的结构;以及基于捕获的数据结构和选出的本体为输入电子数据生成语义实例。
16.根据权利要求15所述的方法,其中捕获样本输入数据的结构的步骤包括将来自选出本体的本体概念映射到样本输入数据;基于本体概念的映射对样本输入数据的结构进行近似;以及按照对样本输入数据的结构的近似捕获输入电子数据的结构。
17.根据权利要求16所述的方法,其中捕获样本输入数据的结构的步骤还包括由用户选出本体概念;向用户建议选出的本体概念到样本输入数据的映射;以及如果用户接受选出的本体概念到样本输入数据的映射,则对样本输入数据的结构进行近似。
18.根据权利要求15所述的方法,其中按照输入电子数据的领域选出本体。
19.一种计算机实现的方法,包括定义一组注解元素以捕获作为输入数据的电子数据的结构;按照该组被定义的注解元素和输入数据的样本生成规则以捕获输入数据的结构;将该规则应用于输入数据;以及基于用于输入数据的规则生成输入数据的语义实例。
20.根据权利要求19所述的方法,其中捕获输入数据结构的该组注解元素包括对应输入数据的选出本体、从选出本体选出的本体概念以及样本输入数据中的词组和/或词组区到从选出本体选出的本体概念的映射。
21.根据权利要求20所述的方法,其中生成捕获输入数据的结构的规则的步骤包括建议从选出本体选出的本体概念到样本输入数据的映射,作为输入数据的数据结构规则;以及按照选择输入数据的数据结构规则的建议选择映射,以在将规则应用到输入数据中应用该数据结构规则。
22.根据权利要求1所述的方法,其中输入数据是单个输入文件的任意组合或多个输入文件,并且生成语义实例的步骤包括生成包含多个语义实例的单个输出文件,或者生成各自包含一个或更多个来自输入数据的语义实例的多个输出文件。
23.根据权利要求22所述的方法,其中输入文件按照资源描述框架(RDF)/网络本体语言(OWL)和/或关系数据库(RDB)格式。
24.根据权利要求1所述的方法,还包括由用户选出输入数据的样本;由用户将概念映射到由用户选择的输入数据,基于用户进行的概念到输入数据样本的映射生成映射规则;基于对输入数据的样本生成的映射规则将概念映射到输入数据;以及按照概念到输入数据的映射生成用于输入数据的语义实例,从而向用户提供用于全体输入数据的受控数据语义化服务。
25.根据权利要求24所述的方法,其中多个概念被映射到输入数据并且生成多个用户控制的语义实例,并且该方法还包括生成基于输入数据生成的用户控制语义实例的列表。
26.根据权利要求24所述的方法,其中用户进行的映射包括将来自多个本体的多个概念映射到多个输入数据的多个样本,以及其中生成语义实例的步骤包括生成将来自多个本体的多个概念映射到多个输入数据的多个语义实例。
27.一种计算装置,包括编程的计算机处理器,按照以下处理控制该装置,所述处理包括定义一组注解元素以将概念映射到作为输入数据的电子数据;根据所定义的该组注解元素和输入数据的样本生成映射规则;通过将该映射规则应用于输入数据将概念映射到输入数据;以及基于概念到输入数据的映射生成输入数据的语义实例。
28.根据权利要求27的装置,其中将概念映射到输入数据的该组注解元素包括对应输入数据选出的本体、从选出的本体中选出的本体概念、样本输入数据中的词或词组到从选出的本体中选出的本体概念的映射,以及与样本输入数据的结构相关的被映射的词或词组的范式。
29.根据权利要求28的装置,其中生成映射规则的步骤包括建议从选出的本体中选出的本体概念到样本输入数据中的词或词组的样本映射,作为输入数据的映射规则;以及将该映射规则用在将概念映射到输入数据的映射中。
30.根据权利要求27的装置,所述被编程的计算机处理器进行的装置控制处理还包括提供一种服务,该服务提供作为输入数据的抽象的语义实例,可在任务计算环境中使用。
31.根据权利要求27的装置,其中编程的计算机处理器进行的装置控制处理还包括由用户选出输入数据的样本;由用户将概念映射到由用户选择的输入数据,基于用户进行的概念到输入数据样本的映射生成映射规则;基于为输入数据的样本生成的映射规则将概念映射到输入数据;以及按照概念到输入数据的映射为输入数据生成语义实例,从而向用户提供针对全体输入数据的受控数据语义化服务。
32.一种计算装置,包括定义一组注解元素以将概念映射到作为输入数据的电子数据的装置;根据所定义的该组注解元素和输入数据的样本生成映射规则的装置;通过将该映射规则应用于输入数据将概念映射到输入数据的装置;以及基于从概念到输入数据的映射生成输入数据的语义实例的装置。
33.一种计算装置,包括编程的计算机处理器,按照以下处理控制该装置,所述处理包括选出作为要语义化的输入数据的电子数据;由用户选择本体数据库;从输入数据中选出输入数据;由用户从选出的本体中选出本体概念;由用户将选出的本体概念映射到输入数据;基于选出的本体概念到输入数据的映射生成数据结构捕获规则;基于该数据结构捕获规则向用户建议选出的本体概念到输入数据的样本的映射;通过修改所选的本体、输入数据、选出的本体概念、选出的本体概念到输入数据的映射,或者其任意组合来按照用户的输入优化生成的数据结构捕获规则;以及如果用户接受了选出的本体概念到样本输入数据的映射的映射建议,则通过将生成的优化数据结构捕获规则应用于全体输入数据来语义化输入数据。
全文摘要
一种计算机实现的方法,包括定义一组注解元素以将概念映射到作为输入数据的电子数据;根据该组定义的注解元素和输入数据的样本生成映射规则;通过将该映射规则应用于输入数据而将概念映射到输入数据;以及基于从概念到输入数据的映射生成输入数据的语义实例。该组将概念映射到输入数据的注解元素是对应输入数据选出的本体、从选出的本体中选出的本体概念、样本输入数据中的词或词组到从选出本体中选出的本体概念的映射、以及与样本输入数据的结构相关的被映射的词或词组的范式。
文档编号G06F17/30GK1794234SQ20051013268
公开日2006年6月28日 申请日期2005年12月20日 优先权日2004年12月20日
发明者帕特里克·约瑟夫·阿姆斯特朗, 纳达·哈什米, 李承妍, 益冈竜介, 宋哲炫 申请人:富士通株式会社
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1