用于知识导航和发现的数据结构、系统和方法

文档序号:8198065阅读:774来源:国知局
专利名称:用于知识导航和发现的数据结构、系统和方法
用于知识导航和发现的数据结构、系统和方法 相关申请的交叉引用本申请涉及下列申请人的共同未决申请,并要求下列申请的权益美国临时专利申请号为61/064345,在2008年2月28日提交的名称为"用 于知识导航和发现的增强型系统和方法";美国临时专利申请号为61/064211,在2008年2月21曰提交的名称为"用 于知识导^^和发现的系统和方法";美国临时专利申请号为_,在2008年3月19日提交的名称为"用于知识导^L和发现的增强型系统和方法";美国临时专利申请号为_,在2008年3月26日提交的名称为"用于通过智能网络的知识导航和发现的系统和方法";美国临时专利申请号为60/909072,在2007年3月30日提交的名称为"用 于知识发现的方法和目标";美国非临时专利申请号为_,在2008年3月31日提交的名称为"数据结构,用于知识导航和发现的增强型系统和方法";以上所述的申请原 文通过参考而合并到本文。技术领域总的来说,本发明涉及用于导航大量数据的数据结构、系统、方法和计算 机程序产品,特别是涉及用于导航大量数据中发现的概念的数据结构、系统、 方法和计算机程序产品,以方便知识发现过程。
背景技术
在当今的信息时代,信息正以惊人的步^^皮创建着。例如,据估计在全球,公共 互联网已经超iti百亿页信息,分布在超过l亿个网站上,并且每天都在增长。这样的增长不仅来自于网站操作者"正式"发布的新闻报道、科学研究、网络日志(或博 客)等等,而M来自于数量众多的公众。也f^L说,互联网的海量数据的网页是由 于各种"维基(Wiki)"类网站增长的结果,这些典型的协作式网站使得用户可以轻 卡W也、通常没有太多限制的进行》务改。(一个维基网站允i"封可人使用一网页浏览器 iM扁辑、删除或修改已经^^^在网站上的内容,该内容包括其他作者的作品。)由于信息正以惊人的速度被创建,互联网服务中数据务賭的一个合适的例子就是,定位和分析某些信息的相关部分/A^殳有^i脉这样成为与人类社会的所有方面都相关的重^"f壬务,尽管其仍是一个劳动密集型任务。由于大量信息已经^皮编码为自然语言文本,在大量文本库中发琐bNi关信息的"金块"通常被称为"文拟乞掘"。两个进行文拟織的主要方法最终;^i为一一信息检索(IR)和信息炎取(正)。 信綠索找到文档信息检索问题与图书馆和档案馆的起源一样古老。 一旦书籍或其它包^f言息的媒 介被存储,它们就必须被找到。目录和索引^于访问大量》1域的通用工具。在计算 机时代,很多文4^皮数字化,计算才/ux具被开发^大量j)琉中索引和检索文档。这 些工具的使用者通常使用"关4建字"或句子来查询数据库,传统的结果是被认为与查 询相关的出版物的一个清单。例如,查询"查找讨论肺癌的新疗法的文件"将可育腿 回描述用于治疗肺癌的药物的临床试验的文件出处。使用计算机用于信,y企索的研究和;l^可以追溯到19世纪50年代。多种算法和 应用禾踏被开发出来,科学研究者每天^f躺信,y企索工具,因为许多书籍目#^(也 信息源可以在线^JU。例如,^JU Google或者yahoo!搜索网站;^^典型的信息一企索 (IR)任务。从方法的角yliW,信息趁索可以被分类为三种不同方法布尔搜索法、 概率搜索法和向量空间搜索法。最广泛使用的一个生物医学书籍目录数据库是PubMed,该数据库^JI]布尔模型。 例如,上述的查询#^被转换为类似于"肺癌AND疗法"的搜索。尽管PubMed对 ^JD关键词检索提供了许多改进,但是它仍然受到布尔搜索的典型^A的局限非常 M的查询如"论文AND讨论AND新疗法AND肺癌"可能通常返回很少结果 甚至于没有返回结果。而且,结果依赖于所基于的词和布尔查询,对结果基于相关性 进行排序通常不可能。概率搜索法和向量空间4叟索法#^是供了用来处J對青确查询一个更复杂的工具。对 于向量空间检索法,ij琉的文档和查询都以在文本中最重要的词(即关键词)的一个 向量来^4。例如,向量(论文,讨论,新疗法,肺癌》^JJl述查询。数值^4分配 的重要性。在文档和查询被转换为向量后,通常计算在查询向量和文档向量之间的角 度。两个向量之间的角皿小,向f^^目似,或者,换句"^i兌,这些文档越与查询 相似或相关。向量空间查询的结果是在向量空间上与查询相似的一组文档清单。相对 于布尔查询系统,第一个主要改进f议结果能够被排序。第二个主要改itA即使如果 所有查询的词不都在<封可一篇文档中,在大多数f青况下系统可以仍然返回相关的结果。 一般的,查询越精确或全面,结果;^^精确。 信息炎取找到事实当信息检索查询获得了 一个与用户的查询潜在相关的出版物的清单时,用 户仍然必需通过阅读获得的文献以提取相关信息。例如,回到上文查询的例子, 用户可能不会感兴趣于简单的看到描述用于肺癌的新疗法的论文清单,而是可 能更加愿意看到这些新疗法的实际清单。因此,投入了相当大的努力来研究信 息提取的方法。信,y是取(正)的一个重要方法是预定义某个事实或事实组合的模板。例如,一 个生化^不仅包括不同的反应物,iiit常包^劲某介分子(即催化剂)。此外,这种 反应通常位于特定细胞上,甚至位于细胞的特定部分上。提耳堪法将首先搜索文本中 提及一个或多个^ji物的部分,然后例3喊过将细胞类型的名称解释为^1位置,来试图:t賴;f對反。在许多情况下,需^f顿高级自然语言处理(NLP)技术,因为不互 换^Jt和目标是非常重要的。同时,还需要语义分析以提取需要的实际含义。句子"服 用顺铂的肺癌患者显示出一些好转"并不意味着该药物顺柏^JI]于治疗肺癌的。有关 顺钼是一种药物、以刻申癌是一种疾病的知识,将极大的有利于计算"顺输治疗肺癌"的关系。对这种解释的计算工作量i^^过""il殳的信,y企索(IR)的工作量,逸"tW释了为什么对信息炎取(正)的研究和J^L仅仅是近年^特定系统中才产生了足够4青确的结果。鄉"卜发现虽然数字记录信息的爆炸使得^^射口检索ihA畏惧,但同时^ij开了用于知i。波 现的兴趣途径。贯穿人类历史,研究人员结合现有资料与预感制订假设,并随后进行检验。人类吸收信息的能力是有限的,但是,通过处理大量的信息以产生 假设的计算工具在研究中非常有前景。这一领域中两种主要的方式方法被开发 出来,即,相关发现和关联发现。
相关发现
DonSwanson教授的先驱研究获得了已通过实验证明的新的科学假设。参 见Swanson, D.R. "Undiscovered public knowledge", Library Quarterly, 1986; 56: 103-118,其全部内容通过参考而合并入本文。Swanson的々£设是如果一篇科 学论文提及了 A和B之间的关系,并且另 一篇论文指出了 B和C之间的关系, 然后假设,A和C是相关的,这并不需要必须存在这种关系的实际记录。由 于目前的科学是高度专业化和细分化,指出A-B关系的论文可能是专攻于C 的研究者未知和不能理解的。例如,Swanson的第一个发现,爱斯基摩人的饮 食中鱼类较多,摄入鱼油(A)中的脂肪酸被认为能降低血小板聚集和血液教 度(B)。爱斯基摩人因此有关心脏疾病的发病率较低。在一个不相关的研究 雷诺氏疾病(C)的医学训练中,结果发现这类疾病的病人的血液黏度增高并 且血小板聚集(B)。参见Swanson D.R. "Fish oil, Raynaud's Syndrome, and Undiscovered publicKnowledge", Perspectives in Biology and Medicine, 1986; 30: 7-18,其全部内容通过参考而并入本文。鱼油可以改善雷诺氏疾病病人容易出 现的症状的递推关系,在Swanson通过结合在两篇无相关性的科学成果中公开 的信息用公式证明几年后,被得到了证实。在过去的几年中,不同的基于文献 的利用相关性发现原理的发现工具被开发出来。然而,到目前为止,它们都处 于实验阶段,用户友好性不强。
另一个从现有数据推测新关系的方法是采用标准的信息检索工具。这种方 法的关键问题是需要从一个文档世界到一个"目标"世界的转换。 一个目标可 以是代表一个概念或现实实体的任何事物。例如,描述某种疾病的文档可以合 并或集合成对于这种疾病的典型格式。例如,向量空间冲莫型可以很容易地适应 这种转换。描述这种疾病的文档向量可以被合并为一个代表这种疾病的向量。 在这种方式中,文档的集合可以转换为疾病、药物、基因、蛋白质等等的集合。 使用这种方法,发现包括在向量空间中查找与查询目标相关联的目标。例如,
10如果查询目标是"肺癌",并且这种查询是在药物目标的集合中进行的,查询 的排序结果将不仅包括其中与肺癌 一起提及的药物,还包括从未在这种疾病背 景下研究过的药物,这种药物有可能假设用于肺癌的新疗法。类似的,在存储 化学品和药品的目标数据库中使用代表雷诺氏疾病的向量进行的 一个查询将 可能获得现有疗法和潜在的新疗法(诸如鱼油)。这种"目标"方法的一个重 要方面是可以进行任一种目标的搜索,并且可以在任何其他类型的目标中进行 查询。
研究者的需求
科学家一一只是大量数据库的用户的一种,大量数据库例如为互联网一一研究的 一个最常见的动机是理解为何事物会以它们所工作的方式来工作。研究开发多种实验 以复制某些情况并研究它们为何会发生。进行实验往往又是研究者的另 一个主要动 机。
科学项目的生命周期起源于一个或多个科学家的一个创意的诞生,这可能是一个 明确的假设或者只是一种预感。这个创意往往是才財居先前的实马^吉果,该实马^吉果是 报道的知识^M斤假设的结合。ifJ^海量的数据和知识的挑占3l^lff言息和知识的范围众 多的来源最理想的结^^以选#^1有前途的假设。
此外,研究人员不断地扫描科学雷达以发现信息。当前的自动增加要被阅读的 ^仑文堆的电子工具应该一些工具所代替,这些工具净M来整理大部分信息的工具,并
iLX有真正感兴趣的知识刚净ic^^^即将^X现时才发出^^。
之前给出的大量数据库和传统文拟乞掘局限性的问题的解决需要的是用于知识
"f^^^发现的数据结构、系统、方法和计算才Apf呈序产品。这样的数据结构、系统、方
法和计^:財呈序产品应该允许能够对大量数据进行语义搜索、导航、压缩和务賭,以
^f更于i^f封目关的、关耳关的^V或,类型的^^iXJ^J见。

发明内容
本发明的各方面是为了满足上述的需要,通过提供增强的系统、方法^i十^^f呈 序产品,以用于知识"H^p发现,尤其是在知识网络站点背景内的知识"^^^发现。
基于概念或是思想单元而不是文字,用于便利知识^^^发现的数据结构、系统、 方法和计算才財呈序产品独立于语言选#其#^既念表达。对于学习或从事的所在领域,每个^i词表或本体论中的概念、或一个概念的集合被分配一个独特的标识符。
概念的两个1^MI型定义如下(a)源概念,对应于一个查询;和(b)目标4既念,
对应于一个与源概念具有某些关联的概念。通过自身独特的标iavT夺所标记的^"""个概
念,被分酉己最小的三个属性(1)实际值;(2)共现值;和(3)关联值。源概念与 所有与源概念的一个或多个属'f封目关的关联概念(目才封既念)##在一个新的数据结 构中,被称为"Knowlet "。(相关领域的技术人员所认识的,数据结构是在计算机 中^(诸数据的一种方式以便能更有效率的利用数据。通常"H^青心选4N勺数据结构将 使得能^f顿更有效率的算法。"HS殳计良好的数据结构允许能实现多种临^^斜乍,尽 可育t^执行时间和务賭空间上^JI]更少的资源。数據结构通过^^I数据类型来实现, 通过禾踏语言来关联和4斜乍。)
实际^l:4性,F,是一个斗既念是否^皮^^l封居库(即,被给定科学领域和/或人类 努力的^^4页域的科学团^^见为^^的数据库或者^W也信息库)提及的指示。实际值 属性本身不是源概念和目标fe念关联性的逻4利直真或假的指示。
共现值属性,C,是一个源概念与目标书尤念在不被认为是^^性的数据库或者其 ^J丈据库或者知iT岸内的一个文;^元中是否"""^被提及的指示(例如,在同一个句 子中,在同一个段落中,在同一个摘要中等等)。同样,共现^i^I"沐身不是源概念 和目标4既念的关联性的逻4制直真或假的指示。
关联ii4性,A,是这两个概念拟既念上的重叠的指示。
具有F、 C和A三个属性的Knowl改^J^一个"扭无念云"。当在所有被识别的概 念的概念云中创建了相互关系时, 一个"概念空间,,被创建。应当指出,如同数据库 和数據的其他信息4^皮新信息补充一样,Knowkt和它们各自的F、 C和A属性定期 被更新(并且可肖^皮改变)。然后Knowlet和它们各自的F、 C和A属性的集合则3皮 賴在知识数据库中。
在本发明的一个方面,用于知识"^^发现的数据结构、系统、方法^i十算才M呈 序产品利用 一个索可1 H^^l 一个i^词^索;1 一个所给的知识源(例如,文本文字) (也称为"实时高亮显示(hightlightingonthefly)")。然后橫月一个匹配引擎来为^^个 Knowlet创建F、 C和A属性。 一数据库^f诸Knowlet空间。每对Knowlets/概念之间 的语义关耳^4于给定概念空间的F、 C和A属性计^^寻出的。通:&示先前未探索 过的概念之间的可能关联性,^JD Knowlet矩P车^i吾^J巨离^it行知识的整个领域的综合分析。
本发明的一个有利方面是能够提供一种网络或者专利搜索引擎、互联网浏览器插件、维基、或代》划艮务器形式的4叟索工具。
本发明的另一个有利方面是不仅允许用户^^]概念敝出新的(相关的和关联的)发现,还允许这些用户佳月数据库中的作者关系信息找到与概念相关的专家。
本发明的另一个有利方面是它使用新的被称之为"Knowlet"的凝:才居结构,该数据结构允许科学家^JD概念(并且它们自动包括同义字)从一个数据库和一个相关(例如生物医学)本体或JJI词表中做出新(相关的和关联的)发现。
本发明的另一个有利方面是Knowlet使得能够进行精确的信息4企索和提取,以及相关的和关联的发现,knowlet能够应用于在科学说明和解释的4封可l5J'j的任何学科中的^f可内容的集合中。
本发明的又一有利方面是可从万维网或其他4封可数据库中移除冗余重复而不丢
失特有的信息比特,从而获得网页的压缩或"压缩(zipped)"版本以更容易^f渚、搜索和共享。
本发明的又一有利方面是在概念浏览期间,它允许自动建立比人手工更加复杂(和彻底)的互联网搜索查询。
本发明的又一有利方面是它允许通it^人数据库和本体或i^i词a扩充公共数据库和^i^本体或iJI词表,从而构成一个更加完整的概念空间,以具有更好的知识"f^^3J^J见能力。
本发明的又一有利方面是它允许用户更加容易识别涉及用于协力研究目的的与特定概念相关的专家。
本发明的各方面的进一步的特点和优势,以A^发明这些不同方面的结构和操作,将以参考附图和计算机附录清单的方式在下文中详细描述。


本发明的特点和优势将在下文以与附图相结合的方式进##细描述后,变得显而易见,其中类似的附图标记^^相同的或在功能上类似的组成部分。Jt^卜,附图标记猛边的数字指的是附号,在该附图中,该附图标记第一次出现。图1是本发明的一个方面的可被才似亍的示例环嫂的系统图。图2^于实JJ5^发明的示例计算机系统的框图。
图3是根据本发明的一个方面的描述一个示例Knowlet空间的创^t和"f^it禾呈的錄图。
图4是根据本发明的一个方面的描述Knowlet数椐结构的示例组成的框图。
具体实施例方式
本发明的各方面致力于用于在知识网络站点的背景下进行知识导^^口发现的系
统、方法和计算一;i4呈序产品。
在本发明的一个方面,提供^^列如为生^^f究科学家的用户一个自动化工具,允
许他们在一个大型数据库中导航、4臾索和进行知iX^现,数3居库例如为PubMed—一最广泛^f吏用的医药生物凄t据v^-^—,由美国国家医药图书馆(U.S. National Library ofMedicine)提供和维护,PubMed包括ilj朔到1950年代的超过1700万篇医药生物文献的摘要和引文。^j^t一方面,本发明并非只是简单的允许医药生物研究者^^]关键词来实现布尔搜索以找到相关的文献。本发明的一个方面是使用一个全新的数据结构,本文中也称为"Knowlet",允许科学^/人一个数据库和一个相关(例如医药生物)本体或iJI词表中做出新的相关性、关联性和/或^^]概念或思想单元(期夸自动包括在特定的语言中的该概念的所有的同义词)的其#^现,该相关本体或J^I词表例如为美国国家医药图书馆的统一医学语言系统②(UMLS)数据库(United StatesNational Library of Medicine's Unified Medical Language System ), 该数据库中包括了有关医药生物和健康相关概念的信息。
本发明的各个方面现将在此根据上文示例的医药生物研究者使用PubMed数据库和医药生物本体进行更加详尽的描述。这个描述只是提供了方便,并非用于
限制本发明的应用。在阅读了此处的描述后,本领域的技术人员可以理解如何实现本发明各个方面。例如,本发明可以应用于任何下列领域中,特别是其中具有大型数据库、 一个相关的本^/i^l词表、以Ajl]于知i口vf^沐(相关性、关联性、和/或其他)知识发现的需求■ 情报机构可受益于本发明,在一个方面,例如,通过挖掘大量截取的不
同语言的电子由,件和/或^f也信息,建议可疑的Knowlet和关联性,并^l屈文档的大部分看似无关的事实。
■ 金融组织可能受益本发明,在一个方面,通过创建涉;sjij金融交易结构的文档,例如,特别是包括il^责趋势、管理和SEC文档的Knowlet。
■ 法律组织可能受益于本发明,在一个方面,例如,通过分析所有案件和相关的判决,以絲过创建才/^,不仅找到相关文档、专家和判决,并4 与一个特定案件相关大量文档中的概念间的潜在的关系。
■ 商业组织可能受益于本发明,在一个方面,例如,通过4,^/>司拥有的专利和专利申请的数据库,来找到与扭b所披露的类似的、潜在的有可胄^f许可4支絲兴趣的公司,以及通过创建与*或者收购活动有关的公司的知i口J也图。
■ 健康保健组织可能受益于本发明,在一个方面,例如,通过具有科学文献的相关的病人数据库,将允许病A^创建在线"病人Knowlet",并密切注意对于特殊疾病的新的相关信息或能够用于该疾病的新药物;这种病人Knowlet同时还可以服务于罕见疾病的勤il^f究。
术语"用户","最终用户","研究者","客户","专家","作者","科学家","公众"和/或这些术i吾的复^^i(^文中可替换的使用,用来指那些为了知识"f^和发现目的,能够利用、^Jf]本发明所提供的工具的A^主体、被本发明所提供的工具所影响的Ail主体、和/或受益于本发明所提供的工具的Ail主体。
系统
图1所示为根据本发明的一个方面的多个硬件组成部^^口其^M争征的示例系统图100。如图1所示,本发明的一个方面,用户101通过终端102输7v^]于在该系统中使用的数据和^f也信息和服务,终端102例如为一台个人计算机(PC)、微型电脑、膝上型电脑、掌上电脑、计算机主机、《斜几、电话设备、移动设备、个人数字助理(PDA)或^f也具有处理器和输7^^示能力的设备。终端102通过网络104和通itit信连接103和105连接到服务器106,服务器106例如为一台PC、微型电脑、计算机主机、微才/L^其它具有处理器和数据库或连接到数据库的设备,网络104例如为互联网。
本领域技术人员在阅读了此处的说明书之后就能认识到,在这一方面,服务提供者可以允许在免费注册、付费用户和/或使用付费的基础上,通过在互
联网104上的万维网(WWW)站点使用知识导航和发现工具。因此,系统IOO是可扩展的,以便多个用户、实体或组织可以订阅和利用,以使得它们的用户101 (即那些愿意进行研究的科学家、研究者、作者和/或大量公众)来搜索、提交查询、查看结果、以及通常地操作与系统IOO关联的数据库和工具。
相关领域技术人员同样可以理解的是,本发明的可选的方面可以包括提供用于知识导航和发现的工具作为单机系统(例如装载入一台PC中)或作为一个企业级系统,其系统100的所有组成部分通过安全的企业广域网(WAN)或局域网(LAN)来进行连接和通信,而并非如图1中所示的Web网络服务。
相关领域技术人员同样可以理解的是,在一个方面,图形用户接口 (GUI)屏幕可以通过服务器106产生,以响应从用户IOI基于互联网104的输入。也就是说,在这一个方面,服务器106是一个典型的Web网络服务器,运行一个在网站上的服务程序,其发出网页以响应从用户使用的远程浏览器超文本传输协议(HTTP)或安全的超文本传输协议(HTTPS)的请求。因此,服务器106(在执行下文所述的进程300的任何步骤时)能够以网页的形式为系统100的用户提供一个GUI。这些网页发送到用户的PC、膝上型电脑、移动设备、PDA或者类似的设备102上,并以GUI屏幕的结果呈现(例如,附图9-28中的屏幕)。
Knowlet
在本发明的各方面,使用一种被称为"Knowlet"的新的数据元素或数据结构来实现轻快存储、精确的信息检索和提取、以及相关性、关联性和/或其他发现。也就是说, 一个相关的本体或主题词表中的每个概念(在科学解释的任何级别的任何学科中)可以通过一个Knowlet来表示,这样,其为在概念空间上通过实际值信息提取、基于关系和关联的共现(例如向量式的)的组合而获得的概念的语义表现。在所讨论的概念与相关的本体或主题词表中的所有其他概念之间的关于一个或多个相关的数据库的实际值(F )、文本共现值(C )、以及关联值(A)属性或值被存储在每个单独的概念的Knowlet中。
在一个方面,Knowlet可以采用Zope的形式(一种开源、面向对象的网络应用服务,由Python程序语言写成,该程序语言由弗吉尼亚州的弗雷德里克斯堡的Zope公司在Zope公共许可条款之下发布)数据元素,其存储源概念 和它的所有目标概念之间的关系的所有形式,包括对这些目标概念的语义关联 的值。
如将被在下文中更详细说明的,使用这样的Knowlet,可以计算一个"语 义距离,,(或"语义相关性")值并显示给用户。语义距离是在一个已定义的向 量空间中的两个概念之间的距离或接近度,其能够基于用来创建概念空间的数 据库或数据信息库(即文档的集合)而不同,还可以基于用来定义两个概念之 间的匹配的匹配控制逻辑、和给实际值(F)、共现值(C)、和关联值(A)属 性的相对权重而不同。这种方法的目的是为了复制人类大脑联想推理功能的关 键要素。正如人类使用关联矩阵的概念"他们知道(they know about)"来阅 读和理解一个文本,本发明的各方面就是寻求将人类思想这种巨大的和多样化
的力量应用于数据存储或者数据的收藏。以上所给出的,本发明的各方面能够 在给定文本中"覆盖,,概念,例如用实际值、共现值和关联值属性。然而,本 领域普通技术人员应该认识到,可以使用任何数量的属性,只要这些属性代表 了可以连接一个给定的概念和另 一个概念相关性。
计算机程序附录清单1提供了一个根据本发明的一个方面示例Knowlet 的现有XML表示。在本发明的这样一个方面中,Knowlet能够输出到标准本 体和Web语言中,例如资源描述框架(RDF )和网络本体语言(OWL )。因此, 使用这些语言的任何应用程序可以能够使用本发明的Knowlet结果,以便使用 例如为SPARQL协议和RDF查询语言的程序来进行推理和查询。
方法
在本发明的一个方面,提供给用户101 —个搜索工具用于知识导航和发 现。在这样一个示例方面中,提供给用户一个自动化工具来允许他们在一个例 如为PubMed的大型数据库中导航、搜索和进行知识发现,该用户例如为医药 生物研究科学家。
参考图3,所示流程图描述了一个根据本发明的一个方面的自动化工具的 Knowlet空间创建和导航进程300。进程300开始于步骤302并在控制下立即 转到步骤304。在本发明的这一个方面,步骤304将系统100连4妻到一个或多个数据库(例 如PubMed),该数据库包含用户寻求导航、搜索和发现的知识。
在本发明的这一个方面,步骤306将系统连接到一个或多个与数据库相关 的本体或主题词表。因此,例如,若数据库是一个医药生物摘要库,本体可能 是一个或多个下列本体,特别是UMLS (截止2006年,UMLS包含了超过 了 1, 300, 00个扭克念);UniProtKB/Swiss-Prot蛋白质知识库,建立于1986 年的一个具有注释的蛋白质序列数据库;IntAct, 一个可自由使用的、开源数 据库系统,从数据保藏的文献和直接用户提交得到的蛋白质相互作用数据; Gene Ontology (GO)数据库, 一种以非物种方式按照他们关联的生化过程、 细胞组成和分子功能描述的一个基因产品的本体;等等。
在阅读了此处的说明书之后,相关领域技术人员应该理解的是,本发明的 各方面不依赖于语言,并且每一个概念被给予一个唯一的凄t字标识,并且该才既 念的同义词(无论是在相同的自然语言、术语中还是不同的语言中)也将被给 予相同的数字标识。这有助于用户以非特定(或依赖)语言方式导航、搜索和 进行发现活动。
在本发明的这一个方面,步骤308检查数据库的每一条记录(例如检查 PubMed数据库的每一条摘要),标记出现在每一条记录中的来自于本体(例 如,ULMS )的概念,并建立一个索引,以记录在每一条记录(例如,在PubMed 中的每一条摘要)发现的每一个概念的位置。在一个方面,在步骤308中建立 的索引是通过利用一个索引器(有时称为标注器)来完成的,这是本领域中所 熟知的。在这样一个方面,索引器为命名实体识别(NER)索引器(其利用一 个或多个与在步骤306中载入的与数据库相关的本体或主题词表),例如由 Biosemantics Group,医学信息部,荷兰鹿特丹的伊拉斯姆斯大学医学中心开 发的Peregrine索引器;文献Schuemie M., Jelier R., Kors J., "Peregrine: Lightweight Gene Name Normalization by Dictionary Lookup", Proceedings of Biocreative 2中对该索引器进行了描述,本文在此通过参考并入其全部内容。 其他的NER索引器的例子包括ClearForest Tagging Engine ,由马萨诸塞州的 Waltham大学的Rueters/ClearForest提供;GENIA Tagger,由东京大学科技学 院科学信息部提供;iHOP服务,由http:www.ihop-net.org提供;IPA由加州雷德J五德、;成的Ingenutity Systems才是供;Insight DiscovererTM Extractor, 由法国巴 黎的Temis S.A.提供;等等。
在本发明的一个方面,步骤310为本体中每个概念创建一个Knowlet,其 "记录"该概念和概念空间中所有其他概念之间的相关性(例如语义距离/关 联性)。在这样的一个方面,由于在步骤306中载入了概念,可以使用一个搜 索引擎,例如Lucene Search Engine,用于搜索数据库,并使用在步骤308中 创建的索引来确定概念之间的相关性。在这个例子中使用的Lucene Search Engine,由Apache软件基金会提供,其具有以Java语言写成高性能、全功能 的文本搜索引擎库,并适合于几乎任何需要全文本(特别是跨平台)搜索的应 用。
在本发明的这样一个方面,步骤312创建并在系统中存储(例如,存储在 与服务器106相关^l々数据库中) 一个"Knowlet空间"(或是概念空间),该 "Knowlet空间"是在步骤310中创建的所有Knowlet的一个集合,因此形成 一个更大的、动态的本体。因此,如果本体包含有N个概念,Knowlet空间可 以是(最多是) 一个[N]x[N-l]x[3]矩阵,具体以实际值(F)、共现值(C) 和关联值(A)的方式,描述了这N个概念中的每个概念与其他N-1个概念之 间的关系。在本发明的这样一个方面,步骤312包括为每个概念对计算F、 C 和A属性(或值)的步骤。因此,Knowlet空间是一个基于所有Knowlet的虚 拟概念空间,其中每个概念是其自身Knowlet的一个源概念,同时也是所有其 他Knowlet的一个目标概念。(当对于一个特定的源/目标概念组合,F、 C或A 值在Knowlet内是非零时,本文中分别表示为F+、 C+或A+状态。并且,当它 们的值是小于或者等于零时,分别表示为F-、 C-或A-。)
在阅读了此处的说明书之后,相关领域中的技术人员可以理解的是,在本 发明的这个方面,若本体是UMLS,N可以在数量级上超过1,000,000。
然而,如上所述,本发明的一个方面致力于任何数量属性的使用。因此, 在这样一个方面,Knowlet空间可以表示为[N]x[N-l]x[Z]矩阵,具体描述了 N个概念中的每个概念与所有其他N-l个概念之间关于Z个属性中的每个属 性的关系。在本发明的这样一个方面,步骤312可能包括用于为每个概念对计 算Z个属性(值)的步骤。在阅读了此处的说明书之后,相关领域中的技术人员可以理解的是,在本
发明这一方面中,Knowlet空间可以通过减少Knowlet的[N-1]部分,而被构建 得比[N] x [N-l] x [Z]矩阵更小(并因此对计算机内存和处理进程而更加优化)。 这是这样实现的,每个概念是其自身的Knowlet的源概念,源概念的Knowlet 中的目标概念仅包括任一 Z属性值为正的N-l目标概念子集。
在本发明的这一方面,其中步骤312包括为每个概念对计算F、 C和A属 性(或值)的步骤,例如,F值可以通过两个概念之间的实际相关性确定,该 实际相关性的确定通过分析数据库而获得。在本发明的一个方面,检查<名词 ><动词><名词> (或者<扭克念><关系><^既念>)三元组以推导出实际相关性(例 如,"疟疾","传播"和"蚊子")。因此F值可能是,例如,零(没有实际相 关性)或一 (具有实际相关性),这取决于对在步骤304装载的一个或多个数 据库的搜索。
在本发明的一个方面,尽管实际F值是零或一,本领域的普通技术人员仍 应认识到,实际属性F可能会考虑到一个或多个权重因数的影响,例如由主题 词表定义的概念的语义类型。例如, <基因>和<疾病〉比<基因>和<铅笔>,更 具有意义相关性,这将反过来影响F值。在这个例子中,F值取决于在本领域 科学界所接受的权威数据源中,例如为PubMed中,的实际相关性的存在(或 不存在)。然而,对于本领域普通技术人员显而易见的是,F值并非是概念或 者相关性的正确性或真实性的指示,其可能取决于其他因素。此外,数据库中, 因素的重复对于单独文本(例如论文)的可读性是很大的值,但是因素本身是 信息的一个单独单元,并且不需要在Knowlet空间重复。在数据库的"原始文 献,,中的因素重复水平和因素为"真"的可能性之间具有一个直观关系,但是 即使多次重复并不能保证一个因素真的为真。因此,本发明的一个方面,假定 超出了一个预定的阈值后,因素的更多重复并不增加实际表现为真的可能性。
C值是通过两个概念之间的共现的相关性来决定的,通过它们是否出现在 同一个文本组(例如,每一句,每一段,或者每x个字)中来决定的。在本发 明的一个方面,C值的范围由零到0.5,基于在数据库中发现两个概念共现的 次数数量。共现可能会考虑一个或多个权重因数而决定,例如在数据库中概念 的语义类型。C值可能因此而受影响于, 一个或多个权重。也就是,如果考虑到<药>和<疾病>同时出现在一个相同的文本组(例如,句子)中,这是事实 上的共现。但是,如果<药>和<城市>,同时出现在一个相同的句子中,根据 本发明的一个方面,共现的相关性就有着比较小的指示。
A值取决于两个概念之间的关联相关性。在一个例子中,A值范围可能由 零到0.4,取决于概念串的多维排列处理结果(即n维空间),其探究两个概念 之间在数据库中的相似或非相似。A值是两个概念在概念上的重叠的指示。在 一个例子中,两个概念在多维概念串中越接近,它们之间的关联值A越高。 如果在概念上重叠的很小或没有,关联值A就将接近零。
两个概念之间的间接关联是基于匹配它们单独的"概念配置文件,,而计算 得出的。 一个^f既念配置文件构造如下对于在装载到系统100的数据库中建立 的每一个概念,与特定概念具有显著关联的许多记录被检索出来。在某些方面,
高精度有利于作为付费信息检索的回应。因此,构建一个概念的最低限度清单, 但是上至一个预订阈值(例如250),在数据库中选择与源概念"相关"的记 录(例如在PubMed的摘要中)。通过所有返回的记录基于术语学的概念指数 (例如一个PubMed的摘要)构建一个排序的概念清单,随后由加权聚合到概 念的一个清单。在这个清单中列出的概念与源概念高度关联。这个清单现在可 以表示成在多维空间的向量,并且计算出每个向量对的关联度(A)。这个关 联度被记录为在Knowlet中的A值,介于0和1之间。因此,即使对于这些 概念之间的F和C参数是负的,正的关联度A超过了统计定义的阈值,这可 能指示在他们各自的概念配置文件上具有显著的概念上的重叠,而提出一个至 今不明确的相关性。阈值可以通过比较某些语义类型的非相关概念的概念配置 文件与那些被i人为相互作用的概念配置匹配计算得出。(例如,在Swiss-Prot 和IntAct中不被认为相互作用的所有蛋白质与被认为相互作用的所有蛋白质 的比较)。
在本发明的一个方面中,对于一个给定概念对,其F值不为正值,C值也 不为正值的情况,仍然可能存在概念之间对于有意义的相关性的间接证据,即 使其关联性仅仅是隐含的。这种关联性关系在Knowlet中被取值作为第三个参 数,A。在本发明的一个方面,参数A代表了 Knowlet最被关注的一个方面(例 如,当在下文中以"发现"模式使用系统100时)。当因数由C+和F-状态转变为F+状态时,在系统100中装载的数据库变得更加实际一致。但是,把一 个概念组合由F-、 C-和A+状态转到F+状态将使得既产生新共现和因数的缺 失,更加重要的是,还可能通过计算机模拟(in silico)推理而实际上成为知 识发现进程中的一部分。(以及潜在的,后来通过实验室的实验证实的基于文 献的假设)。
在阅读了说明书之后,相关领域技术人员可以理解的是,步骤304到312 可能周期性的重复,以便获得对于数据库(例如,PubMed中的新摘要)和/ 或本体(即,新概念)的更新。
在本发明的一个方面,步骤314接收来自于一个用户由一个或多个源概念 组成的搜索查询。(即, 一个选定的概念,作为在4既念空间内用于知识导航和 发现的开始点)。
在本发明的一个方面,步骤316执行在Knowlet空间内查找并计算对于所 有N-1个潜在的与源概念相关的目标概念的语义距离(SD),并产生一组目标 概念(即,在扭克念空间中和源概念具有相关性的积克念)。在一个方面,例如, 系统可能返回一组在Knowlet空间中计算出的SD值最高的50个目标概念。
在这样的一方面,语义距离可由下列公式计算
SD二v^F+W2C+W3A;
其中wt 、 w2和W3是分别分配给F、 C和A值的权重。在阅读了说明书 之后,相关领域的技术人员可以理解的是,用户可能会在不同的模式下查询系
统,其将自动调整W, 、 W2和W3值。例如,在"背景"模式下,用户只想要
简单的实际值,背景^^支术信息,w。 w2和W3可以^皮分别i殳定为1.0、 0.0和 0.0。在另一个例子中,在"发现"模式下,用户只想要高度的关联性关系, Wi 、 w2 和W3可以被分别设定为1.0、 0.5和2.0。在本发明的其他方面,F、 C和A值可以在不同的模式下,通过不同的因数或特性(例如,通过语义类 型)被乘以权重。因此,SD (语义关联性)是基于权重实际值、共现值和关 联值信息的在一个源概念和目标概念之间计算出来的语义相关性。
在本发明的一个方面,步骤318通过GUI将目标概念呈现给用户,这样 一来用户可以查看源概念、目标概念组(依据F 、 C 、 A和/或SD值进行彩色
22编码)和在数据库(即PubMed摘要)中的对于SD计算得出的相关性为勤出 的记录清单。然后进程300如步骤320中所示终止。
参考图4,其为才艮据本发明的一个方面描述的由进程300产生的Knowlet 数据结构400的组成部分的示例框图。
在本发明的一个方面,其中^R供给例如为生物医药研究科学家的用户一个 自动工具,以允许他们导航、搜索和执行知识发现,在生物医药文献中的任何 概念,例如为蛋白质或疾病,能够被当作一个源概念来处理(在图4中描述为 蓝色的球)。在权威凝:据库中,例如UMLS或者UniProtKB/Swiss-Prot中,可 能有关于概念和其与其他概念的实际相关性信息。获得了这个信息,与源概念 具有一个"实际"相关性的在任何多方数据库中的所有才既念因此也包括在了该 概念的Knowlet中。这种"实际关联的概念"在附图4的可视化的Knowlet 中以实心绿色球表示。
另外,源概念可能在文献中在一个和相同的句子中与其他概念一起被提 及。在那种情况下,特别是当两个概念共同出现在多个句子中,对于两个概念 之间的相关性具有很大意义的可能性,或者甚至是因果关系。大多数具有的实 际相关性的概念可能在大量文献中被一个或多个句子提及,但是作为进程300 可能仅仅在一个数据库中挖掘(例如PubMed),这其中的许多实际关联性可 能不容易从这样的单独的数据库中找到。例如,许多在UniProtKB/Swiss-Prot 中描述的蛋白质-蛋白质之间的相互作用并不能在PubMed中被作为共同出现 而发现。目标概念其在同一个句子中和源概念共同最少出现一次,在附图4 的可视化Knowlet中被描绘为绿色的环。
最后 一 类概念是由数据库中的索引记录中那些没有同时出现的每单位文 本所形成(例如, 一个句子),但是有足够多的概念与它们自己的Knowlet中 与源概念具有相同的潜在关系。这些概念在图4中被描述为黄色的环并表示隐 含的关联。每一个源概念与其它的(目标)概念有不同的关系,每一个这样的距 离被指定一个表示实际值(F)、共现(C)和关联值(A)因素的值。基于这些 值来计算确定每一个概念对之间的语意关联性(或者SD值)。
在本发明的另一个方面,用户可以输入两个或更多的源概念。在这样一个方面, 系统生成一套与所有源概念相关的目才封既念。在阅读it^的说明^,相关领域的技术人员能够认识到,这样的方面可以作为更好的IR或者搜索引擎。即,在步骤304 加载入系统的一个或多个数据库中源概念A和B可能没有实际值(F)或者共现(C) 关系。这样,^f亍一个传统的布尔/关键词搜索时传统的搜索引擎可負谈回空的结果。 但是如果利用Knowlet空间,本发明能够获得可将源概念A和B相关联的链接 起来的目标概念。
在本发明的另一个方面,上面描述的步骤308和310能够通过索引凄史据库 中记录的作者来扩展(例如,摘要出现在PubMed中的出版物的作者)。在本 发明这样的一个方面,不仅是N个概念在Knowlet空间中互相映射而且M个 作者的整体也唯一的映射到N个概念,从而Knowlet空间是[N+M] x [N+M-l] x 3的矩阵(即,概念空间中每一个概念有一个Knowlet,每一个作者也有一个 Knowlet )。在阅读il^的说明^相关领域的技术人员能够认识到,这样的方面将 允许用户为了合作研究的目的^^易的识别与特定概斜目关的专家。
在阅读i^E的说明^相关领域的技术人员能够认识到,在本发明的这些方面中 M个作者的整体也唯一的映射到N个概念,从而Knowlet空间是[N+M〗x [N+M-l] x 3的矩阵(假设Z属性值是3 ),系统100中的用户可以使用许多有 用的工具。在这样的一个方面,可以对出现在步骤304所载入的系统中的数据 库中的M个作者中的每一个计算各种贡献因素。贡献因素将那些仅仅多产的 作者(例如,拥有大量的出版物)与那些具有"创新"的作者(即,那些作者 的工作使得两个概念在Knowlet空间中第一次共现)区别开来。在阅读这里的 说明^相关领域的技#员能够认识到,给定Knowlet空间和存储在其中的F、 C、 A参数,可以用很多种方法计算贡献因素(例如,贡献因素可以基于每个 句子、每篇文章、或者其它基础)。 一般来说贡献因素也可基于一个句子、多 个句子、 一个摘要或者文档、或者一个出版物。
在本发明的另一个方面,在阅读这里的说明之后相关领域的技术人员能够认识 到,在步骤304^AfiJ系统中的数据库中发现的^f可图片(例如,在数据库中的文章 中发现的图片)或者^^可其它图片知"i尸v!争中发现的图片,可能与步骤308中的N个概 念中的4P个相关。然后这些图片在Knowlet空间中可以被索引或者引用,并用作 另一个数据点(或者域),通过这些数据点(或者域)可以运行本文中所描述 的用于导航、搜索和执行发现活动的工具。在本发明的另一个方面,在阅读这里的说明之后相关领域的技术人员能够认识
到,由上面描述的步骤304 -312的并行产生的两个独立的Knowlet (或概念)空间 可以被比较或者搜索以帮助知识导航和发现过程。即, 一个使用来自第一研究 域的数据库和知识本体创建的Knowlet空间可以与 一个使用来自第二 (例如, 相关的)研究域的数据库和知识本体创建的Knowlet空间相比较。在一个方面, 如果在一个本体或资源上的查询不能返回结果,本发明可以提供一个指示,基 于Knowlet空间,可以从来自于另 一个知识本体和主题词表的Knowlet空间中 发现一个或多个相关结果。
在本发明的其他方面,用于导航、搜索和执行发现活动的工具可以用企业模 式提供以使经授权的一批用户使用(例如,在营利性实体的R&D部门中的研 究科学家、在大学中的研究科学家等等)。在这样一个方面,载入系统的一个 或多个(公共)数据库能够通过一个或者多个私有数据库(例如,内部的、不 公开的R&D)扩展和/或载入系统的一个或多个(7>共)知识本体和主题词表 可以通过一个或者多个私有知识本体和主题词表扩展。在这样一个方面,公共 的和私有的数据混合体提供更完整的(以及,如果需要的话,私有的)概念空 间和更好的知识导航和发现能力。在这样一个方面,载入系统的一个或多个私 有数据库可以是企业中作者未公开的文章。例如,这允许企业中的作者在文章 公开出版之前捕获和识别Knowlet空间中新的共现性。
在本发明的其它方面,用于导航、搜索和执行发现活动的工具可以为用户 提供一个或多个安全选项。例如,在本发明的一个方面,在步骤312—个通过 使用私有数据库(例如,内部的,不/>开的R&D)和/或一个或多个私有知识 本体或主题词表创建的Knowlet空间可以以加密方式存储在系统100中。在本 发明的这样一个方面中,在阅读这里的说明^相关领域的技术人员能够认识到, 一个加密过程可以应用到Knowlet空间以便只有那些拥有解码密钥的人(例如, 授权用户)可以解密Knowlet空间。
实现示例
本发明的各方面,本文描述的方法或者其任何部分和功能可以使用硬件, 软件或者它们的混合体实现,并可以用 一个或多个计算才几系统或其他处理系统 来实现。但是,由本发明执行的操作通常涉及的术语,例如增加或者比较,其一般与人类操作员执行的智力操作相关。在大多数情况下,以及在这里描述的 任何一个形成本发明一部分的操作中,人类操作员的这样的能力并不是必须 的、或者期望的。更确切的说,操作是机器操作。执行本发明操作的有用的机 器包括通用目的的数字计算机或相似装置。
事实上,在一个方面,本发明指的是一个或多个能够执行本文所描述的功
能的一个和多个计算机系统。 一个计算机系统200的例子如图2所示。
计算机系统200包括一个或多个处理器,例如处理器204。处理器204连 接到通信基础设施206 (例如,通信总线,交叉杆,或者网络)。根据这个示 范性计算机系统描述各个不同的软件方面。在阅读说明书之后,对相关领域扭、 术人员来说怎样使用其他计算机系统和/或架构实现本发明是很显然的。
计算机系统200可包括显示接口 202,可将图片、文本和其它来自通讯基 础设施206 (或者来自未示出的帧緩存)的数据送去显示在显示单元230上。
计算机系统200也包括主存储器208,优选的是随机存取存储器(RAM), 也可以包括第二存储器210。例如,第二存储器210可以包括一个硬盘驱动器 212和/或可移除存储驱动器214,表示为软盘驱动器、^磁带驱动器、光盘存储 器等等。可移除存储驱动器214以公知的方式读取和/或写入可移除存储单元
磁带、光盘等等。可以理解的是,可移除存储单元218包括计算机可用的具有 存储在其上的软件和/或数据的存储媒体。
在可选地方面,第二存储器210可以包括其他类似的装置以允许计算机程 序或其它指令载入计算机系统200。例如,这样的装置可以包括可移除存储单 元222和接口 220。这样的例子可以包括程序盒式存储器和盒式存储器接口(例 如在视频游戏装置中的那种)、可移除存储器芯片(例如可擦写可编程的只读 存储器(EPROM)、或者可编程只读存储器(PROM))和相关的插座、和其 它可移除存储单元222和接口 220,以允许软件和数据从可移除存储单元222 传送到计算机系统200。
计算机系统200还可以包括一个通信接口 224。通信接口 224允许软件和 数据在计算机系统200和外部设备之间传输。通信接口 224的例子包括调制解调器、网络接口 (例如,以太网卡)、通信端口、个人计算机内存卡国际联合
会(PCMCIA)插槽和卡等等。通过通信接口 224传输的软件和数据是以信号 228的形式,其可以是电的、电磁的、光学的或其他能够被通信接口 224接收 的信号。这些信号228通过通信路径(例如,通道)226提供给通信接口 224。 这个通道226传输信号228,可以使用电线或线缆、光纤、电话线、蜂窝链路、 无线频率(RF)链路和其它通信通道实现。
在这个文档中,术语"计算机程序媒体"和"计算机可用媒体"通常指的 是,例如可移除存储驱动器214、安装在硬盘驱动器212上的硬盘和信号228。 这些计算机程序产品提供软件给计算机系统200。本发明即是针对这样的计算
机程序产 品o
计算机程序(也也表示为计算机控制逻辑)存储在主存储器208和/或第 二存储器210中。计算机程序也可以通过通信接口 224接收,所述计算机程序 被执行时,能使得计算机系统200执行本文所讨论的本发明的特征。特别地, 计算机程序在执行时使得处理器204完成本发明的特征。因此,这样的程序产 品代表计算机系统200的控制器。
在本发明使用软件实现的这个方面,软件可以存储在计算机程序产品中并 使用可移除存储驱动器214、硬盘驱动器212或通信接口 224载入到计算机系 统200。控制逻辑(软件)由处理器204执行时,使得处理器204完成本文描 述的本发明的功能。
在另一个方面,本发明主要以硬件实现,例如使用硬件组件,如专用集成 电路(ASICs )。用来执行本文描述的功能的硬件状态机的实现对相关领域的 技术人员来说是显然的。
在另一个方面,本发明使用软件和硬件的结合来实现。
结论
因为本发明的各个方面都在上面进行了描述,容易理解的是他们用举例的 方式表示,但并不用于限制。对相关领域的技术人员来说显然的是可以作出各 种形式的改变和细节而不脱离本发明的精神和范围。因此,本发明不受任何上 述示例所限制,仅根据随后的权利要求及其等同的方式所定义。另夕卜,容易理解的是附件中显示的可以突出本发明优势和功能的附图仅仅 是为了说明性目的。本发明的结构非常灵活和可配置以致于它可以通过除了显 示在相关附图中方式的其它方式被使用(被导航)。
进一步的,前述摘要的目的一般是为了使美国专利和商标局和公众,尤其 是不熟悉专利或法律条款或措辞的科学家、工程师、相关领域从业者快速判断 出本技术公开的粗略查看的性质和本质。摘要并非是要将本发明的范围限制为 任一方式。计算机程序清单附录l
当结合所附的计算才財呈序列表附录l来阅读上文的详细描述时,本发明的优势和 特征将变得更清楚。本专利文档公开的这^^分包括受版权保护的内容。当它出J脉 专利和商标局的专利文件或记录中时,版权拥有者并不反对^f可人的对专利文档或专 利的公开内容的复制, <錄别的情况下保留所有的版*^又利。<info><sourcss><;/-lBn 5BJ,=sdx) -s&BI3A-BsnslsBq,=3ls 1 ,=P! OJUJ-UOPB-alv£61001</」Bn 5BJ-=3d/cl ,3Jnp30OJdlp3JBi00SSB.,SBq,=3SJ -oz-I-=p! OJU一-uojlB一9JV161001</JBapBJ-=3dxl ,/cso一oqdJolelp31B!。OSSB—SBq,"3一l一J -69l-=p! OJU!-uo一JBI3JV06100<z-lBn SJ-=sdxJ ,SU一PU1JIP3S!OOSSBISBH-U31J一J ,89l-=PJ OJU一-UOJSIalv68100</-l。BJ.=3dxl -q§JddBISBq,=ssl ,卜9l-=p! 。JU;-U。一1B一3JV881001</-u.=3d/c,ioi。lloBISJU s9l-=p! OJU一-JB一aJV98100</-ll。BJ-=3d/CJ l一p3J3u「3A!SBISBqu一J .寸9 l-=p! 。JU!-uo一JB一3JVSSIOOI<y2-=3CKJ JOIS30H -09I-=P! 。JU一-U。13JV18100A一snof 3d/c! JOIS!SISU!H!J -6S TP! 。JU一-uol3JV 108100A一BfuoBJ.U3CKl J0I1X3UI8I加U一PUJJ-H3一1一1 -8Sl.=P! OJUI-uo!lB一aJV6卜I00J</JE3。BJ,=3dxl JOIEJOJ—p3PUBdx3,"3一芸-9S l-=p! qJU一-uo!JBPJV卜卜loo</-l2rpBJ,=3dxJ 、qlp3J一q!lpc-卩3一s -寸sl.=P! OJU一-uo!lBPJV ls卜IOO</-l。BJ,=9d/cl -3sslxqlpspo。5.=3-JP ,op=p! 。JU一-U。13JV 一UIOOA一Bnpf 3C!XJ -oranl一l!J -6 =p! OJU一-uon> lo卜IoolK6e:/9S城 ffir K" 每 6 .寸el8I00880s09。oo0000 0000as.Z61m ON2卜00 ON
'H1l-||ll ■a all、 o II力-" a1,-|,
cCc2c2c2<2c:c2<2Cc2G
M6C/AS城 ff 浮每 6 一CI8T00880S
l卜ISO一
9TS0一
一soo一
n亂
l卜oi一
一zoi

86100
196§

S6I00一
.uo一l3J一UBm 1BU0SUJJ3PISBf 3一J一J -081-=p! 0JU
-U0PB一3JV
<Z」BI5BVSIX1 -SSJil J,H3jl!J -6Z-I-"p! OJU一-uo一lB一3JV
</-uyEg-=adc- upu一芸UOOISBq-"3一s -8z;l.=p! OJU一-UOHB一3JV
</,IBnpBJ-=3dxJ -s5plp3Jsjpu!BJJU0。ISBqu!; -Z21,=PJ OJU一-UOPB一SJV
</-lsnsBJ-=。dxl ,JJBdl一BnJcb3u8ISBqm!1,9卜I-UP! 0JU一-U0一1B一3JV
<y,ll。SJ.=SSJ -芸uodlsslsBm一J!J .SZ-I-HP! OJU!-uo!lBPJV
A、-一BnpBV3dx j -ysol ond Jill。3J! pu一.
</,一 Js .=u§ ,3J一S—3U一PUU,
<z」BnJ。BJ,=3CLCl -uo一
<7.一 JOSV3dxJ ,JOS!A一P,
</,IBnJ3BJ-=3d/CJ ,3一!sl3Jnp30OJdl:p3J!p,
<Z-I JodT3dxl ,8一A3PJ8J!PI
,J,"3一1!J -96l.=p! 。JU!-U。!JB一3JV
■ Ju一l -161.=P! 。JU!-U
,SBqml ,06I-=P! 。JU!-UC33JV
■SBH-=3SJ ,98l.=p! 。JU一-U。13JV
.JHJ!J -SL=P! 。JU一-U。一JB一3JV
.s JU!J -sl.=p! OJU一-JB一3JV
.sf § -I8l-=p! OJU一-uol3JV00219<rdation-info〈relation墨info<relation-info
00236<relation-info<relation-info
id-'199, title-'has一ingredient' type-'factuar>
id-'200' title='has_intent' type='factual7>
id='20r tkle=,has_interpretation' type=,factuar/i>
id-'202' title='has」atera
ity' type=,factuaI'A>
id-,203' title='has—location' type=,factual'/>
id-'204' title='has_nianifestation, type='factual,/>
id-,205, tkle='has_measurement—method' type='factuar/>
id-'206' title='has_mechanism—of—action' type='factual'/>
id-'207' title-'has一member, type='factual7>
id-,208' title=,has_method, type=,factual'/>
id-'209, title=,has—multi—level—category' type=,factual7>
id-,210' title='has—occurrence' type-'factuaD
id-'211' title='has—onset, type=,factual,/>
kH,212' title='has—outcome' type='factual7>
id-'213, title=,has_part' type-'factual7>
id-'214' title='has_pathological_process, type='factual,/>
id=,215' tiUe=,has_permuted—tenn' type-,factuaD
id-,216' title='has_pharmacokinetics, type=,factual7>
id-,217, title='has_physiologic—effect' type-'factual,/i>
id-,218, title='has_plain—text_form' type='factual7>
id-'219, title-,hasjrecise一ingredient' type=,factual7>
id-'220' titie='has_priority' type='factual'/i>
id-'221' tide='has_procedure—context' type='factuaiy>
id-,222' title-'hasjrocedure一device' type='factual,/i>
id-'223' title=,has_procedure—morphology' type='factual'/><Z-I2tpej,=3dxl -JX31u8llsodlsrsBq-=3s
,寸寸dp! OJU一-uonB一3JV lsso
</JBnpB.J,=3dxl -Eas/<SISBq,=3l5 -£172.=p! 0JU一-U0!1B一3JV I£9S01
</-lBS。BJ-=3d/ct ,p5JS/cs.5dnslsBq,=3IJjl ,Z寸L"P! OJU一-UOPB13JVZ9a5
AlES3BJ.U3dx -XWJnslsBq-=3SJ,i OJU!-UOPB一3JV f I9S0
</-IBnsBJ,=3dxl
,JX31u8ld!qsJlBl3.n:s「qnslJ.=315 .o寸z-up! 。JU!-U013J> 109S01
AFnsBJ,=sdxt ,15Pqgdslsl3q,"3一芸-6£z.=p! OJU!-uo!WBl2>6SS01
<z-FS。BJ-=3dxl - SBlsqnslgpIP3dslsBl--=9SJ -8£"=p! 0JU!-U0!1BI3JV8SS01
-xqd230dor.30Jnoslu3le〖33dslsBq,=3sl -z,〔z-=p! 0JU一-U0一1B13JV 一卜s201
-x3010qdJOEI3iosluip3dsl.J.=3IJP -9£z.=p! 。JU一-U0一1B13JV9SZ001
〈/,IBnpBJ,=3dxJ ,XJOS31BOII3yv3「3一3u一SISBq,H3一J一l ,££2-=p! 0JUI-U0一1BPJV£sso
</-lBnpBJ,=3dxl -3dxr3ISSISBq-=3sl -os-=p! OJU!-UOPB一alvossol
</,lBS3BJ,=3d/CJ ins3JISBq.=3ls CJU一-U0!1B13JV8寸s01
<7--B3PBJ-=3CKl ,XJ。33J5IJ Jdp3JISBmJP卜zz-up! OJU一-JBI3JVz-寸sol
<AliuB.}-=udxJ ./Ct3d。jdl J=3-!l -9ZZ.=P! 。JU一-U0一1B13JV 一9寸S0一
<A!3BJ.=3dA -ssg。JdlsBq,=3sl ,ss.=p! 。JU!-U。13JV 一s寸sol
</-lBnJ0BJ-=3CLC} -31!sl3Jnp 50JdlsBl--=311!l -寸JS,HP! OJU!-uo!JB13JV寸寸?ool</-lBS。BJ.=3d/cl J0IU0PB1SJ!UBU-.=3SJ -zz-&=p! OJU一-uo!lBPJV 168S0
AU-=3dxJ Joluop Jm一l. i zz-"p! 。JUI-u。laJ>88S0
</-10 3d/CJ - JJ3SJB-1芸-697P! OJU!, JB一3JV98S0
A一3md/Q - J"a一J!l -892.=p! 。JU!-U。13J>sssol
</」BnpBJ.=sdxl ,/cqlp313Jdsu「s一.Hasl ,Z.9Z.=P! OJU!-uo!lB一3JV lsso

</,10BJ-=3dxl ,BISB/WI3SJ3AUT3S一 -99z-=p! 。JU!-U。!JB13JV2S0
</,lBS0BJ-=3dxl Jonl51u¥3pp ,i 9Z-"P! OJU一-uo:BPJV8卜S0J
</-30BJldA J。l芸!p3i3UT3一5 -09z-=p! OJU一-u。iaJV卜卜i
<、,l。BJ,=3dxl J0laJ一sl3Jnp3u。Jdlunp一J卜s VP! 。JU一-UOJ一BPJV l寸卜SOI
</」Bn >B.J-=3dxJ JOIXSO一oqdslelJ。3J!pul「31)p -9SZ-=P! OJU一-UO!IBPJVpso
</-10BJ- 9CLCl .xqlp舊一pu一lsl -s-"p! 。JUJ-U。一JBPJV loso

</」B30BJ.=3dcl /JB
nq;irsBq,=35J -817z-=p! OJU!-uo!lBPJV89S0
</.lBIn。BJ-=3dxJ -3Ert§PBJrsEq,=3l5,9<72-=p! OJU!-uo!lB一3JV99S01
</」BnloBJ-=3d/^ , 5dsBI3£!JISBq-=3sl -S寸LUP! OJU!-uo!lB一3JVS9S0
:K:6S/0S城 浮每 6 "SI8I00880Sid-'275'id-'276'id-'277'id-'278'id-'279'id-'280'id-'281'id-'282'id-'283'id='284,00 "iioo (N 1l00 (N 1lid-,288'On OO fN ,1 oid='290'id-'291'id-'292'1lid-'294'id-'298'COid='306,"iiid-'308'
<2 2c<2c:c2c2 cc2c a cc2 lelso
io
OKOO
6io
soi
:90i
soeoo
:100
si
:ooi
一66i
S6i
卜6歸
961;
寸6i一
C6i一
"6Z00一
06亂
<z,IBnpBJ-=3dxl J0ISJ0Jllx3ru!B一dlqllu-H3一l!J -10£.=p! 0JU一.U0一1BPJV
</,u-=3dxl J。lli,H311p -06z-=p! OJU!-U。 JaJ>
<J/-lsnoBJ-=3dxl Jol3J!sl。!一oqsalH.H3一芸S8L=P! OJU!-uo一JBPJV
</」a3PBJ,=3dxl JOIUO一PBIJOI目一 J3i-=351 -S8Z-=P! OJU一-uo一lB一3JV
<;/JEnpE.J-=3dxJ -xcllp3sollsBJPI3qlxBlu-=3s
,9卜z.up! 0JU一-U0一苗一3JV<y-l。ij-=3dx; ,BS「u「q 3一芸,一 ?"p一 。JU一-U013JV 一6eso1
A-10BV3dycJ J。I3一3SUP -s-=p! 。JUJ-uo一JBPJVseso
<Z.1JSJ,=9CK1 JOI3J!sl3Jnps旦卩3芸-9 p! 。JU!-uolaI>9zi
<7-lBn >BJ-=3dxJ JOISS330JdllB3JSOIOl-JBd,=3sl》i 。"p一 OJU!-uo!JBPJV I8I£00

</-lBiBJldxl JOIV3d-u311一l .£i £-=PJ 。Ju一-U。一s一alv l卜lcoo

</.10aJ-=ad/cl J0I13SU0-H3芸-60£.=p! OJU一-uol3JVSISOT3id='356'id-'357'id-'358'id-'359'id-'360'id-'361'id-'362'id-'363'
S c<2 info<2*S c
,2
O '云
V
o ,
,2

I
,2

o
V
K6e:/e:e:城华 i- 每 6 "SI8I008800S
</.lBnsBJ,=3dxl .Xqlp31sjj-U3一l!j .I9。=p! OJU!-UO一S一3JV
</-,。BJ.=3dxl J。liBufl-=3s" -6STP! 。JU!-U。13J>
</,lBnpBJ-=3dxt JOI 5dsBI.3lep=q5,8S£-=P! 0JU!-U0!1B13JV
</J3 5J,=3dxl J0llgls/cs,u31芸-9S£-=P! OJU一-UOIJBPJV
</,lenpBJ-=3dx; Jolilsxs.5dns-=3sl -ss£-=p! OJU一-uo一lB一3JV
<y-lBn SJ,=3dxl JOIXIJJns-=3SJ -寸SC-HP一 OJU一-uo一lB13JV
JOIPGnK3ld!qsuo!JBI3JIJ0sfqns,=3IJP -£s£-=p! OJU!-uo一
B一3JV
</-一 J0BJ-=3CIX1 JOI30達sqnsluip3ds."3一l一J -ls£-=p! OJU一-uo;lB一3JV
JOI/<qd2sodo「3ioslsulI:5ds,=3ll!l
.o p!
0JU!-U0JJB一3JV
</」su。BJ-=3<sl ,ES!一oq2aEIJOI3J一s-u3一l一J ,寸寸E-UPJ OJU一-UOPB一9JV
</-lBnsBJ,=3dxl JOIXJBJnqJ.IJIU一lq一s-Ha一J一J .£寸£-=15! OJU一-uo一JB一3JV
一09i

zseoo
旨§1
t£K00l
一IKOO
00362
<relation-info id='364' title-'uniquelyjnapped一from' type='factual'/> <semantic-type id='121' label='Pharmacologic Substance7>
003761 <semantic-type id='130, label='Indicator, Reagent, or Diagnostic Aid'/>
100377

</semantic-types> 〈relation id=,18' strength-'1.0' source='umls' knowlet-id='Clinical
Attribute/DIPALMITOYLPHOSPHATIDYLCHOLINE:MASS CONCENTRATION:POINT IN TIME:SERUM:QUANTITATIVEV>
x[N-l] x [Z]矩阵的形式存储在所述计算机存储器中。
11、 根据权利要求l所述的方法,其中步骤(d)中创建的所述索引至少部 分是通过使用命名实体识别(NER)索引器创建的。
12、 根据权利要求l所述的方法,还包括(i)在所述计算机存储器中载入至少一另外记录到所述至少一数据库中;以及(j)重新计算N个概念中的每对概念之间的Z个语义关系值。
13、 一种根据权利要求l所述方法的步骤创建的存储在计算机可用媒介中 的数据结构。
14、 根据权利要求13所述的数据结构,其中所述数据结构以符合资源描述 框架(RDF)的方式存J诸。
15、 根据权利要求13所述的数据结构,其中所述数据结构作为Zope数据元素存储。
16、 一计算机程序产品,包括一计算机可用媒介,该计算机可用媒介存储 有控制逻辑,以使得计算机便于知识导航和发现,所述控制逻辑包括第一计算机可读程序代码装置,用于使得计算机载入至少一个数据库,该 至少 一个数据库包含与 一领域相关的多个记录;第二计算机可读程序代码装置,用于使得计算机载入至少一主题词表,其 中所述至少 一主题词表包含N个与所述领域相关的概念;第三计算机可读程序代码装置,用于使得计算机分配一独特的识别符给所 述主题词表中的所述N个概念中的每个概念;第四计算机可读程序代码装置,用于使得计算机创建所述N个概念中的每 个概念在所述至少 一数据库的所述多个记录中的位置索引;第五计算机可读程序代码装置,用于使得计算机使用所述索引在所述至少 一数据库的所述多个记录中搜索,以确定N个概念中的每对相克念之间的语义关系;第六计算机可读程序代码装置,用于使得计算机使用第五计算机可读程序 代码装置的结果计算N个概念中的每对概念之间的Z个语义关系值;第七计算机可读程序代码装置,用于使得计算机存储(i)对应于所述N 个概念中的一个概念的所述独特标识符中的至少一个;和(ii)对应于所述N 个概念中的所述一个概念与其他N-1个概念之间的所述Z个语义关系值;由此,所述Z个语义关系值表示在所述至少一主题词表中所述N个概念中 的所述一个概念如何与其他N-1个概念相关联。
17、 根据权利要求16所述的计算机程序产品,其中Z等于3,并且所述语义 关系值包括实际语义关系值;共现语义关系值;和关联语义关系值。
18、 根据权利要求17所述的计算机程序产品,还包括第八计算机可读程序代码装置,用于使得计算机使用如下公式计算所述N 个概念的所述一个概念与其他N-1个概念中的一个概念之间的语义距离(SD ) 值SD:w!F+W2C+W3A;其中F表示所述实际语义关系值;C表示所述共现语义关系值;A表示所 述关联语义关系值;Wl、 w2、 W3为分别分配给F、 C、 A语义关系值的权重;由此,所述SD值为所述N个概念中的一个概念与所述其他N-1个概念中的 一个概念之间的关联强度的指示。
19、 根据权利要求18所述的计算机程序产品,还包括第九计算机可读程序代码装置,用于使得计算机接受一个来自于用户的查 询,该查询包含所述N个相1念中的一个概念;以及第十计算机可读程序代码装置,用于使得计算机通过图形用户界面将所述 SD值呈现给用户。
20、 根据权利要求16所述的计算机程序产品,还包括第八计算机可读程序代码装置,用于使得计算机为所述至少一主题词表中 的N个概念执行所述第七计算机可读程序代码装置,由此创建N个数据元素; 以及第九计算机可读程序代码装置,用于使得计算机存储所述N个数据元素。
21、 根据权利要求16所述的计算机程序产品,还包括第八计算机可读程序代码装置,用于使得计算机载入至少一另外记录到所 述至少一数据库中;以及第九计算机可读程序代码装置,用于使得计算机重新计算N个概念中的每 对概念之间的Z个语义关系值。
22、 根据权利要求16所述的计算机程序产品,其中所述多个记录中的每个 记录为与所述领域相关的文章摘要。
23、 根据权利要求16所述的计算机程序产品,其中所述领域为生物医学, 并且所述至少一数据库选自如下组PubMed、 UMLS、 UniProKB/Swiss-prot 、IntAct、以及GO。
全文摘要
本文公开了能精确信息检索和提取并因此方便相关和关联发现的数据结构、系统、方法和计算机程序产品。本发明利用了名为“Knowlet”的新的数据结构,该数据结构结合了概念间关系的多个属性和值。当文本包含了许多重复的事实陈述,Knowlet仅记录两个概念之间的关系一次,关系的属性和值基于多个重复陈述的情况而变化,增加共现值和关联值。本发明的方法使得Knowlet空间与文本空间相比增长最小,这在大量数据库、相关本体/主题词表、以及需要知识导航和知识(相关、关联、和/或其他)发现的情况下非常有用。
文档编号G06F17/00GK101681353SQ200880018134
公开日2010年3月24日 申请日期2008年3月31日 优先权日2007年3月30日
发明者克里斯廷·奇切斯特, 埃里克·温马利根, 尼古拉斯·巴里斯, 巴兰德·蒙斯, 艾伯特·蒙斯, 马克·韦伯 申请人:纽科股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1