特别适用于专利文献的搜索引擎和方法

文档序号:6594598阅读:550来源:国知局
专利名称:特别适用于专利文献的搜索引擎和方法
技术领域
本发明在其一些实施例中涉及一种搜索引擎和方法,更具体地但非唯一地,本发明涉及适用于专利文献的这样一种用于进行专利搜索的搜索引擎和方法。
背景技术
企业的成长和繁荣的核心是使知识资产专利化。在过去的十年,专利申请的数量已经急剧地上升,单单在美国和欧洲就达到每年大约一百万件新申请。对现有技术的搜索是专利申请过程的关键部分,并且是专利范围的决定因素。在专利申请没有能够识别出所有的相关现有技术的情况下,专利申请的权利要求可能被审查员驳回,或者在专利已授权的情况下受到昂贵的诉讼。为了获得授权,专利申请的权利要求不得不满足关于现有技术的两个条件其必须是新颖且非显而易见的。新颖性意指权利要求必须唯一地限定出一种新的知识,该新的知识在过去没有被授予过专利,并且没有公开地出版过。显而易见性意指创造性,即对现有知识的技术优点,必须不仅仅是简单直接的改变。为了判断一件新的专利申请是否确实是新颖的和非显而易见的,专利审查员对其他专利文档和公开出版物中的相关现有技术进行搜索。对现有技术进行搜索这一市场在专利提交呈指数增长之后已经在迅猛地发展。图 1和图2示出了在世界范围内,在主要的专利局的专利提交数量的增长。在2005年,在世界范围内提交了大约1,660,000件专利申请。自1995年来,专利申请的提交已经以4. 7%的年增长率增加。对现有技术的搜索发生在创新过程的每个阶段。发明人进行对现有技术的搜索以对所属领域进行研究,并审查他的想法的新颖性和专利性,风险投资家对现有技术进行搜索以评估商业价值,专利律师在提交专利申请时对现有技术进行搜索,并且专利审查员对现有技术进行搜索以判断专利性和专利范围。保守地估计,专利现有技术搜索的年市场规模为四十亿美元(该数量反映出以每次搜索的费用为2,000美元的两百万次现有技术搜索)。对现有技术的搜索对技术许可的广阔市场也是重要的。技术许可的市场正在迅速地增长,估计每年为数十亿美元。最后,现有技术的搜索对专利诉讼,尤其是侵权和无效诉讼是必需的。在美国,每年提交大约1000件专利诉讼案。对与这些诉讼相关的资金转让,没有明确的估计,可能在零(交叉许可协议的结果)到亿万美元之间(例如,在黑莓诉讼案中,RIM公司付了 NTP公司612,5百万美元)。对现有技术的搜索的跨度在数百万个专利文档之间。自动化的现有技术搜索的主要挑战是对专利文档的大规模数据集,如何基于文字特征识别科学方面的关系。现有搜索引擎的普遍假设是,专利文档的语义相似性反映出科学方面的相关性。该假设在实际中的可执行性较差,因为科学相关性通常与语义相似性没有关系。在实际中,相关的科学构想通常包括不同的科学概念。判断文字和技术用语的概念相关性需要特定的专业知识和对千百种相关技术的评价。直至最近,这种系统知识还几乎是不可能获得。在技术使用广泛不同的软件领域,该问题特别突出。 当前的市场方案在过去一些年,已经出现了多种盈利性和非盈利性的专利搜索引擎。主要的现有技术搜索引擎是USPT0,EPO, Google 专利、Dialog 和 Delphion。这些搜索引擎大多数基于语义相似性分析,也称为词袋(bag-of-words)方法 (B0W)。搜索过程基于每个文档或查询中词的文字重叠的衡量来计算文档的关联程度。本质上,主要的假设是代表相关科学构想的专利共有共同或相似的语义。就违反该假设来说, 现有搜索引擎的性能总是不令人满意。包括其扩展(见下文)在内的语义相似性方法的主要缺点是,其并不提供任何关于词和技术短语的概念含义的信息。例如,词X可与词y表示完全相同的含义。在没有告知χ和y表示相同含义的外界信息或科学“词典”的情况下,基于语义相似性的信息搜索将失败。专利现有技术搜索领域的语义搜索引擎的性能差有四个主要原因。首先,发明者具有以与最相关的现有技术尽可能远的方式表述他的发明的动机,希望减小申请被审查员驳回的风险。第二,用来描述科学构想的文字域(textual domain) —般较大。第三,在很多情况下,与申请本身相比,专利审查员引用的现有技术来自不同的技术领域,其中在现有技术与申请之间存在非常小的文字重叠。例如,发明名称为“车辆部件的鉴定(Authentication of Vehicle Components) ” 的专利 No. 7137001 (IPCH04L 数字信息的传输)与发明名称为“执行分层组结构中的组排除的方法(Method for Performing Group Exclusion in Hierarchical Group Structures),,的专利 No. 5220604 (IPC G06F 电数字数据处理)具有非常小的语义相似性。然而,在专利No. 7137001的申请过程中,专利审查员引用专利No. 5220604作为相关的现有技术并作为以显而易见性驳回原始申请的。胃―fi歹禾尔々“System and Method for Monitoring a Pressurized System"的专利No. 7051570 (IPC GOlL测量力,应力,扭矩,功,机械动力,机械效率,或流体压力),该专利被专利审查员以发明名称为“Cellular Digital Packet Data Network Transmission System Incorporating Cellular Link Integrity Monitoring,,白勺专禾 No. 7051570 (IPC G08B 发射信号)驳回。第四,专利文档通常包括技术术语(例如,CMOS——互补金属氧化物半导体和 PMOS——阳极金属氧化物半导体或便携式媒体操作系统)。语义相似性将不能识别不同技术短语之间的关系,因为这些术语很可能几乎没有文字相似性。例如,基于专利审查员的评价,发现技术短语PMG(永磁电机)和BLDC(无刷直流控制器)尽管在文字上不同,但是在科学含义上是相关的。其他的背景技术包括US专利4839853 “使用潜在语义结构的计算机信息搜索 (Computer information retrieval using latent semantic structure),,。公幵了检索文字数据对象的方法。通过假设在数据对象中字的用法中存在隐含的、潜在的语义结构,在统计域中对信息进行处理。对该潜在结构的估计被用来表示和搜索对象。用户查询在新的统计域中被重新表达,然后在计算机系统中被处理,以提取隐含的含义,从而响应于查询。美国专利5297039——基于关键字匹配和关键字进行定位的文本搜索系统(Text
search system for locating on the basis of keyword matching and keyword)-教
导了一种文本信息提取装置,其从文本提取分析网络并将其存储在数据库中。分析网络由行构成,每个行包括从文本提起的要素和关系。分析网络经由同义词/相近词/近义词并经由互补模板而补码,并且其行经由概念模板而被加权。文本相似性匹配装置基于词、词对和行的协议来判断输入和数据库分析网络的相似性。文本搜索系统将文本和从中准备的互补术语列表存储在相应的数据库中。查询以分析网络的形式被输入,从分析网络中提取关系和关键词集。在关于从每个输入查询中提取出的关键词而搜索存储在数据库中的文本和互补术语列表后,便确定了关系和关键词集的协议。美国专利5963965-文本处理和搜索系统和方法(Text processing and
retrieval system and method)——教导了一种基于内容的用于文本处理和搜索的系统和方法,其中基于内容来处理多份文本,从而为每份文本产生索引,所述索引包括表示该份文本的内容的短语列表。所述短语被集合成组在一起,以产生基于短语的关系度的群集,并且产生分层结构,该分层结构包括多个图(map),每个图对应于预定的关系度,所述图以图表形式描绘预定关系度的群集,并且包括多个节点(每个节点表示群集),以及连接相关的节点的多个联系。所述图被显示给用户,用户选择图上的特定群集,并且基于用户选择的群集从该份文本中提取一部分文本。美国专利No. 5991751——用于专利中心的系统、方法和计算机程序产品(System,
method, and computer program product for patent-centric)-教导了一禾中用于处理
数据的系统、方法和计算机程序产品,用于处理数据的系统、方法和计算机程序产品在此被描述。该系统保持第一专利数据库,以及公司实体所关注的非专利信息的第二数据库。该系统还保持一个或多个组。每个组包括来自第一数据库的任何数量的专利。在接收到适当的操作人员命令后,该系统自动地结合来自第二数据库的非专利信息来处理所述组之一中的专利。因此,所述系统执行以专利为中心和以组为导向的数据处理。组还可以包括任何数量的非专利文档。组可以是基于产品的、基于人的、基于公司实体的,或者用户定义的。其他类型的组也是可被包括,例如临时的组。美国专利No. 6298327——用于授权发明公开的专家支持系统(Expert support
system for authoring invention disclosures)-教导了一禾中计算机执行的专家支持
系统,用于授权发明公开,并用于评价所公开的发明的可能的专利性和适销性。该系统至少包括计算机、输入设备、输出设备以及软件程序。该软件程序利用以面向对象的设计过程来开发,并以诸如C++等面向对象的计算机语言来实现。该系统促进了发明特性的交流并以多种格式实现了发明公开的输出,包括专利申请的格式。美国专利No. 6363378——对信息搜索系统中的查询反馈项的进行排列(Ranking
of query feedback terms in an information)-教导了一禾中信息搜索系统,其对用户
输入查询进行处理,并识别查询反馈,包括对查 询反馈的进行排列,以促进用户重新编排新的查询的格式。包括多个描绘术语概念的节点的知识库被设置成反映节点之间的概念相近性。该信息搜索系统处理查询,识别与查询相关的标题以及查询反馈项,然后利用对应的术语概念将标题和反馈项两者联系到知识库的节点。基于标题从知识库中选择至少一个焦点节点,以确定焦点节点与查询反馈节点之间的概念相近性。基于与焦点节点的概念相近性对查询反馈项进行排列。还公开了识别来自在查询反馈处理中使用的大量文档的主题的内容处理系统。美国专利No. 6452613——评估新技术的自动打分工具用系统和方法(System and
method for an automated scoring tool for assessing new technologies)-教导了
一种用于评价发明提交的自动发明提交和打分工具的装置和方法。该系统包括服务器系统和多个服务器系统。该服务器系统通过网络连接将提交问卷呈送给用户系统处的提交者。 用户完成问卷,问卷被返回到服务器系统以便进行处理。服务器系统对答案进行处理,以基于专利性和至少一个其他参数(例如影响或价值)提供对该提交的定量评价。评价器系统处的评价器能够看到发明提交的定量评估的显示。评价器还能够在状态综述页面上看到多个发明提交的结果。 提供了状态综述页面、单个问卷与单个评估显示之间的联系。美国专利No. 6542889——基于概念进行索引的用于相似性文本搜索的方法和装置(Methods and apparatus for similarity text search based on conceptual indexing)——教导了一种进行概念相似性搜索的方法,该方法包括以下步骤从要被使用在概念相似性搜索中的一个或多个文档中产生一个或多个概念字链;利用所述一个或多个概念字链构建文档的概念索引;以及利用该概念索引评价相似性查询。评价步骤优选地将从搜索产生的最接近的文档中的一个或多个、所述一个或多个文档中的一个或多个匹配的字链、以及所述一个或多个文档的一个或多个匹配的主题词返回。美国专利No. 7054856——利用技术领域词汇绘制专利地图的系统和方法(System
for drawing patent map using technical field word and method)-公幵了一禾中利
用技术领域词汇绘制专利地图的系统和方法。在该系统和方法中,通过计算重要词的权重值提取将要用于绘制专利地图的词,然后将该提取出的词与绘制专利地图的专利相匹配, 所述重要词是通过将不必要的词从专利数据中除去而得到的。美国专利申请No. 11/697,447——增强的专利现有技术搜索引擎(Enhanced Patent Prior Art Search Engine)——教导了一种搜索引擎,其被配置成搜索文档的数据库并将搜索结果提供给终端用户。该搜索引擎可以配置为向终端用户提供终端用户提交的搜索查询中的术语的同义词列表,并允许终端用户识别这些应被包括在搜索引擎中的同义词。作为替代设置或作为补充,该搜索引擎可以配置成向终端用户提供调查问题,对这些问题的答案可以被用来进一步地限定搜索查询。数据库可包括与数据库中的特定文档相关的注解和/或广告。美国专利申请No. 11/745, 549——用于通过网络分析语义文档的系统和方法
(Systems and Methods for Analyzing Semantic Documents Over a Network)-教导
了一种通过如下方式来处理知识产权(IP)的系统和方法提供自动代理来为用户执行一个或多个搜索,以定位与知识产权(IP)权益相关的一个或多个文档,所述自动代理评估用户属性以确定用户的IP权益并识别一个或多个IP文档,每个IP文档都具有响应于IP权益的标记;将自动代理定位的一个或多个文档排列;以及显示由自动代理所定位的所述一个或多个文档。美国专利申请No. 11/809,455——基于概念的跨媒体索引和语言搜索(Concept based cross media indexing and retrieval of speech)-教导了语llf文档(包括{Β不限于记录书、声频广播、记录谈话)的内容的索引、搜索和搜索,这是通过发现并搜索在概念水平与查询术语相关的语言文档而实现的,即使语言文档不含有口语的(或文字上的) 的查询术语也是如此。使用基于概念的跨媒体信息搜索。从文档的训练集来构建术语-音素/文档矩阵。然后,文档被添加到从训练数据构建的矩阵。使用奇异值分解法来从术语-音素/文档矩阵计算向量空间。结果是较低维度的数字空间,在该空间下,术语-音素和文档向量在概念上作为最近邻相关联。查询引擎计算该空间中查询向量和所有其他向量之间的余弦值,并返回具有最高余弦值的术语-音素和/或文档的列表。 美国专利申请No. 11/812,135——用于分析专利价值的系统和方法(System and
method for analyzing patent value)-教导了至少一个示例性实施例,并公开了用于
评价法律文档(例如,与专利相关的文档)的价值的系统、计算机程序产品和方法。根据至少一个示例性实施例,潜在语义分析(“LSA”)搜索引擎能够搜索专利相关文档的数据库, 以识别“N”个因为与目标文档相关而因此被认为是专利相关文档的专利相关文档,并且能够按照相关的所识别的专利相关文档的指示器(indie)来比较并打分目标专利相关文档的指示器。至少一个示例性实施例利用法律、商业和/或技术因素来评价专利相关文档值的多个指示器。

发明内容
根据本发明的一些实施例的一个方面,提供了一种方法,其使用专利审查机构所提供的搜索和审查报告作为学习数据库来训练搜索引擎,从而了解科学和技术概念之间的关系。使用这种学习数据库进行训练后,搜索引擎然后能够执行有意义的搜索,不仅仅是专利文献的搜索,而是普遍的技术和科学文献的搜索。根据本发明的一些实施例的一个方面,提供了一种用于基于相关的科学或技术概念进行搜索的搜索引擎,包括学习模块,其用于基于技术短语在相关文档中的出现率来了解技短语之间的关系,从其中由相关短语的组合形成概念;和搜索模块,其用于基于存在于查询文档中的概念在相关文档中的出现来搜索与查询文档相关的文档,所述学习模块基于文档的训练集和文档之间的关系来进行学习。在一个实施例中,训练集包括专家提供的指出相关的文档的联系。在一个实施例中,学习模块配置为基于在概念内所组合的技术短语的各个文档中的出现来量化所述概念与各个文档的相关度。在一个实施例中,学习模块配置为基于在两个文档之间共同具有相对较高的相关度的多个概念来量化两个文档之间的关系,所述量化能够与指定相关文档的阈值一起使用。在一个实施例中,学习模块配置为识别训练集的所有文档中的技术短语,并按照总的共同出现率来计算在相关文档中的共同出现率,从其来形成组合。在一个实施例中,学习模块配置为识别训练集的所有文档中的技术短语,并按照总的共同出现率来计算在相应的相关文档中的共同出现率,从其来形成组合。在一个实施例中,训练集包括一组专利文档,并且文档之间的关系包括从专利审查文件的衍生。
在一个实施例中,学习模块包括基于专利审查文件中记录的专利性结果使两个专利文档相关的文档分析能力。在一个实施例中,专利审查文件包括关于第一篇文档的专利审查报告,并且其中对技术短语的识别基于专利审查报告所涉及的所述第一篇文档的版本。
在一个实施例中,专利审查报告被分析,以识别驳回(rejection)或反对 (objection),并识别对提供驳回或反对的基础的其他专利申请的参考。在一个实施例中,学习模块包括用于识别出现在训练集中的技术短语的技术短语识别单元。在一个实施例中,搜索模块配置为基于技术短语在相应的目标文档中的出现来针对查询文档对目标文档进行排列,所述技术短语属于在查询文档中发现的概念中的一些。根据本发明的第二方面,提供了一种搜索专利文献的方法,包括获取包括专利申请和相应的专利局报告的专利文献的训练集;使用专利局报告将某些专利申请组合在一起,作为相关的专利申请;如果技术术语在相关的专利申请中比在作为整体的训练集中出现得多,则将技术术语组合在一起,作为相关的术语;以及分别使用相关的术语来搜索技术文献。根据本发明的第三方面,提供了一种基于相关的科学或技术概念进行搜索的搜索方法,包括基于技术短语在训练集的相关文档中的出现率来了解技术短语之间的关系,从而形成相关短语的概念;以及基于存在于查询文档中的概念的出现搜索查询文档的相关文档。在一个实施例中,训练集包括专家提供的指定相关的文档的联系。在一个实施例中,所述了解包括识别训练集的所有文档中的技术短语以及针对总的共同出现率来计算在相关文档中的共同出现率,从其形成组合。在一个实施例中,训练集包括一组专利文档,并且文档之间的关系包括从专利审查文件的衍生。在一个实施例中,所述了解包括基于专利审查文件中记录的专利性结果使两个专利文档相关的文档分析。在一个实施例中,所述了解包括用于识别出现在训练集中的技术短语的技术短语识别阶段。在一个实施例中,所述搜索包括基于技术短语在相应的目标文档中的出现来对照查询文档对目标文档进行排列,所述技术短语属于在查询文档中发现的概念中的一些。所述搜索方法可包括计算查询文档与目标文档之间的度量,所述度量能够在识别应用风险中使用。在一个实施例中,对相关文档的搜索在可获得的技术文献中进行。除非另外限定,否则,此处所使用的所有技术和/或科学术语都具有如本发明所属领域的普通技术人员所普遍理解的相同的含义。尽管与此处所描述的方法和材料相似或等同的方法和材料能够在本发明的实践中或本发明实施例的测试中使用,但是下面仅仅描述示例性方法和/或材料。在相冲突的情况下,包括限定在内的专利说明书将占主导地位。此外,材料、方法和示例仅仅是示例性的,并不意在必然是限定性的。本发明的实施例的方法和/或系统的实施可以涉及手动地、自动地、或者手动自动相结合地执行或完成所选择的任务。另外,根据本发明的方法和/或系统的实施例的实际仪器和设备,能够利用操作系统通过硬件、通过软件、或通过固件、或者通过硬件、软件和固件的组合来执行多个所选任务。

例如,根据本发明的实施例的用于执行所选任务的硬件可以实施为芯片或电路。 作为软件,根据本发明的实施例的所选任务可以实施为多个软件指令,所述软件指令由计算机利用任何适当的操作系统来执行。在本发明的示例性实施例中,根据此处描述的方法和/或系统的示例性实施例的一个或多个任务由数据处理器执行,例如用于执行多个指令的计算平台。可选地,所述数据处理器包括用于存储指令和/或数据的易失性存储器,和/ 或用于存储指令和/或数据的非易失性存储器,例如磁性硬盘和/或可移动媒介。可选地, 还提供网络连接。可选地,还提供显示器和/或诸如键盘或鼠标的用户输入设备。


此处参照附图通过仅为示例的方式描述了本发明的一些实施例。现在具体参照附图,需要强调的是,特定的细节是通过示例的方式示出的,用于本发明的实施例的示例性论述的目的。关于这一点,结合了附图的描述将使可以如何实施本发明的实施例对本领域普通技术人员显而易见。在附图中图1是从1985至1986年,每年的专利提交的图表,显示了长期以来一贯的增长态势;图2是一百多年以来,不同专利局的专利提交的图表;图3是简化的框图,示出了根据本发明的实施例的具有学习模块和搜索模块的搜索引擎的概念细节;图4是示出了图3的学习模块的部件的简化框图;图5是示出图3的搜索引擎的学习阶段的流程图的简化图;图6是示出图3的搜索引擎的搜索阶段的简化流程图;图7是示出所分析的文档之间的关系如何可导致概念的训练集的图;图8是示出根据本发明的实施例,文档之间的相关度及其量化的概念的图;图9以更多的细节示出了图5的流程;图10以更多的细节示出了图9的流程的一部分;图11是流程图,示出了使用在图9和图10中确定的量来进行搜索;图12示出了图1的搜索引擎的用户界面;图13-17是试验结果图,在所述试验中,根据本发明实施例的概念搜索被与现有技术的文字搜索作比较;图18A是流程图,示出了根据本发明的优选实施例,用于为待搜索的专利文档提供概念空间并将包括概念词的同义词的词映射到该空间的程序;图18B示出了用于提取术语以构建概念空间的一系列模型;以及图19是图18A的细节图,示出了用于同义词选择的可能方法。
具体实施例方式本发明在其一些实施例中涉及搜索引擎和方法,更具体地但非唯一地,涉及特别适用于专利文献的搜索引擎和方法。本方法可使用专利审查机构提供的搜索和审查报告作为学习数据库以训练搜索引擎,从而了解科学和技术概念之间的关系。使用这种学习数据库进行训练后,搜索引擎然后能够执行有意义的搜索,不仅仅是对专利文献的搜索,而且是普遍的技术和科学文献的搜索。所述方法涉及对诸如机构所提供的搜索和审查报告等文档的结构进行理解,从而能够假定该报告的主题的被审专利或申请的权利要求与在该报告中所引用的对比专利或申请的文本之间的关系。该假定的关系然后被用来指定出现在该文档两者中的短语的相关性。随着上述过程在成百上千个文档上被执行,便建立起两个短语相关的概率的数据库。在学习阶段之后,数据库变能够被用在搜索中,以排列文档之间的关系,使得具有紧密相关的主题的文档在搜索结果具有高的排名。因此,专利搜索阶段指定了语义关系,并与用于相同关键词的需要没有依附关系。在详细说明本发明的至少一个实施例之前,需要理解的是,本发明在其应用中并不一定限于下面的描述中阐述的和/或附图和/或示例中示出的部件和/或方法的构造和设置的细节。本发明能够以其他实施例或以多种方式来实施或执行。

现在参照附图,图1和图2作为背景来参照。图3是简化的框图,示出了本发明的概念性实施例。搜索引擎10包括学习模块12 和搜索模块14,搜索引擎10用于准备数据库以及随后基于相关的科学或技术概念进行搜索。学习模块12基于技术短语在相关文档中的出现率去了解技术短语之间的关系, 并基于此将概念组合在一起。更具体地,当将相关文档中的共同出现率与背景共同出现率相比较时,便获得了比值,这将在下文更详细地论述。如果在相关文档中的出现率高于背景出现率,则说明比值是正的,两个技术短语可以被联系在一起以形成概念,即对相关短语进行组合。在一个实施例中,联系可以是绝对的有/没有联系,其中无论何时比值超过预定的阈值,便进行联系。可替代地,可以基于获得的实际比例来定义相对联系。所述比值可以从技术文档的训练文档数据库16以及哪些文档与哪些其他文档相关的列表来计算。如将在下面更详细地论述地,哪些文档与哪些其他文档相关的列表可以由本领域的专家来提供。如将要注意到的,专利文献在这方面具有特别的意义,因为专利要被审查, 并且专利审查员(他们是相关领域的专家)所提供的审查文档可以用作专家输入以限定初始关系。因此,训练集16包括两个部分专利申请文献18和专利审查文档20,专利申请文献18提供技术文献本身,专利审查文档20包括专家提供的联系,表明哪些专利申请与哪些其他专利申请相关。搜索模块14然后使用学习模块发现的概念——训练集22。当被提供查询文档时, 该训练集22查询技术短语,然后搜索短语本身或已经在学习模式中以概念的形式与该技术短语联合的其他短语。然后,根据属于该概念的技术短语的出现率来排列目标文档,并且将所排列的文档中的一些或全部呈送给用户。
现在参照图4,其更详细地示出了学习模块12。学习模块12包括文档分析单元 30,其分析专利审查文献和专利申请文献两者。文档分析单元包括光学字符识别(OCR)单元32,其从互联网上一般能够获得的图像来读取文档文本。关系发现单元34然后分析专利审查文献,以从审查文档的文本识别审查员指出的相关文档。在识别这些文档时,专利审查文献趋于遵从特定的形式,使得学习模块所需的分析能力变的更容易。将在后面更详细地论述 所述分析。文档分析单元可以进一步包括技术短语识别单元36,其用于识别出现在专利申请文档的训练集中的技术短语。OCR之后的文档分析过程示出在图5的流程图中,现在参照图5。如图5所示,专利申请文档的分析发现技术短语,使得每个专利申请文档被化为一系列的技术短语。专利审查文档然后被分析,从而发现相关的专利文档。然后,每个技术短语被依次提取,并测试其与其他文档中的其他技术短语的共同出现。在相关文档中的共同出现被标注为A,并且在全部文档上的共同出现被标注为B。比值A/B被对照例如阈值测试,如果测试证明是正,则两个技术短语被交付给单个概念。现在参照图6,图6是简化图,示出了使用图5中获得的概念的搜索程序的流程。 文档被用户作为初始查询输入。该文档具有其自己的被提取的技术短语。所提取的技术短语可以属于或者不属于在训练阶段所识别的概念。在属于所述概念的地方,该概念的所有技术短语被用来制定用于实际使用的搜索查询。然后,搜索查询从所识别的概念中,根据技术短语的出现频率来排列数据库中的文档。对于不构成延伸概念的一部分的技术短语,可以根据熟练的用户的喜好,简单地添加各个技术短语(因为这些技术短语将搜索查询),或者可以忽略这些技术短语。因此,搜索模块基于各种技术短语在不同目标文档中的出现来对照查询文档排列目标文档进行,所述各种技术短语属于在查询文档中发现的不同概念。如所论述的,本发明的实施例提供评价专利文档的科学相关度的方法。该方法使用相关科学概念的训练集22来计算不同专利文档的科学相似性。该训练集通过关于不同科学概念的科学相关度的外部信息,将不同的科学概念联系在一起,并参照上文在训练过程中形成。训练集包括专利审查机构(例如,美国专利和商标局以及欧专利局)的专利审查员的数千个搜索和审查报告。这些报告被自动地和手动地分析,以搜索关于由专利审查员所确定的科学文档的相关度的信息,这些专利审查员是特定技术领域的有经验的且训练过的专家。除了审查员搜索报告数据集之外,还可以使用搜索报告所涉及的原始的驳回前 (pre-rejection)专利申请。该组合允许以不仅仅基于关键词相似性,还基于高度训练过的科学家的专业意见中所阐释的含义的方式,将来自专利申请的科学概念与现有技术联系在一起。在过去的十年,基于内容的自动搜索引擎(被称为信息搜索)已经在学术和商业应用中深受欢迎。信息搜索(IR)的模型检查文档之间的关系,如从每个文档的文字特征中所推断的。一种常用的技术是向量空间模型,也称为词袋表示。根据该技术,每个文档由特征的索引向量表示,所述特征通常为所出现的或与文档相关的词。特征通常被加权,其中权重随着特征在该文档中出现的频率与特征在所有其他文档中出现的频率之比而增加。然后基于每个文档的加权的词袋表示的相似性来计算文档的相关度。了解文档的概念含义也称为文本分类(TC)一一基于它们的内容的自然语言文本到一个或多个预定类别的分配。文本分类旨在将文档归类到预定的标签集,其中每个标签与文档中使用的词集相关联。每个文档表现为能以数学方式操控的代表术语的集合。然后, 到类别和概念中的分类基于代表向量的相似度。信息搜索领域的专家所面临的问题是如何基于文档的文字特性了解文档的内容相关度。语义相似性是用来测量文档的相关度的最简单的技术(Baeza-Yates和 Ribeiro-Neto, 1999)用来评价文档相关度的唯一标准是每个文档中使用的词之间的重合程度(每个词通常通过该词在该文档和所有其他文档中使用的相对频率来加权)。词袋方法存在两个主要缺点(1)在文字特征方面的高维数;和(2)对精确文字重合的完全依赖。最先进的算法属于LSA家族。LSA方法通过利用来自线性代数的技术形成代表概念的向量来减小词袋的维数。其他通过降低它的维数来改进词袋的尝试包括n-gram方法和统计及语言模型。LS方法注意到,在专利文档中,词以技术短语群出现是非常普遍的(见上面的例子)。因此,除了出现在专利文档中的常规词之外,还可以根据LSA方法来审查词群,而在评价概念相关度时它们的各个术语无关。与降低词的维数对比,使用来自外部源的背景词的特征生成技术扩展了词袋。例如,Sahami和Heilman (2006)提出了通过将基于文档的文字特征的查询发送到网页搜索引擎来比较短的文档,并且然后计算对于每个查询从网页检索到的词的向量之间的相似性。 按照这条思路,Strube 和 Ponzetto (2006)以及 Gabrilovich 和 Markovitch (2007)对出现在查询中的词集,导出了来自维基百科(Wikipedia)的信息,旨在引入附加的背景词,这些背景词将为原始文档中的词的概念含义提供线索。与LSA相似,主要局限在于缺乏关于词和技术短语的概念相关度的信息。不同的技术使用训练集和机器学习算法来检查文档之间的关系。机器学习技术已经得到了发展,并已执行在下列信息搜索任务上迁移学习(transfer learning)和半监督学习,EM算法,潜在语义核和广义向量空间模型。机器学习算法被用来近似将文档的文字特征映射到文档的类别的功能。这种近似是利用训练集来执行的,所述训练集包括其类别已预知的文档。通常的情况是,训练集由专业的个人(专家)来集合。然后,机器学习技术被执行,以了解已分类文档之间的文字联系,从而形成文档和类别之间的映射函数,从而被用来自动地对训练集以外的文档进行分类。形成系统地覆盖自然语言的概念含义的训练集是极为复杂的任务。这种训 练集的一个例子是WordNet,其是将词组合成概念的特殊的词典。除了将词组合成概念之外(同义词集(Synsets)) ,WordNet还提供关于概念之间的等级关系的信息。基于该等级关系,开发了多种技术以测量词的概念相关度。WordNet的发展多半是手工的,并且耗费了大约20 年。其主要缺点仍然是词的覆盖相对较低,另一个缺点是分配给单个词的概念的多重性。本发明的实施例基于专家训练集机器学习系统(ETSM),其中在受监督的学习过程中从相关专利文档的成千个专家评价报告来了解文档的科学相关度。本实施例提供技术文档搜索引擎,更具体地但非唯一地,提供专利文档搜索引擎。 它们建立在新颖的数据集之上,所述数据集提供关于专利文档中的词和技术短语之间的科学关系的信息。与语义相似性引擎不同,本实施例不比较专利文档的文字重合,而是比较可能与它们相关的科学概念的重合。本实施例开发了一种基于从专利审查机构的专利审查员的搜索报告提取的显著相关的文档的训练集的机器学习系统,该专利审查机构例如为美国专利商标局(USPTO)和欧洲专利局(EPO)。搜索报告包括关于代表相关或相同技术的不同文档的独特信息。当专利审查员驳回具体的权利要求时,她需要提供对其驳回决定的解释, 其中该解释通常引用相关的现有技术文档。一旦审查员能够将来自专利申请的权利要求与现有技术文档相关, 则可以假定所涉及的两个文档之间的概念关系。该概念关系此时包括在被驳回的专利文档的说明书中使用的词集和在引用的现有技术的说明书中使用的词集。本实施例因此使用专利审查员提供的搜索和审查报告作为概念联系知识库。此处的例子中使用的审查员报告(也称为非最终驳回)可以直接在网络上从USPTO的文件袋 (File Wrapper)部分获得,该文件袋部分追踪并记录专利申请过程。仅仅来自原始提交的专利申请的信息被认为是对提供训练集有效的。由于权利要求在后来被修改以区别于现有技术,所以授权的专利不再表现出相同的关系。因此,从授权专利的文本中了解用来描述同一发明的不同语义的可能性较小。另一方面,在专利申请过程期间,专利审查员具体地判断哪些权利要求在概念上与相关的现有技术相似,并且正是该审查员的判断构成系统的专家输入,从而提供科学相关度的识别源。在驳回的情况下,专利审查员指出被驳回的权利要求的编号和驳回的理由。USPTO 审查员最常用的驳回理由是新颖性(102)和显而易见性(103)根据U. S. C.第 35 段 102 (b)或 102 (e)的驳回(b)在美国的专利申请日之前一年以上,本发明已经在本国或外国被授予专利权, 或被描述在本国或外国的出版公开物上,或者在本国公开使用或销售。(e)本发明已经描述在(1)由他人在专利申请人的发明之前在美国提交,在 122(b)节下公开的专利申请中,或者(2)在由他人在专利申请人的发明之前在美国提交的专利申请上授权的专利,不同的情况是在351(a)节中定义的条约下提交的国际申请只有在指定了美国并且在该条约的21(2)条下以英语语言公开的情况下,应具有在美国提交的申请的该子节的效力。根据U. S. C.第35段103 (a)的驳回虽然发明没有如该标题的102节中所阐述地那样被等同地公开或描述,但如果寻求专利保护的主题与现有技术之间的差别使得所述主题整体上在实现发明时对所述主题所属领域的普通技术人员是显而易见的,则不能获得专利权。专利性不应以实现本发明的方式而否定。除了所参照的现有技术之外,专利审查员还可以提供关于该申请和可能导致驳回决定的现有技术中的不同技术方面的详细论述。被驳回申请和专利审查员所引用的现有技术的组合形成概念关系。遵照词袋方法,该概念关系通过其文字特征来表示。然后,执行学习算法来估算观察到隐含的概念的概率,作为基于文字表示的条件概率。现在参照图7,图7是简化的框图,其示出了如何结合被驳回申请的文本和引用的现有技术的文本从搜索或审查报告来得到概念的训练集。用于专利文档之间的相关度的信息源是专利审查员提供的搜索或审查报告。从每个报告来识别被专利审查员驳回的原始权利要求和引用的现有技术。被驳回申请和现有技术的组合形成概念。非最终驳回示例

下面是对于专利申请No. 10/204, 119和专利申请No. 09/451,127,来自专利审查
员的搜索报告的权利要求驳回的两个示例。第一个示例示出了基于新颖性的两个权利要求
的驳回这些权利要求已经公开在专利No. 5406044中。这意味着被驳回的权利要求中公开
的科学内容与其现有技术高度相关。第二个示例示出了基于显而易见性的驳回在驳回中
公开的创造性步骤相对专利No. 5764485不足以显著地证明其专利性。因此,同样在此,被
驳回的权利要求的技术内容与其现有技术太相似。
美国专利申请10/204,119的搜索报告的一部分权利要求驳回35 USC § 102
下面是对35 U.S.C 102的适用段落的引用,其构成该审查意见通知书中所倣的根据该条款驳回的基础专利权应当被授予,除非 (b)在美国的专利申请日之前一年以上,本发明已经在本国或外国被授予专利权,或被描述在本国或外国的出版公开物上,或者在本国公开使用或销售。
根椐35 U.S.C 102 (b),权利要求1和2因被Killian等人(5, 406, 044)预见到而驳回。Killian等人的专利公开了螺栓焊接头、 线性装置以及电磁长度测量系统。关于权利要求2中的用语“渐增长度测量系统”,Killian等人的系统明显能够测量渐增长度,并因此能够“定义”为渐增测量系统。如果申请人意在使权利要求2针对的是一种具有渐增输出的长度测量系统,应当注意,Killian等人的系统因其能够连接到计算机而公开了该特征。这种数字连接将固有地涉及渐增长度测量输出,因为来自元件34的模拟输出必须被转化为数位,由此满足权利要求用语的解释。表1 美国专利申请No. 10/204, 119的审查报告(非最终驳回)的摘录。该申请
的权利要求被专利审查员以缺乏新颖性为由驳回一该权利要求中公开的发明已经被授
予了专利权(专利No. 5406044)。对于该示例的概念关系包括原始被驳权利要求的文字特
征和现有技术的文字特征。美国专利申请No. 09/451,127的搜索报告的一部分权利要求驳回35 USC § 103 下面是35U.S.C 103(a)的引用,其构成该审查意见通知书中阐述的所有显而易见性驳回的基础
(a)虽然发明没有如该标题的102节中所阐述地那样被等同地公开或描述,但如果寻求专利保护的主题与现有技术之间的差别使得所述主题整体上在实现发明时对所述主题所属领域的普通技术人员是显而易见的,则不能获得专利权。专利性不应以实现本发明的方式而否定。
根据35 U.S.C 103(a),权利要求1因其相对于Lebaschi (US 5,764,485)不能被授予专利权而被驳回。
Lebaschi公开了一种印刷布线板,其包括多个间隔开的电路层, 所述电路层通过盲孔/通孔电连接,其中在导电金属层的盲孔/通孔上方形成表面接触垫板。尽管Lebaschi没有具体地表述通过在盲孔 /通孔上方沉积来形成接触垫板,但是这对本领域普通技术人员在通过沉积材料形成垫板而实施本发明时是显而易见的,因为这是本领域的公知技术。
权利要求
1.一种用于基于相关的科学或技术概念进行搜索的搜索引擎,包括学习模块,其用于基于技术术语在相关文档中的出现率来了解所述技术短语之间的关系,从其中由相关短语的组合形成概念;以及搜索模块,其用于基于存在于查询文档中的概念在所述相关文档中的出现来搜索所述查询文档的相关文档,其中,所述学习模块基于文档的训练集和文档之间的关系来进行所述了解。
2.如权利要求1所述的搜索引擎,其中,所述训练集包括专家提供的指示相关文档的联系。
3.如权利要求1所述的搜索引擎,其中,所述学习模块配置为基于在概念内组合的技术短语在单个文档内的出现,使所述概念与所述单个文档的相关度量化。
4.如权利要求3所述的搜索引擎,其中,所述学习模块配置为基于在两个文档之间具有共同地相对较高相关度的大量概念使所述两个文档之间的关系量化,所述量化能够与指示相关文档的阈值一起使用。
5.如权利要求2所述的搜索引擎,其中,所述学习模块配置为识别所述训练集的所有文档中的所述技术短语,并且对照总的共同出现率计算在相关文档中的共同出现率,从其以形成所述组合。
6.如权利要求4所述的搜索引擎,其中,所述学习模块配置为识别所述训练集的所有文档中的所述技术短语,并且对照总的共同出现率计算在相应的相关文档中的共同出现率,从其以形成所述组合。
7.如权利要求2所述的搜索引擎,其中,所述训练集包括一组专利文档,并且所述文档之间的关系包括从专利审查文件的衍生。
8.如权利要求7所述的搜索引擎,其中,所述学习模块包括基于记录在所述专利审查文件中的专利性结果使两个专利文档相关的文档分析能力。
9.如权利要求8所述的搜索引擎,其中,所述专利审查文件包括对所述文档中的第一个的专利审查报告,并且其中所述技术短语的识别是基于所述专利审查报告所涉及的所述第一个文档的版本。
10.如权利要求9所述的搜索引擎,其中,所述专利审查报告被分析以识别驳回或反对,并识别提供所述驳回或反对的基础的其他专利申请的引用。
11.如权利要求1所述的搜索引擎,其中,所述学习模块包括用于识别出现在所述训练集中的所述技术短语的技术短语识别单元。
12.如权利要求11所述的搜索引擎,其中,所述搜索模块配置为基于技术短语在各个目标文档中的出现来对照查询文档排列所述目标文档,所述技术短语属于在所述查询文档中发现的所述概念中的一些。
13.一种搜索专利文献的方法,包括获得包括专利申请和相应的专利局报告的专利文献的训练集;使用所述专利局报告将特定的专利申请组合在一起作为相关的专利申请;如果技术短语在相关的专利申请中比在所述训练集整体中更经常出现,则将所述技术术语组合在一起;以及利用相应的相关术语搜索技术文献。
14.一种用于基于相关的科学或技术概念进行搜索的搜索方法,包括基于技术短语在训练集的相关文档中的出现率来了解所述技术短语之间的关系,从而形成相关短语的概念;以及基于存在于查询文档中的概念的出现搜索所述查询文档的相关文档。
15.如权利要求14所述的搜索方法,其中,所述训练集包括专家提供的指示相关文档的联系。
16.如权利要求15所述的搜索方法,其中,所述了解包括识别所述训练集的所有文档中的所述技术短语,以及对照总的共同出现率计算在相关文档中的共同出现率,从其以形成所述组合。
17.如权利要求15所述的搜索方法,其中,所述训练集包括一组专利文档,并且所述文档之间的关系包括从专利审查文件的衍生。
18.如权利要求17所述的搜索方法,其中,所述了解包括基于记录在所述专利审查文件中的专利性结果使两个专利文档相关的文档分析。
19.如权利要求14所述的搜索方法,其中,所述了解包括用于识别出现在训练集中的所述技术短语的技术短语识别阶段。
20.如权利要求19所述的搜索方法,其中,所述搜索包括基于技术短语在相应目标文档中的出现来对照查询文档排列所述目标文档,所述技术短语属于在所述查询文档中发现的所述概念中的一些。
21.如权利要求14所述的搜索方法,还包括计算查询文档与目标文档之间的度量,所述度量在识别应用风险中可使用。
22.如权利要求21所述的搜索方法,其中,对相关文挡的所述搜索在可获得的技术文献上进行。
全文摘要
一种用于基于相关的科学或技术概念进行搜索的搜索引擎,包括学习模块,其用于基于技术短语在相关文档中的出现率来了解所述技术短语之间的关系,从其由相关短语的组合形成概念;以及搜索模块,其用于基于存在于查询文档中的概念在所述相关文档的出现来搜索查询文档的相关文档,所述学习模块基于文档的训练集和文档之间的关系来进行所述了解。
文档编号G06N7/00GK102160066SQ200980133803
公开日2011年8月17日 申请日期2009年6月23日 优先权日2008年6月24日
发明者利亚特·贝林森, 沙伦·贝伦宗 申请人:利亚特·贝林森, 沙伦·贝伦宗
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1