用于确定具有区别性事实的近似判断的方法和装置的制造方法

文档序号:9865513阅读:189来源:国知局
用于确定具有区别性事实的近似判断的方法和装置的制造方法
【技术领域】
[0001] 本发明涉及类似文档的搜索,特别地,涉及对类似于当前输入文档的过去创建的 文档的搜索。
【背景技术】
[0002] 用户总是需要利用手头上某些文档做出判断或者决定,例如,医生可W通过参考 某些已有的诊断报告给出诊断结果,旅行者可W使用旅行手册选择去哪,或者顾客可W通 过参考产品介绍决定购买哪个产品。用户可W通过使用当前文档搜索类似的文档,W便帮 助做出判断,并且看一看对于类似的情况,过去做出了什么判断或者决定。
[0003] 例如,在类似文档搜索处理中,对于一个输入文档,可W确定与该输入文档最类似 的文档作为输出结果。
[0004] 在US2013/0044925中,提出了类似案例搜索装置和类似案例搜索方法。在该专利 申请的方法中,判断项是一个预定类型的关键词,其是用户想要决定的核必关键词。事实项 是与该判断项相关联的某些指定类型的信息。对于关于诊断报告的应用,选择诊断项,诸如 疾病结果或者病症结果作为判断项,并且选择发现项作为事实项。在该方法中,根据诊断项 和发现项创建的诊断树被用于进行搜索。
[0005] 图1A示出了现有技术的专利申请US2013/0044925中的用于类似案例搜索的方法 的流程图。参考图1A,在步骤110,接收一个输入文档。在步骤120,提取输入文档的判断项 和事实项。在步骤130,使用输入文档的提取的判断项和提取的事实项检索一组类似的文 档。
[0006] 图1B示出了 US2013/0044925中的使用输入文档的提取的判断项和提取的事实项 检索一组类似的文档的处理的流程图。参考图1B,在步骤131,提取判断项和事实项的关 系。然后,在步骤132,选择判断项和事实项W便基于所提取的关系建立诊断树。最后,在步 骤133,使用诊断树在文档数据库中检索一些类似的文档。
[0007] 图1C示出了现有技术的专利申请US2013/0044925中的诊断树的示意图。采用 US2013/0044925的方法,可W使用如图1C所示的诊断树从文档数据库中检索类似于输入 文档的文档。
[0008] 在专利US 8,352, 416中,提出了用于搜索类似文档的另一个类似的方法。该美国 专利主要涉及诊断报告搜索,并且使用由诊断结果和发现项组成的结构进行搜索。例如,频 繁地一起发生的症状和一个疾病可W构成一个结构。如果文档数据库中的一个W前的文档 与输入文档具有相同的结构,则该文档很可能被检索到。
[0009] 图2A示出了专利US 8, 352, 416中的用于类似文档搜索的方法的流程图。参考图 2A,在步骤210,接收输入文档。在步骤220,提取输入文档的判断项和事实项。在步骤230, 使用输入文档的提取的判断项和提取的事实项检索一组类似的文档。
[0010] 图2B示出了专利US 8, 352, 416中的使用输入文档的提取的判断项和提取的事实 项检索一组类似的文档的处理的流程图。参考图2B,在步骤231,提取判断项和事实项的关 系。然后,在步骤232,选择具有预定关系类型的判断项和事实项作为一个结构。最终,在步 骤233,使用该结构检索文档数据库中的一些类似的文档。
[0011] 图2C示出了现有技术US 8, 352, 416中使用的结构的示意图。在图2C的结构中, 示出了语义单元和语义单元的计数,语义单元包括症状的描述和诊断的疾病的名称。根据 该计数,可W提取包括所希望的关键词的组合,并且还可W从提取的组合中提取除所希望 的关键词W外的词条作为相关的关键词。可W检索包括所希望的关键词和相关的关键词中 的一个或者两者的诊断报告。采用US 8, 352, 416的方法,可W从文档数据库中检索类似于 输入文档的文档。
[0012] 在US2013/0044925和US 8,352,416中的类似文档搜索方法^及现有技术的其它 方法中,从输入文档中提取关键词,并且然后分析关键词之间的关系,W便发现包含具有类 似的关系的类似的关键词的类似文档。在现有技术的方法中,仅仅给出了该文档的一个结 果,但是没有考虑用户进行搜索的真实目的。
[0013] 类似文档的搜索不同于利用查询的搜索。如果用户利用查询搜索文档,查询可W 反映用户的目的和用户关注的方面。然而,当用户W-个文档搜索类似的文档时,他/她仍 然仅仅关注某个方面,并且送个方面是该文档的判断项。
[0014] 采用现有技术的方法,仅仅可W给用户返回一系列文档。结果主要包含与输入文 档相同的判断项,其不能给用户提供具有不同的判断项的某些类似文档。如果用户想要比 较判断项,他/她需要阅读许多文档,送是费时的。
[0015] W现有技术中的方法检索的搜索结果中的判断项与输入文档中的判断项基本上 相同。返回具有相同判断项的文档是必要的,但是返回具有不同判断项的类似文档更加有 用。例如,医生在写报告时给出诊断结果。返回具有非常类似的发现项但是具有不同的诊 断结果的报告是有用的。例如,具有相同的患者检查指标和相同的患者症状,但是具有不同 的疾病的报告是有用的。送将向医生给出他/她在该情况下应该谨慎地做出诊断的重要信 号。
[0016] 因此,希望提出解决现有技术的问题中的至少一个的新技术。

【发明内容】

[0017] 本发明的一个目的是提供匹配用户的真实搜索目的的有价值的信息。
[0018] 本发明的另一个目的是通过组织搜索结果节省用户阅读文档的时间。
[0019] 根据本发明的一个方面,提供了一种用于确定具有区别性事实的近似判断的方 法,包括:文档获得步骤,用于获得文档,其中获得的文档包含第一判断项,并且第一判断 项是预定类型的关键词;文档分析步骤,从获得的文档中提取第一判断项和第一事实项,其 中每一个第一事实项是与第一判断项相关联的信息;类似文档分析步骤,用于使用第一判 断项和第一事实项获得第一组类似文档,并且用于从第一组类似文档中提取不同于第一判 断项的第二判断项和第二事实项;具有区别性事实的近似判断检测步骤,用于通过使用第 一组类似文档和第二判断项和第二事实项,检测至少一个具有区别性事实的近似判断,其 中:区别性事实指示第一判断项和第二判断项之间的差异;并且近似判断是第二判断项之 一,并且所述近似判断和所述第一判断项之间的改变距离小于预定的第一阔值,其中所述 改变距离指示区分第一判断项和第二判断项的难度级别。
[0020] 根据本发明的另一个方面,提供了一种用于类似文档搜索的方法,包括:接收输 入文档;基于上述用于确定具有区别性事实的近似判断的方法,确定所述输入文档的至少 一个具有区别性事实的近似判断;W及使用所述至少一个具有区别性事实的近似判断,获 得所述输入文档的一组类似文档。
[0021] 根据本发明的再一个方面,提供了一种用于确定具有区别性事实的近似判断的装 置,包括:文档获得单元,用于获得文档,其中获得的文档包含第一判断项,并且第一判断项 是预定类型的关键词;判断项和事实项提取单元,用于提取判断项和事实项;文档分析单 元,用于使用判断项和事实项提取单元从获得的文档提取第一判断项和第一事实项,其中 每一个第一事实项是与第一判断项相关联的信息;类似文档分析单元,用于使用第一判断 项和第一事实项获得第一组类似文档,并且用于使用判断项和事实项提取单元从第一组类 似文档中提取不同于第一判断项的第二判断项和第二事实项;具有区别性事实的近似判断 检测单元,用于通过使用第一组类似文档及第二判断项和第二事实项,检测至少一个具有 区别性事实的近似判断,其中:区别性事实指示第一判断项和第二判断项之间的差异;W 及近似判断是第二判断项中的一个,并且近似判断和第一判断项之间的改变距离小于预定 的第一阔值,其中所述改变距离指示区分第一判断项和第二判断项的难度级别。
[0022] 根据本发明的再一个方面,提供了一种用于类似文档搜索的装置,包括:用于接 收输入文档的输入文档接收单元;上述用于确定具有区别性事实的近似判断的装置,用于 确定输入文档的至少一个具有区别性事实的近似判断;W及类似文档获得单元,用于使用 所述至少一个具有区别性事实的近似判断,获得所述输入文档的一组类似文档。
[0023] 本发明的优点之一在于可W提供匹配用户的真实搜索目的的有价值的信息。
[0024] 本发明的另一个优点在于可W组织搜索结果,从而可W节省用户阅读文档的时 间。
[00巧]通过W下参照附图对本发明的示例性实施方式的详细描述,本发明的其它特征及 其优点将会变得清楚。
【附图说明】
[0026] 包含在说明书中并构成说明书的一部分的附图描述了本发明的实施方式,并且连 同说明书一起用于解释本发明的原理。
[0027] 图1A示出了现有技术US2013/0044925中的用于类似案例搜索的方法的流程图。
[0028] 图1B示出了 US2013/0044925中的使用输入文档的提取的判断项和提取的事实项 检索一组类似文档的处理的流程图。
[0029] 图1C示出了现有技术US2013/0044925中的诊断树的示意图。
[0030] 图2A示出了专利US 8, 352, 416中的类似文档搜索的方法的流程图。
[0031] 图2B示出了专利US 8, 352, 416中的使用输入文档的提取的判断项和提取的事实 项检索一组类似文档的处理的流程图。
[0032] 图2C示出了专利US 8, 352, 416中使用的结构的示意图。
[0033] 图3是示出能够实施本发明的实施方式的计算机系统1000的硬件配置的示意性 框图。
[0034] 图4示出了根据本发明的实施方式用于确定具有区别性事实的近似判断的处理 的流程图。
[0035] 图5示出了射线摄影报告的例子。
[0036] 图6示出了根据本发明的实施方式通过遍历事实项提取具有区别性事实的近似 判断的处理的流程图。
[0037] 图7示出了根据本发明的实施方式用于为每一个第二判断项提取原始判断区别 性事实的处理的流程图。
[0038] 图8示出了根据本发明的实施方式用于为每一个第二判断项提取新判断区别性 事实的处理的流程图。
[0039] 图9示出了根据本发明的实施方式用于基于最小改变距离提取具有区别性事实 的近似判断的处理的流程图。
[0040] 图10示出了根据本发明的实施方式使用重要路径提取具有区别性事实的近似判 断的处理的流程图。
[0041] 图11示出了产生候选的具有区别性事实的近似判断的例子的示意图。
[0042] 图12示出了重要路径挖掘的例子的示意图。
[0043] 图13示出了根据本发明的实施方式通过改变事实项提取具有区别性事实的近似 判断的处理的流程图。
[0044] 图14示出了根据本发明的实施方式使用改变树提取具有区别性事实的近似判断 的处理的流程图。
[0045] 图15示出了改变树的例子的示意图。
[0046] 图16示出了根据本发明的实施方式的用于类似文档搜索的方法的流程图。
[0047] 图17示出了根据本发明的实施方式用于确定具有区别性事实的近似判断的装置 4000的功能框图。
[0048] 图18示出了根据本发明的实施方式用于类似文档搜索的装置5000的功能框图。
【具体实施方式】
[0049] 现在将参照附图来详细描述本发明的各种示例性实施方式。应注意到;除非另外 具体说明,否则在送些实施方式中阐述的部件和步骤的相对布置、数字表达式和数值不限 制本发明的范围。
[0050] W下对至少一个示例性实施方式的描述实际上仅仅是说明性的,决不作为对本发 明及其应用或使用的任何限制。
[0051] 对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适 当情况下,所述技术、方法和设备应当被视为授权说明书的一部分。
[0052] 在送里示出和讨论的所有示例中,任何具体值应被解释为仅仅是示例性的,而不 是作为限制。因此,示例性实施方式的其它示例可W具有不同的值。
[0053] 应注意到;相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一 个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
[0054] 图3是示出能够实施本发明的实施方式的计算机系统1000的硬件配置的示意性 框图。本发明的方法能够在计算机系统1000的硬件上实施。
[00巧]如图3中所示,计算机系统包括计算机1110。计算机1110包括经由系统总线 1121连接的处理单元1120、系统存储器1130、固定非易失性存储器接口 1140、可移动非易 失性存储器接口 1150、用户输入接口 1160、网络接口 1170、视频接口 1190和输出外围接口 1195。
[0056] 系统存储器1130包括ROM(只读存储器)1131和RAM(随机存取存储器)1132。 BIOS (基本输入输出系统)1133驻留在ROM 1131中。操作系统1134、应用程序1135、其它 程序模块1136和某些程序数据1137驻留在RAM 1132中。
[0057] 诸如硬盘之类的固定非易失性存储器1141连接到固定非易失性存储器接口 1140。固定非易失性存储器1141例如可W存储操作系统1144、应用程序1145、其它程序模 块1146和某些程序数据1147。
[0058] 诸如软盘驱动器1151和CD-ROM驱动器1155之类的可移动非易失性存储器连接 到可移动非易失性存储器接口 1150。例如,软盘1152可W被插入到软盘驱动器1151中,W 及CD (光盘)1156可W被插入到CD-ROM驱动器1155中。
[0059] 诸如鼠标1161和键盘1162之类的输入设备被连接到用户输入接口 1160。
[0060] 计算机1110可W通过网络接口 1170连接到远程计算机1180。例如,网络接口 1170可W经由局域网1171连接到远程计算机1180。或者,网络接口 1170可W连接到调制 解调器(调制器一解调器)1172, W及调制解调器1172经由广域网1173连接到远程计算机 1180。
[0061] 远程计算机
当前第1页1 2 3 4 5 6 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1