用于确定具有区别性事实的近似判断的方法和装置的制造方法_3

文档序号:9865513阅读:来源:国知局
可计数为1。因此,总 改变距离可被计数为2。
[013引根据本发明的另一个方面,可W使用重要路径挖掘提取具有区别性事实的近似判 断。
[0139] 图10示出了根据本发明的实施方式使用重要路径提取具有区别性事实的近似判 断的处理的流程图。
[0140] 如图10所示,在步骤2610,可W通过识别第一事实项和第一组类似文档中的每一 个文档的事实项之间的不同事实项,为所述每一个文档产生候选的具有区别性事实的近似 判断。
[0141] 对于与输入文档相比具有不同判断项的每一个文档,首先假设该不同的判断项作 为候选近似判断,并且假设所有不同的事实项作为区别性事实。然后,将产生候选的具有区 别性事实的近似判断。
[0142] 图11示出了产生候选的具有区别性事实的近似判断的例子的示意图。在送个例 子中,对于该输入文档,事实项(发现)包括:"年龄:50","结节:不规则的","淋己结: 肿大","性别:女性",和"阴影:存在",并且判断项(诊断结果)是"肺癌"。
[0143] 对于该输入文档,可W获得100个类似文档(注意,送100个类似文档是使用另一 种方法获得的,所W送些文档与上面的143个文档不相关),并且70个类似文档的判断项 不同于"肺癌"。送70个类似文档中的20%的判断项是支气管扩张,35%是肺賊疮,15% 是肺气肿,20%是肺结核,10%是肺炎。对于具有不同判断项的一个类似文档和输入文档之 间的关系,其可被写为"(发现< 阴影:存在〉一 0) -(肺癌一支气管扩张);距离=1"。 其意味着删除事实项"阴影:存在",判断项将从"肺癌"改变为"支气管扩张",并且输 入文档和类似文档之间的事实距离是1。
[0144] 接下来,将使用重要路径挖掘的方法,使用候选的具有区别性事实的近似判断提 取具有区别性事实的近似判断。使用候选的具有区别性事实的近似判断提取具有区别性事 实的近似判断的详细步骤如下。
[0145] 在步骤2620,可W产生一个转移图,其中该转移图中的每一个末端节点是判断项, 并且该转移图中的每一个非末端节点是事实项。
[0146] 接下来,在步骤2630,可W将所有候选的具有区别性事实的近似判断布置在该转 移图中,其中连接转移图中的两个末端节点的每一条路径指示一个候选的具有区别性事实 的近似判断。换言之,如果两个节点被包括在一个候选的具有区别性事实的近似判断中,可 W画出送些节点之间的边,因此将产生在转移图中连接两个判断项节点的路径。
[0147] 接下来,在步骤2640,可W通过记录在转移图中连接任意两个节点的每一条边连 接频率,计算在转移图中的每一条边的重要性。
[014引在步骤2650,识别其重要性等于或者大于预定的第五阔值的重要的边。换言之,女口 果一条边的重要性达到预定的阔值,该边将被识别为重要的边。注意,可W由用户根据经验 确定预定的第五阔值。
[0149] 接下来,在步骤2660,可W产生至少一条区别性路径,其中该区别性路径由重要的 边组成,并且该区别性路径将第二判断项连接到第一判断项。
[0150] 图12示出了重要路径挖掘的例子的示意图。如图12所示,转移图中的末端节点 是"肺癌"和"肺结核",它们是判断项。转移图中的非末端节点包括;"阴影存在","胸 腔积液:存在","淋己结:肿大"和"结节:不规则的",它们是事实项。如果两个节点 被包括在一个候选的具有区别性事实的近似判断中,则画出送些节点之间的边。还W粗线 标记了重要的边。区别性路径是从"肺癌"到"淋己结:肿大"到"阴影存在"到"肺结 核"。
[0151] 最终,在步骤2670,将每一条区别性路径转译为具有区别性事实的近似判断。
[0152] 在上面的例子中,重要路径可被转译为:
[0153] (发现 < 淋己结:肿大〉一 < 阴影:存在〉)一(肺癌一肺结核);距离=2
[0154] 其意味着删除事实项"淋己结:肿大"并且添加事实项"阴影:存在"将导致判 断项从肺癌改变为肺结核。另外,如上所述,改变距离是2。
[0155] 因此,通过如图10所示的处理,可W提取具有区别性事实的近似判断。
[0156] 根据本发明的另一个方面,可W通过改变事实项,提取具有区别性事实的近似判 断。在送个处理中,将检查输入文档和类似文档的每一个不同的事实项,W便识别哪个事实 项是区别性事实。
[0157] 图13示出了根据本发明的实施方式通过改变事实项提取具有区别性事实的近似 判断的处理的流程图。
[015引如图13所示,在步骤2710,可W产生候选区别性事实,其中产生候选区别性事实 可W包括:使用不同于第二事实项的第一事实项指定候选原始判断区别性事实;使用不同 于第一事实项的第二事实项指定候选新判断区别性事实,其中候选原始判断区别性事实的 数目和候选新判断区别性事实的数目之和等于一个预定数目(即,预定的改变距离)。
[0159] 例如,旅行者可能想要使用东京培的当前旅行介绍手册搜索某些类似的旅行介绍 手册。每一个旅行介绍手册包含目的地的某些特征,其可被称为用户感兴趣的项目,并且目 的地是用户想要比较的地点。因此,目的地可被当作判断项,并且用户感兴趣的项目可被当 作事实项。
[0160] 在该步骤,可W检索描述关于目的地的信息,诸如价格、旅行所需的时间、旅行模 式、建筑风格等等的许多类似的旅行介绍手册。
[0161] 对于每一个目的地,可W产生候选区别性事实。
[0162] 例如,当前目的地是东京培,并且将关注浅草寺。送两个目的地之间的不同事实项 可W包括:
[0163] 东京培: < 价格:200X建筑;现代的〉
[0164] 浅草寺:< 价格:100X建筑;宗教的〉
[0165] 因此,可W产生候选区别性事实。
[0166] 接下来,在步骤2720,可W验证第一组类似文档中的候选区别性事实,其中验证第 一组类似文档中的候选区别性事实可W包括:识别第一组类似文档中的包含候选新判断 区别性事实但是不包括候选原始判断区别性事实的文档,并且识别出的文档的判断项不同 于第一判断项;W及如果识别出的文档的判断项中的一个是集中判断项,将该候选区别性 事实标记为已验证,其中对应于集中判断项的文档在所有识别出的文档中的比率等于或者 大于预定的第六阔值。
[0167] 例如,对于候选区别性事实《建筑:现代的〉一<建筑:宗教的〉)(其含义是包 含事实(建筑:宗教的),但是不包含事实(建筑:现代的)),发现10个旅行介绍手册包 含事实 < 建筑:宗教的〉而不包含 < 建筑:现代的〉;并且9个旅行介绍手册涉及浅草寺, 其数目大于预定的阔值(例如,60%),因此浅草寺是集中判断项。于是验证候选区别性事 实《建筑:现代的〉一 < 建筑:宗教的〉),并且浅草寺是集中判断项。注意,该阔值也可 由用户根据经验定义。
[016引接下来,在步骤2730,可W产生具有区别性事实的近似判断,其中选择已验证的候 选区别性事实作为区别性事实;并且选择集中判断项作为近似判断。
[0169] 旅行介绍手册搜索的例子中的具有区别性事实的近似判断的例子如下。
[0170] (1)(<建筑观代的〉一 < 建筑;宗教的〉)一(东京培一浅草寺);距离=2
[017。 (2)(<建筑;现代的〉一 < 建筑;皇家的〉)一(东京培一皇宫广场);距离=2
[0172] (3) ?旅行模式:陆地〉一 < 旅行模式:水上〉)一(东京培一墨田河巡航);距 离=2
[017引 (4) ?时间:2小时内〉一 0) -(东京培一八宝苑国家花园);距离=1 [0174] 对于项目(1),其含义是删除输入旅行介绍手册中的事实项"建筑:现代的",并 且添加事实项"建筑:宗教的"将导致判断项(目的地)从东京培改变为浅草寺,并且改 变距离(区别性事实的数目)是2。
[0Π5] 对于项目(2),其含义是删除输入旅行介绍手册中的事实项"建筑:现代的",并 且添加事实项"建筑:皇家的"将导致判断项(目的地)从东京培改变为皇宫广场,并且 改变距离(区别性事实的数目)是2。
[0176] 对于项目(3),其含义是删除输入旅行介绍手册中的事实项"旅行模式:陆地", 并且添加事实项"旅行模式:水上"将导致判断项(目的地)从东京培改变为墨田河巡航, 并且改变距离(区别性事实的数目)是2。
[0177] 对于项目(4),其含义是删除输入旅行介绍手册中的事实项"时间:2小时内"将 导致判断项(目的地)从东京培改变为八宝苑国家花园,并且改变距离(区别性事实的数 目)是1。
[0178] 因此,可W通过使用图13所示的方法改变事实项,提取具有区别性事实的近似判 断。
[0179] 根据本发明的另一个方面,可W使用改变树提取具有区别性事实的近似判断。在 该方法中,可W使用领域知识来改进类似文档搜索。
[0180] 图14示出了根据本发明的实施方式使用改变树提取具有区别性事实的近似判断 的处理的流程图。
[0181] 如图14所示,在步骤2810,可W获得关于输入文档的改变树,其中该改变树是特 定于与输入文档有关的一组知识信息的结构化数据,其中每一个非末端节点是一个事实 项,并且每一个末端节点是一个判断项。
[0182] 例如,顾客可能希望决定买哪一种照相机。顾客可能认为一种类型的卡片照相机 的当前介绍不够好,并且他会搜索某些类似的照相机介绍。
[0183] 在该情况下,产品类型是用户想要比较的内容,所W产品类型可被当作判断项,并 且产品参数项目可被当作事实项。
[0184] 在送个领域中,可能已经存在手工构造或者通过知识挖掘技术挖掘的结构化知 识。我们将结构化知识称为改变树。该结构化知识可用于组织搜索结果。
[0185] 图15示出了改变树的例子的示意图。在送个例子中,一个末端节点是"卡片照相 机"。其它末端节点是"紧凑型照相机(compact camera) ",^LR照相机","专业照相机 "和"长焦相机"。关于各种类型的照相机的特征,即,事实项构成非末端节点。
[0186] 接下来,在步骤2820,可W通过选择链接所获得的改变树中的两个末端节点的一 条路径产生具有区别性事实的近似判断。
[0187] 例如,对于图15中的改变树,我们可W选择最右边的分支。对于该分支,我们可W 将其转译为下面的具有区别性事实的近似判断:
[0188] (参数 < 光学缩放:5倍〉一参数 < 光学缩放:50倍〉)一
[0189] (卡片照相机一远距照像机);距离=2
[0190] 送个具有区别性事实的近似判断的含义是删除输入产品介绍中的事实项"光学缩 放:5倍"并且添加事实项"光学缩放:50倍"将导致判断项(产品类型)从卡片照相机改 变为远距照相机,并且改变距离(区别性事实的数目)是2。
[0191] 因此,可W基于图14所示的处理提取具有区别性事实的近似判断。
[0192] 另选地和/或附加地,提取具有区别性事实的近似判断还可W包括:检测类似的 区别性事实;合并类似的区别性事实;使用合并的区别性事实调整具有区别性事实的近似 判断。
[0193] 例如,两个事实项"肿瘤大小:3. 7cm"和"肿瘤大小:3. 9cm"可被合并为一个事实 项"肿瘤大小:3. 5~4. 0cm"。然后,可W使用送个合并的事实项调整具有区别性事实的近 似判断。
[0194] 在一种实施方式中,可W通过输出所有具有区别性事实的近似判断的列表呈现具 有区别性事实的近似判断。
[0195] 在一种实施方式中,可W通过W下操作呈现具有区别性事实的近似判断;输出其 改变距离小于预定的第走阔值的具有区别性事实的近似判断,或者输出预定数目的具有最 小改变距离的具有区别性事实的近似判断。注意,可W由用户根据经验确定预定的第走阔 值。
[0196] 在一种实施方式中,可W通过W下操作呈现具有区别性事实的近似判断:计算每 一个具有区别性事实的近似判断的覆盖率,其中所述覆盖率是与具有区别性事实的近似判 断匹配的文档在第一组类似文档中的比率;W及输出其覆盖率等于或大于预定的第八阔值 的具有区别性事实的近似判断,或输出预定数目的具有最大覆盖率的具有区别性事实的近 似判断。注意,可W由用户根据经验确定预定的第八阔值。
[0197] 在一种实施方式中,可W通过与具有区别性事实的近似判断一起输出改变树,呈 现具有区别性事实的近似判断。
[019引在一种实施方式中,可W呈现第一判断项的事实和近似判断的事实之间的事实差 异,其中所述事实差异引起从第一判断项到所述近似判断的变化。通过该处理,用户可W清 楚地知道哪些事实差异将引起从第一判断项到另一个判断项的变化,并且如果文档包含送 种事实差异,他可W更加关注该文档。例如,因为"胸腔积液:存在"是"肺癌"和"肺賊疮" 的本质区别,如果事实项"胸腔积液:存在"存在,医生应该更加关注它。医生可W重新检 查事实项"胸腔积液:存在便给出准确的诊断。送是医生进行文档搜索的真实搜索目 的。
[0199] 在一种实施方式中,对于每一个具有区别性事实的近似判断,可W指示输入文档 中的对应于原始判断区别性事实的句子,并且还可W指示输入文档中的新判断区别性事 实。通过该处理,可W高亮显示文档中的重要部分,送便于用户的阅读。
[0200] 另外,在某些文档中,可能存在多个判断项,例如患者可能同时具有两种疾病。在 送种情况下,应当检测关于每一个判断项的事实项的关系,并且可W对判断项和事实项分 类,W便获得一系列具有其事实项的判断项。另外,输入文档可被当作两个文档的组合,并 且对于具有其事实项的每一个不同的判断项,可W根据上面的方法提取具有区别性事实的 近似判断。
[0201] 利用上面的方法,可W提供与用户的真实搜索目的匹配的有价值的信息。
[0202] 另外,可W组织搜索结果,从而可W节省用户阅读文档的时间。
[0203] 图16示出了根据本发明的实施方式的用于类似文档搜索的方法的流程图。
[0204] 如图16所示,在步骤3100,可W获得输入文档。接下来,在步骤3
当前第3页1 2 3 4 5 6 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1