用于对象自动分类的方法和系统的制作方法

文档序号:6467756阅读:519来源:国知局
专利名称:用于对象自动分类的方法和系统的制作方法
技术领域
本发明一般地涉及信息检索和对象(例如文档、搜索结果等)分类,更具体而言,
本发明涉及用于对象自动分类的方法和系统,该方法和系统将基于查询历史的分类结果与 基于本体信息的分类结果相结合,来进行对象的分类和组织。
背景技术
随着因特网导致的电子信息激增,在Web上逐渐积累了大量的多元化信息,并且 这些信息仍旧持续不断地飞速增长。从而,带来的一项具有挑战性的任务是如何帮助网民 从这大量不断激增的信息中找到有用的信息。 信息检索(Information Retrieval, IR)是用于在对象(例如文档)集合中搜索 信息的科学。根据处理对象的不同,其可被进一步划分为对文档中包含的信息片段的搜索、 对文档本身的搜索、对描述文档的元数据的搜索或者数据库内的搜索,以检索文本、声音、 图像或数据。这里所述数据库可以是关系独立数据库或超文本联网数据库(例如通过因特 网或内联网)。Web搜索引擎(例如Google或Baidu)是一种被设计用于帮助用户找到存 储在Web上的信息的对象检索系统,其允许用户寻找满足特定标准(通常,该标准表达为给 定的单词或短语)的内容并检索出匹配这些标准的项目列表。 对象分类是利用来自预定集合的主题类别来标记对象(例如文档、自然语言文 本)的活动,其可被应用于IR和文本数据挖掘中的很多应用情形,例如词义消歧、文档组 织、文本过滤和网页检索等等。对象聚类(Object Clustering)是对象分类的一种,其将 诸如文档之类的对象分类到不同的群组,更确切地讲,将对象集合划分成多个子集(即聚 类),从而使得每个子集中的对象共享某些公共特征。 考虑到从通用的搜索引擎通常会返回大量搜索结果这一事实,在很多情况下,Web
用户仍旧难以找到他们真正需要的信息。对象聚类/分类技术则能够通过有效的组织这些
返回的搜索结果,使得用户能够更容易地找到或者快速导航到其所关心的对象。 如上所述,随着电子媒体内容的不断激增,搜索引擎(用于网页或桌面文档)在帮
助用户寻找有用信息方面开始扮演越来越关键的角色。然而,搜索引擎所返回的大量搜索
结果通常在标题和类型方面都是异构的,从而在用户试图找到他们感兴趣的信息时会给用
户带来极大负担。 在现有技术中已经存在很多用于自动信息分类的算法。例如,在XuanHui Wang 禾口 ChendXiang Zhai所著的题为"Learn from Web SearchLogs to Organize Search Results"的文章(参见SIGIR2007,第87-94页)(下称对比文献l)中提出这样一种搜索结 果分类方法,该方法根据从搜索引擎的查询日志学习获得的类别来组织搜索结果。再比如, 在日本专利申请2005-182280 (下称对比文献2)中给出另一种组织搜索结果的方法,该方 法基于预先存储的本体信息(ontology)来提取出对象类别,然后再按类别组织搜索结果。
在基于查询日志的对象分类方法中,类别选择没有考虑本体信息所提供的背景知 识,因此分类结果的准确性不够好。另外,由于该解决方案所采用的统计方法过多地依赖于历史信息而造成所产生的类别信息对用户而言的可读性差,因此其分类结果不是用户友好 (user-friendly)的。 另一方面,对于基于本体信息的对象分类方法,由于该分类方法受到预先存储的 本体信息的约束,所以其所产生的类别集合灵活性差,并因此难以反映用户兴趣的不断改变。

发明内容
鉴于上述现有技术中所存在的缺陷,作出了本发明,其将本体信息所提供的背景
知识与查询日志所暗示的历史信息相结合,以提高对象(例如文档和搜索结果)分类的质 根据本发明第一方面,提供了一种用于分类对象的方法,该方法包括获取一组对 象;基于查询日志对所述对象进行分类,以生成第一分类结果;基于本体信息对所述对象 进行分类,以生成第二分类结果;以及对所述第一分类结果和所述第二分类结果进行语义 融合,以生成最终分类结果。 根据本发明第二方面,提供了一种用于分类对象的系统,该系统包括对象获取装 置,用于获取一组对象;基于查询日志的分类装置,用于基于查询日志对所述对象进行分 类,以生成第一分类结果;基于本体信息的分类装置,用于基于本体信息对所述对象进行分 类,以生成第二分类结果;以及语义融合装置,用于对所述第一分类结果和所述第二分类结 果进行语义融合,以生成最终分类结果。 如下面将更详细描述的,本发明所提出的对象分类方法主要包括三个步骤(l) 基于查询日志的对象分类;(2)基于本体信息的对象分类;以及(3)上述两种分类结果的语 义融合。 首先,在基于查询日志的对象分类中,如上述对比文献1所述,由于搜索引擎的查 询日志存储了反映搜索结果的潜在方面(类别集合)的相关查询,因此该方法能够根据从 查询日志中学习得到的类别来组织搜索结果。首先,用户可以从查询日志中提取出相关查 询;然后,对这些相关查询聚类并将聚类中心视为潜在类别;最后,将所有搜索结果分类到 相应类别中。 其次,关于基于本体信息的对象分类方法,如上述对比文献2所述,由于本体信息 所反映的背景知识对用户而言更容易理解,因此该方法将搜索结果分类到从本体信息提取 出的各个类别。首先,根据本体信息,用户对待分类的对象(例如文档)和输入的目标查询 进行标注(annotation);然后,基于语义关联性分析生成对象类别集合;最后,将所有搜索 结果分类到相应类别中。 最后,语义融合步骤包含以下三种情况 1)根据基于本体信息的方法结果对基于查询日志的方法结果进行调整和细化;
2)根据基于查询日志的方法结果对基于本体信息的方法结果进行调整和细化; 以及 3)将以上两方面调整结果相结合以得到对象分类的最终结果。 根据本发明,不仅分类的准确性能够得以提高,还能够提供用户友好的分类结果显示。
如果没有合理的目标类别集合,从某种程度上讲,单单讨论分类的准确性是没有
意义的。通过将基于本体信息的分类方法所生成的语义框架(本体信息中的相关概念)添
加到基于查询日志的方法所生成的不稳定的类别集合,本发明能够动态地生成由本体知识
校正过的反映用户查询/浏览历史的目标类别集合,进而大大提高分类准确性。 另外,由于对于用户而言,本体信息所反映的背景知识更易于理解,因此本发明可
以提供用户友好的分类结果显示。 此外,来自基于本体信息的方法和基于查询日志的方法的结果之间的语义对准能
够确保聚类结果可以反映出用户兴趣的改变,从而提高了系统的分类灵活性。 从下面结合附图的详细描述中,可以更明确地看出本发明的以上及其他特征和优
点。注意,本发明并不局限于图中所示的示例或者任何具体的实施例。


结合附图,从下面对本发明实施例的详细描述,将更好地理解本发明,附图中类似 的参考标注指示类似的部分,其中 图1是示出根据本发明实施例的对象分类系统100的内部结构的框图;
图2是示出图1所示系统的操作过程的示例的流程图; 图3是更详细示出图1所示系统中用于执行基于查询日志的对象分类的分类装置 102的内部结构的框图; 图4是用于说明基于查询日志的对象分类过程的示意图; 图5是更详细示出图1所示系统中用于执行基于本体信息的对象分类的分类装置 103的内部结构的框图; 图6是用于说明基于本体信息的对象分类过程的示意图; 图7是示出第一语义融合过程的流程图,在该过程中,参考基于本体信息的分类 结果对基于查询日志的分类结果进行调整; 图8和图9是用于进一步示出图7所示第一语义融合过程和结果的示意图;
图10是示出第二语义融合过程的流程图,在该过程中,参考基于查询日志的分类 结果对基于本体信息的分类结果进行调整; 图ll和图12是用于进一步示出图IO所示第二语义融合过程和结果的示意图;以 及 图13是示出最终语义融合结果的示意图。
具体实施例方式
下面参考附图描述根据本发明的示例性实施例。应当意识到,所描述的实施例仅 是用于举例说明的目的,本发明并不限于所描述的具体实施例。 本发明涉及对象自动分类,这里以作为搜索结果的文档为例来详细说明根据本发 明的方法和系统。当然,本领域技术人员将会意识到,本发明并不局限于这里所提供的示 例,而是可被广泛应用到其他对象分类相关的领域。 图1以框图形式示出根据本发明实施例的对象分类系统100的内部结构。如图所 示,该对象分类系统IOO主要包括对象获取装置101、基于查询日志的分类装置102、基于本体信息的分类装置103和语义融合装置104,其中基于查询日志的分类装置102和基于本体 信息的分类装置103可分别参考来自查询日志存储器106的查询日志和来自本体信息存储 器107的本体信息来实现基于搜索引擎的查询日志的对象分类和基于预先存储的本体信 息的对象分类。例如前述对比文献1和2分别给出两个具体示例。当然,本领域技术人员 可以意识到,本发明所应用到分类方法并不局限于对比文献1和2中所给出的示例,本领域 公知的其他基于查询历史和本体信息的对象分类方法也可以应用于本发明以实现本发明 的目的。 在图1所示示例中,用户可获得的所有对象(例如文档)被存储在对象库105中。 用户可以首先通过输入单元1011输入一目标查询,然后搜索单元1012可以在对象库105 中执行传统的基于关键字的信息检索,以根据倒排索引(inverted index)输出搜索结果, 作为将被分类的对象集合。 基于查询日志的分类装置102的分类结果和基于本体信息的分类装置103的分 类结果分别以查询列表和概念列表形式输出,并被提供到语义融合装置104以进行语义融 合。最终,语义融合装置104对查询列表和概念列表进行调整,并输出最终分类结果。
图2示出图1所示对象分类系统100的工作过程200的流程图。首先,在步骤201 处,用户通过输入单元1011输入一 目标查询。然后,通过检索,在步骤202处,搜索单元1012 从对象库105中搜索出一组对象以用于分类。在步骤203处,基于查询日志的分类装置102 对输入的对象集合进行基于查询日志的分类,以生成第一分类结果(即查询列表)。在步骤 204处,基于本体信息的分类装置103对输入的对象集合进行基于本体信息的分类,以生成 第二分类结果(即概念列表)。最后,在步骤205中,语义融合装置104对第一和第二分类 结果进行语义融合,以生成最终分类结果。然后,过程200结束。
下面,将首先参考图3和4来描述基于查询日志的对象分类过程。
如图3所示,基于查询日志的分类装置102包括查询日志获取单元301、相关查询 提取单元302、基于聚类的类别学习单元303和分类单元304。查询日志存储器106存储 有来自搜索引擎的查询历史,即用户所输入的所有查询以及与这些查询相关联的点入信息 (下文称之为"伪文档")。其中,每个查询例如可以对应于一个伪文档,以记录该查询所得 到的搜索结果中哪些结果被用户点击过,以及被点击的次数等信息。 首先,查询日志获取单元301获取查询日志存储器106中所存储的查询日志。相关 查询提取单元302根据查询日志获取单元301所获取的查询日志中的伪文档与用户输入的 目标查询之间的相似性提取出相关查询。然后,基于聚类的类别学习单元303对所有相关 查询进行聚类并输出每个聚类的中心作为一个对象类别。这些对象类别应该对应于用户输 入的目标查询中所给出的用户兴趣。例如,如图4所示,在以"WarRoom"为目标查询的示例 中,例如可以得到图中左侧所示出的聚类结果。并且在图中右侧所示出的查询列表中,左侧 聚类策略中生成的聚类中心WarRoom Plan、WarRoom Spec、Information Management、Tag、 Ontology等被用作对象类别。 然后,分类单元304可以利用现有的分类方法将对象(例如搜索结果)分类到不 同类别。例如,分类单元304可以根据搜索结果的TF-IDF向量与某一类别中所有文档的向 量的平均值之间的余弦相似性得分来进行搜索结果的分类(即,基于质心的方法)。
图5和图6详细示出基于本体信息的对象分类装置及其操作原理。首先如图5所示,基于本体信息的分类装置103包括本体信息获取单元501、对象标注单元502、查询标注 单元503、类别生成单元504和分类单元505。本体信息存储器107由两部分构成,即背景 知识存储库1071和元数据存储库1072。在图5所示示例中,首先,对象标注单元502从背 景知识存储库1071获取背景知识,并将其传输到对象标注单元502,以用于对象(例如文 档)语义标注。对象标注单元502获取来自外部的对象集合,并参考由本体信息获取单元 501输入的背景知识来对接收到的对象进行语义标注,并将作为语义标注结果所生成的元 数据存储到元数据存储库1072中以备后用。对象标注单元502对诸如文档之类对象集合 的语义标注过程在后台执行,其记录背景知识中定义的实体与出现在文档中的实体之间的 关联关系(linkage)。 参考图6所示流程图,查询标注单元503对预先输入的目标查询(步骤601),例如 "WarRoom Summery"中出现的关键字进行语义标注,并识别出在背景知识中出现的实体与 目标查询中感兴趣的实体之间的关系(步骤602)。例如,查询标注单元503可以识别出实 体"WarRoom"是背景知识中的概念"project"的一个实例。然后,在步骤603中,类别生成 单元504根据经标注的目标查询在本体信息中的语义相关概念从背景知识存储库1071中 所存储的背景知识中提取出适当的对象类别集合。例如,根据背景知识,类别生成单元504 可以识别出概念"project"与"Time"、"People"、"Team"等概念相关,并因此将这些概念提 取出以作为可能的对象类别。从而,类别生成单元504可以生成如图6所示概念列表1以 用于对象分类。最后,在步骤604中,分类单元505利用背景知识作为中介,通过参考预先 由对象标注单元502存储在元数据存储库1072中的与对象集合中的各个对象相关的元数 据来执行语义关联性分析,从而找到适当的类别用于对象分类。 上面分别参考图3、4和图5、6详细描述了基于查询日志和基于本体信息的对象分 类方案的示例。如前所述,基于查询日志的分类方法由于没有考虑本体信息所提供的背景 知识,因此分类结果的准确性不够好,并且对用户而言可读性差。另一方面,基于本体信息 的分类方法所产生的类别集合灵活性差,并且难以反映用户兴趣的不断改变。鉴于此,本发 明提出一种综合性方法,用于将上述两种分类方案相结合,以提高对象分类的准确性和用 户友好性。 根据本发明的实施例,在图1所示系统100中,语义融合装置104的工作过程主要 包括以下三个方面 1)根据基于本体信息的分类结果来调整基于查询日志的分类结果; 2)根据基于查询日志的分类结果来调整基于本体信息的分类结果;以及 3)将以上两方面调整结果相结合以得到最终的对象分类结果。 下面将通过参考图7-13来详细描述语义融合装置104所执行的语义融合过程的
工作原理。 首先,图7示出第一语义融合过程,在该过程中,参考基于本体信息的分类结果 (即概念列表)对基于查询日志的分类结果(即查询列表)进行调整。图8和图9是示出 图7所示第一语义融合过程和结果的示意图。 如图7所示,语义融合装置104首先接收分别来自基于查询日志的分类装置102 和基于本体信息的分类装置103的第一分类结果(即查询列表)和第二分类结果(即概 念列表)。所述查询列表和概念列表的结构例如如图8所示。然后,在步骤701中,首先计算查询列表上的查询与概念列表中的每个概念之间的相似性。例如,在图8所示示例中, 获取查询列表中的查询"WarRoom Spec"所对应的每个文档,分析其元数据(Time、People、 Team...):例如,类别"WarRoom Spec"中90%的文档包含单词"MengXin"或由"MengXin"创 建,从而确定查询"WarRoom Spec"与概念列表中的概念"MengXin"之间的相似性为90%。 类似地,可以确定查询"WarRoom Spec"与概念列表中的概念"Time"下的子概念"Jan"、 "Feb"、"Mar"之间的相似性分别为15%、80%和5%。接下来,在步骤702中,判断计算出 的相似性是否大于预先给定的阈值。如果是,则在步骤703中执行第一语义融合。例如,可 以通过在概念"MengXin"之后添加括号,并在括号中添加查询"WarRoom Spec"而将查询 "WarRoom Spec"与概念"MengXin"相融合。然后,在步骤704中,根据在步骤701中计算出 的文档相似性对括号中的查询进行排序。然后,过程700结束。 图9示出上述第一语义融合过程的结果。经过第一语义融合,基于本体信息的分 类过程所生成的概念列表的语义框架被添加到基于查询日志的分类过程所生成的查询列 表,从而得到图9所示的融合列表1。通过该过程,本体信息中的相关概念可以被添加到查 询列表形成的不稳定的目标类别集合,从而提高分类准确性。另外,由于用户可以更好地理 解本体信息所提供的背景知识,因此经过第一语义融合,可以提供分类结果的用户友好显 示。 图10示出第二语义融合过程,在该过程中,参考基于查询日志的分类结果(即查 询列表)对基于本体信息的分类结果(即概念列表)进行调整。图11和图12是示出图10 所示第二语义融合过程和结果的示意图。 首先,如图IO所示,语义融合装置104首先接收分别来自基于查询日志的分类装 置102和基于本体信息的分类装置103的第一分类结果(即查询列表)和第二分类结果 (即概念列表)。然后,在步骤1001中,从本体信息存储器107收集一段时间内与目标查询 (例如"WarRoom")的概念相关的所有查询,并在步骤1002中,收集与这些查询相关的所有 伪文档。接下来,在步骤1003中,可以参考各个查询所对应的伪文档而统计出查询列表中 的每个类别(即查询)中的搜索结果的点击次数。例如,如图ll所示,查询列表中的查询 "WarRoom Plan"、"WarRoom Spec"等所对应的搜索结果的点击次数被计算出为100次、30 次等,并被相应地表记载查询列表中。然后,在步骤1004中,判断计算出的各个查询的点击 频率是否大于预先给定的阈值。如果是,则在步骤1005中执行第二语义融合,即将具有较 高点击频率的查询类别添加到概念列表中。例如,在图11所示示例中,由于查询"Tag"和 "Information Management"具有较高点击频率,因此当搜索"WarRoom"时,它们被视为伪概 念并被添加到概念列表中。然后,在步骤1006中,根据点击频率的大小对添加的伪概念进 行排序。然后,过程1000结束。 图12示出上述第二语义融合过程的结果。如图所示,通过分析基于查询日志的分 类方法所生成的查询列表,具有较高点击频率的查询"Tag"和"Information Management" 作为伪概念被添加到基于本体信息的分类方法所生成的概念列表,从而得到图12所示的 融合列表2。在大多数情况下,本体信息的定义可能不够全面,并且其一旦被指定,则可能难 以根据用户的兴趣而被改变。通过第二语义融合过程,可以将基于查询历史生成的相关伪 概念添加到概念列表,从而使得分类结果更具灵活性。这样一来,既可以补偿本体信息过于 僵化的缺点,也可以反映用户兴趣的改变。
最后,上述第一和第二语义融合过程的结果被进一步融合到一起,从而形成最终 的对象分类结果。图13示出最终语义融合结果的示意图。该最终分类结果例如图13中的 融合列表3所示。通过将两种语义融合结果相结合,可以实现基于本体信息的分类方法和 基于查询日志的分类方法的相互调整和细化。 经过上述语义融合过程,使得根据本发明的对象分类方法所生成的分类结果更准 确并且更具用户友好性。 首先,在用户友好性方面,通过将基于本体信息所生成的概念列表的语义框架添 加到查询列表,使得用户可以更快地了解相关查询的语义属性,而动态添加相关伪概念的 做法可以解决本体信息僵化的问题并使得用户更容易找到最流行以及最相关的查询结果。 此外,根据查询相关的搜索结果的点击频率调整每个类别排序的做法可以反映出用户兴趣 的改变。 其次,在分类准确性方面,通过将语义框架添加到基于查询日志的方法所生成的 不稳定的类别集合,可以使得目标类别集合进一步细化,从而提高分类的准确性。另外, 任何搜索引擎在运行初期都不具有查询日志,并且在不同领域的查询日志通过是完全不同 的,并因此可能无法在本地引擎上直接使用。因此,基于本体信息的方法可以补偿搜索引擎 运行初期不存在查询日志的情况,从而进一步提高对象分类的准确性。 虽然上面已经参考附图描述了根据本发明的具体实施例,但是本发明并不限于图 中示出的特定配置和处理。在上述实施例中,描述和示出了若干具体的步骤作为示例。但 是,本发明的方法过程并不限于所描述和示出的具体步骤,本领域的技术人员可以在领会 本发明的精神之后,作出各种改变、修改和添加,或者改变步骤之间的顺序。
本发明的元素可以实现为硬件、软件、固件或者它们的组合,并且可以用在它们的 系统、子系统、部件或者子部件中。当以软件方式实现时,本发明的元素是被用于执行所需 任务的程序或者代码段。程序或者代码段可以存储在机器可读介质中,或者通过载波中携 带的数据信号在传输介质或者通信链路上传送。"机器可读介质"可以包括能够存储或传输 信息的任何介质。机器可读介质的例子包括电子电路、半导体存储器设备、R0M、闪存、可擦 除ROM(EROM)、软盘、CD-ROM、光盘、硬盘、光纤介质、射频(RF)链路,等等。代码段可以经由 诸如因特网、内联网等的计算机网络被下载。 本发明可以以其他的具体形式实现,而不脱离其精神和本质特征。例如,特定实施 例中所描述的算法可以被修改,而系统体系结构并不脱离本发明的基本精神。因此,当前的 实施例在所有方面都被看作是示例性的而非限定性的,本发明的范围由所附权利要求而非 上述描述定义,并且,落入权利要求的含义和等同物的范围内的全部改变从而都被包括在 本发明的范围之中。
权利要求
一种用于分类对象的方法,包括获取一组对象;基于查询日志对所述对象进行分类,以生成第一分类结果;基于本体信息对所述对象进行分类,以生成第二分类结果;以及对所述第一分类结果和所述第二分类结果进行语义融合,以生成最终分类结果。
2. 如权利要求1所述的方法,其中获取所述对象的步骤包括 输入一目标查询;根据所述目标查询在对象库中进行搜索;以及 输出搜索结果,作为待分类的对象集合。
3. 如权利要求2所述的方法,其中在所述对象库中的所述搜索采取基于关键字的信息 检索方法。
4. 如权利要求2所述的方法,其中所述基于查询日志对所述对象进行分类的步骤包括获取所述查询日志;从所述查询日志中提取出与所述目标查询相关的查询;对提取出的所述相关查询进行聚类,并确定各个聚类的聚类中心,作为对象类别;以及 将所有所述搜索结果分类到确定的各个类别中。
5. 如权利要求2所述的方法,其中所述基于本体信息对所述对象进行分类的步骤包括获取所述本体信息;参考所述本体信息标注作为搜索结果的所有对象和所述目标查询;根据经标注的所述目标查询在所述本体信息中的语义相关概念来生成对象类别;以及 将所有所述搜索结果分类到生成的各个类别中。
6. 如权利要求1所述的方法,其中所述语义融合步骤包括 根据所述第二分类结果来调整所述第一分类结果; 根据所述第一分类结果来调整所述第二分类结果;以及集成所述调整后的第一分类结果和所述调整后的第二分类结果,以生成所述最终分类 结果。
7. 如权利要求6所述的方法,其中所述调整第一分类结果的步骤包括 将所述第二分类结果所形成的语义框架添加到所述第一分类结果。
8. 如权利要求6所述的方法,其中所述调整第二分类结果的步骤包括 将所述第一分类结果中被频繁点击的查询添加到所述第二分类结果。
9. 一种用于分类对象的系统,包括 对象获取装置,用于获取一组对象;基于查询日志的分类装置,用于基于查询日志对所述对象进行分类,以生成第一分类 结果;基于本体信息的分类装置,用于基于本体信息对所述对象进行分类,以生成第二分类 结果;以及语义融合装置,用于对所述第一分类结果和所述第二分类结果进行语义融合,以生成最终分类结果。
10. 如权利要求9所述的系统,还包括 用于存储对象的对象库; 其中所述对象获取装置包括 输入单元,用于输入一目标查询;以及搜索单元,用于根据所述目标查询在所述对象库中进行搜索,并且输出搜索结果,作为 待分类的对象集合。
11. 如权利要求io所述的系统,其中所述基于查询日志的分类装置包括查询日志获取单元,用于获取所述查询日志;相关查询提取单元,用于从所述查询日志中提取出与所述目标查询相关的查询; 基于聚类的类别学习单元,用于对提取出的所述相关查询进行聚类,并确定各个聚类 的聚类中心,作为对象类别;以及分类单元,用于将所有所述搜索结果分类到确定的各个类别中。
12. 如权利要求10所述的系统,其中所述基于本体信息的分类装置包括 本体信息获取单元,用于获取所述本体信息;对象标注单元,用于参考所述本体信息标注作为搜索结果的所有对象; 查询标注单元,用于标注所述目标查询;类别生成单元,用于根据经标注的所述目标查询在所述本体信息中的语义相关概念来 生成对象类别;以及分类单元,用于将所有所述搜索结果分类到生成的各个类别中。
13. 如权利要求9所述的系统,其中所述语义融合装置包括 第一调整单元,用于根据所述第二分类结果来调整所述第一分类结果; 第二调整单元,用于根据所述第一分类结果来调整所述第二分类结果;以及 集成单元,用于集成所述调整后的第一分类结果和所述调整后的第二分类结果,以生成所述最终分类结果。
全文摘要
本发明提供了用于对象自动分类的方法和系统。所述方法包括获取一组对象;基于查询日志对所述对象进行分类,以生成第一分类结果;基于本体信息对所述对象进行分类,以生成第二分类结果;以及对所述第一分类结果和所述第二分类结果进行语义融合,以生成最终分类结果。根据本发明,与现有技术相比,通过对基于查询日志的分类结果与基于本体信息的分类结果进行语义融合,可以提高分类的准确性和用户友好性。
文档编号G06F17/30GK101727454SQ20081017361
公开日2010年6月9日 申请日期2008年10月30日 优先权日2008年10月30日
发明者史敬威, 孟昕, 李建强, 赵彧 申请人:日电(中国)有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1