使用语汇数据库用以命名萃取自文件组中的字汇群集和词组群集的方法、系统和计算机程序的制作方法

文档序号:6407742阅读:210来源:国知局
专利名称:使用语汇数据库用以命名萃取自文件组中的字汇群集和词组群集的方法、系统和计算机程序的制作方法
技术领域
本发明为一种使用语汇数据库用以命名萃取自文件组中的字汇群集和词组群集的方法、系统和计算机程序,以自动命名一组文件的方式而使得文件组织化,尤其指一种使用语汇数据库来命名字汇群集和词组群集,并能适当的代表该字汇群集和词组群集的意义本质。
背景技术
一般各式各样的文件都可以视为一种文件,而这些文件通常是字汇的组合,例如报告、新闻文章或网页,或者是用键盘或打字机而产生的字符的组合。随着现代技术的进步和计算机的可靠性增加,伴随而来的是各种软件产生的文件数量大幅度的增加,现今在大型的公司中,几十万份的文件,甚至更多的文件,一直以软件的形式产生和存储,由于这样的趋势,使得想在这些文件中取得某些特定数据或文件,变得困难和费时,因此产生了一个需求,也就是提供一个系统能有效率及适当的做文件分类,很明显的是一个有效的文件分类能使相关的文件组合成群,因此,这样的结果会使得所有的文件更能有效率的取得、浏览、搜寻和组织内容,也就是说更容易存取所有的文件。
例如,一则新闻的提供者,还可以是报社、广播电台、电视台或其它组织,提供了一些关于财经、政治、运动、娱乐、分类广告、一般广告和其它主题的文件,假如把这些文件全部群集在一起,然后在其中找寻一特定文件,将会变得相当困难且没有效率。因此,所有的文件应该以相关主题和文件做分类,或者是相似的文件群集在一起,例如,最普遍的方式是所有关于运动的文件组成一类,所有关于财经的文件组成一类,事实上,新闻提供者有许许多多的相关文件,且数量相当庞大,因此需要更进一步的做次分类。接着上述的例子,运动这个分类可进一步做次分类,例如一个次分类是关于网球,另一个次分类是关于足球。
由上面的讨论得知,对于拥有大量文件的组织,如图书馆和大公司,适当的文件分类是一个重要的课题,合适的分类将有助于有逻辑性的安排文件,和在找寻一特定主题的文件时亦可降低时间、人力。
为了合适的做文件分类,在文件上用最佳的方式做群集的标示是重要的,一个标签可以是一个描述性的或识别的字汇或词组,用以显示该文件的意义本质或用以识别该文件。传统的分类方法是依靠作者或某些专家(如图书学专家)在文件上做标示或检索,而这些标示或检索可进一步使用于文件分类,虽然这样的人工标示和分类可有效的实行,但通常是耗时和昂贵的,然而,当处理的文件数量变大时,所需付出的心力则更为重要,有时甚至无法执行,事实上,在缺少这样的人工标示时,由于缺乏任何合适的自动标示方法,文件的管理将是窒碍难行。
在过去曾经有几种方法被提出用以自动产生文件标签,大部分的方法是从文件中截取一些字汇来组成文件标签,在这种情况下,文件标签只是文件中最常使用或最常用来叙述的字汇,而这样的方法所产生的卷标并不足以显示文件的意义本质。以之前提到的例子,可以进一步说明,有关于足球比赛和网球比赛的新闻文件中,最常出现的字汇是“报导者”,按照上述文件标签选定的方法是采用最常出现的字汇,则会出现用“报导者”来做有关于足球比赛和网球比赛的新闻文件的文件标签,而把这两种文件视为同一类别,很显然地,足球和网球并不相干,这样的分类并不合适,至少,“报导者”这个文件卷标并无法适当的显示这些文件的内容、意义本质和重要性。因此,最需要的是一种合适的标示文件的方法,而这个标示文件的方法可以显示文件的主要事项,包括文件的主要内容及内涵,上面所讨论的事项显示需要一种以内容为基础的文件标示方法。
之前有一个方法是使用“自我组织地图(Self-Organizing Maps--SOM)”来分类和标示文件,通常,一个文件会有许多特征,例如常出现一个特别的关键词在文件中,因此,用带有特征值的特征向量(也就是常出现的关键词)来代表该文件的要素,使用自我组织地图(SOM)这个方法来代表文件和做文件的群集分析,而“文件集合的自我组织地图(WEBSOM-Self OrganizingMaps of Document Collections”和“自我组织地图的标示(On the Labeling ofSelf-Organizing Maps-LabelSOM)”则是利用自我组织地图(SOM)来做文件的群集和标示。
“文件集合的自我组织地图(WEBSOM-Self Organizing Maps ofDocument Collections”发表于自我组织地图协会的研讨会(Proc.Workshopon Self-Organizing Maps-WSOM97)上,于1997年在芬兰举行,由TimoHonkela、Samuel Kaski、Krista Lagus和Teuvo Kohonen所提出,其特征为在一系列的文件中萃取出一组关键词来当做文件的特征。假设有五个文件需做分类和从这些文件中萃取出50个关键词,则这50个关键词用来当做这五个文件的特征,对每一个文件会产生一个50个方向维的向量,在这个特征向量中的每一个元素将对应到文件中相关关键词的出现频率,这些文件将被对映成2乘2的地图。根据文件的距离来决定文件的相似度而群集在一起,而在地图上做紧密的对映,因此,这个地图提供了相似文件群集的文件集合的可看视的综述,然而,它并没有标示文件,只是将文件中出现的字汇加以群集。
“自我组织地图的标示(On the Labeling of Self-OrganizingMaps-LabelSOM)””由Andreas Rauber发表于1999年,它揭示一种自动标示自我组织地图的方法,其输出为N乘M的方格(grid),其中文件群集是对映到每一个方格元素,这个群集会用出现在文件中的字汇来给一个标示,由文件间欧几里得距离(Euclidean distance)和代表群集的存储特征向量来对映文件到群集,每一个群集由存储特征向量中的特定元素来做标示,这是由特征向量中每一个元素的欧几里得距离的贡献来决定。这些元素被选来形成一个卷标,而这些元素是群集中最显明的元素,这个卷标地图可以让使用者了解其结构和地图中的信息。
然而,文件集合的自我组织地图(WEBSOM)和自我组织地图的标示(LabelSOM)都没有强调用一个有意义的名字或词组来命名,而该命名可以适当的表示文件的意义。事实上,这两个方法都使用最常出现的字汇当作文件的标签,在上述的例子中,这些技术会以“报导者”当标头,来标示有关于足球比赛和网球比赛的新闻文件。此外,所得到的标签必须是曾经出现在文件中的字汇。
“从原本文件自动内容萃取(Automated Concept Extraction from PlainText)””发表于1998年7月的学习文件分类的研讨会上(AAAI Workshop onLeaning for Text Categorization),由Boris Gelfand、Marilyn Wulfekuhler和William F.Punch III所共同提出。该文提供一个系统用以从未结构化的本文萃取出内容,这个方法使用语汇数据库来识别文件中字汇间的关系,和识别用以形成接近内容群组的字汇群组,这个方法从未经处理的本文中,萃取出含有语义学的特征,然后用语义学关系图(Semantic Relationship Graph-SRG)联结在一起,它会产出一个语义学关系图(SRG),该语义学关系图(SRG)系将有语义学的关系的字汇联结在一起。更进一步说明,在语义学关系图中,假如两个字汇并非直接联结在一起,而是通过一个语汇数据库中的联结字汇直接联结在一起,此时,这个联结字汇将以“扩大字汇(Augmented Word)”加入到语义学关系图中,以便联结这两个字汇。例如,在语义学关系图中有两个字汇“神父(Priest)”和“管理(Government)”,并不直接联结在一起,而是通过加入一个“扩大字汇(Augmented Word)”如管理机构(Authority)于语义学关系图中,来联结这两个字汇“神父(Priest)”和“管理(Government)”。最后,语义学关系图会被分割出一些次图,以获得不同文件的类别,然而,这篇论文依然没有强调一个文件或一组文件的标示,换句话说,依然需要一个分类的标示方法,用来展示该文件的内文、内容和意义。
“文件群集的自动标示(Automated Labeling of Document Clusters)”一文于2000年由Alexandrin Popescul和Lyle U.Ungar共同发表,该文提出一个方法用以标示文件群集。该方法用一个名为“意义的X平方测试(x^2 text ofsignificance)”的统计方法,在从根部开始的层级(hierarchy)的每一个节点(node)的字汇,递归地移回到原层级(hierarchy),假如在一给定的节点所衍生出的所有节点中,有一个字汇是相近似的出现在其中,且这个前提无法被拒绝的话,则这个字汇会被标示为该次分支的特征,之后,这个字汇会被指定为节点特定字汇的目前节点袋,和从所有的衍生出的节点中移除。然而,这个标示方法是一个初步的形式,因为它只是将文件中存在的字汇挑出,用以当作文件标签,这些使用于当文件标签的字汇,并没有描述文件的内文、内容和意义。
除了上述有关于这个主题的论文外,亦可找到有关于内容萃取和标示的专利。
美国专利US5,077,668号,名为“一种方法和装置用以产生文件的摘要(Method and apparatus for producing an abstract of a document)”、美国专利US5,638,543号,名为“一种方法和装置用以自动文件总结(Method andapparatus for automatic document summarization)”、美国专利US5,689,716号,名为“一种自动产生主题结论的方法(Automatic Method of generatingthematic summaries)”和美国专利US5,918,240号,名为“一种使用特征可能性萃取结论的自动方法(Automatic Method of extracting summarization)”都是在处理自动产生文件摘要,该文件摘要用以显示文件的内容。在这些发明中,都是根据预先决定的启发法(heuristics),从文件中挑选出特定的词组和句子,并将它们并列在一起,而形成结论,这些发明仅仅只是对文件做总结,而没有探讨标示的问题。
美国专利US5,642,518号,名为“一种关键词指定方法和系统(Keywordassigning method and system thereof)”提供一种关键词指定方法,用以在大量的文件数据中自动指定关键词,这些有领域见解的关键词是从许多可获得的文件数据中的输入中萃取而得,而这些文件数据中的输入是根据在存储器中领域特定字出现的频率而决定。之后,输入一个被指定为关键词的文件数据,最后关键词从使用领域见解的关键词的输入文件数据中萃取而出,这个关键词被指定为文件卷标。然而,这个发明只是从输入文件数据中萃取出字汇和使用为文件标签,从内容的观点而言,这个被指定的文件标签可能并不十分相关于该文件。
从上述提到的各种方法而言,很明白的显示,虽然有很多人尝试去做文件的内容萃取和文件标示,但是,这些方法中,并没有任何一个方法是采用能够显示文件的内文或关键内容的方式来标示文件,事实上,这些方法仅仅只是从文件中撷取文字,并使用这些文字当卷标。因此,最需要的是能提出一个方法、系统和计算机程序,能用显示文件的关键内容和意义的方式来标示文件或一组文件,除此之外,除了直接标示文件外,并没有投入太多的研究是用以标示一组相关的字汇和词组。

发明内容
本发明的目的是提供一种用以命名字汇群集和词组群集的方法、系统和计算机程序,尤其指一种从文件中萃取字汇群集和词组群集,用以代表重要的内容,和阐明其意义在这些标签中。
本发明的另一个目的是提供一种用以命名字汇群集和词组群集的方法、系统和计算机程序,使用一个语汇数据库(lexical database)产生输入群集的字汇的各种不同的字义,因此,输入群集的所有字汇的所有可能的意义皆可以被显示出来。
本发明的另一个目的是提供一种用以命名字汇群集和词组群集的方法、系统和计算机程序,使用一个语汇数据库(lexical database)产生语义上的近似字汇,使得每一个字义可以形成一个定义向量,而对应于每一个字义。
本发明的另一个目的是提供一种用以命名字汇群集和词组群集的方法、系统和计算机程序,其中,所有的定义向量皆已经确定,使得对每一个字汇的大部份相关的定义向量,皆可以从其中选出。
本发明的另一个目的是提供一种用以命名字汇群集和词组群集的方法、系统和计算机程序,使用一个语汇数据库(lexical database)来找寻字汇,而这些字汇可以合适的描述其主要内容,并决定群集的最后标签。
本发明的另一个目的是提供一种用以命名字汇群集和词组群集的方法、系统和计算机程序,而这些字汇群集和词组群集是使用语汇数据库(lexicaldatabase),而从一组文件中萃取而得。
本发明的另一个目的是提供一种用以命名字汇群集和词组群集的方法、系统和计算机程序,其中,使用者可以最后标签的字数来指定最后标签的长度。
本发明的另一个目的是提供一种用以命名字汇群集和词组群集的方法、系统和计算机程序,其中,使用者可以输入群集的字汇的数量的特定百分比来指定最后标签的长度。
本发明的另一个目的和优点可部分从叙述和所附之图得知,和部份从叙述中明显得知,或者从发明的实行中学习。
为了达成上述目的,本发明提供一种用以命名字汇群集和词组群集的方法、系统和计算机程序,而这些字汇群集和词组群集是使用语汇数据库(lexical database),而从一组文件中萃取而得。这个方法挑选了字汇群集和词组群集,用以当做输入命名,使用语汇数据库(lexical database)产生输入群集的所有字汇的所有可能的字义。之后,使用相同的语汇数据库(lexicaldatabase),可以产生对应于所有的字义的定义向量,该字义可由语义上相关于该字义的字汇来扩大字义,再来,在决定个别定义向量之后,就可以决定对应于输入群集的每一个字汇的大部份相关的定义向量,接着,这些可以展示强烈相互支持的定义向量被组成一群,根据该群的所有成员的支撑的总和来排序每一个定义,这些定义向量族群被当做内容和一预先决定数量而拥有最先排序的内容被选为主要内容。最后,用语汇数据库(lexical database)来产生一个对应于主要内容的字汇/词组,这组字汇/词组形成该输入群集的最后标签。
本发明亦提供一种使用语汇数据库(lexical database)用以命名萃取自文件组中的成树状的层级的字汇群集和词组群集的方法、系统和计算机程序。本发明开始于叶群集和根据上述的方法予以标示,对所有的叶群集均予以标示,之后标示非叶群集的群集,它是萃取于群集的子群集的主要内容和从一个或一个以上的子群集所形成的内容,这个方法的内涵是对于分离的子群集,其相关度低,而对于母群集,其相关度高,这样的程序应用于层级中的所有群集,从叶群集而上至最上层的群集。


图1为本发明的计算机工作站环境的方块图;图2为本发明的计算机网络连接环境的方块图;图3为本发明的用以命名字汇群集和词组群集的方法的流程图;及图4为本发明的用以命名层级的字汇群集和词组群集的方法的流程图。
其中,附图标记说明如下10计算机工作站 12处理器14总线 16使用者接口连接器接口设备18键盘 20鼠标22接口设备 24显示装置26显示卡 28存储器30存储设备 32通讯信道40数据处理网络 42局域网络(LAN)44局域网络(LAN) 46主架构计算机48通讯连接 50存储装置
52通讯连接 54系统控制单元/通讯控制器56通讯连接 58通道服务器具体实施方式
请参照图1所示,为本发明的计算机工作站环境的方块图。图1是一个典型的单人使用者的计算机工作站10,例如一台个人计算机加上相关的外围设备,计算机工作站10包括有一处理器12和一总线14,该总线14用已知的技术连接和通讯于处理器12和计算机工作站10的零附件,计算机工作站10通常包括有一使用者接口连接器16,使用者接口连接器16通过总线14连接处理器12到一个或一个以上的接口设备,如键盘18、鼠标20和其它接口设备22,该接口设备22可以是任何使用者接口设备,如触感应式屏幕、数字输入笔等等。总线14通过一显示卡26连接一显示装置24,如液晶显示器或传统屏幕,到处理器12,总线14亦连接处理器12到存储器28和存储设备30,存储设备30可以是硬盘、软盘或磁带。
计算机工作站10通过通讯信道32与其它计算机或计算机网络相连接,计算机工作站10可以用局域网络或因特网连接于其它计算机,计算机工作站10亦可以是一群计算机中的伺服端或客户端等,所有的这些组合和适当的硬件、软件通讯,皆可用于本发明。
请参照图2所示,为本发明的数据处理网络40。数据处理网络40包括有几个个别的局域网络(LAN)42、44,每一个局域网络包括有几个计算机工作站10,另外,局域网络亦可包括几个人工智能工作站连接于一主处理器。
请参照图2所示,数据处理网络40亦可包括数台主架构计算机,例如主架构计算机46经由一通讯连接48结合于局域网络(LAN)44。
主架构计算机46亦连接至一存储装置50,存储装置50可做为局域网络(LAN)44远程存储之用。同样地,局域网络(LAN)44经由一通讯连接52结合于一次系统控制单元/通讯控制器54,和经由一通讯连接56结合于一信道服务器58,信道服务器58可以是一台计算机或人工智能工作站,用以连接局域网络(LAN)42和局域网络(LAN)44。
在本发明中,主架构计算机46可以位于距离局域网络(LAN)44远的地方,同样地,局域网络(LAN)44和局域网络(LAN)42也可距虽遥远。
用以实现本发明的软件程序代码由计算机工作站10的处理器12存取于某些型式的存储设备30,例如光驱或硬盘,在客户端和伺服端的环境中,软件程序代码存取于服务器的存储设备,软件程序代码亦可存储于各种不同的存储介质,如软盘、硬盘或光盘片。用以实现本发明的软件程序代码可以分布于这些不同的存储介质或分布于使用者之间,通过网络中的计算机系统的存储设备到使用此网络的其它计算机系统。此外,软件程序代码亦可实现于存储器28的中和使用总线14由处理器12存取。实现本发明的软件程序代码存储于存储器、存储介质和通过网络分布的技术和方法,为大家所熟知,在此不加详述。
从使用本发明所得的最后命名,可以存储于任何存储设备30的存储介质当中,或者通过图2所示的通讯信道32,从计算机工作站10传送至网络中的其它计算机或计算机工作站,而存储于其它计算机或计算机工作站。
本发明的较佳实施例将参照下图予以说明。本发明用一计算机软件程序实现,该计算机软件程序可以在使用者的计算机中执行,或者是通过局域网络或因特网连接于使用者计算机的其它计算机中执行,该网络可以是所属的网络的一部份、或者是使用者公司内部网络、或者通过网络系统提供者(ISP)的网络连接起来,所有可应用的环境的共通点是,使用者通过公共网络,如因特网,可以使用自己的计算机去存取计算机软件程序而实现本发明。
本发明提出两种方法,其中第一种方法如图3,另一种方法如图4。第一种方法叫做标示群集(LabelCluster),这个方法是关于命名字汇群集和词组群集,而字汇群集和词组群集已经从文件中萃取而得,在这样的实施态样中,其输入为一特定数量的字汇和词组,而该字汇和词组已经从文件中萃取而得,而输出为文件的名字/标签。
第二种方法叫做标示层级(LabelHierarchy),这个方法是关于使用标示群集(LabelCluster)去产生一组文件的标签。举一个例子说明,有十份输入文件要产生命名/标签,有一些特定的字汇和词组,已经从这十份文件萃取而出且当作输入,现在,一个实施的方式是采用标示群集(LabelCluster)的方法来一对一的标示这些文件,而产生十个标签,当十份文件彼此没有关系时,可以采用这个方式,但是这十份文件间也可能有关联。举一个例子来说明,假设这些文件中,有两件是关于“人类”、有两件是关于“动物”、有两件是关于“植物”、有两件是关于“非生物”、有两件是关于“生物”,和有一件是关于“事物”,在这样的例子中,文件间存在有一些关联,这是可能的启发法之一,可用以规范文件间如何相关于彼此,当然也有许多其它的方式可用以定义输入文件间的关系,使用这些关系,这些文件可被组织成层级。在这个例子中,“事物”可以是在层级中最高层的文件或节点,两个可能的子节点是“生物”和“非生物”,“非生物”没有其它的子节点,可视为一个叶节点,“生物”则有“人类”、“动物”和“植物”三个子节点,而“人类”、“动物”和“植物”没有其它的子节点,可视为叶节点。以这样的层级结构而言,它具有树状(tree),以“事物”为根节点,以“人类”、“动物”、“植物”和“非生物”为叶节点。
由上面所述的例子得知,标示层级(LabelHierarchy)的方法以文件间的关的信息来标示文件的层级。
请参照图3所示,为一种用以命名字汇群集和词组群集的方法。标示群集(LabelCluster)提供了一种用以命名字汇群集和词组群集的方法,其字汇群集和词组群集以语汇数据库(lexical database)为基础而从文件中萃取出来,而存储在存储设备30。
一字汇群集(名词和名词词组)输入至系统101,该群集已经从一组软件文件中萃取出来,文件可以是一篇报告、一个网页或一篇新闻文章等等,在输入群集中的每一个字汇均会附有一个频率,该频率指在文件中出现的次数。
之后,以语汇数据库(lexical database)为基础,产生所有字汇的所有可能的意义102,使用的语汇数据库(lexical database)可以是字网(WordNet)(WordNet由Cognitive Science Laboratory of Princeton University所发展建立),字网(WordNet)是一个参考系统,其字汇以同义字组的方式组织而得,每一个代表一个基础的语汇内容。并且用交叉联结的方式联结,以考虑各种不同的关系,例如同义字、下义词、上义词、比喻词及换喻词等等,同时可在不同的定义向量中,找到不同字汇的支撑,和找到合适的字汇,用以描述萃取出的主要内容。
语汇数据库(lexical database)用来扩张意义和使该字意义清楚,一个字汇的字意指该字的意义,例如注意(care)这个字在字网(WordNet)中有六个字义,包括有照顾(attention)、帮助(aid)-(the work of caring for or attending tosomeone or something),例如“no medical care was required”,小心(caution)、事先考虑(forethought)-(judiciousness in avoiding harm or danger),例如“heexercised caution in opening the door”,担心(concern)、害怕(fear)-(an anxiousfeeling),例如“care had aged him”,烦恼(care)-(a cause for feeling concern),例如“his major care was the illness of his wife”,负责(charge)、保护(tutelage)-(attention and management implying responsibility for safety),例如“he is under the care of a physician”,保持(maintenance)、维修(upkeep)-(activity involved in maintaining something in good working order),例如“he wrote the manual on car care”。
在对输入群集的所有字汇产生字义之后,使用语义的关系更进一步扩张字汇的定义,为了实现这个,在步骤102所产生的每一个字义,通过字汇的语义关系而扩大其字义,例如同义字、下义词、上义词、比喻词及换喻词等等。所谓扩大字义指增加关系而形成定义向量,本发明并不限制于这些关系,对于一个熟知本发明的人,可以了解上述的关系并不是最详尽的一个,是可以选择不同的其它关系。从这些扩大的字义来形成一个定义向量,之后,对应于每一个字义,产生一个定义向量,定义向量是字汇的集合,它包括了字义和关于该字义的字汇,如同义字等等。
接着,对于每一个字汇,决定最有相关的字义104,这使得字义更加的清楚,这可以通过找到对所有字汇的所有定义向量的支撑而实行,并且根据这些支撑而保持最有相关的定义向量。举个例子说明,假设有五个字汇,每个字汇有三个字义,结果会有十五个定义向义,在经过步骤104,使得字义更加的清楚后,对于每个字汇就只有一个定义向义,总共五个定义向义。为了进一步说明步骤104的内涵,假设第一个字汇是从最相关于该字的字义挑选而出,也就是说选择该字汇的字义,并决定该字义的支撑,本发明的一个实施例为,该字义的支撑可以定义为,对应于该字义的定义向量的相似定义向量的数量,也就是从相关于其它四个字汇的十二个定义向量中,找出相似定义向量。
二个定义向量是否相似,可由不同的近似量测来决定,近似量测的选择由末端的需求来决定,举个例子说明,近似量测可以是“假如两个定义向量有共同的特征时,则两个定义向量可视为相似”,在这个例子中,一个定义向量的所有特征是和其它定义向量的所有特征相符合的,也就是说,假如在两个定义向量间,有超过三个以上的特征是相符合时,则对应的定义向量可宣告为相似的。一个严格的近似量测可以是在两个定义向量间,有超过五个以上的特征是相符合时,则对应的定义向量可宣告为相似的,而一个宽松的近似量测可以是在两个定义向量间,有一个的特征是相符合时,则对应的定义向量可宣告为相似的,而定义向量的支撑为相似于该定义向量的定义向量的数量,整个程序重复于这个字汇的其它两个定义向量,在这三个定义向量中,拥有最高支撑的定义向量会被选为该字汇的最相关的定义向量,这会使得每一个字汇的字义更加清楚,一个字汇只有一个定义向量,整个使字义清楚的程序会实行于输入群集中的每一个字汇,而产生总共有五个定义向量。
把从字义清楚的程序所得到的定义向量分为几群105,这可以使用已知的不同的群集方法来实现,其原理是从不同的意义清楚的定义向量中,去群集分类成群。例如,例如有五个定义向量,结果被分为三个群/群集,个别有二个、一个和二个定义向量,在一个群集中的定义向量假设有特定相同的性质,例如在一个群集中的定义向量在某些方面是相似的。这些定义向量的每一个群/群集被称为一个内容,例如K方法(K-means)的群集分类的算法为一已知的群集分类法,而且有数种衍生于K方法(K-means)的群集分类的算法的群集分类法,但大部份的差异是互相的结构运作于一固定数目的群集,而满足下列的性质每一个群集有一个中心,该中心是所有元素/样本的平均位置。
二、每一个元素/样本在群集中,而该群集的中心最靠近该群集。
程序上,这个方法最初选取的母体的成分的数量等于最后所需求的群集的数量,在这个步骤中,由于是选取最后所需求的群集的数量,因此每一个点会互相远离,接着,会测试母体中的每一个成分,并根据最短距离而将母体中的每一个成分指定到群集,并且当一个成分被加到这个群集时,都会重新计算中心距离的位置,直到所有的成分都被分群入最后所需求的群集的数量。
从前一个步骤所产生的每一个内容的支撑就会被决定,并且会根据支撑而将内容排序106,该内容的支撑是所有每一个成员定义向量的支撑的总和,该成员定义向量的支撑由在使字义清楚的过程中,相对于定义向量组计算所得。之后,当上层排序内容的预先决定的数量超过门坎时,就会被选为主要内容,门坎的选取依然依最终的使用者的需求而定,假如需要的是许多的主要内容有小的支撑,则在近似量测中的门坎必须为高,相反地,假如需要的是一些的主要内容有大的支撑,则在近似量测中的门坎必须为低,而高和低的意涵可由前述的解释而为之。
这些主要内容是相关于群集中的主要字汇,被选为主要内容的上层排序内容的数量决定了出现在最终标签的内容名字的数量,使用者可以直接指定最终标签所需的数量,或者当作输入群集中字汇数量的百分比。
假如没有找到主要内容108,则用在输入群集中最常出现的字汇的预先决定的数量来标示,这种情况通常是出现在,当输入群集是由许多合适的名词所组成,但这些名词并不在字网(WordNet)中,或者使用其它的语汇数据库(lexical database),或者是在输入群集中的字汇并不是有语汇相关性。
假如找到一个或一个以上的主要内容109,将使用语汇数据库(lexicaldatabase)来产生一个名称,该名称对应于每一个主要内容,对于每一个主要内容而言,名称组是对应于从相应的文件中萃取而得的定义向量群。假如名称组中的名称是不同的属性,则最一般的名称将被选来代表该内容的名称。假如在语汇数据库(lexical database)中,存在有一个或一个以上的字汇是名称组的名称的高度同义字,我们将用名称组中出现最多次的名称的高度同义字来代表这个内容。除此之外,将使用最常出现的名称来代表这个内容,这些名称组将形成输入群集的最后标签。
再者,值得一提的是,层级是内容的树状表现,树状中愈深的一个层级代表内容更加的详确。例如,在树状的最上层有一个“运动(sports)”的内容,这个节点有两个子节点“冬季运动(winter sports)”和“夏季运动(summersports)”,每一个节点有进一步的子节点,如节点“冬季运动(winter sports)有溜冰、滑雪和其它相关的运动,节点“夏季运动(summer sports)”有足球、橄榄球和网球,群集的有次序的群族的系列是根据特定的启发法而来。
注意在图3中,是根据上述的方法来标示叶群集,并且及于所有的叶群集,而图4所提的方法是标示群集,而非叶群集,对于标示群集而非叶群集,是指除了从一个或一个以上的子群集中的字汇形成的内容之外,并萃取了群集的子群集的主要内容。这个方法是撷取分离的子群集中的低支撑和母群集的高支撑,整个程序是应用在层级中的所有群集,由下而上,从叶群集到上层的群集,详细说明请参照图4。
请参照图4所示,为一种用以命名层级的字汇群集和词组群集的方法。这个方法叫做标示层级(LabelHierarchy),标示层级(LabelHierarchy)指一个利用存在于存储设备30中的语汇数据库(lexical database)来命名的方法,群集的可能的输入层级是树状的形式,在树状中的群集并没有任何一个子群集是属于叶群集,在树状中的群集的子群集,是一个连接该群集的一个群集,并低于该群集一个阶层,而在该群集的上一个阶层的群集叫做母群集。选择一个群集201,接着检查是否属于叶群集,假如是叶群集,则用标示群集(LabelCluster)的方法来标示203,假如该群集不是叶群集,则其标签则是从除了一个或一个以上的子群集中的字汇形成的内容之外,并萃取了群集的子群集的主要内容而得,这是为了确保其内容是从分离的子群集中的低支撑和母群集中的高支撑而取得,为了达成上述的功效,在群集中的字汇被前面重复产生的子群集的主要内容所扩大,和包括相似于主要内容的子群集中的字汇204,之后,标示群集(LabelCluster)的方法被应用到这个更新过的群集,就产生一个合适的标签205。
这个程序应用到内容层级中的所有群集,以由下而上,从叶群集到上层群集的方式为的206,这可以确保降低时间的复杂性和提供以一般到特殊的方式来组织内容层级的基础。
以上为有关本发明的较佳实施例的详细说明及其附图,为进一步了解本发明的技术内容及其目的功效,但不为限制本发明的范围。
权利要求
1.一种使用语汇数据库用以命名萃取自文件组中的字汇群集和词组群集的方法,其步骤包括有a.使用语汇数据库,产生该群集中字汇的定义向量;b.决定该定义向量的支撑;c.决定对应于该群集中每一个字汇的最相关定义向量;d.使用一个预先选定的群集方法,从该最相关定义向量中产生内容;e.决定该内容的支撑;f.指定已预先决定数量的上层排序的该内容为主要内容;g.该主要内容尚未指定时,则由该群集中已预先决定数量的最常出现的字汇,来命名该群集;及h.当该主要内容已经指定时,则由语汇数据库中能正确详细描述该主要内容的字汇选出,来命名该群集。
2.如权利要求1所述的使用语汇数据库用以命名萃取自文件组中的字汇群集和词组群集的方法,其中一个或一个以上的该步骤,内建于硬件芯片中。
3.如权利要求1所述的使用语汇数据库用以命名萃取自文件组中的字汇群集和词组群集的方法,其中该产生定义向量的步骤,还包括有a.使用该语汇数据库,决定该群集中该字汇的所有字义;及b.使用该语汇数据库,由语义学上相关于该字义的字汇来扩大该字义。
4.如权利要求3所述的使用语汇数据库用以命名萃取自文件组中的字汇群集和词组群集的方法,该使用语汇数据库,由语义学上相关于该字义的字汇来扩大该字义的步骤,还包括同义字、下义词、上义词、比喻词及换喻词来扩大该字义。
5.如权利要求1所述的使用语汇数据库用以命名萃取自文件组中的字汇群集和词组群集的方法,其中该决定该定义向量的支撑的步骤,还包括有a.指定一字汇的一定义向量为一选定的定义向量;b.计算该选定的定义向量和所有其它字汇的所有其它定义向量的相似量测;c.由决定相似量测大于一预先决定的门坎的定义向量的数量,计算该选定的定义向量的支撑;及d.重复步骤a到c,直到所有字汇的所有定义向量被指定为该选定的定义向量,以决定其支撑。
6.如权利要求1所述的使用语汇数据库用以命名萃取自文件组中的字汇群集和词组群集的方法,其中该计算该选定的定义向量和所有其它字汇的所有其它定义向量的相似量测的步骤,还包括有a.指定一字汇的一定义向量为一选择的定义向量,用以计算与该选定的定义向量的相似量测;b.找出在该选择的定义向量和该选定的定义向量是共同的字汇的数量;c.输出该字汇的数量为相似量测;及d.对所有其它字汇的所有定义向量,重复步骤a到c。
7.如权利要求1所述的使用语汇数据库用以命名萃取自文件组中的字汇群集和词组群集的方法,其中该决定对应于群集中每一个字汇的最相关定义向量的步骤,还包括有a.从该群集中指定一字汇为选定的字汇;b.选择对于该选定的字汇的所有其它定义向量中有最高支撑的定义向量,为该选定的字汇的最相关的定义向量;及c.对该群集中所有字汇,重复步骤a到b。
8.如权利要求1所述的使用语汇数据库用以命名萃取自文件组中的字汇群集和词组群集的方法,其中该决定该内容的支撑的步骤,还包括有a.决定对应于最相关的定义向量的支撑;及b.由增加对应于最相关的定义向量的支撑,来决定该内容的支撑。
9.如权利要求8所述的使用语汇数据库用以命名萃取自文件组中的字汇群集和词组群集的方法,其中该决定对应于最相关的定义向量的支撑的步骤,还包括有a.指定该内容的一最相关的定义向量为一选定的定义向量;b.计算该选定的定义向量与所有其它内容的所有其它最相关的定义向量的相似量测;c.由找出相似量测大于一预先决定的门坎的最相关的定义向量的数量,计算该选定的定义向量的支撑;及d.重复步骤a到c,直到所有该内容的所有最相关的定义向量被指定为该选定的定义向量,以决定其支撑。
10.如权利要求1所述的使用语汇数据库用以命名萃取自文件组中的字汇群集和词组群集的方法,其中该主要内容尚未指定时,则由该群集中已预先决定数量的最常出现的字汇,来命名该群集的步骤,还包括有a.从被当做为指定内容的该主要内容中指定一个字汇,使用该指定内容和该语汇数据库产生该群集的一合适的名称;b.使用该语汇数据库产生该指定内容的上义词和下义词;c.使用该语汇数据库决定该指定内容的深度;d.对该主要内容中所有其它字汇,重复步骤a到c;及e.从该语汇数据库选取最能描述该群集的意义的上义词、下义词和该深度的字汇。
11.一种使用语汇数据库用以命名萃取自文件的字汇群集和词组群集的系统,包括有a.使用该语汇数据库产生该群集中字汇的定义向量的手段;b.决定该定义向量的支撑的手段;c.决定对应于该群集中每一个字汇的最相关定义向量的手段;d.从该最相关定义向量中产生内容的手段;e.决定该内容的支撑的手段;f.指定已预先决定数量的上层排序的该内容为主要内容的手段;及g.从该主要内容命名该群集的手段。
12.如权利要求11所述的使用语汇数据库用以命名萃取自文件的字汇群集和词组群集的系统,其中该使用该语汇数据库产生该群集中字汇的定义向量的手段,还包括有a.使用该语汇数据库,决定该群集中该字汇的所有字义的手段;及b.使用该语汇数据库,由语义学上相关于该字义的字汇来扩大该字义的手段。
13.如权利要求12所述的使用语汇数据库用以命名萃取自文件的字汇群集和词组群集的系统,该使用该语汇数据库,由语义学上相关于该字义的字汇来扩大该字义的手段,还包括同义字、下义词、上义词、比喻词及换喻词来扩大该字义。
14.如权利要求11所述的使用语汇数据库用以命名萃取自文件的字汇群集和词组群集的系统,其中该决定该定义向量的支撑的手段,还包括有a.指定一字汇的一定义向量为一选定的定义向量的手段;b.计算该选定的定义向量和所有其它字汇的所有其它定义向量的相似量测的手段;及c.计算该选定的定义向量的支撑的手段。
15.如权利要求14所述的使用语汇数据库用以命名萃取自文件的字汇群集和词组群集的系统,其中该计算该选定的定义向量和所有其它字汇的所有其它定义向量的相似量测的手段,还包括有a.指定一字汇的一定义向量为一选择的定义向量,用以计算与该选定的定义向量的相似量测的手段;b.找出在该选择的定义向量和该选定的定义向量是共同的字汇的数量的手段;及c.输出该字汇的数量为相似量测的手段。
16.如权利要求11所述的使用语汇数据库用以命名萃取自文件的字汇群集和词组群集的系统,其中该决定对应于该群集中每一个字汇的最相关定义向量的手段,还包括有a.从该群集中指定一字汇为选定的字汇的手段;及b.选择对于该选定的字汇的所有其它定义向量中有最高支撑的定义向量,为该选定的字汇的最相关的定义向量的手段。
17.如权利要求11所述的使用语汇数据库用以命名萃取自文件的字汇群集和词组群集的系统,其中该决定该内容的支撑的手段,还包括有a.决定对应于最相关的定义向量的支撑的手段;及b.由增加对应于最相关的定义向量的支撑,来决定该内容的支撑的手段。
18.如权利要求17所述的使用语汇数据库用以命名萃取自文件的字汇群集和词组群集的系统,其中该决定对应于最相关的定义向量的支撑的手段,还包括有a.指定该内容的一最相关的定义向量为一选定的定义向量的手段;b.计算该选定的定义向量与所有其它内容的所有其它最相关的定义向量的相似量测的手段;及c.由找出相似量测大于一预先决定的门坎的最相关的定义向量的数量,计算该选定的定义向量的支撑的手段。
19.如权利要求11所述的使用语汇数据库用以命名萃取自文件的字汇群集和词组群集的系统,其中该从该主要内容命名该群集的手段,还包括有a.从被当做为指定内容的该主要内容中指定一个字汇,使用该指定内容和该语汇数据库产生该群集的一合适的名称的手段;b.使用该语汇数据库产生该指定内容的上义词和下义词的手段;c.使用该语汇数据库决定该指定内容的深度的手段;及d.从该语汇数据库选取最能描述该群集的意义的上义词、下义词和该深度的字汇的手段。
20.一种使用语汇数据库用以命名萃取自文件的字汇群集和词组群集的计算机程序,该计算机程序内建于一计算机可读取的介质中,其包括有a.一计算机可读取的程序代码,用以使用该语汇数据库产生该群集中字汇的定义向量;b.一计算机可读取的程序代码,用以决定该定义向量的支撑;c.一计算机可读取的程序代码,用以决定对应于该群集中每一个字汇的最相关定义向量;d.一计算机可读取的程序代码,用以从该最相关定义向量中产生内容;e.一计算机可读取的程序代码,用以决定该内容的支撑;f.一计算机可读取的程序代码,用以指定已预先决定数量的上层排序的该内容为主要内容;及g.一计算机可读取的程序代码,用以从该主要内容命名该群集。
21.如权利要求20所述的使用语汇数据库用以命名萃取自文件的字汇群集和词组群集的计算机程序,其中该计算机可读取的程序代码用以使用该语汇数据库产生该群集中字汇的定义向量,还包括有a.一计算机可读取的程序代码,用以使用该语汇数据库,决定该群集中该字汇的所有字义;及b.一计算机可读取的程序代码,用以使用该语汇数据库,由语义学上相关于该字义的字汇来扩大该字义。
22.如权利要求21所述的使用语汇数据库用以命名萃取自文件的字汇群集和词组群集的计算机程序,该计算机可读取的程序代码用以使用该语汇数据库,由语义学上相关于该字义的字汇来扩大该字义,还包括同义字、下义词、上义词、比喻词及换喻词来扩大该字义。
23.如权利要求20所述的使用语汇数据库用以命名萃取自文件的字汇群集和词组群集的计算机程序,其中该计算机可读取的程序代码用以决定该定义向量,还包括有a.一计算机可读取的程序代码,用以指定一字汇的一定义向量为一选定的定义向量;b.一计算机可读取的程序代码,用以计算该选定的定义向量和所有其它字汇的所有其它定义向量的相似量测;及c.一计算机可读取的程序代码,用以计算该选定的定义向量的支撑。
24.如权利要求23所述的使用语汇数据库用以命名萃取自文件的字汇群集和词组群集的计算机程序,其中该计算机可读取的程序代码用以计算该选定的定义向量和所有其它字汇的所有其它定义向量的相似量测,还包括有a.一计算机可读取的程序代码,用以指定一字汇的一定义向量为一选择的定义向量,用以计算与该选定的定义向量的相似量测;b.一计算机可读取的程序代码,用以找出在该选择的定义向量和该选定的定义向量是共同的字汇的数量;及c.一计算机可读取的程序代码,用以输出该字汇的数量为相似量测。
25.如权利要求20所述的使用语汇数据库用以命名萃取自文件的字汇群集和词组群集的计算机程序,其中该计算机可读取的程序代码用以决定对应于该群集中每一个字汇的最相关定义向量,还包括有a.一计算机可读取的程序代码,用以从该群集中指定一字汇为选定的字汇;及b.一计算机可读取的程序代码,用以选择对于该选定的字汇的所有其它定义向量中有最高支撑的定义向量,为该选定的字汇的最相关的定义向量。
26.如权利要求20所述的使用语汇数据库用以命名萃取自文件的字汇群集和词组群集的计算机程序,其中该一计算机可读取的程序代码用以决定该内容的支撑,还包括有a.一计算机可读取的程序代码,用以决定对应于最相关的定义向量的支撑;及b.一计算机可读取的程序代码,用以由增加对应于最相关的定义向量的支撑,来决定该内容的支撑。
27.如权利要求26所述的使用语汇数据库用以命名萃取自文件的字汇群集和词组群集的计算机程序,其中该计算机可读取的程序代码用以决定对应于最相关的定义向量的支撑,还包括有a.一计算机可读取的程序代码,用以指定该内容的一最相关的定义向量为一选定的定义向量;b.一计算机可读取的程序代码,用以计算该选定的定义向量与所有其它内容的所有其它最相关的定义向量的相似量测;及c.一计算机可读取的程序代码用以由找出相似量测大于一预先决定的门坎的最相关的定义向量的数量,计算该选定的定义向量的支撑。
28.如权利要求20所述的使用语汇数据库用以命名萃取自文件的字汇群集和词组群集的计算机程序,其中该计算机可读取的程序代码用以从该主要内容命名该群集,还包括有a.一计算机可读取的程序代码,用以从被当做为指定内容的该主要内容中指定一个字汇,使用该指定内容和该语汇数据库产生该群集的一合适的名称;b.一计算机可读取的程序代码,用以使用该语汇数据库产生该指定内容的上义词和下义词;c.一计算机可读取的程序代码,用以使用该语汇数据库决定该指定内容的深度;及d.一计算机可读取的程序代码,用以从该语汇数据库选取最能描述该群集的意义的上义词、下义词和该深度的字汇。
29.一种使用语汇数据库用以命名萃取自文件组中的成树状的层级的字汇群集和词组群集的方法,其步骤包括有a.从该群集的层级中,指定一群集为选定的群集;b.决定该选定的群集是否为该层级中的一叶群集;c.当该选定的群集为一叶群集时,执行下列步骤c-1.指定该选定的群集为一更新的群集;c-2.使用语汇数据库产生在该更新的群集中的字汇的定义向量;c-3.决定该定义向量的支撑;c-4.决定对应于该更新的群集中每一个字汇的最相关定义向量;c-5.使用一个预先选定的群集方法,从该最相关定义向量中产生内容;c-6.决定该内容的支撑;c-7.指定已预先决定数量的上层排序的该内容为主要内容;c-8.当该主要内容尚未指定时,则由该群集中已预先决定数量的最常出现的字汇,来命名该群集;及c-9.当该主要内容已经指定时,则由语汇数据库中能正确详细描述该主要内容的字汇选出,来命名该群集。d.当该选定的群集不是一叶群集时,执行下列步骤d-1.由该选定的群集的子群集的已经产生的主要内容扩大该选定的群集;d-2.由该选定的群集的子群集的内容扩大该选定的群集,而该内容不是该子群集的主要内容;d-3.指定该扩大的群集为一更新的群集;d-4.使用语汇数据库产生在该更新的群集中的字汇的定义向量;d-5.决定该定义向量的支撑;d-6.决定对应于该更新的群集中每一个字汇的最相关定义向量;d-7.使用一个预先选定的群集方法,从该最相关定义向量中产生内容;d-8.决定该内容的支撑;d-9.指定已预先决定数量的上层排序的该内容为主要内容;d-10.当该主要内容尚未指定时,则由该群集中已预先决定数量的最常出现的字汇,来命名该群集;及d-11.当该主要内容已经指定时,则由语汇数据库中能正确详细描述该主要内容的字汇选出,来命名该群集。e.当该群集的层级的所有群集未被指定为该选定的群集用以命令时,重复步骤a到d。
30.如权利要求1所述的使用语汇数据库用以命名萃取自文件组中的成树状的层级的字汇群集和词组群集的方法,其中一个或一个以上的该步骤,内建于硬件芯片中。
31.如权利要求29所述的使用语汇数据库用以命名萃取自文件组中的成树状的层级的字汇群集和词组群集的方法,其中该产生定义向量的步骤,还包括有a.使用该语汇数据库,决定该更新的群集中该字汇的所有字义;及b.使用该语汇数据库,由语义学上相关于该字义的字汇来扩大该字义。
32.如权利要求31所述的使用语汇数据库用以命名萃取自文件组中的成树状的层级的字汇群集和词组群集的方法,该使用语汇数据库,由语义学上相关于该字义的字汇来扩大该字义的步骤,还包括同义字、下义词、上义词、比喻词及换喻词来扩大该字义。
33.如权利要求29所述的使用语汇数据库用以命名萃取自文件组中的成树状的层级的字汇群集和词组群集的方法,其中该决定该定义向量的支撑的步骤,还包括有a.指定一字汇的一定义向量为一选定的定义向量;b.计算该选定的定义向量和所有其它字汇的所有其它定义向量的相似量测;c.由决定相似量测大于一预先决定的门坎的定义向量的数量,计算该选定的定义向量的支撑;及d.重复步骤a到c,直到所有字汇的所有定义向量被指定为该选定的定义向量,以决定其支撑。
34.如权利要求33所述的使用语汇数据库用以命名萃取自文件组中的成树状的层级的字汇群集和词组群集的方法,其中该计算该选定的定义向量和所有其它字汇的所有其它定义向量的相似量测的步骤,还包括有a.指定一字汇的一定义向量为一选择的定义向量,用以计算与该选定的定义向量的相似量测;b.找出在该选择的定义向量和该选定的定义向量是共同的字汇的数量;c.输出该字汇的数量为相似量测;及d.对所有其它字汇的所有定义向量重复步骤a到c。
35.如权利要求29所述的使用语汇数据库用以命名萃取自文件组中的成树状的层级的字汇群集和词组群集的方法,其中该决定对应于群集中每一个字汇的最相关定义向量的步骤,还包括有a.从该群集中指定一字汇为选定的字汇;b.选择对于该选定的字汇的所有其它定义向量中有最高支撑的定义向量,为该选定的字汇的最相关的定义向量;及c.对该群集中所有字汇重复步骤a到b。
36.如权利要求29所述的使用语汇数据库用以命名萃取自文件组中的成树状的层级的字汇群集和词组群集的方法,其中该决定该内容的支撑的步骤,还包括有a.决定对应于最相关的定义向量的支撑;及b.由增加对应于最相关的定义向量的支撑,来决定该内容的支撑。
37.如权利要求36所述的使用语汇数据库用以命名萃取自文件组中的成树状的层级的字汇群集和词组群集的方法,其中该决定对应于最相关的定义向量的支撑的步骤,还包括有a.指定该内容的一最相关的定义向量为一选定的定义向量;b.计算该选定的定义向量与所有其它内容的所有其它最相关的定义向量的相似量测;c.由找出相似量测大于一预先决定的门坎的最相关的定义向量的数量,计算该选定的定义向量的支撑;及d.重复步骤a到c,直到所有该内容的所有最相关的定义向量被指定为该选定的定义向量,以决定其支撑。
38.如权利要求29所述的使用语汇数据库用以命名萃取自文件组中的成树状的层级的字汇群集和词组群集的方法,其中该主要内容尚未指定时,则由该群集中已预先决定数量的最常出现的字汇,来命名该群集的步骤,还包括有a.从被当做为指定内容的该主要内容中指定一个字汇,使用该指定内容和该语汇数据库产生该群集的一合适的名称;b.使用该语汇数据库产生该指定内容的上义词和下义词;c.使用该语汇数据库决定该指定内容的深度;d.对该主要内容中所有其它字汇,重复步骤a到c;及e.从该语汇数据库选取最能描述该群集的意义的上义词、下义词和该深度的字汇。
39.一种使用语汇数据库用以命名萃取自文件组中的成树状的层级的字汇群集和词组群集的系统,包括有a.从该群集的层级中选出一字汇群集和词组群集的手段;b.根据该群集是否为一叶群集来更新该群集的手段;c.使用该语汇数据库产生该更新的群集中字汇的定义向量的手段;d.决定该定义向量的支撑的手段;e.决定对应于该更新的群集中每一个字汇的最相关定义向量的手段;g.使用一预先选定的群集方法,从该最相关定义向量中产生内容的手段;g.决定该内容的支撑的手段;h.指定已预先决定数量的上层排序的该内容为主要内容的手段;及i.从该主要内容命名该群集的手段。
40.如权利要求39所述的使用语汇数据库用以命名萃取自文件组中的成树状的层级的字汇群集和词组群集的系统,其中该使用该语汇数据库产生该更新的群集中字汇的定义向量的手段,还包括有a.使用该语汇数据库,决定该更新的群集中该字汇的所有字义的手段;及b.使用该语汇数据库,由语义学上相关于该字义的字汇来扩大该字义的手段。
41.如权利要求40所述的使用语汇数据库用以命名萃取自文件组中的成树状的层级的字汇群集和词组群集的系统,该使用该语汇数据库,由语义学上相关于该字义的字汇来扩大该字义的手段,还包括同义字、下义词、上义词、比喻词及换喻词来扩大该字义。
42.如权利要求39所述的使用语汇数据库用以命名萃取自文件组中的成树状的层级的字汇群集和词组群集的系统,其中该决定该定义向量的支撑的手段,还包括有a.指定一字汇的一定义向量为一选定的定义向量的手段;b.计算该选定的定义向量和所有其它字汇的所有其它定义向量的相似量测的手段;及c.计算该选定的定义向量的支撑的手段。
43.如权利要求42所述的使用语汇数据库用以命名萃取自文件组中的成树状的层级的字汇群集和词组群集的系统,其中该计算该选定的定义向量和所有其它字汇的所有其它定义向量的相似量测的手段,还包括有a.指定一字汇的一定义向量为一选择的定义向量,用以计算与该选定的定义向量的相似量测的手段;b.找出在该选择的定义向量和该选定的定义向量是共同的字汇的数量的手段;及c.输出该字汇的数量为相似量测的手段。
44.如权利要求39所述的使用语汇数据库用以命名萃取自文件组中的成树状的层级的字汇群集和词组群集的系统,其中该决定对应于该群集中每一个字汇的最相关定义向量的手段,还包括有a.从该群集中指定一字汇为选定的字汇的手段;及b.选择对于该选定的字汇的所有其它定义向量中有最高支撑的定义向量,为该选定的字汇的最相关的定义向量的手段。
45.如权利要求39所述的使用语汇数据库用以命名萃取自文件组中的成树状的层级的字汇群集和词组群集的系统,其中该决定该内容的支撑的手段,还包括有a.决定对应于最相关的定义向量的支撑的手段;及b.由增加对应于最相关的定义向量的支撑,来决定该内容的支撑的手段。
46.如权利要求45所述的使用语汇数据库用以命名萃取自文件组中的成树状的层级的字汇群集和词组群集的系统,其中该决定对应于最相关的定义向量的支撑的手段,还包括有a.指定该内容的一最相关的定义向量为一选定的定义向量的手段;b.计算该选定的定义向量与所有其它内容的所有其它最相关的定义向量的相似量测的手段;及c.由找出相似量测大于一预先决定的门坎的最相关的定义向量的数量,计算该选定的定义向量的支撑的手段。
47.如权利要求39所述的使用语汇数据库用以命名萃取自文件组中的成树状的层级的字汇群集和词组群集的系统,其中该从该主要内容命名该群集的手段,还包括有a.从被当做为指定内容的该主要内容中指定一个字汇,使用该指定内容和该语汇数据库产生该群集的一合适的名称的手段;b.使用该语汇数据库产生该指定内容的上义词和下义词的手段;c.使用该语汇数据库决定该指定内容的深度的手段;及d.从该语汇数据库选取最能描述该群集的意义的上义词、下义词和该深度的字汇的手段。
48.如权利要求39所述的使用语汇数据库用以命名萃取自文件组中的成树状的层级的字汇群集和词组群集的系统,其中该统还包括有一计算机程序,而该计算机程序使用于一存储程序的计算机。
全文摘要
一种使用语汇数据库用以命名萃取自文件组中的字汇群集和词组群集的方法、系统和计算机程序,其把这些群集当做输入,并且用语汇数据库(lexical database)产生合适的群集标签。命名的程序包括用语汇数据库(lexicaldatabase)来找出群集中所有字汇的所有可能的字义,接着,用语义上相似于该字义的字汇来增大每一个字义,以形成一个相对应的定义向量,之后,执行使字义清楚的步骤来找出对于每一个字汇最相关的字义,定义向量被群集成群,每一个群表示一个内容,接着,这些内容根据支撑而予以排序,最后从主要内容的定义向量中,根据在语汇数据库(lexical database)中的属性,选出一预先确认数量的字汇和词组来当做标签。
文档编号G06F17/21GK1774713SQ03809753
公开日2006年5月17日 申请日期2003年3月10日 优先权日2002年3月12日
发明者江昌·茂, 舒密特·坦克, 克莉丝蒂娜·庄, 路克·艾尔发 申请人:威乐提公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1