交叉概念关联数据库的创建的制作方法

文档序号:6595974阅读:215来源:国知局
专利名称:交叉概念关联数据库的创建的制作方法
技术领域
本发明的声明本发明涉及用于创建交叉概念关联数据库的一种方法和装置,该数据库用于转换、处理信息和/或将信息从一种状态转化成另一种状态。在本发明的一个实施例中,两种状态表示单词语言(例如,英语、希伯来语、汉语等等),从而本发明创建使一种语言中的单词和短语与第二种语言中的其对应翻译关联的交叉语言数据库。在该实例中,本发明通过检查两种语言的文件并为两种语言的每个单词或短语创建翻译数据库来创建数据库。但是,本发明不限于语言翻译。本发明允许用户以分层的方式创建概念数据库,并将这些概念与其它的不同概念联系。因此将概念和其它概念关联并根据出现的频率排序。可以根据用户的需要改变给予出现频率的特殊权重以及施加到所创建的数据库的应用。
例如,将文本从一种语言转换成另一种的情况中,本发明将操作创建英语单词和单词串的外语翻译。本发明将返回对这些单词(或单词串)的关联排序;例如,假定具有足够大的采样尺寸,则最常产生的单词将是该单词(英语)的外语等价词。但是,本发明也将返回该英语单词的其它外语关联,且用户可以根据需要处理这些关联。例如,当根据本发明操作时单词“mountain”可以返回一列被检查的语言中的外语单词。单词“mountain”的外语等价词将最可能排列最高;但是,本发明将返回和“mountain”关联的其它外语单词,诸如“snow”或“ski”。这些单词可能或可能不比“mountain”的翻译排列得低,并可以由用户根据需要处理。因此,本发明是自动关联数据库生成器。某种意义上最强的关联表示“翻译”,但其它频繁(但较弱)的关联表示和所检查的概念接近的概念。
本发明的目的在于开发一种语言和第二种语言之间的单词和短语(单词串)关联的数据库。通常,本方法包括检查和处理两个文件,每个都包含以两种不同语言表示相同概念或内容的文本。使用本发明的方法和装置从而用贯穿两种语言的关联-翻译创建数据库,或更特别地,使用单词和短语的可能关联。当通过本发明检查和处理更多文件时,两种语言之间的单词和短语的翻译和其它相关关联变得更强,即更频繁,从而通过处理大量足够的文件“样本”,最普通(且,某种情况中,正确)的关联变得明显且可以将该方法和装置用来翻译。
本发明的较佳实施例使用计算机装置,诸如现有技术中易于得到的个人计算机系统。但是,本发明的方法和装置不需要使用这种计算机装置而能易于由其它装置实现,诸如手动创建交叉关联。改变检查顺序的文件来扩大文件的“样本”并创建交叉关联数据库的方法,该文件可以通过自动递送(诸如现有技术已知的自动纸张装载机),或通过使用互联网上的查找技术自动找出相关文件来设置,用于手动分析和处理。
应注意,在以下的讨论中,可交换地使用术语“文件”来一般表示同一概念或内容但一个使用一种语言而另一个使用第二种语言的一对项(书,文章,信件等等)。此外,只要认为本发明处理单词,则可理解同样的技术也可以用于短语或其它单词串,而不限于仅仅一个单词。
该临时申请结合了参考临时申请No.60/276,107,提交于2001年3月16日题为“Method and Apparatus for Content Manipulation”。(附在下面)。
具体实施例方式
现在将描述本发明的较佳实施例。
本发明可以在普通计算机系统上使用,该系统至少具有显示装置、输入方法、输出方法以及处理器。显示装置可以是任何现有技术中易于获得的,诸如阴极射线终端、液晶显示器、平板显示器等等。处理器装置还可以是任何易于得到的且用于计算机环境的处理器装置,从而可以提供该装置来允许计算机工作来实施本发明。最后,利用输入方法来允许用于构建交叉关联数据库的文件输入;如上所述,特定的输入方法可以根据用户的需要而改变。
根据本发明,为了构建数据库而检查文件。在文件输入之后(再一次说明,这是表示两种不同语言的同一文本的一对文件中的输入),使用这里描述的方法和/或装置开始创建过程。
为便于说明,假定文件包含两种不同语言的相同单词(或,在通常的情况中,概念)。文件A用语言A,文件B用语言B。文件具有如下文本

本发明的第一个步骤是计算单词范围来确定对每个给定单词或短语的近似关联。由于词对词的翻译是不合适的(即,文件A中的单词1最可能不是文件B中的单词1的字面翻译),本发明的数据库创建技术针对第二语言的单词范围检查第一语言的每个单词。因此,通过检查两个文件产生范围且将该范围用于将第二文件中的单词、短语或其它单词串与第一文件中的单词、短语或其它单词串进行比较。即,使第二文件中的单词(或短语,或单词串)的范围用作对第一文件中任何一个单词(或短语,或单词串)的可能的匹配。通过对该范围进行测试,数据库创建技术建立大量可能等同于并翻译成第一语言单词的第二语言单词。
用户最终定义该范围值。可以使用各种技术来确定范围值,包括普通的统计技术,诸如根据文件中的单词数的钟形曲线推导。使用诸如钟形曲线的统计技术,文件开始和结尾的范围将比文件中间的范围小。对范围单词的钟形频率允许可能的单词翻译的合理外推,是根据文件中单词的数量或是根据所需单词数量的覆盖范围百分比推导。存在计算范围的其它方法,诸如“梯级”技术,它对特定百分比的单词使范围位于一个等级,对另一个百分比的单词是第二等级且对最后百分比的单词是等于第一等级的第三等级。此外,范围是用户定义或根据其它可能的参数建立的。
范围值可以取决于第二文件中的单词数量。如果两个文件的单词计数相等,则可以给出任何值。应用统计计数,可以创建钟形曲线,使得范围在文件开始处是单词的较少数,在文件中间处是单词的最大数,而在文件结尾处是单词的较少数。
如果两个文件中单词的数量不相等,则可以使用比率来正确地将范围定位。例如,如果文件A具有75个单词而文件B具有100个单词,则两个文件之间的比率是3∶4。文件A的中点是单词位置37(或38);但是,将该中点(单词位置37或38)用作文件B中范围最大值的位置(如果根据钟形曲线技术确定)不是很有效,这是因为该位置(单词位置37或38)不是文件B的中点。作为代替,根据两个文件之间单词的比率,通过手动设置文件B的中点位置或通过其它技术,确定文件B中范围值的最大应用的点。
本发明的要点是对每个可能的翻译创建相关频率。通过考虑文件中单词的位置,并应用如上所述的范围,本发明的数据库创建技术返回翻译成第一文件中单词的第二语言文件中可能的一组单词。在使用本发明的数据库创建技术时,可能的一组单词将变窄并将产生帮助确定可能的翻译的相关频率。因此,在检查一对文件之后,本发明将创建一个语言中的单词(或短语,或单词串)对应第二语言中的同一单词(或短语,或单词串)的相关频率。在根据本发明检查大量文件对(且因此创建了大样本)之后,交叉语言关联数据库的创建技术将返回对任何一个单词、短语或单词串的越来越高的相关频率。在检查了足够大的样本之后,最高的相关频率最终产生翻译;当然,将相关频率视作精确翻译的最终点由用户定义且受其它说明的翻译技术(诸如这里引用的2001年3月16日提交的标题为“Method and Apparatus forContent Manipulation”的临时申请No.60/276,107中所描述的那些)支配。例如,在检查了大量文件之后,以下相关频率可以使等效于英语“friend”的西班牙语“gato”-25%;“burro”-15%;和“amigo”-60%。在检查更多的文件对时,本发明的操作将增加“amigo”的相关频率而降低“gato”和“burro”的相关频率。在用户定义的点时,相关频率将达到一个等级,从而认为产生了一翻译,使得英语中的“friend”翻译成西班牙语中的“amigo”。
如上所述,本发明不仅检测单词,还检测短语或单词串(多个单词)。在分析单个单词后,本发明的数据库创建技术以增加的形式分析两个单词的单词串,随后三个单词的单词串等等。该技术使得常有的将一个语言中的短语或单词串翻译成另一个语言中的一个单词成为可能。如果单词(或单词串)的数量超过一,则在已分析了单词或单词串的所有位置时分析停止。如果单词仅在文件中出现一次,则过程立即进行来增加单词并返回单词串。在单词串仅出现一次时,过程循环回到文件中的第二单词,在这里再次产生如上所述的分析循环。
应注意,该过程可以产生变化来适应在被检测的两个文件中单词仅出现一次的情况。例如,如果文件中单词仅出现一次,则本发明的变化将允许在另一个文件上进行分析来查找有关的单词或单词串。某种意义上,对于本发明的操作,可以聚集任何数量的文件并将其作为一单个文件处理。此外,作为其它的实施例,还可能在整个文件上工作来适应单词仅出现一次的情况。
对单词串以类似的方式进行增加、检测和返回过程。因此,检测任何短语的出现次数,根据范围返回短语,且创建对该短语的可能的翻译的数据库。
此外,本发明可以以这种方式操作来分析正确定位的单词串或单词(在该单词串中),并可以以这种方式操作来考虑文法上的特性,诸如措辞、格式或缩写。
本发明可以适应文件中出现的不同变化,其中在更大的单词串中产生单词的子集。例如,正确的名字有时完整地表示(如“John Doe”),省略名或姓(“John”或“Doe”),或以另一种方式省略(“Mr.Doe”)。本发明通过经分析识别,在相关数据库中存在这些模式而考虑这些模式,并处理频率返回。由于本发明最可能返回比单词串返回更多的单个单词返回(即,更多返回对名或姓而不是完整的名字单词串“John Doe”),因为必须单独考虑构成单词串的单词以及部分短语,可能利用排序的变化。例如,在任何文件中,名字“John Doe”可能出现100次,而“John”本身可能出现120次,且“Doe”本身可能出现110次。正常的翻译返回(根据本发明)将把“John”排得高于“Doe”,且这些单词都高于单词串“John Doe”-当试图分析单词串“John Doe”时。通过从子集(或单个返回)的返回中减去更大的单词串产生的次数的操作,可以实现合适的排序(虽然,当然,也可以利用其它方法获得类似的结果)。因此从120(单词“John”出现的次数)减去100(“John Doe”出现的次数),“John”的校正后的返回是20。应用该分析产生了100作为单词串“JohnDoe”的出现次数(当分析和试图翻译该单词串时),单词“John”是20且单词“Doe”是10,因此创建了合适的相关。
现在将使用上述作为实例的两个文件描述本发明的一个实施例,其中如下重新创建列表

使用以上列出的两个文件(第一语言A和第二语言B),数据库创建技术进行如下步骤。
步骤1.首先确定范围。如所描述的,可以由用户定义或通过各种方法近似该范围。两个文件的单词计数近似相等(文件A中10个单词,文件B中8个单词);范围值3(文件A中单词的30%)可以提供最佳结果。在该实例中,为了近似钟形曲线,在文件的开始和结尾的范围是1,而在中间的范围是2。但是,如所描述的,范围(或用来确定范围的方法)完全可以由用户定义。
因此,在使用本发明的数据库创建技术时,对于该实例,范围可以从1个单词,到2个单词,到1个单词。
步骤2.接着,对文件A检查和测试文件A中的第一单词来确定该文件中单词的出现次数。在该实例中,文件A中的第一单词是XX在文件A中出现3次,在位置1、4和9处。单词、短语或其它单词串的位置数仅仅是单词、短语或单词串在文件中出现次数和文件中该单词、短语或单词串相对于其它单词的位置的标记。因此,位置数对应于文件中单词的数量,而忽略标点-例如如果文件中有10个单词,且单词“king”出现2次,则单词“king”的位置数仅仅是(10个单词中)该单词出现的位置。
因为单词X在文件中出现超过1次,所以过程行进到下一个步骤。如果单词X只出现一次,则将跳过该单词且过程进展到下一个单词串(或短语)且继续创建过程。
步骤3.返回对位置1处第一语言单词X的可能的第二语言翻译将该范围应用到文件B产生文件B中位置1和2(1+/-1)处的单词AA和BB(位于文件B中的位置1和2处)。将该单词的任何可能的组合返回作为X的可能的翻译AA、BB和AA BB(作为单词串的组合)。将单词串组合返回作为可能的匹配来适应一事实,即一种语言中的单词可能等于第二语言中的短语。因此,X1(单词X的第一次出现)返回AA、BB和AA BB作为相关。
步骤4.分析单词X的下一个位置。该单词(X2)在位置4处出现。由于位置4靠近文件的中间,所以范围(如以上确定的)将是2个单词。通过观察文件B中的单词4并应用范围(2)返回可能的翻译-因此,返回单词4之前的两个单词和单词4之后的两个单词。因此,返回位置4+/-2处的单词,或位置2、3、4、5和6处的单词。这些位置对应于文件B中的单词BB、CC、AA、EE和FF。这些单词(和其组合的单词串)的以上排列是BB,CC,AA,EE,FF,BB CC,BB CC AA,BB CC AA EE,BB CCAA EE FF,CC AA,CC AA EE,CC AA EE FF,AA EE,AA EE FF,和EE FF。因此X2 返回BB,CC,AA,EE,FF,BB CC,BB CC AA,BB CC AA EE,BB CC AA EE FF,CC AA,CC AA EE,CCAA EE FF,AA EE,AA EE FF,和EE FF作为关联。
步骤5.将X(位置1)的第一次出现的返回和X(位置4)的第一次出现的返回进行比较并确定匹配。在这种情况中,比较X1和X2的关联,且提供两个文件中的匹配。应注意,可以将两个范围之间重叠中的同一返回(或单词出现或单词串)减少到单次出现。例如,在该实例中,位置2处的单词是BB;这对于X的第一次出现(当由范围操作时)和X的第二次出现(当由范围操作时)的返回。因为对X1和X2两者返回该同一单词位置,则该单词计作一次出现。但是,如果返回同一单词但不在重叠区域内(即,对X1和X2两者不返回同一单词位置,但是结果返回同一单词),则单词计数为两次。在这种情况中,单词X的返回是AA,由于单词(AA)在X1和X2的关联返回中出现。应注意,在两个关联返回中出现的另一个单词是BB;但是,如上所述,由于该单词在通过对X的第一和第二出现上的范围操作达到的同一位置(并因此同一单词),所以可以忽视该单词。
步骤6.分析单词X的下一个位置(位置9)(X3)。应用范围1(靠近文件结尾)返回文件B的以下位置处的值8、9和10。由于文件B只有位置8,所以截去结果且只有单词位置8返回作为X的可能值CC。
与X(X1)的第一个返回比较没有返回匹配。因此,由于没有出现匹配,忽略所以X3的返回的值-这里是CC,且不提供关联的匹配。
步骤7.分析单词X的下一个位置;但是,在文件A中没有更多的单词X出现。在这一点上,对X建立关联频率且创建以下数据库作为X的可能翻译AA。因此,在这一点上,具有X到AA的关联。
步骤8.因没有再出现单词X,因此,过程增加一单词且测试单词串(或短语)。在这种情况中,被检查的单词串是“XY”,文件A中的最初的两个单词。可以将步骤2-7中描述的相同技术应用到该短语。
步骤9.通过观察文件A,可以看到单词串XY只出现一次。在这一点上,增加过程停止且不产生数据库创建。因为已达到了终止点,检查下一个单词(只要没有产生单词串匹配就产生该过程);在这种情况中,文件A的位置2内的单词是“Y”。
步骤10.应用对单词“Y”的步骤2-7的过程产生以下·单词Y出现两次(位置2和7),则数据库创建过程继续(再一次说明,如果Y仅在文件A中出现一次,则不检查Y);·位置2处的范围是1个单词;·将范围应用到文件B(位置2,单词Y第一次出现的位置)返回文件B中位置1、2和3处的结果;·这些返回的位置中对应的外语单词是AA、BB和CC;·应用前向的排列产生Y1的以下可能AA、BB、CC、AA BB、AA BB CC和BB CC;·分析Y的下一个位置(位置7);·位置7处的范围是2个单词;·将该范围应用到文件B(位置7)返回位置5、6、7和8处的结果EE FF GG和CC;·所有排列产生Y2的以下可能EE,FF,GG,CC,EE GG,EE FF GG,EE FF GG CC,FFGG,FF GG CC和GG CC;·来自Y1的匹配结果返回CC作为仅有的匹配;·组合Y1和Y2的匹配产生CC作为Y的关联频率,一个值。
步骤11.范围增加的末端因为单词Y(单词CC)的仅有的可能匹配出现于Y(文件B中位置3处出现的CC)的第一次出现的范围末端,则在第一次出现处将范围增加1来返回位置1、2、3和4AA,BB,CC和AA;或以下的前向排列AA,BB,CC,AABB,AA BB CC,AA BB CC AA,BB CC,BB CC AA和CC AA。应用该结果仍旧产生CC作为Y的可能的翻译。应注意,因为返回的匹配位于第一次出现(单词“Y”的起点出现)的范围的末端,所以增加范围;只要该模式出现,则将产生范围增加的末端作为子步骤(或可供选择的步骤)来确保完整性。
步骤12.由于在文件A中不再出现“Y”,所以分析增加文件A中的一个单词并检查单词串“Y Z”(单词Y之后的下一个单词)。增加到下一个串(Y Z)并重复该过程产生以下·在文件A中单词串Y Z出现两次位置2和7;·第一次出现(Y Z1)处的Y Z的可能是AA,BB,CC,AA BB,AA BB CC,BB CC;·第二次出现(Y Z2)处的Y Z的可能是EE,FF,GG,CC,EE FF,EE FF GG,EE FF GGCC,FF GG,FF GG CC和GG CC;·匹配和组合产生CC作为单词串Y Z的可能的翻译;·延伸范围(范围增加的末端)产生对Y Z的以下结果AA,BB,CC,AA BB,AA BBCC,AA BB CC AA,BB CC,BB CC AA和CC AA。
·应用该结果仍旧产生CC作为单词串Y Z的关联频率。
步骤13.由于文件A中不再出现“Y Z”,分析增加文件A中的一个单词并检查单词串“Y Z X”(文件A中位置3处的单词Z之后的下一个单词)。增加到下一个短语(Y Z X)并重复该过程(Y Z X在文件A中出现两次)产生以下·这里范围是2,由于短语的中点出现于靠近文件的中点;·Y Z X的第一次出现的返回在位置2、3、4和5处;·排列是BB,CC,AA,EE,BB CC,BB CC AA,BB CC AA EE,CC AA,CC AA EE和AA EE;·Y Z X的第二次出现的返回在位置5、6、7和8处;·排列是EE,FF,GG,CC,EE FF,EE FF GG,EE FF GG CC,FF GG,FF GG CC和GG CC。
·比较两者产生CC作为单词串Y Z X的关联频率;此外,应注意,忽略作为可能关联的EE的返回,因为它出现于两种情况中作为同一单词(即,处于同一位置)。
步骤14.增加到下一个单词串(Y Z X A)发现只出现一次;因此完成单词串数据库的创建并检查下一个单词Z(文件A中的位置3)。
步骤15.应用以上对文件A中出现3次的Z描述的步骤,产生以下·对Z1的返回是AA,BB,CC,AA,EE,AA BB,AA BB CC,AA BB CC AA,AA BB CC AAEE,BB CC,BB CC AA,BB CC AA EE,CC AA,CC AA EE和AA EE;·对Z2的返回是FF,GG,CC,FF GG,FF GG CC和GG CC;·比较Z1和Z2产生CC作为可能的匹配;·对Z3返回并和Z1比较产生CC作为单词Z的关联频率。
步骤16.增加到下一个单词产生单词串Z X,它在文件A中出现两次。应用以上对Z X描述的步骤产生以下·对Z X1的返回是BB,CC,AA,EE,FF,BB CC,BB CC AA,BB CC AA EE,BB CC AAEE FF,CC AA,CC AA EE,CC AA EE,CC AA EE FF,AA EE,AA EE FF和EE FF;·对Z X2的返回是FF,GG,CC,FF GG,FF GG CC和GG CC;·经比较产生了单词串Z X对CC的关联;·对Z X的返回和比较产生CC作为单词串Z X的关联频率。
步骤17.增加,下一个短语是仅出现的Z X A,从而检查文件A中的下一个单词(X)。
步骤18.在第一位置处已检查了单词X。但是,相对于另一个文件,单词X的第二位置还未对单词X的可能返回作过检查。因此,现在将单词X(第二位置内)作为单词X的第一次出现处理,在文件中向前进行·位置4处的X的返回产生BB,CC,AA,EE,FF,BB CC,BB CC AA,BB CC AA EE,BBCC AA EE FF,CC AA,CC AA EE,CC AA EE,CC AA EE FF,AA EE,AA EE FF和EE FF。
·位置9处的X的返回产生GG,CC和GG CC。
·位置9的结果和位置4的结果的比较产生CC作为单词X的可能的匹配。
·X的返回和比较产生CC作为单词X的相关频率。
步骤19.增加到下一个单词串(由于不再出现X来和X的第二次出现比较)产生单词串X A;但是,这个单词串在文件A中出现不超过一次,从而过程转到下一个单词(A)。单词“A”在文件A中只出现一次,由于单词“A”只出现一次,从而产生增加-但不是下一个单词串,而是增加到文件A中的下一个单词-“B”。单词“B”在文件A中只出现一次,从而检查下一个单词(Y)。单词“Y”在文件A中不在高于位置7的任何其它位置上出现,从而检查下一个单词(Z)。单词“Z”还在文件A中的两个位置上出现-位置8和10。
步骤20.将上述过程应用于单词Z的第二次出现的过程,产生以下·位置8处Z的返回产生FF,GG,CC,FF GG,FF GG CC和GG CC;·位置10处Z的返回产生CC;·将位置10的结果和位置8的比较,不产生单词Z的匹配。
此外,返回单词CC作为可能的匹配;但是,由于CC表示通过分析位置8处的Z和位置10处的Z达到的同一单词位置,所以忽略该匹配。
步骤21.增加一个单词产生单词串Z X;该单词串不在文件A中任何其它(前向的)位置出现,从而过程在文件A的下一个单词-“X”重新开始。单词X不出现于文件A的任何其它(进一步的)位置,所以过程开始更新。但是,已达到文件A的末端且停止分析。
步骤22.组合所有以上得到的结果将最终的关联频率制表。没有足够的数据来对文件A中的其它单词和短语返回结果。应注意,对文件B中的单词CC产生了很多可能的关联,如文件A中的单个单词或单词串。当检查到更多文件对包含语言B的单词CC时,关联频率将变得统计上更加可靠,从而将出现作为单词CC的翻译的单词(或可能是单词串)。
在另一个实施例中,将以各种方法使用本发明的数据库创建技术来创建交叉语言的关联。例如,可以通过简单地将文件A中出现的每个单词和单词串(或短语)和文件B中的单词范围匹配(使用上述范围技术)来创建数据库,而不比较单词的多次出现且不使用范围增加技术。该方法利用交叉语言关联的原理来以与上述方式不同的方式创建数据库。
作为本实施例的一个实例,考虑以下以不同的语言表示相同概念或内容的两个文件的实例

作为该实施例的第一个步骤,建立每个文件中的单词计数来创建合适的比率。该比率用于相对范围定位,如以下将描述的。在该实例中,文件A具有20个单词,而文件B具有15个单词,所以比率是4∶3。因此,文件A的每4个单词相当于文件B的3个单词。
作为下一个步骤,为被检查的单词串或短语建立单词片段。可以根据通用语言规则确定该片段;例如该片段可以是句子或段落。但是,片段的长度是用户定义的且可以是所需的单词串的任何片断。在该实例中,片段将对应于各个有关文件中的句子,虽然更大的片段比单个句子更有效地创建本发明的关联,因为具有更大的可能关联的基数来填充数据库。
作为下一个步骤,检查第一片段中的第一个单词-这里第一片段(“the sky isblue”)是“the”。
作为下一个步骤,确定文件A中该第一个单词的所有的出现位置。单词的位置由任何文件中它们各单词计数位置确定。使用该实例,单词“the”的位置是1、5、9和15(文件中的第一、第五、第九和第十五个单词)。
作为下一个步骤,确定与被检查的第一个单词相关的目标单词。通过使用单词比率确定该目标单词来确定文件B中的相对点,并将范围应用到文件B中的单词位置(如第一实施例中所述的,范围是用户定义的)。通过应用以上计算的比率确定文件B中单词的相对位置。在该实例中,单词“the”出现于文件A的第一、第五、第九和第十五个位置。这些位置对应于文件B的相对位置1、4、7和11。通过采用文件A中的位置、建立比率(通过简单数学乘以文件B和文件A中的单词的分式,或乘以3/4)并应用比率产生计算1(文件A)x34=1]]>(上舍入);5(文件A)x34=334,]]>即4(上舍入)(文件B);9(文件A)x34=7]]>(文件B,上舍入);15(文件A)x34=11]]>(文件B,下舍入)。
应用以上所述的,对被检查的第一个单词(“the”)产生以下·文件A中的位置=1;·文件B中的相对位置=1·施加到文件B中之前和之后单词的频率范围等于文件B中的单词位置1-3。通过使该位置+/-频率范围,或1+/-2或-1到3产生该确定。忽略负和零的位置返回文件B中1-3的单词位置结果。
·将该频率范围施加到文件B产生文件B中位置1、2和3处的单词,或以下AAA,BB和CCC。
因此,文件A中单词“the”的第一次出现产生文件B中的单词AAA,BB和CCC。
作为下一个步骤,到文件A中单词“the”的下一次出现并应用之前的过程·文件A中的位置=4。
·文件B中的相对位置=3·相对位置3的频率范围(+/-2)产生文件B的位置1、2、3、4和5内的单词AAA BB CCC AAA EEE。
随后,确定第二个位置的目标单词是否和第一个位置的目标单词匹配·第一次查找的结果是AAA BB CCC。
·第二次查找的结果是AAA BB CCC AAA EEE。
·匹配是AAA(两次),BB和CCC。
这些匹配存储于存储装置中用于单词“the”的可能的关联。
对单词“the”的下一次出现,该过程继续并重复造成单词“the”的第三次出现的结果产生CCC AAA EEE DDDD AAA;匹配是AAA(两次)和CCC;该匹配存储于存储装置中用于可能的关联。
对单词“the”的所有其它出现重复该过程。该分析的结果返回AAA BB FFF GGGGHHH,且AAA和BB作为可能的关联。
作为下一个步骤,本发明将被检查的单词数增加1。在第一个实例中,被检查的单词是“the”(文件A中的第一个单词)。增加后,被分析的下一个单词串是单词“the sky”。
对单词串重复以上步骤“the sky”出现于位置1和9(使用短语中的第一个单词作为位置的记号)。文件A中相关的位置是1和6。将频率范围应用到相对位置数产生对第一位置的AAA,BB和CCC;和对第二位置的AAA EEE DDDD AAA BB。比较两个单词短语的两个结果产生AAA BB作为存储于数据库中的可能的关联。
随后,过程增加一个单词且对“the sky is”重复过程。由于没有其它的出现,该过程仅产生第一次出现AAA BB CCC作为可能的匹配。
对短语“the sky is blue”重复该过程,只出现一次具有AAA BB CCC,作为存储于数据库的可能的关联。
作为下一个步骤,已到达由如文件A中的标点表示的用户所定义的第一个片段的末端。下一个步骤采用第一个片段中的第二个单词并继续上述的重复过程-在一个实例中,分析可以包括“sky”,“sky is”和“sky is blue”产生下列各项作为匹配“sky”出现于文件A中的位置2和10;它产生2和7作为文件B中的相对位置;它产生AAA BB CCC AAA作为第一个匹配,而EEE DDDD AAA BB和FFF作为第二个匹配;它产生AAA和BB作为存储于数据库中的可能的关联。
对“sky is”重复该过程,仅产生一个结果AAA BB CCC AAA;对“sky is blue”重复该过程,产生AAA BBB CCC AAA。
片段1中下一个增加的单词返回“is”和“is blue”对“is”和“is blue”重复该过程产生作为匹配的AAA BB CCC和AAA和CCC AAA EEE DDDD和AAA;其中AAA和CCC作为存储子数据库中的可能的关联。
片段1中的下一个增加的单词是“blue”,它产生AAA BB CCC AAA和EEE作为存储于数据库中的可能的关联。
现在分析到达了片段1的末端。下一个片段是句子“the grass is green.”由于“the”已经分析过了,所以被分析的下一个单词部分是“the grass”,之后是“the grass is”,“the grass is green.”,“grass”,“grass is”,“grass isgreen”和“green”。
过程继续下一个片段(“the sky includes clouds and stars”),其中第一个分析作用于“the sky includes”,“the sky includes clouds”,“the skyincludes clouds and”,“the sky includes clouds and stars”,“sky includes”,“sky includes clouds”,“sky includes clouds and”,“sky includes cloudsand stars”,“includes”,“includes clouds”,“includes clouds and”,“includes clouds and stars”,“clouds”,“clouds and”,“clouds andstars”,“and”,“and stars”,“stars”。
最终,过程继续到下一个片段(“the grass dies in the winter”),分析作用于″the grass dies″,″the grass dies in″,″the grass dies in the″,″thegrass dies in the winter″,″grass dies″,″grass dies in″,″grass dies inthe″,″grass dies in the winter″,″dies″,″dies in″,″dies in the″,″diesin the winter″,″in″,″in the″,″in the winter″,″the winter″和″winter″。
应注意,可能为了分析而使片段延伸,如上所述,其中片段不必限于句子或段落。当本发明用来翻译语言时,可以通过延伸片段将人物(“she”)结合入第一个句子来分析片断句子(“Went to school today. She walked to the school on thestreet.”)。
如所描述的,这两个实施例表示用于产生关联的技术。本发明的技术不必限于语言翻译;在宽广的意义上,该技术可以应用到任何可以关联的同一概念的两个实体,因为本质上外语翻译仅仅存在作为具有一个概念(单词或短语)的成对的关联。因此,可以将本发明应用到作为概念存在的关联数据、声音、音乐、视频或任何广泛范围的概念,所述概念可以表示任何感官(听觉、视觉、嗅觉等等)的感受。所需要的是本发明分析两个实体(在语言翻译中,该实体是文件;对音乐,实体可以是表示同一乐曲的乐谱和声频的数字表示,等等)。
此外,应注意,还有可能具有本发明的实施例,它通过机械、电子或其它装置将某些的关联加载入数据库。例如,有可能用英语单词it、his、her、an、a或任何常用单词的外语同等词加载数据库来更精确、更有效地以更快的解决方法创建关联数据库。因此,使用该实施例,本发明将自动返回加载入数据库的某些单词的外语同等词。该实施例允许本发明的关联数据库创建技术容纳可能曲解分析的常用单词。
此外,一实施例可以使用常用关联来创建和识别单词模式。例如,有可能将关联加载入数据库(例如,“President”对“Clinton”),从而关联数据库适合文本表示President Clinton但仅将单词“president”用作缩写的情况。
假定在广泛的意义上,交叉语言关联作为用于创建可能的关联数据库的交叉概念关联技术存在,则在建立关联时可以对结果进行处理。因此,例如,如果分配每个“概念”一种对电磁波(音调)的关联,则将有可能创建该概念的“电磁关联”。一旦用对应的电磁关联对给定数量的概念进行编码,则可以将数据(概念的形式)处理成电磁波并在常规电信设施上将其立即发送。在电磁波到达目的地机器时,该机器将把该波合成为单独的分量和给定的关联,呈现由电磁关联表示的各概念。
如本技术领域内熟练的技术人员可以理解的,熟练的专业人员可以对上述装置和方法中的许多方面进行改变而不背离本发明的精神和范围。
权利要求
1.一种用于使内容关联的方法,其特征在于,包括以下步骤接收以第一种状态表示的内容;接收以第二种状态表示的内容;分析以第一种状态表示的所述内容和以第二种状态表示的所述内容,其中所述分析利用以第一种状态表示的所述内容的片段和以第二种状态表示的所述内容的片段;以及创建和第二种状态的所述内容相关联的第一种状态的所述内容的关联数据库。
2.一种用于使内容关联的计算机系统,其特征在于,包括计算装置,它接收以第一种状态表示的内容,并接收以第二种状态表示的内容;其中,所述计算装置利用以第一种状态表示的内容片段和以第二种状态表示的内容片段分析以所述第一种状态表示的所述内容和以所述第二种状态表示的所述内容;以及其中所述计算装置创建和所述第二种状态的所述内容相关的所述第一种状态的所述内容的关联数据库。
全文摘要
一种用于创建交叉概念关联数据库的方法和装置。该交叉概念关联数据库使对应于一种状态的信息的一种语言的单词和短语与对应于第二个状态的信息的第二个语言的单词和短语相互关联。该方法包括接收第一个状态表示的内容和接收第二个状态表示的内容,分析第一个状态表示的内容和接收第二个状态表示的内容。分析包括利用第一个状态表示的内容片段和第二个状态表示的内容片段。该方法还包括创建和所述第二个状态的所述内容相关的所述第一个状态的内容的关联数据库。
文档编号G06F17/28GK1520558SQ02812536
公开日2004年8月11日 申请日期2002年6月21日 优先权日2001年6月21日
发明者埃里·阿博, 埃里 阿博 申请人:埃里·阿博, 埃里 阿博
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1