信息处理系统的制作方法

文档序号:6618721阅读:247来源:国知局
专利名称:信息处理系统的制作方法
技术领域
本发明涉及一种用在语言鉴别中的信息处理系统,用于鉴别文件中的语言以及在全文本检索中进行关键字检索,从而在观察包含在作为对象的一输入文件中的所有文本(字符串)的同时,检索/登录一输入文本。
现有技术中进行的在信息检索处理领域中鉴别文件中描述的文本(字符串)的语言的方法有基于对文字的鉴别,通过提供语言的文字词典来鉴别该语言的方法,它在未审查的日本专利公开文本Hei 8-137886中所公开;基于语言的字符代码的特定位(这里是两位)来鉴别该语言的方法,它在未审查的日本专利公开文本Hei 8-160929中所公开;以及基于语言所特有的特定信息(例如,域名等)来鉴别该语言的方法,它在未审查的日本专利公开文本Hei10-171810中所公开。
此外,现有技术中进行的在信息检索处理领域中的登录/检索文件中所描述的文本的关键字检索方法有利用文字表的方法,该文字表中将分离字符附加到关键字的开始和结尾,它在未审查的日本专利公开文本Hei 8-16617中所公开。
除上面所述的之外,作为现有技术,在未审查的日本专利公开文本Hei5-282360中公开了能够有效输入混合了多种语言的文本的多语言输入系统。更具体地讲,该系统通过查询相应词典而将输入文本转换为显示文本,然后定义该显示文本,之后将其中未知文字数变为最少的语言确定为输入语言,或者优先将先前使用的语言用作输入语言。
在未审查的日本专利公开文本Hei 7-262188中,公开了能够对存储或发送的文件的语言或类型进行鉴别处理的语言鉴别处理方法。对象语言的普通文字包含在对象语言/类型(genre)的文字出现频度表中,并且,文字代码分别具有相关的归一化出现频度值,并且,利用这样的归一化出现频度值来检测所述语言/类型。此外,作为语言/类型鉴别处理,还公开了这样的系统该系统从输入文件中接收一连串的文字,然后将这些文字与所述文字出现频度表中的所有文字进行比较,然后,将这些文字的相关的归一化出现频度值与相关累加器中存在的总和相加,然后,通过读取文件的文字而将所有累加器中累加的总和值鉴别为语言鉴别值。
在未审查的日本专利公开文本Hei 10-124513中,公开了利用分别最频繁用在多种候选语言中的文字集来鉴别文件中所描述的语言的语言鉴别方法和系统。按照最频繁使用文字的各个集的字符对,将最频繁使用文字的各个集存储在用于相应候选语言的文字表的相应集中。各文字表是N×N位表。所述位表示在用于一个候选语言中的最频繁使用文字的一个位置上的给定字符对。将来自文件的文字与所述文字表中存储的最频繁使用文字进行比较。对在来自文件的文字与存储在文字表中的各个集中的文字之间匹配的数目进行计数,然后对各个语言继续。具有最大匹配数目的候选语言被选择为文件语言。
然而,在上面解释的现有技术的方法中,例如,在未审查的日本专利公开文本Hei 8-137886中,每个文件都可以实现自动鉴别,但必须提供用来鉴别文字的词典。在未审查的日本专利公开文本Hei 8-160929中,很难利用诸如unicode(单一码)等相同的字符代码来对付诸如JCK统合汉字(JCKintegrated kanji)的不同语言。在未审查的日本专利公开文本Hei 10-171810中,存在的问题是每一位客户机(client)都进行鉴别。
在上面解释的现有技术的方法中(例如,JP 8-16617),存在的问题是必须与用在普通文件检索中的索引独立地准备文字表文件。
在上面解释的现有技术的方法中(例如,JP 5-282360),存在的问题是,如果在文本中出现相同的字符代码,很难确定这种字符代码属于哪种语言。此外,还存在这样的问题由于必须事先准备用于鉴别语言的词典,不可能鉴别未知术语的语言。此外,还存在这样的问题已知的文字,即,日语情况下的“recognition(识别)”等可被识别为文字,因为这种文字作为词典数据包含在词典中,然而,不包含在词典中而出现在普通语句中的文字不能被鉴别,因为这种文字按照传统配置不包含在词典中。此外,还存在这样的问题由于必须对每一种鉴别语言都准备用于剪切(cutting out)文字的规则,故除非存在应用于特定语言的规则,否则不会对文字进行处理。
本发明就是为克服上述现有技术中的问题而作出的。首先,本发明的一个目的是通过利用本国语言的描述特征,即通过检测作为鉴别对象的文本的特定字符的出现率,或者检测特定字符之间的平均文本长度,或者检测特定范围中的字符的出现率,同时观察在该语言中频繁出现的特定字符(例如韩语的空白(space)字符)或者特定范围中的特定字符(例如日语中的“平假名”、“汉字”),来鉴别在特定语言中描述的输入文本的语言。
第二,本发明的另一个目的是利用将二字符链(two-character chains)用作由文件检索准备的索引的检索系统,并能通过将分离字符的信息原样附加到在输入文本中进行登录时准备的索引而进行关键字检索,其中在所述输入文本中将分离字符插入到关键字的开始和结尾。
第三,本发明的再一个目的是提供一种能够基于给定文本自动鉴别该给定文本所属的语言的信息处理系统,并提供一种在将文本的特征确定为代码,尤其是这种特征被以字符模式轮廓(例如,字体等)分类的条件下,能够自动鉴别语言或组类型的信息处理系统。
为实现上述主题,按照本发明,首先,在一种信息处理系统中提供了下列装置用于根据一输入文本的特定字符的出现次数来检测特定字符的出现率的装置;用于存储一检测的目标语言的特定字符的标准出现率的装置;和用于将所述输入文本的特定字符的出现率与所述检测的目标语言的特定字符的标准出现率进行比较的装置。第二,在一种信息处理系统中提供了下列装置用于检测输入文本的特定字符之间的非特定文本的平均文本长度的装置;用于存储检测的目标语言的非特定字符的标准平均文本长度的装置;和用于将所述输入文本的非特定字符的平均文本长度与所述检测的目标语言的非特定字符的标准平均文本长度进行比较的装置。第三,在一种信息处理系统中提供了下列装置用于根据输入文本的特定范围字符的出现次数,来检测特定范围字符的出现率的装置;用于存储检测的目标语言的特定范围字符的标准出现率的装置;和用于将所述输入文本的特定范围字符的出现率与所述检测的目标语言的特定范围字符的标准出现率进行比较的装置。因此,可获得这样的优点通过将从出现率计算器中得出的输入文本的特定字符的出现率与从标准出现率存储器中得出的标准出现率进行比较,以确定该输入文本是否对应于具有与目标语言相配的特征的文本,能够鉴别输入文本中的目标语言。
此外,按照本发明,第四,提供了下列装置在进行关键字检索时将分离字符插入库文本中的装置;用于当在插入了分离字符的文本中发现了分离字符时检测将该分离字符置于中间的三字符链的装置;用于产生由位于所述分离字符之前和之后的字符组成的字符链、由所述分离字符和位于所述分离字符之前的字符组成的字符链、以及由所述分离字符和位于所述分离字符之后的字符组成的字符链的装置;和用于在检索时将所述分离字符插入到所述输入文本的开始、或者所述输入文本的结尾、或者所述输入文本的开始和结尾的装置。因此,可以获得这样的优点可排除使用文本而不是关键字进行的检索。
此外,按照本发明,第五,在一种从几种预定语言类别中唯一地模式识别包含文本数据的一种语言的信息处理系统中,提供了一存储媒体,用于记录构成模式组的程序,该模式组由用于字符代码的字符代码组的组合构成,其中用于模式识别的编码字符被分类为作为代码表的多个一维代码组,并且所述存储媒体具有一模式存储装置,用于存储第一数据、第二数据和第三数据,第一数据由一n-字符组合组成,并包含多个字符组,其中在任何一个字符组中都含有构成组合的代码,第二数据具有相应于所述第一数据的组合模式的数值,第三数据根据所述第一数据和第二数据的组合而被分配给预定模式类型。此外,还提供了下列装置一字符链提取装置,用于从一文本中检测二字符链,并确定包含组成二字符链的字符的字符组;一模式计算装置,用于比较由所述字符链提取装置确定的字符组的组合是否与一模式存储装置中的模式相符,并计算相符模式的数值;和一模式确定装置,用于确定具有由所述模式计算装置计算的所有字符链的最大数值的一模式以及它们的组合模式,作为模式存储装置中的模式组合,这些模式组合与所述第一数据、第二数据和第三数据中的那些模式组合相符。此外,还提供了这样的模式确定装置该装置对所有字符链计算由所述模式计算装置计算的数值的平均值,并确定与模式存储装置的第二数据最接近的值,作为该模式存储装置的模式组合;或者该模式计算装置对所有字符链计算由所述模式计算装置计算的数值的最大频度值,并确定与模式存储装置的第二数据最接近的值,作为该模式存储装置的模式组合。因此,可以获得这样的优点可根据模式集自动确定数据应当属于的模式,其中这些数据被分配给诸如字符集等的所有模式,并且这些模式被分类为几种类型的涵义(meaning)模式组,并且多个涵义组由模式组的组合来表示。
此外,按照本发明,第六,提供了一存储媒体,它构成由用于模式识别的模式组的组合组成的模式组,并且存储第一数据、第二数据和第三数据,第一数据由用于模式组的二字符组合模式组成,其中模式组为先前已知的,第二数据由指示所述第一数据的模式类型组成,第三数据说明所述第一数据和所述第二数据的组合的出现次数。还提供了下列装置一字符链提取装置,用于从所述存储媒体中提取先前分配了模式类型的模式数据的所有二字符链;一字符链频度计数装置,用于计算各个字符链的出现次数,并将每个字符类型的字符链模式和出现次数存储在所述存储媒体中;所述字符链提取装置,用于从一给定模式中提取二字符链;一频度计数装置,用于对每一个模式类型从所述存储媒体中提取相应于所提取的字符链的字符链模式的出现次数;和一对照(collating)装置,用于将从所述频度计数装置得出的出现次数与所有提取的字符链进行对照,然后确定具有最大总出现次数的模式类型,作为包含给定模式的模式类型。在这种情况下,所述对照装置确定其总出现次数超过某个阈值的模式类型,作为包含给定模式的模式类型,或者,所述对照装置确定具有字符链模式的最大总出现频度的模式类型,作为包含给定模式的模式类型,在所有字符链中所述字符链模式的出现次数超过某个阈值。因此,可以获得这样的优点可自动确定测试数据所属的模式,并且,除非字符类型、字体等被编码,否则模式可被分类,此外,在不对逐个语言准备词典的情况下,模式也可被分类。
此外,按照本发明,第七,提供了下面的装置一分离装置,当从事先在存储媒体中分配了模式类型的模式数据中提取出所有字符链时,用于分离字符类型或至少一种语言成为文字,所述存储媒体构成由用于模式识别的模式组的组合组成的模式组;一字符链提取装置,用于基于所述分离装置来提取字符链;一链转换装置,如果字符链由一个字符组成,则重复相同的字符,以形成字符链;所述字符链频度计数装置;所述字符链提取装置;及所述频度计数装置。因此,可以获得这样的优点可自动确定测试数据所属的模式,并且还具有这样的优点除非字符类型、字体等被编码,否则模式可被分类,此外,在不对逐个语言准备所有规则的情况下,模式也可被分类。
此外,按照本发明,第八,在构成由用在模式识别中的字符代码组的组合组成的模式组的存储媒体中提供了一模式存储装置,用于存储由二字符组合组成的字符链模式的文件号,以及每个模式类别的或语言的文本数据的字符链模式。此外,还提供了下列装置一字符链提取装置,用于提取一文本数据的所有二字符链,一字符链频度计数装置,用于计算各字符链的出现次数,并计算每个字符类型的字符链模式和文件号;和一字符频度比较装置,用于对每个模式类别,提取由所述字符链频度计数装置获得的字符链模式以及一存储媒体中的字符链模式的频度,对每个模式类别比较所述字符链模式的频度的总值,并且将字符链模式、出现次数和文件数目存储到具有大模式类别的存储媒体的模式类别中。在这种情况下,所述字符频度比较装置确定其总出现次数超过某个阈值的模式类型,作为含有给定模式的模式类型,或者,所述字符频度比较装置确定其中出现次数在所有字符链中超过某个阈值的字符链模式的总出现频度最大的模式类型,作为含有给定模式的模式类型。因此,可以获得这样的优点可自动确定测试数据所属的模式,并且,除非字符类型、字体等被编码,否则模式可被分类。
此外,按照本发明,第九,在一种信息处理系统中,该信息处理系统从几种预定语言类别中唯一地模式识别含有文本数据的一种语言,其中字符代码对每一种字符字体都限定,在所述系统中提供了一存储媒体,该存储媒体构成由用于模式识别的字符代码组的组合组成的模式组,并将构成每种语言的字符的二字符组合存储在一单独语言分布表中,其中对汉字、平假名/片假名、符号、Hangul(韩文文字)和其它字符的每个字符类型都存储第一字符的出现率;一单独代码指定装置,用于读取一统合代码或一本地(local)代码,作为一应用的字符代码系统;一字符链提取装置,用于从输入文本数据中提取所有的二字符链;一出现次数计数装置,用于按照指定的代码系统,对每种语言分类汉字、平假名/片假名、符号、Hangul和其它字符的二字符链,然后分别计算它们的出现率;一单独语言互分布距离(interdistributiondistance)计算装置,用于计算基于指定的代码系统的每种语言的汉字、平假名/片假名、符号、Hangul的出现率与以及由存储装置管理的汉字、平假名/片假名、符号、Hangul的出现率之间的距离总数;和一比较装置,用于使所述单独语言互分布距离计算装置计算最小距离值,然后确定具有最小距离值的语言类别,作为输入文本的语言。因此,由于可计算汉字、平假名/片假名、符号等的出现分布之间的距离,因而可容易地确定语言类别。


图1是说明按照本发明第一个方法实施例的信息处理系统的结构的方框图;图2是说明按照本发明的字符代码语言鉴别的第一个方法的概念图;图3是说明按照本发明第二个方法实施例的信息处理系统的结构的方框图4是说明按照本发明的字符代码语言鉴别的第二个方法的概念图;图5是说明按照本发明第三个方法实施例的信息处理系统的结构的方框图;图6是说明按照本发明的字符代码语言鉴别的第三个方法的概念图;图7是说明按照本发明第四个方法实施例的信息处理系统的结构的方框图;图8是说明按照本发明的检索关键字的第四个方法的概念图;图9是说明按照本发明第五个方法实施例的代码表的图;图10是说明按照本发明第五个方法实施例的模式存储装置结构的图;图11是说明按照本发明第五个方法实施例的作为鉴别对象的文本的概念图;图12是说明按照本发明第五个方法实施例的模式鉴别中间的数据结构的图;图13是说明按照本发明第五个方法实施例的信息处理系统的结构的方框图;图14是说明按照本发明第六个方法实施例的样本数据的概念图;图15是说明按照本发明第六个方法实施例的字符链出现率的图;图16是说明按照本发明第六个方法实施例的频度存储器的数据结构以及该数据的概念图;图17是说明按照本发明第六个方法实施例的测试文本的概念图;图18是说明按照本发明第六个方法实施例的信息处理系统的结构的方框图;图19是说明按照本发明第七个方法实施例的样本数据的概念图;图20是说明按照本发明第七个方法实施例的链转换数据的概念图;图21是说明按照本发明第七个方法实施例的频度存储器的数据结构以及该数据的概念图;图22是说明按照本发明第七个方法实施例的信息处理系统的结构的方框图;图23是说明按照本发明第八个方法实施例的代码表的图;图24是说明按照本发明第八个方法实施例的字符链数据的概念图;图25是说明按照本发明第八个方法实施例的在进行字符链对照时的字符链数据的概念图;图26是说明按照本发明第八个方法实施例的频度存储器的数据结构以及该数据的概念图;图27是说明按照本发明第八个方法实施例的信息处理系统的结构的方框图;图28是说明按照本发明第九个方法实施例的单独字符集代码表存储器的结构的方框图;图29是说明按照本发明第九个方法实施例的单独语言分布表存储器的结构的方框图;图30是说明按照本发明第九个方法实施例的输入文本数据的概念图;图31是说明按照本发明第九个方法实施例的计算距离确定结果的方法的图;和图32是说明按照本发明第九个方法实施例的信息处理系统的结构的方框图。
下面将参照附图描述本发明的实施例。
(实施例1)图1示出了按照本发明第一个方法实施例的字符代码语言鉴别系统的结构。
在图1中,标号101表示一特定字符鉴别器,用于鉴别输入文本(字符串)中的字符是否相应于检测的目标语言的特定字符;标号102表示一特定字符计数器,用于对由所述特定字符鉴别器鉴别的特定字符的出现次数进行计数;标号103表示一输入字符计数器,用于对输入文本的所有字符的出现进行计数;标号104表示一出现率计算器,用于根据由特定字符计数器102计数的特定字符的出现次数和由输入字符计数器103计数的输入文本的字符数,来计算所述特定字符的出现率;标号105表示一标准出现率存储器,用于存储检测的目标语言的特定字符的标准出现率;标号106表示一比较器,用于将由出现率计算器104检测出的出现率与存储在标准出现率存储器105中的标准出现率进行比较;以及,标号107表示一文本结束检测器,用于检测输入文本的结束。
图2示出了按照本发明的字符代码语言鉴别的第一个方法的概念。
在图2中,标号201表示应用语言鉴别的输入文本,而标号202表示在该输入文本中出现的特定字符。在本发明的第一个方法中,通过检测输入文本中的特定字符的出现率来鉴别目标语言。假定输入文本201的字符总数为m,而特定字符202的出现次数为n,则该输入文本201中的该特定字符的出现率k由n/m给出。假定目标语言中特定字符的出现率的最小值为a而最大值为b,如果输入文本201中特定字符的出现率k为a≤k≤b,则本发明的第一个方法在此时确定该输入文本相应于所述目标语言。利用上面的方法,可实现文本的语言鉴别。
当通过将“空白字符”指定为象韩语那样的特定字符202而鉴别输入文本中的韩语时,本发明也是有效的。此时,可根据对由十二万个字符组成的韩语报纸计算数据的统计数据而采用a=0.14、b=0.23。按照本方法,可从其它文件中,例如从日语文件中,鉴别出以韩语Hangul描述的文件。
如上所述,当由文本结束检测器107检测出文本的结束时,通过将从出现率计算器104中得出的输入文本中特定字符的出现率与从标准出现率存储器105中得出的标准出现率进行比较,以确定所述输入文本是否相应于具有与目标语言相配的特征的文本,从而鉴别出所述输入文本中的目标语言。
(实施例2)图3示出了按照本发明第二个方法实施例的字符代码语言鉴别系统的结构。
在图3中,标号301表示一特定字符鉴别器,用于鉴别输入文本中的字符是否相应于检测的目标语言的特定字符;标号302表示一文本长度计数器,用于对没有由所述特定字符鉴别器301鉴别的非特定字符的连续出现次数进行计数;标号303表示一加法器,用于计算从文本长度计数器302输出的文本长度的总和;标号304表示一特定字符计数器,用于对由特定字符鉴别器301鉴别出的特定字符的出现次数进行计数;标号305表示一平均文本长度计算器,用于计算通过将由加法器303计算出的文本长度的总数除以从特定字符计数器304得出的特定字符数目,而得出的平均文本长度;标号306表示一标准文本长度存储器,用于存储检测的目标语言的平均文本长度;标号307表示一比较器,用于将由平均文本长度计算器305得到的平均文本长度与存储在标准文本长度存储器306中的标准平均文本长度进行比较;以及,标号308表示一文本结束检测器,用于检测输入文本的结束。
图4示出了按照本发明的字符代码语言鉴别的第二个方法的概念。
在图4中,标号401表示应用语言鉴别的输入文本;标号402表示在该输入文本中出现的特定字符;并且,标号411、412、41n表示由特定字符划分的非特定字符的文本(非特定文本)。在本发明的第二个方法中,通过检测非特定文本411、412、41n的平均长度来鉴别目标语言,所述非特定文本411、412、41n是通过由特定字符402划分输入文本401来给出的。假定输入文本401的非特定字符是以n-1个特定字符来划分的,因而该输入文本包含n个非特定文本,并且此时这些非特定文本的长度为a1,a2,a3,…,an,输入文本401中这些非特定文本的平均文本长度k由(a1+a2+a3+…+an)/n来给出。假定目标语言中由特定字符划分的非特定字符的平均文本长度的最小值为a而最大值为b,如果输入文本401中非特定字符的平均文本长度k为a≤k≤b,则按照本发明第二方法的鉴别方法在此时确定输入文本401相应于所述目标语言。利用上面的方法,可实现文本的语言鉴别。
按照本发明,例如,可通过将“空白字符”指定为象韩语那样的特定字符402而鉴别输入文本中的韩语。此时,可根据对由十二万个字符组成的韩语报纸计算数据的统计数据而采用a=3、b=5。
此外,例如,在日语和汉语之间进行鉴别的过程中,可通过将“、”(在汉语情况下为“,”)、“的”和“。”指定为特定字符402来鉴别输入文本中的语言。此时,可根据对由五万四千个字符组成的日语报纸计算数据的统计数据而采用a=10、b=22,并且,可根据对由八万四千个字符组成的汉语条例文件的统计数据而采用a=4、b=9。按照本方法,可通过比较输入文本的描述语言相应于日语或者汉语的上述平均文本长度而容易地进行鉴别。
如上所述,当由文本结束检测器308检测出文本的结束时,通过将从平均文本长度计算器305中得出的输入文本中的平均文本长度与从标准文本长度存储器306中得出的标准文本长度进行比较,以确定所述输入文本是否相应于具有与目标语言相配的特征的文本,从而鉴别出所述输入文本中的目标语言。
(实施例3)图5示出了按照本发明第三个方法实施例的字符代码语言鉴别系统的结构。
在图5中,标号501表示一特定范围字符鉴别器,用于鉴别输入文本中的字符是否相应于检测的目标语言的特定范围中的字符;标号502表示一特定范围字符计数器,用于对由所述特定范围字符鉴别器所鉴别的特定范围字符的出现次数进行计数;标号503表示一输入字符计数器,用于对输入文本中的所有字符代码的出现进行计数;标号504表示一出现率计算器,用于根据由所述特定范围字符计数器502计数的特定范围字符的出现次数和由所述输入字符计数器503计数的输入文本的字符数目,来计算特定范围字符的出现率;标号505表示一标准出现率存储器,用于存储检测的目标语言的特定范围字符的标准出现率;标号506表示一比较器,用于将从所述出现率计算器504得出的出现率与存储在所述标准出现率存储器505中的标准出现率进行比较;以及,标号507表示一文本结束检测器,用于检测输入文本的结束。
图6示出了按照本发明的字符代码语言鉴别的第三个方法的概念。在图6中,标号601表示应用语言鉴别的输入文本;标号602表示在该输入文本中出现的特定范围中的字符的字符代码范围;并且,标号611、612、613表示包含在范围602中的特定范围中的字符。在本发明的第三个方法中,通过检测输入文本的特定范围中的字符的出现率来鉴别目标语言。假定输入文本601的字符总数为m,并且所述特定范围中包含的字符的出现次数为n,则输入文本601的特定范围中的字符的出现率k由n/m给出。假定目标语言中特定范围中的字符的出现率的最小值为a而最大值为b,如果输入文本601中的特定范围中的字符的出现率k为a≤k≤b,则按照本发明第三方法的鉴别方法在此时确定输入文本601相应于所述目标语言。利用上面的方法,可实现文本的语言鉴别。
按照本发明,例如,可通过将“平假名”或“汉字”指定为象日语那样的特定范围中的字符的范围602而鉴别输入文本中的日语。此时,可根据对由五万四千个字符组成的日语报纸计算数据的统计数据而采用“平假名”的a=0.1、b=0.5和“汉字”的a=0.2、b=0.6。按照本方法,可容易地鉴别输入文本的描述语言是否相应于日语。
如上所述,当由文本结束检测器507检测出文本的结束时,通过将从出现率计算器504中得出的输入文本的特定范围中的字符的出现率与从标准出现率存储器505中得出的标准出现率进行比较,以确定所述输入文本是否相应于具有与目标语言相配的特征的文本,从而鉴别出所述输入文本中的目标语言。
(实施例4)
图8示出了按照本发明的检索关键字的第四个方法的概念。在图8中,标号801表示在登录时输入的一文本“いろはに”;标号811、812、813分别表示一关键字;标号802表示一分离字符插入文本,其中将分离字符“a”插入到输入文本801的关键字811、812、813之间的边界;标号803表示首先登录到所述分离字符插入文本802中的一个二字符链“aい”;标号804表示在二字符链803之后出现的一个二字符链“いろ”;标号805表示一个二字符链“ろa”,它包含从一个三字符链“ろaは”产生的分离字符,在该三字符链“ろaは”中将分离字符“a”置于中间;标号806表示一个二字符链“aろ”,它包含所述三字符链“ろaは”中的分离字符;标号807表示一个二字符链“ろは”,它不包含在所述三字符链“ろaは”中的分离字符,而在所述分离字符扩展;标号808表示紧接着二字符链807出现的一个二字符链“はに”;并且,标号809表示在808之后出现的一个二字符链“にa”。
此外,在图8中,分别地为二字符链803存储“a”和“い”的出现次数n、n1;二字符链804存储“い”和“ろ”的出现次数n1、n2;二字符链805存储“ろ”和“a”的出现次数n2、n;二字符链806存储“a”和“は”的出现次数n、n3;二字符链807存储“ろ”和“は”的出现次数n2、n3;二字符链808存储“は”和“に”的出现次数n3、n4;以及,二字符链809存储“に”和“a”的出现次数n4、n。
此外,在图8中,标号821表示在检索时检索到的文本“いろはに”;标号822表示将分离字符“a”插入到821的开始和结尾的一检索文本,用于通过将检索文本821用作关键字而进行完全相符检索;标号823表示在检索文本322中首先检索到的一个二字符链“a い”;标号824表示在823之后出现的一个二字符链“いろ”;标号825表示在824之后出现的一个二字符链“ろは”;标号826表示在825之后出现的一个二字符链“はに”;以及,标号827表示在826之后出现的一个二字符链“にa”。
图7示出了按照本发明第四个方法实施例的用于文本检索方法的信息处理系统的结构。
在图7和图8中,标号701表示一文本转换器,用于将特定分离字符“a”插入到库文本801的关键字之间的边界;标号702表示一分离字符检测器,用于从自文本转换器701输出并插入了分离字符的库文本802中检测所述分离字符;标号703表示一个二字符链产生器,用于检测当在文本802中没有发现分离字符时产生和登录的所述二字符链804、808;标号704表示一分离字符链产生器,用于从文本802检测所述二字符链805、806、807以及二字符链803、809,所述二字符链805、806、807是从在中间具有分离字符“a”的三字符链“ろaは”中产生的,所述二字符链803、809分别在所述文本的开始和结尾具有分离字符;标号705表示一个二字符链存储器,用于存储由所述二字符链产生器703和分离字符链产生器704检测的二字符链803、804、805、806、807、808、809,其中分离字符表示一固定值,而其它字符表示它们的出现次数;标号706表示一文本转换器,用于将特定分离字符“a”插入检索文本821的开始和结尾;标号707表示一个二字符链检测器,用于从由所述文本转换器706产生的检索文本822中检测二字符链823、824、825、826、827;标号708表示一比较器,用于从二字符链存储器705中检测由二字符链检测器707检测的二字符链823、824、825、826、827,然后确定所检测的二字符链的前面字符的出现次数是否与在这之前刚检测到的二字符链之后的字符的出现次数相符;以及,标号709表示一控制部分,用于通过使比较器708确定从二字符链检测器707检测的所有二字符链来确定文本的相符性。此时,按照本发明的第四个方法,检测出与二字符链823的“a い”相当的二字符链803,此外还检测出此时“い”的出现次数n1,并且,检测出与链823之后的二字符链824的“いろ”相当的二字符链804,此外还检测出此时“い”和“ろ”的出现次数n1、n2。确定二字符链803和804之间的“い”的出现次数n1是否相互一致。如果是相互一致,则检测出相当于二字符链825的“ろは”的二字符链807,此外还检测出此时“ろ”和“は”的出现次数n2、n3。确定二字符链804和807之间的“ろ”的出现次数n2是否相互一致。如果是相互一致,则检测出相当于二字符链826的“はに”的二字符链808,此外还检测出此时“は”和“に”的出现次数n3、n4。确定二字符链807和808之间的“は”的出现次数n3是否相互一致。如果是相互一致,则检测出相当于二字符链827的“にa”的二字符链809。然后,确定此时“は”的出现次数n4是否与二字符链808的“に”的出现次数相互一致。如果是相互一致,则根据关键字的完全一致性确定文本821与文本801相互一致。利用上面的方法,可实现文本的对照。
按照本发明的系统,可排除使用文本而不是关键字进行的检索。例如,如果应当使用文本“いろは”来进行检索,该文本“いろは”不是关键字,就象图8中的文本831,则这样的检索可使用就象832那样的检索文本来进行,其中在该检索文本中将分离字符插入到了其开始和结尾。在这种情况下,由于文本831不与关键字811、812、813对应,故产生但不检索不能从检索文本832中检测出的二字符链836的“はa”。
在这种情况下,本发明的系统可类似地应用于采用字符的定位信息来替代各个二字符链中的字符的出现次数的情况。
(实施例5)下面将解释作为本发明第五实施例的字符模式鉴别方法的例子。
图9示出了用于编码多个字符模式并存储这些模式的代码表。在这种情况下,例如,模式代码一维地形成,并且将unicode等选为文本代码的对象。A组901是由所谓的平假名和片假名组成的组,比如字符“あ”,…,“カ”,…,。将代码号分配给A组901的各个字符,以使将#1分配给“あ”,#2分配给“い”等。类似地,B组902是由汉字组成的组,并且将从#100开始的代码号分配给各个汉字,并且,C组903是由诸如×、○、△等符号组成的组,并且将从#200开始的代码号分配给各个符号。在这种情况下,上述代码号是出于方便考虑而分配的,任何代码号只要它们在代码表中唯一便可被应用。
接下来,图10示出了用于存储由字符组成的模式分类类型及其数据的的模式存储装置的结构。此时,假定由字符集的组合形成的文本数据是由要鉴别的模式中的任何一种文本构成的。对于两个字符模式集,各个模式及它们值存储在代码表的各个集中,该代码表中包含第一字符模式和第二字符模式。如果(第一字符,第二字符)分别与(A组中的字符,A组中的字符)(下文中简称为(A组,A组))或(B组,B组)相符,则出现模式相应于组合D1,并被定义为包含在模式1中。数值1被分配给该模式。此外,数值1还被分配给模式1中的(A组,B组)或(B组,A组)的组合。数值还分配给模式2和模式3,就象图10中的模式2、3。例如,由于日语包含平假名、片假名和汉字,模式1可被定义为日语。类似地,如果C组被假定为Hangul,则模式2可被定义为韩语,并且模式3可被定义为汉语。
接下来,下面将解释确定字符串属于哪个模式的方法。在图11中,标号1101表示字符串(string)数据。从字符串数据1101中可提取出二字符组合。从该二字符组合中可提取出二字符链(日、本)、(あ、い)、(汉、力)。(B组,B组)、(A组,A组)和(B组,A组)被分别检测为含有提取出的字符链的组。结果,如图12所示,(日、本)属于模式1或2,(あ、い)属于模式1,并且(汉、力)属于模式1。
此外,相应于这些模式的分值(score)(数值)可作为1或2、1、1给出。当将这些数值的个数相互比较时,可检测出数值1为最频繁数值,并检测出模式1为与数值1相配的模式。因此,可确定文本数据包含在模式1中。尽管在该第五实施例中计算出数值1具有最高频度,但在数值的平均值和模式的数值之间具有最小差值的模式被确定为含有文本数据和模式。此外,可计算数值的最高频度值而不是平均值。
按照本发明方法,在分析了实际数据之后,可知道,在日语的情况下(将报纸说明作为对象),符号的出现率约为所有字符集的10%,除汉字/符号之外的平假名/片假名等的出现率为约41%,并且汉字的出现率为约49%。在汉语的情况下(将条例书籍作为对象),符号的出现率约为所述字符集的3%,除汉字/符号之外的平假名/片假名等的出现率为约22%,并且汉字的出现率为约74%。在Hangul的情况下(将报纸说明作为对象),符号的出现率约为所述字符集的15%,除汉字/符号之外的平假名/片假名等的出现率为约3%,Hangul字符的出现率为约73%,汉字的出现率为约4%,并且其它情况的出现率为7%。据此,仅以符号、平假名/片假名、汉字、和Hangul字符等的形式管理字符代码,如果除符号之外的平假名/片假名与汉字的比率为41∶49,则语言为日语,如果该比率为22∶74,则语言为汉语,并且如果该比率为3∶73,则语言为Hangul。最接近这些比率中的一个的语言可被归类为要鉴别的语言。
图13示出了按照本发明第五个方法实施例的信息处理系统的结构。在图13中,标号1301表示一字符链提取器,用于从文本数据中剪切出二字符链;标号1303表示一代码表,其中存储模式的代码;标号1305表示一模式存储器,其中存储模式集和数值;标号1302表示一模式计算器,用于将组成提取的二字符链的字符代码组的集与模式存储器1305中的集进行比较,然后对所有提取出的二字符链计算相应模式的数值;以及标号1304表示一模式鉴别器,用于根据由模式计算器1302计算出的数值来计算每个数值的出现频度或者平均值或者最频繁值,然后计算其出现频度与存储在模式存储器1305中的模式的数值最相符的模式,或者与平均值的差值或者与最频繁值的差值,然后确定具有最小值的模式。
因此,按照该方法,可根据模式集自动确定数据应当属于的模式,其中数据被分配给诸如字符集等的所有模式,并且这些模式被分类为几种涵义模式组(meaning pattern groups),多个涵义模式组由模式组的组合来表达。
特别是,当字符类型和字体作为模式被分类为多种模式时,本发明对行筛选很有效。将unicode用作代码的一个例子。在这种情况下,如果模式1为“平假名/片假名”,模式2为“汉字(CJK汉字)”,并且模式3为“Hangul”,则例如通过将由模式1和模式2的组合组成的涵义组定义为“日语”、将由模式2和模式3的组合组成的涵义组定义为“韩语”、并且将仅由模式2组成的涵义组定义为“汉语”,可以筛选出语言。
在第五实施例中,模式如果是编码模式则不限于字符模式,并且对象如果是编码对象,比如为象◎、◇等的符号、图形等,则不受到特别限制。尽管对字符是以每两个字符进行剪切的,但如果采用两个字符,则对剪切字符的单位没有限制。
(实施例6)下面将解释作为本发明第六实施例的鉴别字符模式的方法的一个例子。首先,下面将解释形成信息以鉴别模式的方法。
图14示出了形成信息的样本数据。在图14中,标号1401表示汉语样本数据,并且从该样本数据中取出了两个字符链。于是,标号1402表示字符链“那些”,并且标号1403表示字符链“些都”。这些字符链是相邻而取的。将记录号1分配给样本数据1401的数据。随后将所有的字符链都从样本数据中取出。在图14中,假定通过后面的解释说明了四个字符链1402到1405。在图14中,标号1406、1412是日语样本数据,并且就象上面那样从该样本数据中提取出所有的二字符链。就象对汉语样本数据的解释那样,在第六实施例中示出作为二字符链的字符链1407到1411、1413到1416。在这种情况下,将记录号2、3分配给数据1406、1412。
接下来,按照象汉语和日语那样的模式类型,将提取的字符链模式的组合模式、记录号、和出现次数单独存储在存储媒体中。
作为图15中的出现模式1501到1504,当模式类型为汉语时,存储模式和记录号。类似地,作为图15中的出现模式1505到1509,当模式类型为日语时,存储模式和记录号。由于出现模式1501到1504包含样本数据1401,因此对它们存储记录号1。此外,由于出现模式1505到1509包含样本数据1406或1412,因而当仅包含一条记录时存储记录号2,而当包含两条记录时存储记录号“2、3”。字符链的出现次数由存储在图15中的记录号的数目来指示,并作为图16所示的二维表示出。
在图16中,标号1601表示汉语的出现次数,而标号1602表示日语的出现次数。在图16的表中,纵坐标表示模式组合(第一字符、第二字符)的第一字符,而横坐标表示其第二字符。图15和16的数据存储在模式鉴别存储媒体中。第六实施例中具有任何数目的记录数的模式在下面存储在存储媒体中。结果,每个模式类型的出现次数都可存储在所述表中。
尽管在第六实施例中已对汉语和日语这两种模式进行了解释,但由类似方法可在所述表中存储多个模式类型中的每个模式类型。接下来,将解释利用测试模式的鉴别语言的方法。在图17中,从测试模式1701中提取出相邻的二字符链。这些提取出的二字符链就象链1702“同事”、链1703“事件”、链1704“件と”、链1705“と我”和链1706“我々”。然后,从图16的存储媒体的表中检测出相应于链1702、1703、1704、1705、1706的出现次数。在汉语表的情况下(图16的1601),模式(同,事)的出现次数为1,而其它的出现次数不存在。相反,在日语表的情况下(图16的1602),模式(我、々)的出现次数为2,模式(同,时)的出现次数为1,并且模式(事,件)的出现次数为2。如果对每个模式类型都计算这些出现次数的总数,则该数在汉语情况下为1并且在日语情况下为5。通过比较这两种结果来检测具有较大数值的模式类型,结果便可确定这种测试模式相应于日语。
尽管在上述第六实施例中计算了出现次数的总和,但这样的方法也可被采用该方法能计算出其总出现次数超过n的模式类型,或者计算出其中每个字符链的出现次数超过n的字符链的总出现次数。
按照本方法,在应用于实施例5中所引用的实际数据的各个例子中,特意检验了在日语/汉语/Hangul中使用相同字符代码的本地代码中具有大出现率的出现字符类型的数目。此时,在汉语数据中采用了3469种汉字(约为74%);在Hangul数据中采用了218种Hangul(约为73%);在日语数据中采用了4006种汉字(约为49%);并且在日语数据中采用了130种平假名/片假名(约为23%)(如果包含符号则为510种(约为41%))。根据上面的出现率和字符类型的组合,对汉语汉字代码中的74%的出现频度和3469个出现字符类型、Hangul字符代码中的73%的出现频度和218个出现字符类型、日语平假名/片假名代码中的23%的出现频度和130个出现字符类型、以及日语汉字代码中的49%的出现频度和4006个出现字符类型进行相互比较,然后,如果在汉语代码中汉字的出现频度和出现字符类型大,则确定语言为汉语。同样,可根据各种语言代码中的出现频度和出现字符类型来确定语言为日语或Hangul。
图18示出了按照本发明第六个方法实施例的信息处理系统的结构。在图18中,标号1801表示一字符链提取器,用于从文本数据中提取相邻的二字符链;标号1802表示一字符链频度计数器,用于对每个字符(语言)类型读取字符链的出现次数和记录号,并将它们存储在频度存储器1803中;标号1804表示一频度计数器,用于对每个模式类型从所述频度存储器1803中取出由所述字符链提取器1801正检测的字符链的出现次数;以及,标号1805表示一对照器,用于计算从所述频度计数器1804检测出的总的出现次数,或者每个模式类型的某个阈值的总的出现次数,然后通过计算每个模式类型超过所述某个阈值的模式或者比较它们的每个模式类型的幅度,来确定包含测试模式的模式类型。
因此,按照本方法,可自动确定测试数据所属的模式。此外,还具有这样的优点除非字符类型、字体等被编码,否则模式可被分类。此外,在不对逐个语言准备词典的情况下,模式也可被分类。
(实施例7)下面将解释作为本发明第七实施例的鉴别字符模式的方法的一个例子。首先,下面将解释形成鉴别模式的信息的一种方法。
图19示出了形成信息的样本数据。在图19中,标号1901表示一汉语样本模式,从该样本数据取出多个二字符链。如果字符类型(例如,汉字、片假名等字符代码)相同,则这些二字符链在被取出时形成。在这种情况下,如果先前指定的语言(例如词典中包括该语言)在取出二个字符时被剪切,则剪切的第二字符与后续字符之间不形成链。在第七实施例中,由于采用了对日语的剪切,故对样本模式1901形成相邻字符链。随后,对二字符链1902到1905施加与在第六实施例中类似的操作。在图19,标号1906表示一日语样本模式。在对每个字符类型检验链信息后,不形成诸如“は”、“な”等平假名的字符链。如果日语词典存在象字符链“事件”这样的字符链,则前面字符“同”和二字符链“事件”是分开的。结果,字符链被分成二字符链1907、1911和单字符1908、1909、1910等。反过来讲,单字符1908、1909、1910可通过重复相同的字符而形成二字符链。图20示出了当模式被确定为单字符时通过转换为二字符链而形成的字符链。
接着,按照第六实施例,对于汉语、日语等每个模式类型,所有字符链模式的组合模式、记录号和出现次数都分别存储到存储媒体中。数据作为二维表被存储的例子示于图21。在图21中,标号2101表示汉语的出现次数,而2102表示日语的出现次数,并且该表结构与第六实施例中的表结构相同。在第七实施例中的存储媒体中顺序存储各模式,直到任何记录号,结果,可将用于各模式类型的出现次数存储到所述表中。就象第六实施例那样,通过类似方法可将多个模式(语言)类型中的每个模式类型存储到所述表中。
接下来,将解释利用测试模式来鉴别模式的方法。采用了图17中的测试模式。在这种情况下,要依照字符分离规则提取出的数据被提取出,就象二字符链1703“事件”和1706“我々”。然后。从图21的存储媒体的表中检测出相应于二字符链1703、1706的出现次数。在汉语表的情况下(图21中的2101),模式(同,事)的出现次数为1,并且没有其它的数值。
相比之下,在日语表的情况下(图21的2102),模式(我,々)的出现次数为2,并且模式(事,件)的出现次数为2。当对每个模式类型计算这些出现次数的总数时,在汉语情况下该总数为1而在日语情况下为4。结果,可确定该测试模式相应于日语。
尽管在上述第七实施例中计算了出现次数的总和,但也可以采用这样的方法该方法计算其总出现次数超过n的模式类型,或者计算其中每个字符链的出现次数超过n的字符链的总出现次数。尽管将分离规则用作提取相应于测试模式的字符链的方法,但不用该分离规则,就象第六实施例中那样,也可以取出相邻二字符链的所有字符链。
按照本方法,根据应用于在第五实施例或第六实施例中所引用的实际数据的例子,通过将与出现频度百分比(%)相配的字符数目设置为n,作为出现次数的标准,可确定模式。例如,在汉语的情况下,如果汉语汉字代码中的出现率为74%,并且出现字符类型为3469个类型到100个字符,则相应于汉字代码的出现次数的总和n可设定为74。
图22示出了按照本发明第七个方法实施例的信息处理系统的结构。在图22中,标号2202表示一中断(break)鉴别器,用于按照分离规则从文本数据中剪切出样本数据;标号2201表示一字符链提取器,用于在从中断鉴别器2202中获得结果时,获得二字符链或单字符链并读取出现次数和记录号,而在没有从中断鉴别器2202中获得结果时,提取所有的相邻字符链;标号2203表示一链转换器,用于当字符链提取器2201提取出单字符时,通过重复单字符来形成二字符链;标号2204表示一字符链频度计数器,用于对每一个模式(语言)类型,将二字符链、记录号和出现次数存储到频度存储器2205中;标号2206表示一频度计数器,用于对每一个模式类型,从频度存储器2205中提取由字符链提取器2201或链转换器2203获得的字符链的出现次数;标号2207表示一对照器,用于计算从频度计数器2206检测出的出现次数的总数,或者每个模式类型的某个阈值的出现次数的总数,然后通过计算每个模式类型超过所述某个阈值的模式或者比较它们的每个模式类型的幅度,来确定包含测试模式的模式类型。
因此,按照本方法,可自动确定测试数据所属的模式。此外,还具有这样的优点除非字符类型、字体等被编码,否则模式可被分类。此外,在不对逐个语言准备词典的情况下,模式也可被分类。
(实施例8)下面将解释作为本发明第八实施例的鉴别字符模式的方法的一个例子。首先,下面将解释形成鉴别模式的信息的一种方法。假定分类的模式被设定为2(日语和汉语等)。图23示出了存储编码的字符模式的代码表的一种结构。A组2301是由比如字符“と”,…,等的所谓的平假名和片假名组成的组。将代码号分配给A组2301的各个字符,以使#10被分配给“と”。类似地,B组2302是由汉字组成的组,并且将代码号分配给各个汉字,以使#100被分配给“我”,#101被分配给“同”,…。在这种情况下,上述代码号是出于方便考虑而分配的,任何代码号只要它们在代码表中唯一便可被应用。
通过将与由图14中的标号1401、1406、1412所指示的样本模式相同的数据用作用于形成鉴别模式的信息的样本数据,来解释第八实施例。在这种情况下,在该第八实施例中,假定不知道图14中的样本模式1401、1406、1412所属的模式类别(语言)。图24示出了从图14的样本表中提取字符链模式的例子。响应于字符链,例如,存储图14中的1404“我同”、1405“同事”、文件号1、第一字符的字符代码101、第二字符的字符代码102、和字符链模式2401“我同”的出现次数1。类似地,标号2402表示字符链“同事”的字符链模式。然后是作为图14中的字符链模式1406的,图24中的字符链模式2403、2404、2405等。类似地,还有作为图14中的字符链模式1412的,图24中的字符链模式2406、2407等。
接下来,对每个字符链模式都综合考虑多个字符链模式。这里,根据文件号来汇集含有相同字符链模式的模式,并计算这种模式的数目。图25示出了分别收集字符链模式的例子。如由图25中的标号2501所指示的,在文件号1中,“同事”对其它文件共用,相关的文件号为1,并且共用字符链模式的数目为2(其中,数目1指示没有共用的字符链模式)。
同时,如由图25的标号2502所指示的,“我々”、“事件”对其它文件共用,并且共用字符链模式的数目为4。类似地,在文件号3中,共用字符链模式的数目为4。据此,确定文件号2和3与文件号1不同,然后将文件号1分类到模式2而将文件号2、3分类到模式1。然后,存储字符链模式。图26示出了在文件被分类到模式1、2之后将它们存储在存储媒体中的例子。随后,从样本数据中形成二字符链,然后从存储在存储媒体中的两种模式(模式1、模式2)中取出各字符链模式,然后,对每个模式类型,将样本数据的字符链与存储在存储媒体中的字符链模式进行比较,然后,将样本数据中具有大数目的模式类型的字符链模式存储到所述存储媒体中。
在上述第八实施例中,将具有大数目的模式类型的字符链模式存储到所述存储媒体中,但通过提取比某个阈值大的字符链模式,或者通过比较提取的字符链模式的类型大于某个阈值的事件数目(case number),可确定模式类型。
按照本方法,在分析实际数据时,就象实施例5、6、7中所引用的例子那样,由出现次数、字符代码及它们的组合组成的分布对汉语/Hangul/日语来说是不同的。尤其是,如在实施例6中所解释的那样,在Hangul中频度集中于几个Hangul字符上,而在日语中频度集中于平假名/片假名的组合上,并且在汉语情况下频度均匀分布于多种汉字字符上。根据三种语言代码中的出现频度和出现字符类型之间的最小差别,可确定语言最接近于哪种分布。
接下来,下面将解释利用测试模式来鉴别包含该测试模式的模式类型的一种方法。该鉴别方法可利用与用在第四到第七实施例中的方法类似的方法来实现。
图27示出了按照本发明第八个方法实施例的信息处理系统的结构。在图27中,标号2701表示一字符链提取器,用于从文本数据中拾取相邻的二字符链;标号2702表示一字符链频度计数器,用于读取字符链的出现次数及记录号;标号2703表示一频度计数器,用于对每一个模式类型,从频度存储器2705中提取由字符链提取器2701正检测的字符链的出现次数,或者如果不存在出现次数,则计算由字符链频度计数器2702获得的字符链的频度;以及,标号2704表示一模式筛选器,用于计算字符链模式的总出现次数,或者某个阈值的总出现次数,以对每个模式类型检测其中包含从频度计数器2703获得的字符链或字符链模式的模式类型,然后比较它们的每个模式类型的幅度,然后,以较大总数的顺序,将字符链模式存储到频度存储器2705的各个模式类型中,然后,作为结果形成该模式类型的测试模式。
因此,按照本方法,可自动确定测试数据所属的模式。此外,还具有这样的优点除非字符类型、字体等被编码,否则模式可被分类。此外,在不对各种语言准备词典的情况下,模式也可被分类。此外,通过遵照规则来形成单独的语言文件和根据语言或模式的出现关系重构该语言或模式的类别,可确定输入文本所属的语言或模式。
(实施例9)然后,下面将讨论这样的情况作为文本语言鉴别的例子其中共用用在单一码(unicode)或本地代码(EUC,等)中的文本数据。下面将按照图32的方框配置图中的流程来解释一个实施例。
首先,当输入文本由统合代码或本地代码管理时,字符代码的例子存储在图28所示的单独字符集代码表存储器(图32中的3203)中。在图28中,标号2801到2804表示统合代码的表,其中标号2801表示一平假名/片假名代码表;标号2802表示一汉字代码表;标号2803表示一符号代码表;标号2804表示一Hangul代码表。将代码号唯一地分配给各个表。在图28中,标号2805到2809表示本地代码表,其中标号2805表示一日语情况下的平假名/片假名本地代码表;标号2806表示一汉语情况下的平假名/片假名本地代码表;并且标号2807表示一Hangul情况下的平假名/片假名本地代码表。它们的代码号根据字符类型的不同而不同。此外,标号2808表示一汉字本地代码表,并且标号2809表示一符号本地代码表。输入数据为图30所示的文本。
在此第九实施例中解释采用统合代码的例子,并且,在该第九实施例中还适当解释采用统合代码的情况与采用本地代码的情况的差异。
在图30中,代码号与“日本にあう汉字”的各个字符相关。此时,代码鉴别指定器3201读取指定的字符代码系统(统合代码或本地代码),并且,二字符链提取器3202从该输入数据中剪切出二字符链“日本”、“本に”、“にあ”、“あう”、“う汉”、“汉字”。然后,单独语言出现频度计数器3204根据单独字符集代码表存储器3203来检测相应于unicode文本的代码号,然后检验二字符链的第一字符的代码号,然后,计算汉字、平假名、…的字符类型的出现数目。例如,在图30的输入文本的情况下,二字符链的数目为6,以汉字作为第一字符的链为3,以平假名/片假名作为第一字符的链为3,其它情况为0。相应地,汉字的出现程度为50%,并且平假名/片假名的出现程序为50%。然后,单独语言出现频度计数器3204将二字符链的出现程度发送给单独语言互分布距离(interdistribution distance)计算器3206。
然后,从单独语言分布表存储器3205中读取字符出现率百分比(%)。单独语言分布表存储器3205是一个学习表,其中根据在各个语言中描述的数据来计算二字符链的出现模式率。用于每个字符类型,比如日语、汉语、Hangul等中的汉字、平假名/片假名、符号、Hangul等的出现百分比作为表格存储。单独语言互分布距离计算器3206按照图32的距离计算规则来测量已提取的数据与上述学习表之间的互分布距离。例如,在日语标准情况下,该距离是由(50%(汉字出现百分比)-49%)2+(50%(平假名出现百分比)-41%)2+(0%(符号出现百分比)-10%)2+(0%(Hangul出现百分比)-0%)2=182。类似地,在汉语标准情况下,所述距离由1376给出。在Hangul标准情况下,所述距离由9895给出。这些结果都发送到比较器3207。比较器3207检验日语、汉语和Hangul标准的最低标准,然后检测所述182的日语标准。根据上述结果来确定输入文本为日语。
在这种情况下,图31的距离是由(各字符类型的出现百分比-学习表中的出现百分比)2来计算的。然而,如果这种距离可满足一个三角不等式(即,d(x,z)≤d(x,y)+d(y,z),其中d为距离函数,并且x,y为任意值),则可采用任何距离。此外,在上述第九实施例中,如果模式为编码的模式,则这种模式不限于字符模式。此外,如果对象是编码的对象,比如为象◎、◇等的符号、图形等,则这种对象不受到特别限制。
如上所述,本发明具有这样的优点通过利用本国语言的描述特征,即通过检测作为鉴别对象的文本的特定字符的出现率,或者检测特定字符之间的平均文本长度,或者检测特定范围中的字符的出现率,同时观察在该语言中频繁出现的特定字符或者所述特定范围中的特定字符,来鉴别在某种语言中描述的输入文本的语言。
第二,本发明的另一个优点是在利用将二字符链用作由文件检索准备的索引的检索系统的同时,通过将分离字符的信息原样附加到在输入文本中进行登录时准备的索引,而实现关键字检索,其中在所述输入文本中将分离字符插入到关键字的开始和结尾。
第三,本发明的再一个优点是可基于给定文本自动鉴别该给定文本所属的语言,并且,在将文本的特征确定为代码,尤其是这种特征被以字符模式轮廓(例如,字体等)分类的条件下,能够自动鉴别语言或组类型。
权利要求
1.一种信息处理系统,包含特定字符计数装置,用于从一输入文本的所有字符中检测并计数具有检测的目标语言的特定字符代码的特定字符;出现率计算装置,用于根据由所述特定字符计数装置检测的特定字符数和所述输入文本中的所有字符数,来计算特定字符出现率;标准出现率存储装置,用于事先存储目标语言的特定字符的标准出现率;和比较器,用于将从所述出现率计算装置得出的输入文本的特定字符出现率与从所述标准出现率存储装置检测出的标准出现率进行比较;其中,确定所述输入文本是否相应于具有与所述目标语言相配的特征的文本。
2.一种信息处理系统,包含特定字符检测装置,用于从一输入文本的所有字符中检测并计数检测的目标语言的字符代码中的一个或多个特定字符;非特定文本检测装置,用于提取由从所述特定字符检测装置得出的特定字符之间的非特定字符组成的文本,并检测所述非特定字符数;平均文本长度计算装置,用于计算从所述非特定文本检测装置得出的非特定文本的平均文本长度;标准文本长度存储装置,用于事先存储所述目标语言的非特定字符的标准平均文本长度;和比较装置,用于将从所述平均文本长度计算装置得出的输入文本的非特定字符长度与从所述标准文本长度存储装置得出的标准平均文本长度进行比较;其中,确定所述输入文本是否相应于具有与所述目标语言相配的特征的文本。
3.一种信息处理系统,包含特定范围字符计数装置,用于从一输入文本的所有字符中检测并计数特定范围字符,这些特定范围字符是检测的目标语言的特定范围中的字符代码中的字符;出现率计算装置,用于根据由所述特定范围字符计数装置检测的特定范围字符数和所述输入文本中的字符数,来计算特定范围字符出现率;标准出现率存储装置,用于事先存储所述目标语言的特定范围字符的标准出现率;和比较装置,用于将从所述出现率计算装置得出的输入文本的特定范围字符出现率与从所述标准出现率存储装置检测出的标准出现率进行比较;其中,确定所述输入文本是否相应于具有与所述目标语言相配的特征的文本。
4.如权利要求3所述的信息处理系统,其中所述比较装置具有规定特定范围字符的多于两个的范围,以比较多于两个的特定范围字符的出现率。
5.一种信息处理系统,包含第一分离字符插入装置,用于将分离字符作为不存在于输入文本中的特殊控制字符插入在作为文本的关键字之间的边界,利用所述作为文本的关键字即可在登录文本时分离输入文本的涵义;检测装置,如果在插入了分离字符的文本中找到分离字符,则检测其中将分离字符放入中间的三字符链;字符链产生装置,用于产生由位于分离字符之前和之后的字符组成的字符链、由分离字符和位于分离字符之前的字符组成的字符链、和以及由分离字符和位于分离字符之后的字符组成的字符链;和第二分离字符插入装置,用于在检索时将分离字符插入输入文本的开始,或者输入文本的结尾,或者输入文本的开始和结尾。
6.一种信息处理系统,包含分离字符插入装置,用于在登录文本时将分离字符插入到关键字之间的边界;第一字符链产生装置,如果由所述分离字符插入装置产生的输入文本的字符为特定分离字符,则产生由分离字符和位于分离字符之前的字符组成的字符链、由分离字符和位于分离字符之后的字符组成的字符链、以及由位于分离字符之前和之后的字符组成的字符链;第二字符链产生装置,如果输入字符不是分离字符,则产生由第一字符和一后续字符组成的二字符链;字符链存储装置,用于存储二字符链的出现次数和该二字符链中的各个字符;检索文本产生装置,用于将特定分离字符插入一对照文本的开始和结尾;第三分离字符产生装置,用于产生由所述检索文本产生装置产生的检索文本的第一字符和一后续字符组成的二字符链;检测装置,用于从所述字符链存储装置检测与由所述第三字符链产生装置产生的字符链相同的字符链,并检测其出现次数;和比较装置,用于确定两个连续字符链的前一链的第二字符的出现次数是否与后一链的第一字符的出现次数相等,其中所述前一链的第二字符相应于所述后一链的第一字符;其中,由所述比较装置在对由所述第三字符链产生装置提取的所有链进行对照之后,确定前一链的第二字符的出现次数是否与后一链的第一字符的出现次数相等,从而通过检测检索文本以及由在检索文本中插入分离字符而形成的边界,来进行关键字检索。
7.一种信息处理系统,包含分离字符插入装置,用于在登录文本时将分离字符插入到关键字之间的边界;第一字符链产生装置,如果由所述分离字符插入装置产生的输入文本的字符为特定分离字符,则产生由分离字符和位于分离字符之前的字符组成的字符链、由分离字符和位于分离字符之后的字符组成的字符链、以及由位于分离字符之前和之后的字符组成的字符链;第二字符链产生装置,如果输入字符不是分离字符,则产生由第一字符和一后续字符组成的二字符链;字符链存储装置,用于存储二字符链和该二字符链中各个字符的出现位置;检索文本产生装置,用于将特定分离字符插入一对照文本的开始和结尾;第三分离字符产生装置,用于产生由所述检测文本产生装置产生的检索文本的第一字符和一后续字符组成的二字符链;检测装置,用于从所述字符链存储装置检测与由所述第三字符链产生装置产生的字符链相同的字符链,并检测其出现次数;和比较装置,用于确定两个连续字符链的前一链的第二字符的出现位置是否与后一链的第一字符的出现位置相等,其中所述前一链的第二字符相应于所述后一链的第一字符;其中,由所述比较装置在对由所述第三字符链产生装置提取的所有链进行对照之后,确定前一链的第二字符的出现位置是否与后一链的第一字符的出现位置相等,从而通过检测检索文本以及由在检索文本中插入分离字符而形成的边界,来进行关键字检索。
8.如权利要求6或7所述的信息处理系统,其中,提供用于将特定分离字符插入一对照文本的开始的一第二检索文本产生装置,以替代所述检索文本产生装置,从而通过检测所述检索文本的头字符的边界而进行所述检索文本的前相符检索。
9.如权利要求6或7所述的信息处理系统,其中,提供用于将特定分离字符插入一对照文本的结尾的一第三检索文本产生装置,以替代所述检索文本产生装置,从而通过检测所述检索文本的尾字符的边界而进行所述检索文本的尾相符检索。
10.一种计算机可读存储媒体,用在信息处理系统中,该信息处理系统从几种预定语言类别中唯一地模式识别含有文本数据的一种语言,所述计算机可读存储媒体用于记录程序,该程序构成由用于字符代码的字符代码组的组合组成的模式组,其中将用于模式识别的编码字符分类为作为代码表的多个一维代码组,所述程序包含模式存储下列数据的步骤,第一数据,由一n-字符组合组成,并包含多个字符组,其中在任何一个字符组中都含有构成组合的代码;第二数据,具有相应于所述第一数据的组合模式的数值;和第三数据,根据所述第一数据和第二数据的组合而被分配给预定模式类型。
11.如权利要求10所述的存储媒体,其中所述第一数据由二字符组合组成,并且,在多个字符组的任何一个字符组中含有构成所述组合的代码的字符组被相互组合。
12.一种信息处理系统,包含一存储媒体,其中含有几种预定语言类别的文本数据,该存储媒体用于记录程序,该程序构成由用于字符代码的字符代码组的组合组成的模式组,其中将用于模式识别的编码字符分类为作为代码表的多个一维代码组,所述程序包含模式存储下列数据的步骤第一数据,由一n-字符组合组成,并包含多个字符组,其中在任何一个字符组中都含有构成组合的代码;第二数据,具有相应于所述第一数据的组合模式的数值;和第三数据,根据所述第一数据和第二数据的组合而被分配给预定模式类型;字符链提取装置,用于从一文本中检测二字符链,并确定含有构成二字符链的字符的字符组;模式计算装置,用于比较由所述字符链提取装置确定的字符组的组合是否与模式存储装置中的模式一致,并计算一致模式的数值;和模式确定装置,用于确定由所述模式计算装置计算的所有字符链的最大数值的模式及它们的模式组合,所述模式组合与存储在所述模式存储装置中的第一数据、第二数据和第三数据中的模式一致,并作为一模式存储装置的模式组合。
13.如权利要求12所述的信息处理系统,其中所述模式确定装置对于所有字符链计算由所述模式计算装置计算出的数值的平均值,并确定与所述模式存储装置的第二数据最接近的值,作为所述模式存储装置的模式组合。
14.如权利要求12所述的信息处理系统,其中所述模式确定装置对于所有字符链计算由所述模式计算装置计算出的数值的最大频度值,并确定与所述模式存储装置的第二数据最接近的值,作为所述模式存储装置的模式组合。
15.一种计算机可读存储媒体,用在信息处理系统中,该信息处理系统从几种预定语言类别中唯一地模式识别含有文本数据的一种语言,如果字符代码分别叠加在模式组中,在该模式组中模式由字符代码的组合构成,则所述计算机可读存储媒体用于记录这样的程序该程序构成由用于模式识别的字符组的组合组成的模式组,所述程序包含模式存储下列数据的步骤,第一数据,由用于模式组的二字符组合模式组成,其中模式组为事先已知的;第二数据,由指示所述第一数据的模式类型组成;和第三数据,说明所述第一数据和第二数据的组合的出现次数。
16.一种信息处理系统,包含一字符链提取装置,用于提取记录在一计算机可读存储媒体中的模式数据的所有二字符链,其中含有几种预定语言类别的文本数据,如果字符代码分别叠加在模式组中,在该模式组中模式由字符代码的组合构成,则所述计算机可读存储媒体用于记录这样的程序该程序构成由用于模式识别的字符组的组合组成的模式组,所述程序包含模式存储下列数据的步骤第一数据,由用于模式组的二字符组合模式组成,其中模式组为事先已知的;第二数据,由指示所述第一数据的模式类型组成;和第三数据,说明所述第一数据和第二数据的组合的出现次数,一字符链频度计数装置,用于计算各字符链的出现次数,并对每个模式类型将字符链模式和出现次数存储在所述存储媒体中;所述字符链提取装置,用于从一给定模式中提取二字符链;一频度计数装置,用于对每个模式类型从所述存储媒体中提取相应于所提取的字符链的字符链模式的出现次数;和一对照装置,用于将从所述频度计数装置得出的出现次数与所有提取的字符链进行对照,然后确定具有最大总出现次数的模式类型,作为含有给定模式的模式类型。
17.如权利要求16所述的信息处理系统,其中所述对照装置确定其总出现次数超过一定阈值的模式类型,作为含有给定模式的模式类型。
18.如权利要求17所述的信息处理系统,其中所述对照装置确定其中出现次数在所有字符链中超过一定阈值的字符链模式的总出现频度最大的模式类型,作为含有给定模式的模式类型。
19.如权利要求10、11或15所述的信息处理系统,还包含一分离装置,用于当从模式数据中提取出所有字符链时,分离字符类型或者至少一种语言成为文字;一字符链提取装置,用于基于所述分离装置来提取字符链;一链转换装置,用于当字符链由单字符构成时,重复相同的字符以形成字符链;一字符链频度计数装置,用于计算各个字符链的出现次数,然后对每个模式类型将字符链模式和出现次数存储在所述存储媒体中;所述字符链提取装置,用于从一给定模式中提取二字符链;一频度计数装置,用于对每个模式类型从所述存储媒体中提取相应于所提取的字符链的字符链模式的出现次数;和一对照装置,用于将从所述频度计数装置得出的出现次数与所有提取的字符链进行对照,然后确定具有最大总出现次数的模式类型,作为含有给定模式的模式类型。
20.一种计算机可读存储媒体,用在信息处理系统中,该信息处理系统从几种预定语言类别中唯一地模式识别含有文本数据的一种语言,所述计算机可读存储媒体用于记录程序,该程序构成由用于字符代码的字符代码组的组合组成的模式组,其中将编码字符用于模式识别,所述程序包含如下步骤存储由二字符组合组成的字符链模式的文件号、以及每个模式类别或语言的文本数据的字符链模式。
21.一种信息处理系统,包含一字符链提取装置,用于提取记录在一计算机可读存储媒体中的文本数据的所有二字符链,其中含有几种预定语言类型的文本数据,所述计算机可读存储媒体用于记录程序,该程序构成由用于字符代码的字符代码组的组合组成的模式组,其中将编码字符用于模式识别,所述程序包含如下步骤存储由二字符组合组成的字符链模式的文件号、以及每个模式类别或语言的文本数据的字符链模式;一字符链频度计数装置,用于计算各字符链的出现次数,并计算每个字符类型的字符链模式和文件号;一字符频度比较装置,用于对每个模式类别,提取由所述字符链频度计数装置获得的字符链模式以及一存储媒体中的字符链模式的频度,对每个模式类别比较所述字符链模式的频度的总值,并且将字符链模式、出现次数和文件数目存储到具有大模式类别的存储媒体的模式类别中;所述字符链提取装置,用于从一给定模式中提取二字符链;一频度计数装置,用于对每个模式类型从所述存储媒体中提取相应于所提取的字符链的字符链模式的出现次数;和一对照装置,用于将从所述频度计数装置得出的出现次数与所有提取的字符链进行对照,然后确定具有最大总出现次数的模式类型,作为含有给定模式的模式类型。
22.如权利要求21所述的信息处理系统,其中在所述权利要求21中所阐述的所述字符频度比较装置确定其总出现次数超过一定阈值的模式类型,作为含有给定模式的模式类型。
23.如权利要求22所述的信息处理系统,其中在所述权利要求22中所阐述的所述字符频度比较装置确定其中出现次数在所有字符链中超过一定阈值的字符链模式的总出现频度最大的模式类型,作为含有给定模式的模式类型。
24.一种计算机可读存储媒体,用在信息处理系统中,该信息处理系统从几种预定语言类别中唯一地模式识别含有文本数据的一种语言,其中字符代码对每一种字符字体都限定,所述计算机可读存储媒体用于记录程序,该程序构成由用于模式识别的字符代码组的组合组成的模式组,所述程序包含步骤将构成每个语言的字符的二字符组合存储在一单独语言分布表中,其中对汉字、平假名/片假名、符号、Hangul和其它字符的每个字符类型都存储第一字符的出现率。
25.一种信息处理系统,包含一单独代码指定装置,用于读取一统合代码或一本地代码,作为一采用的字符代码系统;一字符链提取装置,用于从输入文本数据中提取所有的二字符链;一出现次数计数装置,用于按照指定的代码系统,对每种语言分类汉字、平假名/片假名、符号、Hangul和其它字符的二字符链,然后分别计算它们的出现率;一单独语言互分布距离(interdistribution distance)计算装置,用于计算基于指定的代码系统的每种语言的汉字、平假名/片假名、符号、Hangul的出现率与由存储装置管理的汉字、平假名/片假名、符号、Hangul的出现率之间的距离总数;和一比较装置,用于使所述单独语言互分布距离计算装置计算最小距离值,然后确定具有最小距离值的语言类别,作为输入文本的语言。
全文摘要
一种信息处理系统,通过利用本国语言的描述特征,即通过检测作为鉴别对象的文本的特定字符的出现率,同时观察在该语言中频繁出现的特定字符,来实现鉴别输入文本语言的语言鉴别方法。特定字符计数器102根据输入文本的特定字符的出现次数,检测特定字符的出现率,标准出现率存储器105存储检测的目标语言的特定字符的标准出现率,比较器106将输入文本的特定字符出现率与检测的目标语言的特定字符的标准出现率进行比较。
文档编号G06F17/20GK1263316SQ0010193
公开日2000年8月16日 申请日期2000年2月1日 优先权日1999年2月12日
发明者片山修, 小山隆正 申请人:松下电器产业株式会社
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1