网络中智能信息处理的方法和系统的制作方法

文档序号:6462907阅读:285来源:国知局
专利名称:网络中智能信息处理的方法和系统的制作方法
技术领域
本发明涉及一种在类似于Internet的广域网中用自然语言,如中文,进行智能信息处理的方法和系统。更具体地说,本发明涉及在Internet上中文智能检索的方法和系统。
例如,在因特网上,该电子地址被称为统一资源定位标识或URL。它由一系列特定格式的信息串接而成访问该资源所需的协议类型信息,网络主机域名标识符(来识别电子资源所在的具体计算机),端口号,资源在计算机文件系统中的目录路径信息,和资源的文件名。因特网的URL和电子资源的类似的标志模式对于用户来说是很不方便的。URL长度经常超过50个字符,并且,所含信息对信息搜索者来说既枯燥又没有含义。因此,人们已做了一些工作,使得对用URL表示的网址检索对信息搜索者或检索者来说更有含义。这就使搜索者或检索者不必记住准确的URL,而只用一些自然使用的词或术语。
美国专利第5,764,906号描述了一种系统,可以对信息资源及其提供者提供并维护一个短的别名,并且可以将这些别名翻译成有用的电子地址,如URL、传真及语音电话号码,和电子邮件地址等,并且,用这些地址来访问资源。类似的,1999年8月5日公开的PCT申请WO99/39275公开了一种基于自然语言的因特网导航方法,导航到存储在网络中并由位置标识来识别的资源。一些软件产品已进入商业领域,以帮助用户使用自然语言名称访问因特网资源。
目前,已有许多这种服务,例如,RealNames(http//www.realnames.com)用简短的“关键字”替代复杂的因特网地址,或URLs,并且,它已通过Microsoft(微软)的因特网浏览器和MSN门户网站,来提供这种服务。Microsoft也在其网页浏览器软件中宣布包含RealNames。RealNames的服务相当于美国在线的关键字系统。该系统允许AOL会员能键入普通短语去查找具体内容频道。类似的,Netword Agent软件(http//www.netword.com)也允许用户键入因特网关键字,而不是URL。另外,Internet Engineering TaskForce(IETF)正在开发因特网关键字标准。IETF已组成工作组,致力于设计“通用名字解析协议”,或实现网络(Web)关键字的标准方式。
然而,因特网关键字软件产品,如RealNames或Netword的那些产品,要么与浏览器结合,要么做为浏览器的插件。当新浏览器出现时,插件也必须更新。
此外,这些因特网关键字软件产品或关键字检索既不适合也不便于处理某写国家的自然语言,如亚洲的语言,特别是中文、日文和韩文,或任何其它象形文字的语言。每个字符可能没有确切的含义,并且,与一个或多个其它字符组合时,可能有多种含义。因此,使用通常的关键字检索技术,不能快速和准确地得到这种所希望的电子地址的检索结果。
因此,本发明的一个目的是提供一种用自然语言,如中文,来处理信息检索的方法。
本发明的另一目的是提供一种用自然语言,如中文,处理信息检索的系统。
本发明进一步的目的是提供一种基于中文或者中文拼音(字的发音)的因特网中文智能检索的方法和系统。
本发明进一步的目的是提供一种因特网中文智能检索的方法和系统,即使输入南方音拼音,也能自动获得正确结果。
如果输入被确定为自然语言发音符号,即拼音拼写,则将进一步确定输入是否是完整的音标(拼音全拼)还是拼音字头缩写。如果输入是完整音标(全拼)查询,该查询用拼音检索表处理,以得到所希望的URL或网址,并且,结果被送回到浏览器以供选择。否则,该查询会依据自然语言文字拼音字头缩写检索表处理,URL或网址的查询结果被送回到浏览器,以供选择。
本发明的智能检索还包括确定查询是否与某个网站、网址或网页精确匹配。如果没有与网站或网页的精确匹配,就将可能的检索结果列表提供给用户,以供其选择。
汉字输入对于许多用户来说是困难的。然而,如果浏览者的计算机配备有中文输入软件,汉字可作为检索查询被输入。这就可以启动了中文的智能检索。为给用户提供更多的选择,在本发明的一些具体实施方案中,智能信息处理系统和方法可以接受“拼音”,即,发音符号,或“拼音”字头,即,所要查询的词语发音的首字母缩写,以便获得可能的检索结果表。
该系统和方法还可以处理电话号码输入,并可得到与注册电话号码相应的相关网站。如果输入人名(中文或英文),可从远程网络名片服务器中,如由http//www.letscard.com所提供的服务器,或者其它任何类似的服务器,得到这个人的网络名片。本发明的这些方面的包含在本申请人的其它相应的专利申请中。
附图的简要说明所附附图示出本发明的具体实施方案,并且,通过以下的详细说明和附图,能更好理解本发明。


图1示出可用于执行本发明具体实施方案的网络计算机系统的例子;图2示出本发明的一个具体实施方案;图3示出控制浏览器URL输入窗口的处理过程;图4示出带有汉语自然语言的访问和导航服务的浏览器屏幕截图;图5A、5B和5C示出本发明的广域网中智能信息处理的三个基本结构;图6示出中文自然语言处理的处理过程;图7示出中文自然语言处理的另一处理过程;图8示出本发明汉字和/或英文词处理的方法;图9示出本发明汉语拼音全拼词处理的方法;图10示出本发明汉语拼写缩写词处理的方法;图11示出本发明在信息处理前,确定查询输入词类的处理过程;图12A和12B分别示出本发明拼音全拼同音词的检索方法,和方言错拼的拼音全拼词的检索方法。
发明的详细说明如像本领域任何普通技术人员所够认识到的一样,本发明可包括一种方法、数据处理系统或程序产品。依据本发明所写的软件可被存在某些计算机可读的载体中,如存储器,或CD ROM,或在网上传送,并被处理器执行。然而,本发明的主要原理可被描述在以下所述的网络智能信息处理方法或网络智能信息处理系统中。
图1表示本发明的一个系统。用户机/计算机101,通过因特网连接108,109,连接到网络服务器102和因特网资源定位标识服务器,如http//www.3721.com的服务器103和104。用户计算机101可以是运行Microsoft Windows(微软视窗)操作系统的任何种类的计算机,包括PC机,Macintosh计算机,以及因特网设备,如WebTV(网络电视机)和无线因特网浏览装置。用户机101可通过拔入调制解调器,DSL线,有线调制解调器,专用线,如T1或T3,或光纤连接,连接到因特网。显然,本领域普通技术人员知道,本发明并不限定用户计算机的具体类型或用户机与因特网之间连接的具体形式。因特网资源定位器服务器103和104包括浏览器模式数据库105、URL模式106,和其它模式107。
图2表示用户机203,通过因特网连接202,被连接到因特网资源定位标识服务器201,如3721服务器或含有本发明服务器软件的其它服务器。浏览器屏幕图像正在用户机203中执行。一个小的用户端计算机软件也正在用户机203中执行(见屏幕底部的小图)。小的用户端计算机软件从浏览器的地址框截取文本信息(msg)输入。该信息或者被传送到因特网资源定位标识服务器201以供处理,或者由小的用户端软件进行本地处理图3示出本发明用户端软件运行的处理过程。用户端软件使用win32钩子技术(Win32 hook技术)注入所有运行进程中。钩子是Microsoft Windows消息处理机制中的一个点,在该点,应用程序能够安装一个子程序或单独的模块,以监视系统中的消息往来,和处理某些类型的消息。钩子程序可以是全局的,监视系统所有线程中的消息,或者它也可以是特定于线程的,监视单个线程的消息。某些钩子只能设定为系统范围(如,WH_SYSMSGFILTER),但大多数钩子的作用域可以有系统或者特定线程范围。可以在Microsoft网站(http//www.microsoft.com)找到关于Win32钩子的技术资料。
检查所有运行的进程,以确定它是否是需要截获的目标。如果它是目标,有关进程的信息就被用来查找用户输入URL的浏览器的编辑控件。该信息可以用来检索浏览器模式库,以确定用户计算机中正在运行的浏览器的版本。此数据库可以自动更新。
一旦找到编辑控件,就生成一个子类。这个编辑窗口的消息可以是组合框和下拉式列表的选择或键盘输入。如果它是键盘输入,就检查确定它是否是URL地址。还是在一个URL的规则模式库中检索以确定其是否为一个URL。如果它是组合框或下拉式列表的选择,就按图3所示处理。
图4示出中文版的浏览器与本发明的用户端软件交互的图象。用户在浏览器的地址框中用中文输入单词“计算机”,就产生与该单词相关的中文地址表。
然而,今天网站的检索不仅可以通过英文的URL或者关键词进行,而且也用其它种自然语言进行,如中文。这就需要某些可以使用那种自然语言,有效和准确地进行这种网上信息检索的处理方法或系统。
可以理解,检索通常通过数据库进行,该数据库包含特别设计的检索表,从而方便各种检索任务。对于中文信息的网上检索,也不例外。作为本发明的检索之目的,因特网资源定位标识服务器应至少包含中文字符的检索索引表,拼音全拼(拼音)检索索引表和汉字拼音字母缩写(拼音字头)的检索表。
通常,当输入关键词查询时,输入的关键词短语就被分解成几个有含义的单词,将其与有预先设的检索表匹配。然后,各个单词的检索结果合并在一起考虑,以确定最终结果或查询结果。然而,对于某些自然语言,如中文,所输入的查询可能是汉字。每个字符可能有或者可能没有确切的含意,而且,字符与其它字符的组合可以产生不同含意的中文词。因此,中文字符串的简单分解并不能保证查询结果的准确性。因此,本发明会将用户所输入的短语或者查询词,分解成所有可能组合出来的有含义的中文词。
例如,第一个字不只是简单地与后面的第二个字和/或第三个字组合,得到一个有含义的词,除此之外,还会与后面的各个字组成其它任何有含义的词。在本发明中,第一个字会与输入的任何字组合,组成所有可能的有含义的词用于查询。因此,当全部结果都出自于所有可能组合出的有含义的词时,获得的查询结果可以保证查询的正确。
对中文网站的查询输入有可能是汉字输入、URL输入和拼音输入,包括拼音全拼输入,拼音字头缩写,同音字拼音输入和南方音的拼音输入。在进入本发明有关上述每个输入的方法和系统的细节之前,讨论一下现有的中文输入技术可以有助于更好地理解本发明。
中文的主要编码系统是Big5和国标(即,国家标准)。Big5一般用于处理繁体字,国标一般用于简体字。在香港和台湾通行的Big编码系统中,“天”的二进制编码是1101000110100100。“天”的国标码是1110110011001100。请注意上述“天”的Big5码或国标码都以1开始,而字母“A”的ASCII码是以0开始。这个例子说明事实,即,所有中文码都以1开始,而所有ASCII码都以0开始。从这种意义上说,系统能在包含中、英文文本的文件里检测给定字节是否为英文还是中文。
计算机输入和处理中文文本是一个非常困难的问题。汉字的数量说明了这点。在中文的方块字(汉字)书写系统中,通常使用的汉字有3000到6000个。如果包括相对较少使用的,就有1万多个汉字。除这个困难以外,还有汉语版本的标准化,多个同音字,生僻字的分界线问题等,都妨碍计算机有效处理中文文本。尽管进行了几十年大量的研究,存在着数百种不同的方法,但计算机中文输入和处理仍是妨碍计算机在中国使用,特别是文本处理的一个主要障碍。
目前,可用于输入和处理汉语文本的计算机系统可被分成三种。第一种是基于将汉字分解成基本图形元素。每种方法的汉字分解都不是唯一的。因此,学会这些方法相当困难。
第二种和第三种是以发音为基础,如拼音全拼方法。这些方法会遇到汉语处理中的“同音字问题”。第二种是语音输入(如,用于中国大陆的“拼音”和用于台湾的“注音”或BPMF),它对除专业打字员以外的每个人来说是最通用的方法。中文汉字书写系统是这种方法在概念上和实际上的障碍。
尽管,相对于成千上万的字而言,仅有约1300个不同的语音音节,然而,一个语音音节可相当于许多不同的汉字。例如,普通话中“yi”的发音能相当于100多个汉字。这在将输入的语音音节转译成相应的汉字时,产生不确定性。
涉及这个“同音字问题”,大多数语音输入系统使用多选方法。例如,J.Heinzl等的1938年5月5日的德国专利第3,142,138号,K.C.Hsieh的1991年9月10日的美国专利第5,047,932号,和TanShanguang的1991年3月8日的中国专利申请第1064957号。在键入语音音节后,计算机显示出有相同发音的所有可能的字。在一些情况下,屏幕上没有足够的空间去显示有相同发音的所有可能的字。这会需要上下滚动。因此,这些以单个音节为基础的语音方法很慢。
以获取相邻汉字的概率(可能性)为基础的对这种多选方法的改进公开在,R.W.Sproat的1992年4月1日的英国专利申请第2,248,328号中。概率(可能性)方法能与语法规则进一步相结合。例如,K.T.Lua等的1992年的中文和东方语言的计算机处理,Vol.6,Num.1,85页。然而,这些方法转换的准确性(语音到字)一般只能达到80%左右。
第三种方法将语音一字符输入方法和其它的非语音字母相组合。将非语音字母加到语音字母上,人工地区别相同发音的字。实例包括带部首标记的拼音(C.C.Chen的1985年11月20日的英国专利第2,158,776号)和带笔划数的拼音(G.Xie的1992年11月25日的中国专利申请第1066518号)。这些方法需要记住制定的规则或计算笔划数,实际降低了输入速度。
还有其它汉字输入方法,例如,美国专利第6,073,146号所公开的。′146专利公开了一种系统,使用带区别符号键(和相应的ASCII码)的键盘,使用户能用表示音节声调的区别符号注释每个输入的语音文本的音节。在系统上执行的这一方法是确定在区别符号(或界定符号)击键时已被输入的音节。随后,所有输入的音节与一个可被接受的语音音节和缩写表相比较。如果输入的音节是在该表上,则正确拼写和口音的音节就被存储在存储器中,并被显示在图像显示的语音部分。对后续音节继续处理,直到输入界定符。一旦遇到界定符,就使用词法的和综合性的处理和/或统计语言模式来分析词的字符串(定义为两个界定符之间的字串),以明确确定出代表该词的字符串中的适当的汉字。这唯一的中文译文就被储存在存储器中,并被显示在图像界面的汉字部分。
本发明中,用于因特网关键字查询的检索索引数据结构如图5A,图5B和图5C所示。本发明有三种结构近似的检索索引表。为实现因特网关键字的高速智能检索,建立适合检索大规模数据的高效数据结构是非常重要的。本发明的三种数据结构是(1)用于识别普通汉字和英文单词的词或短语的智能检索的索引表;(2)汉语拼音全拼智能检索索引表;(3)汉语拼音字母缩写智能检索索引表。
参见图5A,索引表是中英文词表,包括所有中英文词,例如“中国”、“软件”、“电脑”、“ibm”等。在中文或英文表中,每个词都连接到因特网关键字结点列表。该表中的每个结点代表某个指针,指向包含该单词的因特网关键词的实际存储空间。因此,它可以从链接到各词的因特网关键字入口点列表,检索出包含该中文或英文单词的所有因特网关键词。
参见图5B,数据结构与图5A的相似。只是左侧中文词是拼音形式,即语音拼写。例如,上述词的中文现在是“zhongguo”、“ruanijan”、“diannao”、等。链接的因特网关键字入口点列表是包括该词汉语拼音形式的因特网关键字的列表。
图5C也是有与图5A相似的数据结构。不同之处在于,左侧词表中,各词均是汉语拼音首字母缩写的形式,如“zg”、“rj”、“dn”等。这样,相关的因特网关键字入口点列表包括该词与这些查询的拼音字母缩写相对应。由这三图可知,三种基本的智能检索方法有相似的数据结构,但是,词是以中、英文词、拼音全拼(拼音),或拼音字母缩写(汉语拼音字头)的不同形式存储的。因此,可以理解,这三种检索的内部算法是相同的。关键在于这些词是如何在查询中分组或选择,以组成有含意的检索词。如上所述,查询串被分解成所有可能被组合出的有含义的词,以确保每个可能的检索词指向列表中的因特网关键字,并确保查询如何被判定为是汉字输入或英文词输入,拼音全拼输入或者拼音字头缩写输入。以下讨论本发明的相关方法。
尽管开发了较简单的方法,汉字输入仍然是一项非常困难的工作。特别是当互联网装置是手持装置时,如个人数据助理,或者与互联网无线连接的移动电话。本发明的一个方面,是提供一种简化汉字输入的方法。本发明特别适用于输入网址,或者自然语言关键词或网站(网页)名。图6表示出本发明的一个具体实施方案。在此方法中,用户键入中文词拼音拼写的字头,如501所示。拼音字头被用来查询数据库,一个可能的URL表作为结果被列出,如502所示。该表可以以统计信息为基础,如按照查询的频率将最常用的URL首先列出,如503所示。
图7表示出本发明的另一具体实施方案,在601,输入中文词的拼音拼写。在602,检查该拼写,以确定其是否为常见的错误拼写。常见错拼的发生是因为口音的原因。在中国南方,许多南方人因为南方口音造成汉语拼音错误。如果由于南方口音出现错拼,在605,本发明的系统会自动将其纠正。如果查询串没有错拼,或错拼已被纠正,则在603,检索相关的URL数据库。在604,显示其输出。
一个小的用户端软件,通过后端的智能检索引掣和数据库的支持,可以作为本发明的具体实施方案的例子。该软件可从http//www.3721.com下载。用户不必知道或键入长而复杂的URL字串,取而代之的是简单地在网址框键入熟悉的品牌、产品名称的汉字,就可将其带到其所希望的目标站点或相关网页。例如,用户能简单地键入中文的“联想电脑”就会找到所要访问的站点,而不用键入http//www.legend.com.cn。
现在,来看以下本发明的主要特点,图8表示出本发明的中文和/或英文词检索的基本流程图。在801,输入中文和/或英文词形式的查询字符串A后,在802,系统就对照中、英文词表(CEWL)分析查询字符串A,并且,将查询字符串A分解成一个或多个中文词W=(W1,W2,W3,...,Wn)。在803,对W中的每个词Wx,系统在CEWL表中检索词Wx,以找到其附属的因特网关键字入口点表(IKEPLx),IKEPLx表中的每个节点会指向一个包含词Wx的因特网关键字(IK)。
在804,系统将所有的IKEPL1,IKEPL2,...,IKEPLn合并在一起,得到结果R,即,R=IKEPL1,U IKEPL2,U...,IKEPLn。由于IKEPLx中的每个节点均指向包含词Wx的IK,则R的每个IK至少包含W中的一个词。在805,合并的同时,系统按特定规则对R中每个IK计算其权重,规则的例子如下(1)词数权重IK所含的在W中的词的个数(2)长度权重IK所含的在W中的词的总长最后,在上述规则的基础上,系统计算每个IK的综合权重。计算后,在806,系统按IK的权重,将结果R分类,这样一来,最近似的结果出现在表头,并且,系统会限制R中结果的数量。然后,在807,出现最终IK表R。
类似地,参见图9,在901,输入的查询字符串A是拼音全拼的形式。在902,当字符串A输入后,系统对照汉语拼音全拼词表(FCPWL)分析字符串A,并将其分解成一个或多个汉语拼音词W={W1,W2,W3,...,Wn}。在903,对于W中的每个词Wx,系统在FCPWL中检索,以找到其附属的因特网关键词入口点表IKEPLx,IKEPLx表中的每个节点指向其拼音包含Wx的因特网关键词(IK)。随后,在904,系统合并IKEPL1,IKEPL2,...,IKEPLn,以获得结果R=IKEPL1,U IKEPL2,U...,IKEPLn。这样,R中的每个IK的拼音都至少包含W中的一个词。以下步骤906-907与805-807的步骤非常相同,即,按特定规则计算R中每个IK的权重;按IK的权重将表R的结果分类,以便把最近似的结果放在表头,并且,限制R中结果的数量,从而最终获得结果IK的表R。
类似地,参见图10,在11,用户将输入汉语拼音缩写字符串A。在12,系统对照汉语拼音缩写词表(ACPWL)分析字符串A,并且,将字符串A分解成一个或多个汉语拼音缩写词W={W1,W2,W3,...,Wn}。然后,在13,对W中的每个词Wx,系统在ACPWL中检索该词,以找到其附属的因特网关键词入口点表IKEPLx,IKEPLx表中的每个节点指向其拼音缩写包含词Wx的因特网关键词(IK)。随后,在14,系统合并IKEPL1,IKEPL2,...,IKEPLn,以得到结果R=IKEPL1,U IKEPL2,U...,IKEPLn,则R中每个IK的拼音缩写都至少包含W里的一个词。以下步骤15-17与图8和图9中的那些步骤基本相同,即,按特定规则计算R中每个IK的权重;按IK的权重将表R的结果分类,以便把最近似的结果放在表头处,并且,限制R中结果的数量,从而最终获得结果IK的表R。
在中、英文词,汉语拼音全拼词,和汉语拼音缩写词,这三种智能检索模式的基础上,本发明关于广域网中智能信息处理的方法和系统将判断输入查询字符串是否为中、英文词、汉语拼音全拼词、还是汉语拼音缩写词,如图11所示。在110输入字符串A后,在111,系统判断输入的查询字符串A是否为汉语拼音全拼词的形式。如果是,系统就按拼音全拼的智能检索方法进行计算,如图9所示。
如果字符串A不是汉语拼音全拼词,在112,系统判断输入的查询字符串A是否是汉语拼音缩写词的形式。如果是,系统就按汉语拼音缩写词的智能检索方法进行计算,如图10所示。如果字符串A不是,系统就因此判断出输入的查询字符串A是中、英文词的形式,并且,进行与图8所示计算相同的计算。然而,有一种情况,系统在113判断汉语拼音全拼词检索或者汉语拼音缩写词检索的计算结果是否是空白。如果结果是空白,系统将再次进行中、英文词检索的计算,如图8所示。如果图9或图10的检索模式的计算不是空白,则其计算结果就被判断为最终结果。
图12A表示了本发明的同音词的拼音全拼检索模式。在121,输入查询字符串A后,在122,系统分析得到所有可能的同音词组合,作为可检索的全拼词。在123,对于每个全拼同音词,系统进行汉语拼音全拼词检索计算,如图9所示。在获得所有检索结果RN后,在124,系统将分析结果RN,并获得最终和最可能的结果,或限制结果的数量。
图12B示出本发明中带有方言错拼纠正功能的拼音全拼检索模式。为进一步扩展图7的方法和系统,在125,输入全拼词字符串A后,在126,本发明的系统将对照一个表中所列出的因南方口音可能拼错的辅音或元音,分析输入的词,如“huang”和“wang”,“shi”和“si”“lu”和“l”,等。总之,此表列举了所有可能拼错的词。因此,输入的查询字符串被分成为若干个拼音词,包含所有可能的拼音词,然后,在127,通过拼音全拼检索的方法进行计算,以获得所有可能的结果IK。随后,在128,分析检索结果,以获得最终和最可能的结果。
可以理解,以上叙述仅是说明而不是限制。对于阅读了上述说明的本领域普通技术人员来说,本发明的许多变化是显而易见的。因此,本发明的范围不仅应结合以上说明加以确定,而且还应结合变化和等同物来加以确定。尽管本发明与具体实施方案一起叙述;但可以理解,这并没有打算将本发明限制在这些具体实施方案。相反,本发明意欲覆盖可能在本发明实质精神和范围内的变化、修改及等同物。
权利要求
1.一种因特网智能信息处理方法,包括步骤a)识别输入是否是URL地址,英文单词,本土语言文字,还是本土语言发音符号;b)如果所输入的是普通的URL,就通过因特网在相应的服务器中查询输入,并且,直接从其获得查询结果;c)如果所述输入包括本土语言发音符号,就将所述输入针对至少一个拼音词表查找相应的因特网关键词,并且,直接从中获得查询结果;和d)如果所述输入包括本土语言文字,则将所述输入作为自然语言输入在自然语言表中进行处理,并获得所希望的因特网关键词,并取得相应的网站URL查询结果。
2.如权利要求1的方法,其特征在于进一步包括判断所述音符是拼音全拼形式的词,还是拼音字头形式的词,如果所述输入是拼音全拼词字符串,就将所述输入字符串在含有所有可能的有含义词组合的汉语拼音全拼词表中解析。
3.如权利要求1的方法,其特征在于当以拼音全拼的形式输入所述查询字符串后,所述系统对照汉语拼音全拼词表(FCPWL)分析所述字符串,并将所述字符串分解成一个或多个汉语拼音词,即W={W1,W2,W3,...,Wn};对于W中的每个词Wx,所述系统在FCPWL中检索查询字符串,以找到其附属的因特网关键词入口点表IKEPLx,IKEPLx表中的每个节点指向其拼音包含Wx的因特网关键词,随后,所述系统合并IKEPL1,IKEPL2,...,IKEPLn,以获得结果R=IKEPL1,UIKEPL2,U...,IKEPLn;R中的每个因特网关键词,其拼音至少包含W中的一个词。
4.如权利要求3的方法,其特征在于在附属的因特网关键词合并后,所述系统进一步按特定规则计算R中每个因特网关键词的权重;包括因特网关键词所含的W中词数的词数权重,和因特网关键词所含的W中词的总的长度权重;然后,将所述结果表R按因特网关键词的权重分类,以便把最接近的结果出现在所述表的表头,接着是限制R中结果的数量,从而获得最终结果的因特网关键词表R。
5.如权利要求1的方法,其特征在于进一步包括判断所述发音符号是拼音全拼词,还是拼音字头缩写词;如果所述输入是拼音字头缩写词字符串,就在含有所有可能有含义词的组合的汉语拼音缩写词表中解析所述输入字符串。
6.如权利要求5的方法,其特征在于在判断所述查询输入是汉语拼音缩写词后,所述系统对照ACPWL分析所述查询输入,将所述查询输入分解成一个或多个汉语拼音缩写词,即W={W1,W2,W3,...,Wn};对于W中的每个词Wx,所述系统在汉语拼音缩写词表(ACPWL)中解析所述词,以找到其附属的因特网关键词入口点表IKEPLx,IKEPLx表中的每个节点指向其拼音缩写词包含所述词Wx的因特网关键词;然后,所述系统合并IKEPL1,IKEPL2,...,IKEPLn,以获得结果R=IKEPL1, U IKEPL2,U...,IKEPLn;随后,R中的每个因特网关键词将至少包含W中的一个拼音缩写词。
7.如权利要求6的方法,其特征在于在所述附属的因特网关键词合并后,所述系统按特定规则进一步计算R中每个因特网关键词的权重;包括因特网关键词所含的W中词数的词数权重,和因特网关键词所含的W中词的总的长度权重;随后,将所述结果表R按因特网关键词的权重分类,以便把最接近的结果出现在所述表的表头,接着是限制R中结果的数量,从而获得最终结果的因特网关键词表R。
8.如权利要求1的方法,其特征在于所述自然语言表是中英文词表,这样,按所述输入所有可能有含义词的组合解析所述输入,以找到附属的因特网关键词。
9.如权利要求8的方法,其特征在于在对照所述中英文词表(CEWL)分析所述查询输入后,将所述查询输入分解成一个或多个中文词,即W={W1,W2,W3,...,Wn};对于W中的每个词Wx,在CEWL中检索所述词Wx,以找到其附属的因特网关键词入口点表IKEPLx,随后,在IKEPLx中的每个节点指向包含所述词Wx的因特网关键词。
10.如权利要求9的方法,其特征在于所述系统合并所有的IkEPL1,IKEPL2,...,IKEPLn,并且,得到结果R,即,R=IKEPL1,UIKEPL2,U...,IKEPLn;由此,每个IKEPLx的节点指向至少包含有一个词Wx的因特网关键词;合并得到的所述结果,并且按特定规则计算R中每个因特网关键词的权重;包括(1)因特网关键词所含的W中词数的词数权重;(2)因特网关键词所含的W中词的总的长度权重。
11.如权利要求10的方法,其特征在于所述系统按上述所述规则,计算每个因特网关键词的综合权重,并且在所述计算后,所述系统按所述因特网关键词的权重将所述结果表R分类,以便把最接近的结果放在所述结果表的表头,所述系统将限制R中结果的数量,以最终获得所述因特网关键词表。
12.一种用于拼音同音词的智能信息处理方法,其特征在于包括下列步骤在拼音词查询字符串输入后,分析所有可能的同音词,并且将所有这些词认定为汉语拼音全拼的可检索词;对于每个汉语拼音的同音词,按汉语拼音全拼词表,进行汉语拼音全拼词检索计算;将得出的所有检索结果合并,分析所述结果,从而获得最终及最可能的结果。
13.如权利要求12的方法,其特征在于汉语拼音全拼所述计算的进行,是通过按汉语拼音全拼词表(FCPWL)分析所述查询字符串,并将所述字符串分解成一个或多个汉语拼音词,即W={W1,W2,W3,...,Wn};对于W中的每个词Wx,所述系统将在FCPWL中检索查询字符串,以找到其附属的因特网关键词入口点表IKEPLx,则IKEPLx中的每个节点指向其拼音包含Wx的因特网关键词;随后,所述系统合并IKEPL1,IKEPL2,...,IKEPLn,以获得结果R=IKEPL1,U IKEPL2,U...,IKEPLn;R中的每个因特网关键词的拼音至少包含W中的一个拼音词。
14.如权利要求13的方法,在附属的因特网关键词合并后,所述系统进一步按特定规则计算R中每个因特网关键词的权重,包括因特网关键词所含的W中词数的词数权重,和因特网关键词所含的W中词的总的长度权重;随后,将所述结果表R按因特网关键词的权重分类,以便把最接近的结果放在所述表的表头,接着是限制R中结果的数量,从而获得最终结果的因特网关键词表R。
15.一种用于因南方音而拼错的拼音全拼的智能信息处理方法,其特征在于包括下列步骤在拼音词查询字符串输入后,对照会由南方人拼错的所有可能拼错的辅音或元音相对应的汉字的词表,分析输入的所述词;穷举表中列举出的所有拼错的词;将所述查询字符串分解成为若干个拼音词,以包含所有可能的拼音词;进行拼音全拼词检索的计算,以获得可能的检索结果的所有可能的因特网关键词;分析所述检索结果,从而获得最终及最可能的结果。
16.如权利要求15的方法,其特征在于在确定所述查询的拼音全拼正确后,所述系统对照汉语拼音全拼词表(FCPWL)解析所述查询字符串,并将所述查询字符串分成一个或多个汉语拼音词,即W={W1,W2,W3,...,Wn};对于W中的每个词Wx,所述系统按FCPWL检索所述查询输入,以找到其附属的因特网关键词入口点表IKEPLx,IKEPLx中的每个节点指向其拼音包含Wx的因特网关键词;随后,所述系统合并IKEPL1,IKEPL2,...,IKEPLn,以获得结果R=IKEPL1,UIKEPL2,U...,IKEPLn;R中的每个因特网关键词的拼音至少包含W中的一个拼音词。
17.如权利要求16的方法,其特征在于在附属的因特网关键词合并后,所述系统进一步按特定规则计算R中每个因特网关键词的权重;包括因特网关键词所含的W中词数的词数权重,和因特网关键词所含的W中词的总的长度权重;随后,将所述结果表R按因特网关键词的权重分类,以便把最接近的结果展现在所述表的表头,接着是限制R中结果的数量,从而获得最终结果的因特网关键词表R。
18.一种因特网智能信息处理系统,其特征在于包括一个用于输入词的查询字符串的装置;一个用于识别输入词是否是URL地址,英文词,本土语言文字,还是本土语音符号的装置;一个用于通过因特网在相应的服务器中查询所述输入,如果所述输入是普通的URL时,直接从中获得所述查询结果的装置;一个用于对照至少一个拼音词表分析所述输入,如果所述输入包括所述本土语音符号时,找出相应的因特网关键词,随后取得相应的查询结果的装置;和一个用于将所述输入作为自然语言输入在自然语言表中处理的,并当所述输入包括本土语言文字时,获得所希望的因特网关键词,取得相应的URL网站查询结果的装置。
19.如权利要求18的系统,其特征在于进一步包括一个用于检查所述查询输入的汉语拼音词是否有由于南方音而出现常见的错拼的装置,和一个用于自动纠正所述拼错的词的装置,其中在确定所述输入拼音正确,并且任何拼错词被纠正后,由一数据库查询装置进行相关URL的检索。
全文摘要
一种因特网智能信息处理的方法和系统,包括识别输入是否是URL地址,英文词,本国文字,和还是本国语发音符。如果输入是普通的URL,系统通过因特网在相应的服务器查询输入,并且,直接从其获得查询结果。如果输入包括本国语音符,系统至少对照一种拼音词表分析输入,以找到相应的因特网关键字,然后取得相应的查询结果;如果输入包括本国文字,系统将输入作为自然语言表中的自然语言,获得所希望的因特网关键字,并取得相应的网站URL的查询结果。
文档编号G06F13/00GK1383517SQ01801846
公开日2002年12月4日 申请日期2001年6月28日 优先权日2000年6月28日
发明者周鸿祎 申请人:因特国风网络软件有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1