文字信息提示系统的制作方法

文档序号:6466019阅读:233来源:国知局
专利名称:文字信息提示系统的制作方法
技术领域
本发明涉及文字信息提示系统以及该系统中的文字提示信息计算装 置,对于要査询的文字,生成并输出与该文字有关的、用于对该文字进行 补充说明和提示的文字提示信息。
背景技术
目前,语音技术在世界范围内得到了极大的应用。越来越多的人机交 互方式采用声音输入,声音输出的方式。在车载导航系统,智能学习,机 器翻译等各个领域中,使用语音输入和输出达到系统交互目的的模式更是 数不胜数。但是这样的语音技术的人机交互方式中存在着如下问题,即在输出 一方,在仅有语音输出而没有视觉信息的帮助的情况下,对于发音相同的 同音字或不经常使用的生僻字,使用者会很难确认。另外,即使是常使甩 的文字,对于一个单独的汉字来说,仅通过该汉字的读音,也很难让使用 者很快产生共鸣。因此希望除了提供文字读音的声音信息之外,还能提供 其他信息来进行补充说明,以让使用者能迅速、准确、清楚地明白所输出 的文字。对于汉字来说,这样的在读音之外可以对文字进行补充说明的文 字提示信息可以包含汉字所在词的信息、汉字本身的结构信息、汉字所 具有的语义信息等。所谓汉字所在词的信息,就是用包含该汉字的词来提示该汉字的文字 提示信息。使用汉字所在词的信息,尤其对于单字没有具体意义、但是由 该单字组成的词有明确的具体意义的情况特别适合。例如"璀璨","璀" 和"璨"单独几乎都没有什么意义,但是两个字合在一起构成词之后就具 有很明确的含义了。因此在输出其中的某一个汉字时,可以在读音的基础 上,再加上相应的文字提示信息,例如,可以说"璀,璀璨的璀",或者 "璨,璀璨的璨"。这就是使用汉字所在词的信息作为文字提示信息来对文目前有些专利已经使用了词的信息来确定字,例如"選択入力装置及a選択入力処理:/口歹,厶^記録Lfd 3 >匕°-一夕読^取《9可能&記録媒体"(日本特開2 0 0 0 — 1 9 4 6 9 1 ),这篇专利使用了词的信 息来确定输入的字,但是在该专利中字所对应的词是固定的,不具有自适 应性,即没有用户的个人特征。所谓汉字结构的信息,是指用与汉字本身的结构有关的信息来提示该 汉字的文字提示信息。使用汉字结构的信息来确定汉字,在文本输入领域 应用很多。很多输入法都使用了汉字的结构信息来确定汉字。通常,在中 文中汉字的结构信息多使用"边旁部首"来描述。但是很多部首没有合适 的发音,很难在语音技术中利用。有些专利定义了一些可发音的部首来进 行语音输入,但是固化的发音部首不仅多而且难以一一记住,同时很多用 户自己的习惯不能在输入中体现。例如专利"汉字单字音意语音输入方法" (中国专利公开号CN 1234541A)汉字语义信息是本申请的发明人想到的一种可以利用的文字提示信息 的种类。汉字在不同的语境中大多会具有不同的意思,同样,大多的汉字 都会有极具代表性的意思。在一些没有相关词或者相关词比较生僻、同时字的结构信息又比较复杂时,用语义描述更容易被理解。例如"狴犴"这 个词不是很常用,并且"狴犴"这两个字本身也很生僻,不论使用前述汉 字所在词信息还是汉字结构信息都难以进行有效、清晰的提示。但是如果 用"狴犴"的语义信息进行提示,即,"狴犴"是龙的九子之一,就有可 能形成有效的提示。上述各个提示信息均存在着各自的局限性,因此,希望有一种技术, 能够将上述各个类型的提示信息加以综合运用,从而在基于语音技术的人 机交互方式中,对输出的文字提供有效的提示信息来进行补充说明,以让 使用者能迅速、准确、清楚地明白所输出的文字。发明内容本发明的目的在于综合使用各种文字提示信息,极大程度考虑各种层 次以及类别的人群的使用习惯,提供更有效的提示信息对文字进行补充说明,从而给出自适应的文字信息提示系统以及该系统中的文字提示信息计 算装置。为了实现上述本发明的目的,根据本发明的一个方面,提供了一种文 字信息提示系统,对于要査询的文字,生成并输出与该文字有关的、用于 对该文字进行补充说明和提示的文字提示信息,其特征在于,该系统包括: 输入装置,输入要査询的文字;文字提示信息计算装置,对上述输入装置 所输入的文字进行分析、计算并产生该文字的文字提示信息;以及输出装 置,输出上述文字提示信息计算装置所产生的文字提示信息,上述文字提 示信息计算装置包括多个文字提示信息产生单元,分别计算并产生上述 输入的文字的不同类型的文字提示信息;提示信息选择单元,从上述各文 字提示信息产生单元所产生的不同类型的文字提示信息中选择文字提示信 息,并输出给输出装置。根据该结构,本发明的文字信息提示系统中,文字提示信息计算装置 包括多个文字提示信息产生单元,分别计算并产生所输入的文字的不同类 型的文字提示信息;进而,提示信息选择单元从上述各文字提示信息产生 单元所产生的不同类型的文字提示信息中选择最合适的文字提示信息,输 出给输出装置。这样,本发明的文字信息提示系统可以在多种类型的文字 提示信息中,选择最合适的最有效的文字提示信息进行输出。优选地,上述提示信息选择单元对各个文字提示信息产生单元产生的 文字提示信息进行排序,依次选择并输出排序后的文字提示信息。优选地,各个文字提示信息产生单元被分配有序号,上述提示信息选 择单元根据各个文字提示信息产生单元所具有的序号,对其分别产生的文字提示信息进行相应的排序。根据上述结构,各个文字提示信息产生单元可以预先被分配有序号, 根据序号对各个单元进行排序,排序在前的单元所产生的那一类型的文字 提示信息也被排序为在前。在初始状态下可以按照文字提示信息的有效性, 对产生最有效的那一类文字提示信息的产生单元赋予最先的序号,使其排 序在最前。优选地,该系统还具备反馈装置和统计信息存储装置,上述反馈装置 允许用户对上述输出装置输出的文字提示信息进行关于该文字提示信息是否有效的反馈,并将用户的反馈信息传递给统计信息存储装置;上述统计 信息存储装置对上述反馈信息进行统计处理,并根据统计处理结果对上述 各文字提示信息产生单元的序号进行更新。这样,除了在初始状态下按照文字提示信息的有效性对文字提示信息 产生单元赋予序号之外,还可以通过设置反馈装置和统计信息存储装置, 通过使用过程中用户的反馈的统计结果,对文字提示信息产生单元的序号 进行更新,更新后的文字提示信息产生单元的排序体现了使用过程中的统 计结果,因此可以进行更适合使用者的自适应型的文字信息提示。优选地,上述文字提示信息计算装置还具备迭代单元,该迭代单元进 行文字提示信息的迭代处理,该迭代处理为提取要输出给上述输出装置的文字提示信息中的文字,将所提取的文字提供给上述各文字提示信息产 生单元,再次计算文字提示信息,并将再次计算出的文字提示信息也输出 给输出装置。而且,上述迭代单元按照预先设置的迭代次数,进行多次上述迭代处理。这样,通过迭代处理可以对文字提示信息中包含的文字进一步产生其 自身的文字提示信息,可以进行更为有效的文字信息提示。优选地,上述多个文字提示信息产生单元包括语义信息类型的文字 提示信息产生单元,产生与文字的语义信息有关的文字提示信息,该语义 信息至少包括与文字本身是否具有含义、以及该含义在公共领域中使用的 比率有关的信息。而且,上述多个文字提示信息产生单元还包括从以下类型的文字提示 信息产生单元中选择出来的至少一个文字提示信息产生单元,这些类型包 括文字所在词信息类型的文字提示信息产生单元,产生与文字所在词信 息有关的文字提示信息,该文字所在词信息至少包括与文字是否为多音字、 包含文字的词出现的频率、包含文字的词的长度、以及包含文字的词的词 性有关的信息;结构信息类型的文字提示信息产生单元,产生与文字的结 构信息有关的文字提示信息,该结构信息至少包括与语言习惯、按结构将 文字分离出来的部首的数目、以及分离出来的部首是否可以发音有关的信 息;以及首要结构信息类型的文字提示信息产生单元,产生与文字的首要结构信息有关的文字提示信息,该首要结构信息至少包括与文字的首要结 构的语言习惯、首要结构是否可以发音、以及首要结构的复杂性有关的信 息。通过以上具体结构,本发明的文字信息提示系统可以产生语义信息类 型的文字提示信息,以及文字所在词信息类型的文字提示信息、结构信息 类型的文字提示信息、首要结构信息类型的文字提示信息中的至少一个, 可以进行有效的文字信息提示。另外,本发明的上述结构中,所述文字是汉字;所述文字提示信息包 括汉字所在词的信息、汉字本身的结构信息和汉字所具有的语义信息中的 至少一个。根据本发明的另一方面,提供了一种文字提示信息计算装置,对输入 的文字进行分析、计算并输出与该文字有关的、用于对该文字进行补充说 明和提示的文字提示信息,其特征在于,包括多个文字提示信息产生单 元,分别计算并产生上述输入的文字的不同类型的文字提示信息;提示信 息选择单元,从上述各文字提示信息产生单元所产生的不同类型的文字提 示信息中选择文字提示信息,并进行输出。其中,也可以是,该文字提示信息计算装置还具备反馈单元和统计信 息存储单元,上述反馈单元允许用户对上述输出的文字提示信息进行关于该文字提示信息是否有效的反馈,并将用户的反馈信息传递给统计信息存 储单元;上述统计信息存储单元对上述反馈信息进行统计处理,并根据统 计处理结果对上述各文字提示信息产生单元的序号进行更新。根据以上结构,能够将各个类型的提示信息加以综合运用,从而在基 于语音技术的人机交互方式中,对输出的文字提供更有效的提示信息来进 行补充说明,以让使用者能准确清楚地明白所输出的文字。通过这样综合 使用各种文字提示信息,极大程度考虑各种层次以及类别的人群的使用习 惯,从而实现了自适应的文字信息提示系统以及该系统中的文字提示信息 计算装置。


图1是本发明的一个典型应用的流程图;图2是根据本发明一个实施方式的文字信息提示系统的框图 图3是根据本发明另一实施方式的文字信息提示系统的框图; 图4是根据本发明又一实施方式的文字信息提示系统的框图; 图5是本发明的一个实施例的硬件结构图; 图6a是类型l提示信息产生单元(1021)的工作原理图; 图6b是类型l提示信息产生单元(1021)的一个具体统计记录表格; 图6c是词性打分表;图7a是类型2提示信息产生单元(1022)的工作原理图;图7b是类型2提示信息产生单元(1022)的一个具体统计记录表格;图8a是类型3提示信息产生单元(1023)的工作原理图;图8b是类型3提示信息产生单元(1023)的一个具体统计记录表格;图8c是结构评价表;图9a是类型4提示信息产生单元(1024)的工作原理图;图9b是类型4提示信息产生单元(1024)的一个具体统计记录表格;图10a是混合类型信息产生单元(1025)的工作原理图;图10b是混合类型信息产生单元(1025)的一个具体统计记录表格;图11是迭代类型信息产生单元(1026)的工作原理图;图12a是反馈单元(103)的工作原理图;图12b是反馈信息表在各个级别的一个片断;图12c-l 图12c-4是反馈信息表反馈确认之后的结果图;图12d是反馈信息表的各个状态图;图13a表示核心统计信息存储装置中的字记录表。 图13b表示核心统计信息存储装置中的词记录表。 图14是投票单元(401)的工作原理图具体实施方式
图1是本发明的一个典型应用的流程图。图1表示了本发明的文字信 息提示系统进行一次成功的文字信息提示的过程。首先,在步骤S01中用 户针对例如基于语音技术的人机交互界面中遇到的有疑问的文字,输入要 查询的文字,该输入可以通过语音输入、键盘/鼠标输入、手写屏输入等任何公知手段进行。在步骤S02中,本发明的文字信息提示系统或者文字提 示信息计算装置通过对输入文字的分析计算,获得文字提示信息。在步骤 S03中,产生的最优的文字提示信息被输出给用户。在步骤S04中,根据用 户的反馈对文字提示信息是否有效进行判断。在用户通过步骤S03中输出 的文字提示信息,准确清楚地了解了所要査询的文字的情况下,判断为该 文字提示信息有效(步骤S04中"是"),进而在步骤S05中根据此次文 字提示信息有效的情况对系统进行反馈更新,在步骤S06中结束此次文字 信息提示。相反,在步骤S04中,若判断为文字提示信息无效(步骤S04 中"否"),例如若用户在获取了步骤S03中输出的文字提示信息后仍然 不能产生共鸣、对所査询的文字仍然不清楚的情况下,则返回步骤S02和 S03,继续输出次优的下一文字提示信息,直到输出的文字提示信息被判断 为有效为止。在极端的情况下也存在对所有的文字提示信息均判断为无效 的可能,这时作为提示失败的流程在所产生的文字提示信息全部输出完毕 时结束。图2是根据本发明一个实施方式的文字信息提示系统的框图。本发明 的文字信息提示系统,对于要查询的文字,生成并输出与该文字有关的、 用于对该文字进行补充说明和提示的文字提示信息。该系统包括输入装 置IOI,输入要查询的文字,并且也可以进行如后所述的各种算法配置的设 定;文字提示信息计算装置102,对通过输入装置101输入的文字进行分析、 计算并产生该文字的文字提示信息;输出装置104,输出文字提示信息计算 装置102所产生的文字提示信息。其中,文字提示信息计算装置102进一步包括多个文字提示信息产 生单元,分别计算并产生不同类型的文字提示信息,在图2所示的实施方 式中示出了 4个文字提示信息产生单元,即:类型1提示信息产生单元1021、 类型2提示信息产生单元1022、类型3提示信息产生单元1023、类型4提 示信息产生单元1024,这里示出4个文字提示信息产生单元只是一个具体 实例,本发明的范围当然不限于此。类型1 4提示信息产生单元分别产生 类型1 4的文字提示信息,关于文字提示信息产生单元的细节将在后文中 进一步说明;提示信息选择单元1025,从上述各文字提示信息产生单元所 产生的不同类型的文字提示信息中,选择文字提示信息,并输出给输出装置104。对于输入的要査询的文字,各个文字提示信息产生单元,即类型1 提示信息产生单元1021、类型2提示信息产生单元1022、类型3提示信息 产生单元1023、类型4提示信息产生单元1024分别产生了类型1的文字提 示信息、类型2的文字提示信息、类型3的文字提示信息和类型4的文字 提示信息,而提示信息选择单元1025对所产生的各个文字提示信息进行排 序,并选择排序在最前的文字提示信息输出给输出装置,作为整个系统的 输出提示给用户。如果所输出的文字提示信息被判断为无效(附图1的步 骤S04:否),提示信息选择单元1025继续按顺序选择排序在前的文字提 示信息,并依次输出,直至输出的文字提示信息被判断为有效为止。上述提示信息选择单元1025所进行的排序,例如可以通过如下方法进 行对各个文字提示信息产生单元分配序号,例如类型1提示信息产生单 元1021的序号为1、类型2提示信息产生单元1022的序号为2、类型3提 示信息产生单元1023的序号为3、类型4提示信息产生单元1024的序号为 4,按照上述序号的先后顺序,对具有该序号的文字提示信息产生单元产生 的文字提示信息进行相应的排序。就是说,可以是,序号为1的类型1提 示信息产生单元1021所产生的类型1的文字提示信息排序为最前,序号为 2的类型2提示信息产生单元1022所产生的类型2的文字提示信息排序为 其次,序号为3的类型3提示信息产生单元1023所产生的类型3的文字提 示信息排序为再次,序号为4的类型4提示信息产生单元1024所产生的类 型4的文字提示信息排序为最后。这样,根据本发明的文字信息提示系统,可以将类型1 4提示信息产 生单元基于输入文字而产生的文字提示信息进行排序后依次输出,直到输 出的文字提示信息有效为止。图3是根据本发明另一实施方式的文字信息提示系统的框图。与图2 所示的实施方式相比,图3所示的文字信息提示系统中,还包括反馈装置 103和统计信息存储装置106。在如附图1的步骤S04中对所输出的文字提 示信息是否有效进行判断的情况下,允许用户通过反馈装置103对文字提 示信息是否有效进行反馈。反馈装置103将用户的反馈信息传递给统计信 息存储装置106,在统计信息存储装置106中对反馈信息进行统计处理,并根据统计处理结果对各文字提示信息产生单元的排序进行相应的更新。例如,对于某一类型的文字提示信息,统计信息存储装置106对反馈 装置103反馈该类型的文字提示信息为有效的次数进行统计,当有效次数 累计到一定程度时,可以使对应的该类型的文字提示信息产生单元的排序 提前,这样,在今后的输出中排序提前了的该文字提示信息产生单元所产 生的文字提示信息,与反馈统计更新之前相比,将优先输出。这样,通过 上述反馈装置103和统计信息存储装置106的动作,本发明的系统可以进 行适应了使用者使用习惯和使用经历的文字信息提示,从而实现了自适应 的文字信息提示。关于反馈装置103和统计信息存储装置106所进行的反馈、统计、更 新的动作,上文中只是给出了一个具体的例子,本发明的范围当然不限于 此。例如,除了对次数进行简单的累加统计之外,当然也可以根据情况实 施加权处理等,从而实现更优化的自适应输出。只要是反馈装置允许用户 对输出装置输出的文字提示信息进行关于该文字提示信息是否有效的反 馈,并将用户的反馈信息传递给统计信息存储装置,统计信息存储装置进 一步对反馈信息进行统计处理,并根据统计处理结果对各文字提示信息产 生单元的排序进行更新,从而实现根据反馈结果对文字提示信息的排序进 行更新实现自适应输出,都可以适用于本发明。反馈装置103和统计信息存储装置106的进一步细节将在后文中描述。另外,图3中示出的实施方式是将反馈装置103和统计信息存储装置 106形成为独立于文字提示信息计算装置102而存在的部件,但是本发明的 范围不限于此,显然,反馈装置103和统计信息存储装置106也可以作为 文字提示信息计算装置102中包含的部件而存在。这种情况下,文字提示 信息计算装置102包括多个文字提示信息产生单元(1021 1024)、提 示信息选择单元1025、反馈单元103、统计信息存储单元106,其中反馈单 元103和统计信息存储单元106能实现上述反馈、统计更新的功能。图4是根据本发明又一实施方式的文字信息提示系统的框图。与图2 和图3所示的实施方式相比,图4所示的文字信息提示系统中,在文字提 示信息计算装置102中还具备作为迭代单元的迭代类型提示信息产生单元 1026,该迭代单元1026进行文字提示信息的迭代处理,所谓迭代处理是指:有时不仅仅是从输入装置101输入的要查询的文字需要文字提示信息,经过系统产生的文字提示信息中的文字本身也需要提供进一步的文字提示信息,这时,可以提取要输出给输出装置104的文字提示信息中的文字,将 所提取的文字提供给各文字提示信息产生单元1021 1024,再次计算其各 自的文字提示信息,并将再次计算出的文字提示信息也输出给输出装置, 进而提供给用户。图4中仅示意性地示出了包含在文字提示信息计算装置102中的迭代 单元1026,但并未示出其具体的内部结构。迭代单元1026的具体的实现方 式可以是例如接受用户输入的进行迭代处理的指示,根据指示提取提示信 息选择单元1025输出的文字提示信息中的文字,并将其再次输入至各个提 示信息产生单元。只要是能够实现上述迭代处理的结构均可适用于本发明。这样,通过进行上述文字提示信息的迭代处理,可以对文字提示信息 中的部分文字进一步提供文字提示信息,这在文字提示信息中存在使用者 难以区分的文字、或者存在仅通过该汉字的读音很难让使用者直接产生共 鸣的文字时特别有用,此时可以通过迭代处理,对该文字提示信息中的文 字提供文字提示信息来进行进一步的补充说明,确保可以提供确实有效的 文字提示信息,使用户可以更清楚^fe理解。当然,这种迭代处理的次数不限于1次,可以根据实际需要进行预定 次数的迭代处理,例如可以是通过用户输入来指示迭代单元进行1次以上 的迭代处理,也可以预先设定迭代次数,根据该预先设定的迭代次数,进 行设定次数的迭代处理。以上说明了本发明的几个基本的实施方式,本发明当然不限于上述实 施方式,例如,本发明也可以是上述文字信息提示系统中的文字提示信息 计算装置,其对输入的文字进行分析、计算并输出与该文字有关的、用于 对该文字进行补充说明和提示的文字提示信息,该文字提示信息计算装置 包括多个文字提示信息产生单元(1021 1024)和提示信息选择单元1025, 根据另一个实施方式,该文字提示信息计算装置也可以包括上述反馈单元 和统计信息存储单元,或者也可以具备上述迭代单元。另外,本发明的上述各实施方式中,要查询的文字可以是汉字,相应 地,汉字的文字提示信息可以包括汉字所在词的信息、汉字本身的结构信息和汉字所具有的语义信息中的至少一个。本发明当然不限于此,只要 是具备如汉字这样的单个文字具有读音、结构、所在词等特性的文字,均 可以适用本发明的技术方案。例如,本发明的原理同样适用于日语和韩语 等。实施例下面说明本发明的具体实施例。 首先说明本发明的硬件结构的具体实施例。图5是本发明的一个实施例的硬件结构图。该附图中所包含的各个部 分,仅仅是为了便于在硬件上实现而进行的划分,与图2 图4中的结构划 分可能并不完全一致,但这并不代表结构上的矛盾,根据本发明实施方式 的文字信息提示系统和文字提示信息产生装置的结构在图2 图4中记载。图5中,整个装置由五部分组成,首先是核心处理单元(100),进行 文本分析,产生各种汉字提示信息,自适应选择最合适提示信息。第二是 交互单元(201)可以从输入装置(101)得到数据,并且可以把数据传递 给输出装置(104)。第三是用户信息存储装置(301),主要储存的是个 人用户的相关信息。第四是投票单元(401),通过各个级别的投票完成一 些必要信息的打分。第五是外部信息存储单元(501),主要存放一些外部 的字典等信息。其中核心处理单元最为重要,核心处理单元又细分为五个 部分算法处理单元(102),相当于上述文字提示信息计算装置,主要进 行各类型汉字提示信息的最优计算;反馈单元(103),主要进行各种反馈 因子的计算;缓存单元(105),提供短期用户习惯信息;核心统计信息存 储装置(106),相当于上述统计信息存储装置,提供不可更改的预存统计 信息。下面具体说明作为本发明的核心部分的文字提示信息计算装置102中 所包括的各个文字提示信息产生单元(即类型1提示信息产生单元1021、 类型2提示信息产生单元1022、类型3提示信息产生单元1023、类型4提 示信息产生单元1024)的详细操作过程。这里需要说明的是,在初始状态下,可以是类型1 4提示信息产生单 元1021 1024的初始序号分别为1 4,也就是说,类型1 4提示信息产 生单元1021 1024的初始排序即为其自然的默认排序,即,1021在最前、1022其次、1023再次、1024在最后。另外,上文中说明了提示信息选择单元1025对各个文字提示信息产生 单元(1021 1024)产生的不同类型的文字提示信息进行排序,依次选择 并输出排序在前的文字提示信息的方式,但是在下面的说明中,在每一个 文字提示信息产生单元中,同样也可以根据规则对要査询的文字产生相同 类型的多个文字提示信息,提示信息选择单元1025也可以对这些由同一文 字提示信息产生单元产生的相同类型的多个文字提示信息进行排序,输出 排序在前的文字提示信息作为文字提示信息计算装置计算的结果。首先说明类型1提示信息产生单元1021的细节。图6a是类型1提示信息产生单元(1021)的工作原理图,是根据文字 所在词的信息来进行提示的流程图。在图6a所示的实施例中,考虑在与文字所在词有关的信息中,有5个 因子会影响到最后选择哪个词来提示当前字。定义这种影响为权重,给出 公式如下类型1权重-W(自适应性因子,多音字,频率,长度,词性)(式1) 其中自适应因子指当前提示和类型的自适应权重多音字指要査询的文字是否是多音字,这个字其他音的词更具有代表性频率指包含当前文字的词出现的频率 长度包含当前文字的词的长度 词性包含当前文字的词的词性具体实现方案可以是首先在统计信息存储装置(106)中找到包含当 前汉字所有词的记录,然后按顺序根据上述因子按降序排序所有记录,最 后最优结果就排序在最前,出现在最上方。图6b是类型1提示信息产生单元(1021)的一个具体统计记录表格。图中以"都(doul)"为例。首先按自适应因子排序。这里要说明的是,本发明的文字信息提示系统正是通过该自适应因子 来实现各个文字提示信息产生单元以及其各自产生的文字提示信息的排序 的更新,就是说,上述反馈、统计更新的功能是通过该自适应因子来实现的。在初始状态下,各个自适应因子为o,因此各个文字提示信息产生单元的排序及各个文字提示信息的排序均为默认排序。通过使用过程中按照规 则对自适应因子进行计算、更新,再按照更新后的自适应因子进行权重的 计算,实现了各个文字提示信息产生单元以及各个文字提示信息的排序的更新。这一点同样适用于以下对于类型2 4提示信息产生单元(1022 1024)中的自适应因子。自适应因子的计算和规则具体见后文中的与反馈 单元(103)有关的部分。在按照自适应因子排序之后,按照多音字-词排序,如果属于多音字的 词则标记为1,否则为0。例如需要对"都(doul)"提示都市的都(dul) 属于都(doul)的多音字,因此"都市"属于多音字-词,标记为1。然后 按照频率排序,这里的频率由核心统计信息存储装置(图Bb)查得,图 lib中这个词频需要从外部信息存储装置(501)中的语料中进行统计,例 如在2000年人民日报中所有文本中统计处"都市"出现的次数与总数之比,。 然后根据图13b査得词的长度进行排序,越是长的词越特别,也就是越容 易产生共鸣。最后按照词性的分数进行降序排序,而每个词性的分数值具 体打分表见图6c 。图6c是词性打分表。本发明可以采取的方案是,根据北大计算语言研 究所《现代汉语语料库词语切分和词性标注规范》将所有词归入33种词性 (去除标点符号以及5种语素)中,表中是将33种词性分数的结果,此分 数来自于核心信息存储装置(106)中的预存词性打分信息表和用户信息存 储装置(301)。而用户信息存储装置(301)中的词性打分信息表来自投 票单元(401),打分可以设置任意分数级(作为算法配置,可以通过输入 装置101进行设置),分数越高则表示该词性的词越具有直观含义。打分 在投票单元(401)中进行,且打分原则在投票单元(401)中详细描述。下面说明类型2提示信息产生单元1022的细节。图7a是类型2提示信息产生单元(1022)的工作原理图,是根据文字 的所有结构信息来提示汉字的流程图。在图7a所示的本发明的实施例中,考虑在汉字的所有结构信息中有4 种因子会影响到最后选择哪种结构组成来代表当前字的可能性。定义这种 影响为权重,给出公式如下类型2权重=W (自适应性因子,语言习惯,结构数目,发音结构比例) (式2)其中自适应因子指当前提示和类型的自适应权重 语言习惯用户语言习惯中对结构信息的偏好修正结构数目分离出来的结构的数目,分离出来的部首的数目越少越好, 越容易成为有效的文字提示信息发音结构比例分离出来的结构中可以发音的比例具体实现方案是首先在统计信息存储装置(106)中找到当前汉字的 所有结构组成,然后按顺序根据上述因子按降序排序(结构数目按升序) 所有记录,最后最优结果就出现在最上方。图7b是类型2提示信息产生单元(1022)的一个具体统计记录表格。图中以"章"为例。表中的记录是当前需要提示的汉字的所有组成方式, 图中以"章"与"彬"为例,章的组成方式有"立早章","音十章","立日十章",然后根据上面提出的各个因子对这些组成方式进行排序,其中第 一行就是最优结果。这些组成方式的获得需要根据核心统计信息存储装置(图13a)计算,根据图13a可以查询到每个汉字的所有部首,然后在这些 部首的基础上找到每个汉字所有的结构组成方式。例如汉字"章",根据图 13a可以查到有这些部首"工;v; —;日;十"。然后根据这些部首在图 131a查那些汉字包含了这些部首。例如査到"立"包含部首"二; 、z; —", 那么再使用图象匹配算法在"章"里能否找到"立",然后再"章"字剩下 的部首里面也就是"日;十"中使用类似寻找"立"的方法再找到"早", 那么此时"章"由两个结构组成,这样就获得了一种"章"的结构组成方 式。与此一样可以计算出"章"的所有组成方式。得到了所有的组成方式 后,首先按自适应因子排序,自适应因子的计算具体见反馈单元(103)。 然后按照语言习惯进行降序排序,语言习惯表示结构拆分的语言偏好,代 表了语言本身的特点,作为算法配置,可以由用户本人例如通过输入装置 (101)进行设置,与语言级反馈有所不同。在一般的习惯中,部首的分离 采用先左右后上下,贪婪优先的策略。例如"章",系统会根据原则选择"音 十章",但是某用户认为"立早章"比"音十章"更常用并且也可以通过输入装置(101)进行设置,因此这时语言习惯的值从0 (不设置)改设为1
(有设置)。然后按照结构数目进行升序排序。根据当前结构组成方式,例
如此时"章"由"立早"组成,这里的结构数目就填写2。最后是发音结 构比例的降序排序,根据之前算汉字结构组成方式的过程可以得到的组成 "章"的每个结构,在结构评价表(图8c)和核心统计信息存储装置中字记 录表(图13a)中查找这些结构的发音性。结构评价表(图8c)中的结构发 音根据发音列来决定,而结构若能在字记录表(图13a)找到则表示该结构 可以发音。在组成"章"的某种组成方式中所有结构中可以发音结构的数 目和所有结构数目的比值就是发音结构比例的值。
图8a是类型3提示信息产生单元(1023)的工作原理图,是根据文字 的首要结构信息来提示汉字的流程图。
在图8a所示的本发明的实施例中,考虑在汉字的结构信息中有4类因 子会影响到最后选择哪个结构最具有代表性。定义这种影响为权重,给出 公式如下
类型3权重=W (自适应性因子,语言习惯,结构发音性,结构复杂性) (式3) 其中
自适应因子指当前提示和类型的自适应权重 语言习惯用户语言习惯中对首选结构信息的偏好修正 结构发音性所选结构能否发音
结构复杂性所选结构复杂性,越复杂,其值越大
具体实现方案是首先在统计信息存储装置(106)中找到当前汉字包 含的所有结构,然后按顺序根据上述因子按降序排序(结构复杂性按升序) 所有记录,最后最优结果就出现在最上方。
图8b是类型3提示信息产生单元(1023)的一个具体统计记录表格。
表中的记录是当前汉字的所有首要结构,根据上述各个因子对这些结构进 行排序,然后表中第一行就是最优结果。图中以"徐"与"章"为例。根
据核心统计信息存储装置(图13a),可以得到"徐"的所有组成部首"矛; 人;二;小;",根据这些部首中的"人;二;小;"可以继续在图lla中查 到"余"字也是由"人;二;小;"构成,那么"余"就是"徐"的一个结构。因此徐的所有结构有"4 ;人;二;小;余"。根据首要结构都在边缘 上的原则(也就是首要结构或者在字最左边,或者最右边,或者最上边, 或者最下边),可以得到"徐"的首要结构有两条"4 ;余"。然后根据下 述查询发音性的过程中,可以将"《;余"转变为"双人徐;余字边的徐" 这两条记录。以此两条首要结构记录,首先按自适应因子排序,自适应因 子的计算具体见反馈单元(103)。然后按照语言习惯进行降序排序,此处 语言习惯的计算方式与类型2中的语言习惯一样;然后按发音性进行降序, 根据结构评价表(图8c)和核心统计信息存储装置(图13a)所得,此处结 构可以发音则值为l,不可以发音则值为0;最后通过复杂性的升序排序得 到最后的有序结果,其中复杂性也是通过图8c的结构评价表和核心统计信 息存储装置(图13a)所得。
图8c是结构评价表,本发明可以采取的方案是,根据《汉字统一部首 表(草案)》(1983年)对所有结构进行复杂性评价后的结果,此结果来自于 核心信息存储装置(106)和用户信息存储装置(301)。其中部首的发音由 用户根据自己的习惯可以通过输入装置(101)设置。可以发音的部首在发 音列里填上相应汉字,不可以发音的填上无。对于用户信息存储装置(301) 中部首的复杂性由投票单元(401)对每个结构给出复杂性投票打分,复杂 性打分可以设置任意分数级(作为算法配置,可以通过输入装置101设置), 具体细节在投票单元(401)描述。
图9a是类型4提示信息产生单元(1024)的工作原理图,是根据文字 的语义信息来提示汉字的流程图。
在图9a所示的本发明的实施例中,考虑在汉字的语义信息中有3类因 子会影响到最后选择哪种语义最具有代表性。定义这种影响为权重,给出 公式如下
类型4权重=W (自适应性因子,单字有意义性,公共领域含义频率) (式4)
其中
自适应因子指当前提示和类型的自适应权重 单字有意义性当前汉字本身是否具有含义
公共领域含义比率当前汉字的当前含义在公共领域中的出现的比率。例如在人民日报2000年语料中,所有表示方向的东出现的次数与东的总次 数之比。
具体实现方案是首先在统计信息存储装置(106)中找到当前汉字包 含的所有语义,然后按顺序根据上述因子按降序排序所有记录,最后最优 结果就出现在最上方。
图9b是类型4提示信息产生单元(1024)的一个具体统计记录表格。 表中记录是当前汉字所有的公共领域含义,图中以"东"与"章"为例, 首先在核心统计信息存储装置(图Ba)中查到"东"字的所有公共领域含 义"方向;主人"。以此两条记录为基础,首先按自适应因子排序,自适应 因子的计算具体见反馈单元(103)。然后排序单字有意义性,单字有意义 则值为l,无意义则值为0,单字是否有意义则根据核心统计信息存储装置 (图13a)査询得到结果,査到表示有意义,查不到表示无意义,这样可以 使得有具体含义的东在上面出现;后进行含义频率排序,得到最优结果, 这里的含义频率就是根据核心统计信息存储装置(图Ba)中的公共领域频 率査得结果。
以上给出了分别以文字所在词的信息、文字的所有结构信息、文字的 首要结构信息、和文字的语义信息为类型l、类型2、类型3、类型4的四 个提示信息产生单元的具体实施例。本发明的范围当然不限于此,只要是 能够提供不同类型的文字提示信息的类型提示信息决策方式,也可以是除 上述之外的其他类型的文字提示信息,文字提示信息及其产生单元的种类 也可以不是四个,例如可以只包含文字的语义信息这一种类型,可以是还 包含文字所在词的信息、文字的所有结构信息、文字的首要结构信息中的 至少一个类型,或者也可以是包括四个以上的更多类型。
下面说明本发明的提示信息选择单元1025的具体实施例。 图10a是混合类型信息产生单元(1025)——即提示信息选择单元的 工作原理图,即根据词的所有可用类型信息来提示汉字的流程图。在混合 类型信息产生单元中,所有当前字的可用类型的自适应因子(按具体条目 不存在计算)按照降序排序即可得到最后的类型结果,然后再按照该类型 内部顺序输出。当4张反馈信息表为空的时候则按typel到type4进行排序, 因为typel到type4就是按照人们的日常习惯设计的。图10b是混合类型信息产生单元(1025)的一个具体统计记录表格。 图中以"章"为例。按自适应因子排序,自适应因子的计算具体见反馈单 元(103)。而类型的反馈因子就是本类型中所有记录的反馈因子的最小值, 例如typel的反馈因子就是"章"的typel所有记录中反馈因子的最小值。
下面说明本发明的迭代单元1026的具体实施例。
图ll是迭代类型信息产生单元(1026)、即迭代单元的工作原理图, 即根据词的所有可用类型信息多次提示汉字的流程图。在迭代类型信息决 策中,通过设置最大迭代次数来确定提示次数,每次迭代都使用当前迭代 元的混合类型信息中最佳类型。所谓迭代元就是当前要提示的对象。例如, 设置迭代次数为1,对于"张"的提示为弓长张弓箭的弓长短的长。第一 迭代元为张,第二迭代元有两个"弓"和"长"。
下面说明本发明的反馈装置和统计信息存储装置的具体实施例。
图12a是反馈单元(103)(反馈装置)的工作原理图。本发明中反馈 机制分为三个级别单用户级,群组级,语言级。在单用户级中又分为长 期和短期反馈。当用户确定理解了上次的提示信息后,反馈过程开始。首 先进行单用户的反馈信息更新,单用户的反馈信息主要储存在缓存(105) 和用户信息存储装置(301)中。因此单用户的反馈更新分为两部分短期 信息更新(缓存105单元)。长期信息更新(用户信息存储装置301单元)。 缓存单元中存放固定数目的最近使用的记录,格式如图12b中所示,而用 户信息存储装置则储存从第一次启动系统到目前为止用户所有反馈的记 录,格式如图12b所示。不论是缓存单元还是用户信息存储装置,反馈信 息更新包括类型更新和字符更新,类型更新指上次用户接收并理解的类型 是哪一个,调节这个类型的当前频率(加l)并更新当前的最佳类型;字符 更新是指上次用户接收并理解的汉字和类型是哪个,调节这个汉字的这个 类型的当前频率(加1)并更新当前汉字的最佳类型。更新最佳类型和最佳 字符的方法使用最大原则,哪个类型频率最大就取哪个类型为最佳类型。 群组自适应和语言自适应都包含了类型更新和字符更新,其原则也是最大 原则。只不过群组更新是在一个用户群的范围内,例如上海用户,北京用 户;语言更新的范围是在一种语言的范围内,例如中文,日文,韩文。最 后在单用户自适应中,长期信息更新会有长期信息的衰减计算,这样即使误的次数最终一定不 会比正确的次数多,只要改正,过一段时间,错误信息对整个系统就没有 影响。通过设定衰减周期(例如一个月),那么系统就会在每一个衰减周 期,反向调节这些长期信息(减l)。
图12b是反馈信息表在各个级别的一个片断。根据反馈单元的更新, 各个级别都会产生相应的反馈信息表,格式如图12b所示。其中图12b中 表I是语言级的反馈信息,图12b中表II是群组级的反馈信息,图12b中 表III是单用户中用户信息存储装置的反馈信息,图12b中表IV是单用户 中缓存单元的反馈信息。所有的反馈信息分为两类 一是字符信息,即对 于某汉字的最佳类型是什么,并且在这个类型中己经出现过的记录;二是 类型信息,即在当前表中哪种类型最佳。每个表中每条记录都必须是唯一 的,并且每个表中只有一个类型是最佳的。表中汉字的最佳类型使用最大 原则进行计算,例如在多次反馈中,张的类型2被接收10次,类型l被接 收5次,类型3被接收3次,类型4被接收4次。那么根据最大原则,张 的最佳类型就是类型2。有了反馈信息表就可以按照表进行反馈因子的计 算,当前汉字的当前类型的当前记录的反馈因子为
1) 当前汉字当前类型出现在某个表中
反馈因子=区别常数+表号*2-1+当前记录是否出现(出现=1;否
则=0)
其中,区别常数为4,其目的在使反馈因子值不冲突。例如"圆-type4-形状"的反馈因子就是区别常数+4*2-1 (表号为IV) + 1 ("形状"出现在 表中)=12;而"圆-type4-姓"的反馈因子就是区别常数+4*2-1 (表号为IV) + 0 ("姓"未出现在表中)=11。
2) 当前汉字当前类型未出现在某个表中,但是当前类型出现某表中 反馈因子=表号
例如"无-typel"的反馈因子就是4 (表号为IV),"无-type2"的 反馈因子就是0 (没有表的最佳类型是2)。
在反馈因子的计算中采用取大原则,即某汉字的某类型具有多个反馈 因子则采用最大的反馈因子。根据以上公式,反馈因子的最大值为12,最 小值为0。图12c是反馈信息表在以图12b未反馈前信息,经过四种类型的反馈 确认之后的结果图。图12c-l是在经过"章-typel-章鱼"确认后的结果。图 12c-2是在经过"章-type2-立早"确认后的结果。图12c-3是在经过"章-type3-立字头"确认后的结果。图12c4是在经过"章-type4-文献"确认后的结果。
图12d是反馈信息表的各个状态图。图12b中的四种表中所有表初始 时都是空表。在用户时候使用过程中,图12b的四种表在不断更新中。这 四种表内部形式都一样,仅仅是这些表的覆盖范围不同而分成四个部分。 需要说明的是,语言级反馈信息表和群组级反馈信息表适用于多用户的, 每种语言有一种语言级反馈信息表并且每个群组有一个群组反馈信息表 (可以放置在服务器)。用户信息表和缓存反馈信息表适用于单用户,每个 用户都会有不同的这两张表(可以放置在终端上)。因此这里仅仅以用户信 息表的状态流程为例,其他表也类似。如图,每个方框代表一次或多次反 馈后用户信息表的结果。每个框中有这样的信息"章^type2-立早②;音十 (1)"。其中"章"表示需要提示的汉字,"*"代表后面的type是章的最佳type, 这里按照反馈的最大次数所在的类型作为最佳类型,"type2"代表当前类型 是type2,"立早","音十"分别表示type2中的两种可能。右上角的"(2)" 代表用户反馈的次数,这些次数从左到右按降序排列。每个框中还有这样 的信息"Type2 best",这表明在这张表中,所有记录中type2的纪录出现 的次数做多。在图12d-l反映的是用户第一次反馈后的结果,"章type2立 早"被加入了表中,因为第一次加入,因此立早的次数为1,标注为"立早 (1)",因为目前表中的"章"只有一个type纪录,因此章的最佳type就是type2, 标注为"章*type2",此时表中不管什么字的所有type也只有type2,因此 "type2best"。图12d-2是另外两次反馈之后的结果,从图中可以推测出这 两次反馈都是"章type2音十",因为图中"章"后面多了 "音十(2)"的内 容。图12d-3中用户又反馈了4次"章typel章鱼",因此用户信息表中就 多了一行"章typel-章鱼W",此时发现所有章的反馈中"章鱼"的次数最 多是4,因此章的最佳type就是章鱼属于的type,也即是typel 。此时在用 户信息表中,typel的总次数是4,而type2的总次数是2+l也就是3,因此 "typel best"。在图12d-4中,由于用户信息存储装置的衰减,在一个衰减 周期之后,用户信息表中所有记录的次数减1,其中"立早(1)"就变成了 "立早(0)",从而把立早在章的type2中去除。图12d-5中,用户反馈了12次的 "李type2-木子",因此李的最佳type就是type2,并且用户信息表的最佳type 也变成了 type2。
在本发明中,用户可以通过输入装置101进行算法配置,包括选择 哪些类型的提示信息,例如用户可以设置系统只支持类型1和类型2;是否 选择迭代类型提示,最大迭代数目,例如使用迭代,并且最大迭代数目为1, 那么系统的输出将类似"弓长张弓箭的弓长度的长";个人语言习惯输入, 主要指在类型2和类型3中的"习惯",因子,例如可以设置"章"的个人 习惯是"音十章";打分分级主要指词性分数和结构复杂性打分中可以设置 的打分级别,例如词性分数级别设置为4,那么词性分数就会在1到4分间 波动;最后用户要设置结构的发音,例如设置的发音为"宝盖"。
缓存单元(105)和用户信息存储装置(301)中存放了单用户级的 反馈信息,其中缓存单元(105)只包含固定数目的记录,采用队列机制, 先进先出,保存了短期反馈信息。用户信息存储装置(301)没有记录限制, 但有衰减机制,保存了长期反馈信息,其中数据格式如图12b表IV和图 12b表m。此外在用户信息存储装置(301)中还存放了用户可更改的词性 分数表(图6c)和结构评价表(图8c)。
核心统计信息存储装置(106)存放了用于四种类型提示信息的统计 信息,包括词频,词长,词性,结构部首等。大致核心统计信息存储装置 中有四类数据记录 一,结构记录,存放了相关结构的发音信息,预存的 不可更改的打分信息(图8c),而在用户信息存储装置(301)中存有用户 可以更改的打分信息;二,词性记录,存放了各词性的预存的不可更改的 打分信息(图6c),而在用户信息存储装置(301)中存有用户可以更改的 打分信息;三,字记录,存放了字中包含什么结构,字的公共领域含义及 其频率(图13a),其中字所属词只要查询外部信息存储装置(501)中的外 部字典就可以得到,字所属的含义在外部信息存储装置(501)中的外部字 典中也可以得到,所属含义的频率在外部信息存储装置(501)的语料库中 可以训练得到,字所属的所有结构根据《汉字统一部首表(草案)》和当前字 进行图像匹配可以得到;四,词记录,存放了词的词频,词长(图13b), 其中词的词频在外部信息存储装置(501)中的语料库里可以训练得到,词长可以直接计算得到,词性按照北大计算语言研究所《现代汉语语料库词
语切分和词性标注规范》将所有词归入33种词性。
交互单元(201)主要负责系统与外界的输入输出转换,不论是外界 的语音输入或文本输入,最后都转变成统一的格式传递给核心算法单元。 同样,核心算法单元的输出结果,根据外界要求也可以任意转换为语音或 文本信息。即交互单元(201)通过外挂语音识别或语音合成装置来实现系 统与外界的交互。
图14是投票单元(401)的工作原理图。投票单元(401)主要负责 对词性,结构等属性进行各级别的联合打分。首先在各张表中统计出所有 要打分的项在各表中的出现次数。例如要对词性表(图6c)中的分数属性 打分,则分别在图12b中表1 表IV的各个表中统计各种词性(如图6c) 出现的次数。分别乘以表号(例如"用户信息表"的表号为III也就是3) 作为加权,计算出所有词性在图12b的表1 表IV的各个表中的总次数加 l(若没有出现的词性则把总次数计为1)。对其中最大的总次数进行取对数, 以此为最大值。然后根据需要打分的级数(可以通过输入装置输入)分成 不同的对数值区域,把其他的对数值归入这些区域,每个区域就是一个分 数。同样对于结构的复杂性也是如此打分,即打分的项是图8c中的复杂性, 打分方式如上所述。
外部信息存储装置(501)主要存放了一些字典信息,语料信息等。 字典信息里包含了字的含义,词的词性等信息。例如中国国家名,名
词等。语料信息包含一些进行了词性标注的语料。例如
"19卯0101-01-001-002/m 中共中央/nt总书记/n 、/w 国家/n主席/n 江/nr泽民/nr"(北大计算语言研究所的现代汉语语料库),用来以此训练 出词语出现的频率等。
下面说明本发明的文字信息提示系统的一个具体操作例。在具体操 作例中,可以分成两种情况, 一个是系统初始化时的第一次使用,另一个 是非初始化时的使用情况。当系统初始化时的第一次使用时。首先用户通 过输入装置101配置各个参数,这里假设用户除了自定义了结构发音,其 他保持默认值。然后用户通过交互单元(201)对系统提出一个需要提示的 汉字"章",因为默认是使用四种类型进行混合排序,而混合类型信息产生单元(图10a)需要根据反馈单元(103)计算"章"的反馈因子。由于系 统刚刚初始化,"章"四种类型的反馈因子都是0,因此"章"四种类型就 按照默认顺序排列,而默认顺序就是类型一到类型四。然后在每种类型中 计算每种可能的优先顺序,首先类型1文字提示信息产生单元(1021)使 用词的信息来提示汉字,也就是对所有包含"章"的词进行优先选择,其 结果与图6b中类型1决策统计信息表…"章"相似。那么图6b中类型1 决策统计信息表---"章"就是系统提示"章"类型一时的输出顺序。根据 默认顺序,然后类型2文字提示信息产生单元(1022)使用字的所有结构 信息来提示汉字,也就是在各种组成"章"的组成方式中进行优先选择, 其结果与图7b中类型2决策统计信息表…"章"相似。那么图7b中类型2 决策统计信息表…"章"就是系统提示"章"类型二时的输出顺序。根据 默认顺序,接着是类型3文字提示信息产生单元(1023)使用汉字的最显 著结构信息来提示汉字,也就是在各种组成"章"的首要结构(显著结构) 中进行优先选择,其结果与图8b中类型3决策统计信息表--"章"相似。 那么图8b中类型2决策统计信息表--"章"就是系统提示"章"类型三时 的输出顺序。根据默认顺序,最后是类型4文字提示信息产生单元(1024) 使用语义来提示汉字,也就是在各种组成"章"的语义中进行优先选择, 其结果与图%中类型4决策统计信息表…"章"相似。那么图9b中类型4 决策统计信息表---"章"就是系统提示"章"类型四时的输出顺序。在计 算完所有类型的所有记录的优先顺序后,按照默认顺序输出给用户。如果 用户不明白这次的输出,那么系统继续给出下一个优先级的结果,直到用 户明白。通过反馈单元(103)更新反馈因子。假设用户确认(明白)了 "章" 的类型1信息"章鱼的章",反馈单元分别更新图12b中的表I到表IV,其 更新方式与图12c-l —样。假设用户确认(明白)了 "章"的类型2信息 "立早章",反馈单元分别更新图12b中的表I到表IV,其更新方式与图 12c-2—样。假设用户确认(明白)了 "章"的类型3信息"立字头的章", 反馈单元分别更新图12b中的表I到表IV,其更新方式与图12c-3 —样。 假设用户确认(明白)了 "章"的类型4信息"文献",反馈单元分别更新 图12b中的表I到表IV,其更新方式与图12c-4 —样。更新完反馈信息表 后,本次流程结束。非初始化后第一次流程与初始化后第一次的流程不同主要在于反馈因子的更新更复杂,反馈因子更新的所有可能在图12d中已 经详细描述。
根据本发明的技术方案,能够将不同类型的提示信息加以综合运用, 从而在基于语音技术的人机交互方式中,对输出的文字提供有效的提示信 息来进行补充说明,使得使用者能迅速、准确、清楚地明白所输出的文字。 本发明可以应用于车载导航系统,语言学习系统,人机交互系统,机器翻译 系统等。
权利要求
1.一种文字信息提示系统,对于要查询的文字,生成并输出与该文字有关的、用于对该文字进行补充说明和提示的文字提示信息,其特征在于,该系统包括输入装置,输入要查询的文字;文字提示信息计算装置,对上述输入装置所输入的文字进行分析、计算并产生该文字的文字提示信息;以及输出装置,输出上述文字提示信息计算装置所产生的文字提示信息,上述文字提示信息计算装置包括多个文字提示信息产生单元,分别计算并产生上述输入的文字的不同类型的文字提示信息;提示信息选择单元,从上述各文字提示信息产生单元所产生的不同类型的文字提示信息中选择文字提示信息,并输出给输出装置。
2. 如权利要求1所述的文字信息提示系统,其特征在于, 上述提示信息选择单元对各个文字提示信息产生单元产生的文字提示信息进行排序,依次选择并输出排序后的文字提示信息。
3. 如权利要求2所述的文字信息提示系统,其特征在于, 各个文字提示信息产生单元被分配有序号,上述提示信息选择单元根据各个文字提示信息产生单元所具有的序号,对其分别产生的文字提示信 息进行相应的排序。
4. 如权利要求3所述的文字信息提示系统,其特征在于, 该系统还具备反馈装置和统计信息存储装置,上述反馈装置允许用户对上述输出装置输出的文字提示信息进行关于 该文字提示信息是否有效的反馈,并将用户的反馈信息传递给统计信息存 储装置;上述统计信息存储装置对上述反馈信息进行统计处理,并根据统计处理结果对上述各文字提示信息产生单元的序号进行更新。
5. 如权利要求1所述的文字信息提示系统,其特征在于,上述文字提示信息计算装置还具备迭代单元,该迭代单元进行文字提示信息的迭代处理,该迭代处理为提取要输出给上述输出装置的文字提示信息中的文字,将所提取的文字提供给上述各文字提示信息产生单元,再次计算文字提示信息,并将再次计算出的文字提示信息也输出给输出装置。
6. 如权利要求5所述的文字信息提示系统,其特征在于,上述迭代单元按照预先设置的迭代次数,进行多次上述迭代处理。
7. 如权利要求1所述的文字信息提示系统,其特征在于,上述多个文字提示信息产生单元包括语义信息类型的文字提示信息产生单元,产生与文字的语义信息有关的文字提示信息,该语义信息至少包括与文字本身是否具有含义、以及该含义在公共领域中使用的比率有关的信息。
8. 如权利要求7所述的文字信息提示系统,其特征在于,上述多个文字提示信息产生单元还包括从以下类型的文字提示信息产生单元中选择出来的至少一个文字提示信息产生单元,这些类型包括文字所在词信息类型的文字提示信息产生单元,产生与文字所在词信息有关的文字提示信息,该文字所在词信息至少包括与文字是否为多音字、包含文字的词出现的频率、包含文字的词的长度、以及包含文字的词的词性有关的信息;结构信息类型的文字提示信息产生单元,产生与文字的结构信息有关的文字提示信息,该结构信息至少包括与语言习惯、按结构将文字分离出来的部首的数目、以及分离出来的部首是否可以发音有关的信息;以及首要结构信息类型的文字提示信息产生单元,产生与文字的首要结构信息有关的文字提示信息,该首要结构信息至少包括与文字的首要结构的语言习惯、首要结构是否可以发音、以及首要结构的复杂性有关的信息。
9. 如权利要求1 8中任意一项所述的文字信息提示系统,其特征在于,所述文字是汉字;所述文字提示信息包括汉字所在词的信息、汉字本身的结构信息和汉字所具有的语义信息中的至少一个。
10. —种文字提示信息计算装置,对输入的文字进行分析、计算并输出与该文字有关的、用于对该文字进行补充说明和提示的文字提示信息,其特征在于,包括多个文字提示信息产生单元,分别计算并产生上述输入的文字的不同类型的文字提示信息;提示信息选择单元,从上述各文字提示信息产生单元所产生的不同类型的文字提示信息中选择文字提示信息,并进行输出。
11. 如权利要求10所述的文字提示信息计算装置,其特征在于,上述提示信息选择单元对各个文字提示信息产生单元产生的文字提示信息进行排序,依次选择并输出排序后的文字提示信息。
12. 如权利要求ll所述的文字提示信息计算装置,其特征在于,各个文字提示信息产生单元被分配有序号,上述提示信息选择单元根据各个文字提示信息产生单元所具有的序号,对其分别产生的文字提示信息进行相应的排序。
13. 如权利要求12所述的文字提示信息计算装置,其特征在于,该文字提示信息计算装置还具备反馈单元和统计信息存储单元,上述反馈单元允许用户对上述输出的文字提示信息进行关于该文字提示信息是否有效的反馈,并将用户的反馈信息传递给统计信息存储单元;上述统计信息存储单元对上述反馈信息进行统计处理,并根据统计处理结果对上述各文字提示信息产生单元的序号进行更新。
14. 如权利要求10所述的文字提示信息计算装置,其特征在于,上述文字提示信息计算装置还具备迭代单元,该迭代单元进行文字提示信息的迭代处理,该迭代处理为提取要输出的文字提示信息中的文字,将所提取的文字提供给上述各文字提示信息产生单元,再次计算文字提示信息,并输出再次计算出的文字提示信息。
15. 如权利要求14所述的文字提示信息计算装置,其特征在于,上述迭代单元按照预先设置的迭代次数,进行多次上述迭代处理。
16. 如权利要求10所述的文字提示信息计算装置,其特征在于,上述多个文字提示信息产生单元包括语义信息类型的文字提示信息产生单元,产生与文字的语义信息有关的文字提示信息,该语义信息至少包括与文字本身是否具有含义、以及该含义在公共领域中使用的比率有关的信息。
17. 如权利要求16所述的文字提示信息计算装置,其特征在于,上述多个文字提示信息产生单元还包括从以下类型的文字提示信息产生单元中选择出来的至少一个文字提示信息产生单元,这些类型包括文字所在词信息类型的文字提示信息产生单元,产生与文字所在词信息有关的文字提示信息,该文字所在词信息至少包括与文字是否为多音字、包含文字的词出现的频率、包含文字的词的长度、以及包含文字的词的词性有关的信息;结构信息类型的文字提示信息产生单元,产生与文字的结构信息有关的文字提示信息,该结构信息至少包括与语言习惯、按结构将文字分离出来的部首的数目、以及分离出来的部首是否可以发音有关的信息;以及首要结构信息类型的文字提示信息产生单元,产生与文字的首要结构信息有关的文字提示信息,该首要结构信息至少包括与文字的首要结构的语言习惯、首要结构是否可以发音、以及首要结构的复杂性有关的信息。
18.如权利要求10 17中任意一项所述的文字提示信息计算装置,其特征在于,所述文字是汉字;所述文字提示信息包括汉字所在词的信息、汉字本身的结构信息和汉字所具有的语义信息中的至少一个。
全文摘要
本发明提供一种文字信息提示系统及文字提示信息产生装置,对于要查询的文字,生成并输出与该文字有关的、用于对该文字进行补充说明和提示的文字提示信息。包括输入装置,输入要查询的文字;文字提示信息计算装置,对上述输入装置所输入的文字进行分析、计算并产生该文字的文字提示信息;以及输出装置,输出上述文字提示信息计算装置所产生的文字提示信息,上述文字提示信息计算装置包括多个文字提示信息产生单元,分别计算并产生上述输入的文字的不同类型的文字提示信息;提示信息选择单元,从上述各文字提示信息产生单元所产生的不同类型的文字提示信息中选择文字提示信息,并输出给输出装置。
文档编号G06F17/30GK101630316SQ200810137760
公开日2010年1月20日 申请日期2008年7月18日 优先权日2008年7月18日
发明者刘宏建, 泉 周, 布社辉, 永松健司 申请人:株式会社日立制作所
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1