用户词语和用户动作的上下文关系预测的制作方法_2

文档序号:9765748阅读:来源:国知局
在此的论述同样用于日文假名 和韩文基本语素。此外,应注意对象不必是语言的,如在此所要求保护的消除歧义系统可W 用于预测图标、电话号码,或目录记录,只要呈现了某类符号串表示。因此,应当认识到诸如 字母、词、词干等之类的术语的使用不仅限于运些应用,并且可用来促进容易地阅读和理解 运里的论述。
[0063] 为了在此的论述,T9系统至少包括S个组件:
[0064] ?综合层。运个组件包含用户界面化I),并管理在设备与T9内核之间的通信。通信 可W通过基于事件的或基于功能的API来进行,W下论述。
[0065] ?内核引擎,例如已知为T9内核的内核引擎,其由Tegic提供。
[0066] ?-个或多个语言数据库化DB)。每一个LDB都包含与特定语言有关的信息。T9使 用该信息来为该语言产生词列表。LDB例如可W包括按字母顺序的T9LDB,中文T9LDB,及韩 文T9LDB中的任何一个。
[0067] 补充数据库
[0068] 按字母顺序的T9和中文T9实施可W包括W下补充数据库:
[0069] ?用户数据库(按字母顺序的T9)。按字母顺序的T9UDB包含由用户输入的惯用词。 传统地,运些是不能由LDB产生的词,例如姓名、电子邮件地址和即时消息发送ID。数据库还 包含与用户选择词一惯用词和来自LDB的词一的频繁程度有关的信息。
[0070] ?上下文关系数据库(按字母顺序的T9)。按字母顺序的T9CDB包含与用户W前输 入的词有关的信息。T9需要该信息用于其下一词预测和CDB词完成特征。上下文关系数据库 包含近来输入的词。按字母顺序的T9使用该信息来在选择列表中提供预测的和完成的词, 并在选择列表中重新排序完整和完成的词。
[0071] ?制造商数据库(按字母顺序的T9)。按字母顺序的T9MDB包含想要对T9用户可用, 但通常不能由LDB产生的词。MDB条目可W包括地理位置,证券报价机符号和URL。
[0072] ?中文用户数据库(中文T9)。中文T9CUDB包含用户输入的字符短语,即一起构成 短语的中文字符串。
[0073] ?中文自动记录用户数据库(中文T9)。中文T9CAUDB包含近来输入的来自中文 T9LDB的字符。
[0074] 产生选择列表词
[0075] 当用户输入有效的按键序列时,按字母顺序的T9检查其数据库化DB,UDB,CDB和 MDB),寻找匹配该按键序列的词。
[0076] 设计按字母顺序的T9选择列表用于提供用户最有可能想要的词,其基于1)用户输 入该词的频率,2)在该语言中运个词的常用程度,及3) W前的其中输入了运些键的上下文 关系,W使得运些词出现在选择列表的开头。
[0077] 选择列表项的相对顺序取决于允许实施哪些数据库,和允许实施哪些特征,例如 选择列表重新排序和词完成及词预测。
[0078] 在按字母顺序的T9的选择列表中的第一个词是默认激活的。术语激活的词指的是 当前激活的选择列表词。
[0079] W下给出选择列表顺序的实例。其假设已经输入了运些键,且没有禁用任何T9数 据库或数据库特征。
[0080] 1)按键序列长度的CDB词。
[0081] 2)按键序列长度的重新排序的(经常使用的)LDB和惯用用户词。
[0082] 3)按键序列长度的顶端LDB词。
[0083] 4)按键序列长度的不经常使用的惯用词。
[0084] 5)按键序列长度的不经常使用的制造商(MDB)词。
[0085] 6)按键序列长度的剩余LDB词。
[0086] 7)比输入的按键序列长的CDB词惟些由T9完成)。
[0087] 8)比输入的按键序列长的惯用的和制造商词(运些由T9完成)。
[0088] 9)多个数据库查询的结果的词。运些试图匹配ML及其它长序列。
[0089] 处理接受的词
[0090] 当用户通过将光标从词移去(按下对应于T9按键值T9KEYRIGHT或T9KEYLEFT的键) 来接受激活的词时,按字母顺序的T9:
[0091 ] ?如果其在UD帥作为惯用词,就调整该词的选择频率值。
[0092].如果其在LDB中,且没有禁用按字母顺序的T9的选择列表重新排序特征,调整该 词的选择频率值。
[009引当用户通过输入空格(按下对应于T9按键值T9KEYSPACE的键)来接受激活的词时, 按字母顺序的T9执行W上动作,W及W下动作:
[0094] ?如果UDB和LDB还没有包含运个词,将在新近输入的空格与其之前的空格之间的 全部字符添加到UDB作为惯用词。
[00M].将在新近输入的空格与其之前空格之间的全部字符添加到CDB。
[0096] 数据处理部件
[0097] 如上所述,本公开内容的一些硬件的方面与图1的设备和图2的系统有关。在图2-3 的每一个中,有各种子部件,其每个都可W通过一个或多个硬件设备、软件设备、一个或多 个硬件或软件设备的一部分,或前述的组合来实现。W下参照示范性数字数据处理设备、逻 辑电路和信号承载介质,更详细地说明运些子部件的组成。
[0098] 示范性数字数据处理设备
[0099] 如上所述,可W W各种方式来实现本公开内容的数据处理实体。一个实例是借助 于图2A的数字数据处理设备200的硬件部件和相互连接来作为示例的数字数据处理设备。
[0100] 设备200包括连接到数字数据存储器204的处理器200,例如微处理器、个人计算 机、工作站、控制器、微控制器、状态机或其它处理机。在提供的实例中,存储器204包括快速 访问存储器206, W及非易失性存储器208。快速访问存储器206可W包括随机存取存储器 ("RAM"),并可W用于存储由处理器202执行的编程指令。非易失性存储器208可W包括,例 如,电池后备RAM、EEPR0M、闪存PR0M,一个或多个磁性数据存储盘,例如"硬盘"、磁带驱动器 或任何其它适合的存储设备。设备200还包括输入/输出210,例如线、总线、电缆、电磁链路, 或用于处理器200与在设备200外部的其它硬件交换数据的其它装置。
[0101] 尽管有前面特定的描述,普通技术人员(得益于本公开内容)会认识到在不脱离本 发明的范围的情况下,可W在不同结构的机器中实现上述设备。作为特定实例,可W去除部 件206、208中的一个;而且,可W在处理器202的板上提供存储器204、206和/或208,或甚至 在设备200之外提供。
[0102] 信号承载介质
[0103] 在执行本公开内容的数据处理方面时,运些中的许多个都可W使用一个或多个计 算机可读的信号承载介质。运种介质确实的具体表现可由如下所述的数字处理设备执行的 机器可读指令的程序。在一个实例中,可W执行机器可读指令,来实施与本公开内容有关的 各种功能。例如W下更详细说明的操作。在另一个实例中,在执行时,指令用于将软件程序 安装在计算机上,其中可W独立地执行运种软件程序,来完成与本公开内容有关的其它功 能,例如W下所述的操作。
[0104] 在任何情况下,信号承载介质都可W采取不同形式。在图2A的背景下,运个信号承 载介质可W包括,例如存储器204或另一信号承载介质,例如图2B的光存储器250,其可由处 理器202直接或间接地访问。无论是被包含在存储器206、磁盘250或其它位置中,指令都可 W被存储在各种机器可读的数据存储介质上。一些实例包括直接访问存储器(例如常规的 "硬盘",廉价磁盘冗余阵列("RAID"),或另一直接访问存储设备("DASD")),串行访问存储 器,例如磁带或光带,电子非易失性存储器(例如,ROM、EPROM、闪存PROM,或邸PROM),电池后 备RAM,光存储器(例如CD-ROM, WORM, DVD,数字光带),或者其它适合的机器可读的信号承载 介质。
[0105] 逻辑电路
[0106] 与上述的信号承载介质和数字数据处理设备相比,一个本公开内容的不同实施例 使用了逻辑电路来代替计算机执行的指令W实现各种处理方面。图2C显示了集成电路260 形式的逻辑电路的实例。
[0107] 取决于应用在速度、费用、加工成本等方面的具体要求,可W通过构建包含数W千 计的微型集成晶体管的专用集成电路(ASIC)来实现运个逻辑装置。可W用CM0S、T化、VLSI 或另一适合的结构来实现运个ASIC。其它备选方案包括数字信号处理忍片(DSP)、分立电路 (例如电阻、电容器、二极管、电感器和晶体管)、现场可编程口阵列(FPGA)、可编程逻辑阵列 (PLA)、可编程逻辑器件(PLD)等。
[010引操作
[0109] 已经说明了本公开内容的各种结构特征,现在将说明本公开内容的操作方面。
[0110] 预测下一词
[0111] 图3是显示示范性下一词预测方法的流程图。随着输入文本,将词按用户输入其的 顺序存储在CDB中。当用户输入一词(300)时,如果运个实施方案包括CDB,按字母顺序的T9 尝试预测所希望的下一词(302)。按字母顺序的T9在CDB中捜索(304)最近输入的词的第一 次在前出现。如果按字母顺序的T9找到该词(306),将在数据库中出现在其之后的任何词提 供给用户,作为预测的词(308)。如果没有找到该词(306),处理完成,T9等待下一按键输入 (314)。如果用户接受预测的词(310),就处理该词;T9记录该词的使用(316)。如果用户不接 受该词(310),但按下"下一个"键(312),就在CDB中捜索刚输入的词的下一个最近出现 (318)。如果找到,就将在数据库中其之后的词呈现为预测(306和308)。如果用户不接受该 词(310),又没有按下下一个键,就没有完成任何处理,T9等待下一个按键输入(314),如与 图4相关联而进一步说明的。
[0112] 按字母顺序的T9创建预测词的选择列表。在选择列表中的预测词的最大数量取决 于#定义常数T9MAXCDBMATCHES的文字值。将运个常数设定为6,除非指定了不同的值。
[0113] 用户使用在T9中选择并接受一词所用的相同过程选择并接受预测词。在用户接受 了预测词之后(310),按字母顺序的T9处理该词(312)。本领域技术人员能够认可所公开的 系统可W用于与T9不同的其它消除歧义系统,W及与按字母顺序的T9之外的T9的其它形 式。
[0114] 处理词
[0115] 图4是显示在示范性的下一词预测方法中的词处理的流程图。当用户按下空格键 (400) W指示新词的开始时,按字母顺序的T9:
[0116] ?如果UDB和LDB还没有包含该词(402),就将在新近输入的空格与其之前的空格 之间的全部字符添加到UDB作为惯用词(404)。
[0117] .将在新近输入的空格与其之前的空格之间的全部字符添加到CDB(406)。
[0118] ?如果其在UDB中作为惯用词(408),就调整该词的选择频率值(410)。
[0119] ?如果其在UDB中作为LDB的重新排序的词(414),就调整该词的选择频率值 (410)。
[0120] ?如果其在LDB中,且没有禁用按字母顺序的T9的选择列表重新排序或LDB词完成 特征(412),就作为LDB重新排序的词,将该词添加到UDB(416)。
[0121] 按字母顺序的T9上下文关系数据库
[0122] W下论述说明如何执行并操作按字母顺序的T9上下文关系数据库(CDB)的实例。 CDB包含与近来输入的词有关的信息。按字母顺序的T9使用该信息来在选择列表中包括预 测的和完成的词。尽管按字母顺序的T9仅对于符合当前激活的按键序列的词检查它的其它 数据库,按字母顺序的T9还检查CDB,用于最近接受的词,即最近输入的非激活的词。CDB词 不必必须与激活的词相匹配,W被包含在选择列表中。对于其仅在不存在激活的按键序列 时出现(在一个实施例中)的预测的词,CDB匹配取决于在激活的词之前的词。对于完成的 CDB词,该匹配取决于在激活的词之前的词和激活的词的按键序列。
[0123] 如果按字母顺序的T9在CDB中找到用户已输入的词,按字母顺序的T9就建议将在 CDB中紧接着的词作为预测的词。例如,如果CDB包含词对"text meSsage",且用户输入了词 "text",并随后按下空格键,按字母顺序的T9就将"message"放在选择列表中作为预测的 词。
[0124] 此外,如果按字母顺序的T9在CDB中找到用户已输入的词,如果该词与激活的按键 序列相匹配的话,,按字母顺序的T9就建议将在CDB中紧接着的词作为完成的词,尽管完成 的词包含额外的字符。例如,如果CDB包含词对"text message",且用户输入了词"text",添 加了空格,随后输入按键序列6-3-7-7,其对应于词"message"中的前四个字母,按字母顺序 的T9就将"mes sage"放在选择列表中作为完成的词。
[0125] 在一个实施例中,CDB词完成操作独立于UDB惯用词完成,LDB词完成和MDB词完成。
[0126] 实现 CDB
[0127] 为了实现按字母顺序的T9CDB,综合层应:
[01 %] 1、为数据库分配永久存储器。
[0129] 2、调用 T9AWC 化 Ac t i va t i ve 来激活 CDB。
[0130] 3、指明CDB的大小。
[0131] 4、如果有需要,复位数据库。
[0132] 5、如果有必要,指示综合层将数据写入到数据库。
[0133] 6、如果有需要,禁用下一词预测。
[0134] 7、如果有需要,禁用CDB词完成。
[0135] 8、处理由T9提交的请求。
[0136] 9、在T9终止后,将数据库复制到永久存储器。
[0137] 上述实现过程假设CDB被存储在非易失性存储器中,且在激活CDB操作之前,将CDB 数据复制到RAM。如果使用了不同的存储型号,可W不使用W上一些步骤。
[0138] 分配永久存储器
[0139] 综合层必须分配永久存储器来存储CDB。当综合层通过调用T9AW01bActivate来激 活CDB操作时,其将CDB从永久存储器复制到RAM。参考该数据库作为CDB数据结构的实例 (T9AW(MbInfo)。
[0140] 激活CDB操作
[0141] 如果不存在现有的CDB,例如在设备上首次激活CDB操作,综合层就必须将全部 T9AW01bInfo结构字段值初始化为0。如果综合层已经从永久存储器将现有CDB复制到RAM, 其就不应修改任何T9AW01bInfo结构字段值。
[0142] 综合层通过调用T9AW01bActivate来激活CDB操作。当综合层调用该函数时,其将 指针提供给CDB数据结构的实例(T9AW01bInfo),已经为它分配了存储器。
[0143] 在综合层激活了启用的CDB操作后,按字母顺序的T9自动捜索CDB。按字母顺序的 T9捜索CDB的信息类型取决于是否存在激活的按键序列:
[0144] ?如果存在激活的按键序列,按字母顺序的T9就在CDB中捜索与该按键序列相匹 配的词。
[0145] ?如果不存在激活的按键序列,按字母顺序的T9就在CD帥捜索最近输入的词。按 字母顺序的T9需要该信息用于下一词预测。
[0146] 指明CDB的大小
[0147] CDB 的大小由 T9AW01bInfo.wDa 化 Size 来指明。wDataSize 字段指明 T9AWC化 Info 总 的大小。运包括其中存储CDB数据的数据区,T9所用的几个相关的变量,及由编译
当前第2页1 2 3 4 5 6 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1