以自然语言进行移动式信息访问的方法和设备的制作方法

文档序号:6553641阅读:217来源:国知局
专利名称:以自然语言进行移动式信息访问的方法和设备的制作方法
技术领域
本发明涉及一种使用移动通信装置进行移动式信息访问的方法和设 备。更具体来讲,它涉及一种使用小型移动通信装置进行移动式信息访问的 方法和设备,而该小型移动通信装置具有受限帝啲接收和输出访问信息的能 力。
背景技术
移动通信装置除提供用于个人、人际通信的实际手段之外,其进一步应 用是通过访问驻留在一个机器上的远程信息源为用户提供具有满足她的或 他的信息需要的能力。一个重要例子是使用移动通信装置搜索信息。对移动通信装置为此目的搜索信息的效率的重要约束是 由于受限制的信道能力造成发送大量数据缓慢;-移动通信装置和信息提供者间的用于发送信息的消息协议采用的格式受限制,例如短文本消息(SMS)的160个字符限制; 当输入文本时移动通信装置的键盘小并且不方便使用;-在输出端,移动电话或其它装置通常只有很小的显示器,用于给用户显7jvf言息o传输容量和消息、键盘及显示尺寸柳艮制通常要求搜索査询和应答也必 须受尺寸限制。关于搜索査询,用户必须能够提供非常短和简明的查询。关 于应答,应答系统必须能够产生非常简明和相关的应答。简明的查询和应答可以通过特定范围系统实现,其中特定范围系统只允 许非常受限制的、定义了范围的査询,并提供访问以预定结构化数据。在以 下位置/范围中这个是足够的,其中可能的査询组是公知的,并且查询具有 公知的结构。如果査询是公知的,那么在高速缓冲存储器或专门数据库引擎
中的查找通常足够用来检索正确和相关的应答。该方法的一个例子是查询火 车时间表,可以把它识别和分解为一个简单的模板(起点,目的地,时间), 并且可以从结构化数据库中重新准确地检索到信息。特定范围信息检索系统在下面公开:Gallwitz, F., M.Aretoulaki, M.Boros, J.haas, S.Harbeck, R.Huber, H.Niemann,禾卩E.N6th的"Erlangen发言对话 系统EVAR:最新技术水平情报检索系统"(在1998年国际讨论会中关于 发言对话的会议记录中(98年发表),第19-26页,澳大利亚,悉尼,1998 年11月,黄学东、AlexAcero和Hsiao-WuenHon (2001)的"口语处理理 论指导、算法和系统开发",Prentice Hall PTO和Young, S. (2002)在剑桥 大学工程系的技术报告CUED/F-INFENGATR.433中的"发言对话系统设计 的统计学方法"。然而,特定范围方法通常在可以处理的查询方面不很灵活。此外,实现 的代价高并且它通常只覆盖非常有限的范围。换句话说,并且尤其是如果査询的范围(domain)不是公知的,那么可 以使用第二种方法。这通常是开放范围或更通常是混合(特定范围的和开放 范围的)方法具有对査询和对其范围的知识了解很少时,它仍试图通过分 析结果检索相关的应答。最近,这个第二种方法已经得到更多注意,由于因特网上有大量以超文 本文件的形式存在的免费信息。在那一点上,可通过全球网络系统(WWW) 访问的任何检索引擎也可通过使用WAP (无线存取协议)的移动式电话进 行访问。例如都经由WAP的基于关键字的'Google Wireless'检索服务(http: 〃www.google.com/options/wireless.html)禾口基于关键字的'Yahoo! Mobile, 检索月艮务(http: 〃mobile.yahoo.com/search)。然而,如果输入输出不是特别适用于移动式环境,那么将十分不便使用。在移动式空间中搜索信息当前是两个步骤处理用户首先必须找出他或她在 哪里可以获得信息,和第二步,去那里并满足正确的需要信息。在台式计算机上,第一步通常使用基于因特网检索引擎(如Google或 Yahoo)的关键字执行,其返回一个列超链接地址,其中可以找到信息本身。 因为可以显示众多结果,所以台式计算机屏幕的大型尺寸使得基于关键字的 检索在台式计算机上有效率。甚至当不是所有结果都恰当时,这个处理仍然 工作。用户人工点击鼠标到表面上恰当的站点,而且如果网站似乎包含所探
求的信息,那么他们浏览以找到它,由于它包含众多进一步的步骤因而很复 杂。另一方面,在一个移动式的方案中,由于没有鼠标而且屏幕更小,因此 导航更加困难,它需要更多的手工导航步骤(例如滚动、换页等等)。因此, 仅仅在移动通信装置上模仿台式计算机机构是不够的。因此,当访问基于网页的査询-应答系统时,例如检索引擎时,必须调 整査询和应答机构以更适合移动用户的需要,。在J.-D.Ruvini的"在小型装置上适应于用户的因特网检索策略"(在 2003年美国佛罗里达的迈阿密举行的第8界国际信息处理会议中的关于智 能用户接口的第284-286页)中描述了一种方法,它向Google检索引擎显 示前端为移动电话提供网络浏览。另一种方法是通过SMS的基于关键字的GoogleSMS检索(http: 〃www.google.com/sms )。这里,覆盖范围通常比自顶向下的方法中的大,然而,由于底层数据 的未结构化性质,很难实现相关和准确的应答。结果,可能必须发送一些短 消息以确保包括恰当的应答,需要在移动通信装置上提高存储容量,而使用 户不便读取。然而,即使那样,也并非理所当然会接收到相关的应答。发明内容本发明的一个目标是适配应答的组成,使它满足当前移动装置的资源限 制,而同时保留/获得与应答的高度相关性,即确保包含针对问题的正确答 案的高概率。本发明的另 一个目标是增加移动式查询-应答系统的可用性。 根据本发明,通过按照独立的权利要求1的一种用于移动式信息访问的方法,和通过按照权利要求15的一种用于移动式信息访问的设备,来实现这些目标。在附属的权利要求中定义优选的实施例。通过提供一个将查询作为自然语言问题或语言短语的接口并使用语言工具来分析它们,提高检索结果的相关性,并且因此可以相应地减少应答的大小,使为用户提供一个恰当的回答成为可能,而不管他的移动通信装置的资源限制。通过另外提供一个用户的简档表,移动通信装置或用户通过标识号为系
统所知或识别,进一步地用于提高为特定的用户自动提供应答的关联性,特 别是因为装置参数的固有知识。此外,借助于使用关于用户的信息和他或她 的移动通信装置,用户的简档表也确保可靠的用户经验,不需要再进入这个 简档表信息,并借助于使用这种先前的上下文知识的优点来把考虑的候选应答的数目(步骤650)约束到更可能符合用户需求的一组。根据这个权利要求的形成自然语言问题的接口提供统一的对结构和未结构化信息源的访问。当参照附图阅读以下详细说明时,进一步的特性和优点将明显化。


图1是一个示例系统的示意图,其中根据本发明的在移动式信息访问服务器上执行移动式信息访问方法。图2显示根据本发明的移动式信息访问方法的实施例的示意图。图3显示根据本发明的移动式信息访问方法的实施例中一个消息分析的示意图。图4显示在分析图3中显示的消息的分析期间提取的问题的语言分析 细节。图5显示根据本发明的信息检索方法的实施例中的査询应答的语言处理。图6显示另一个根据本发明的移动式信息访问方法的实施例的示意图。 图7显示图2中说明的本发明实施例中使用的可能的用户的简档表内 容的表格。图S显示根据本发明的移动式信息访问方法的示意性输出。 图9显示根据本发明的移动式信息访问设备的实施例。
具体实施方式
图1是示例系统的示意图,其中在移动式信息访问服务器上执行根据本 发明的移动式信息访问方法。在图1中,参考标志IOO表示移动通信装置,例如蜂窝电话、智能电话、个人数字助理(PDA)、可佩带的装置等等。每个移动通信装置100通过无线通信网络110通信,根据本发明,例如
电话网或无线局域网、具有移动式信息访问服务器160的网关120和因特网 140。网关120在无线通信网络110到因特网140间桥接通信,反之亦然。移动式信息访问服务器160与提供非结构化数据的一个或多个非结构 化数据源130,以及与提供结构化数据的一个或多个结构化数据源150相连。非结构化数据源可以包括,但是不局限于本地索引全文集合、内部网 检索引擎及特别的因特网/全球网搜索引擎。结构化数据来源可以包括,但是不局限于简单的联机访问协议 (SOAP)网络服务、关系数据库或半结构化XML库(例如索引资源描述 格式(RDF)数据和真实简单辛迪加组织(RSS)流。图1中未显示,但也在示例系统中出现的是与因特网相连的大量的文件 服务器,其中根据本发明的移动式信息访问的方法在移动式信息访问服务器 上执行,文件服务器提供例如以HTML (超文本标记语言)页面的形式的文 件,由例如因特网搜索引擎130对其进行索引。图2显示根据本发明的移动式信息访问方法的实施例的示意图。在步骤200中,移动式信息访问服务器160接收源自移动通信装置100 的消息。在步骤210中,分析接收的消息;特别是从査询中抽取用自然语言的问 题或语言短语。详细的分析过程将随后参考图3进行描述。语言短语象'爱 丁堡的餐馆'将被当作问题。可以给它们分配缺省的问题类型。在步骤220中,根据从信息中抽取的问题或短语以及根据在步骤210 中的随后分析来构造查询。首先,导出一组关键字和关键短语作为基本搜索 引擎查询构成。然后用问题类型特定和范围特定的关键字展开这些,并考虑 到在文件查找引擎语法中的各个特性。另外,可以把限制算子添加到所述检索引擎査询中,以便把它聚焦在一 组主题相关文件或网址上,并且合并这种主题专用搜索与一般搜索。在步骤230中,从结构和非结构化数据源中以Web页面、数据库字节 组或XML树的形式检索信息。相对于各自搜索引擎执行在步骤220中获得 的査询,所述搜索引擎例如Google、 Yahoo!或MSN检索和类似数据库的 结构化信息源。因为可能已经把由文件搜索引擎提供的文件标识符或链接的列表看作 需要的文件,由于它们常常以所谓片断的形式提供相关信息连同文件识别
符。由此可以或者直接对这些文件进行摘要,或者由服务器下载由搜索弓摩 结果参考的文件,并分析/摘要这些下载文件。在本发明的一个实施例中,所有进一步处理都在搜索引擎概要片断(snippet)上执行。在另一个实施例 中,从搜索引擎检索恒定数量的文件识别符(例如超链接),并下载所涉及 的文件。在从未结构化和结构化的数据源获得结果之后,将它们合并。 在步骤240中,使用文本分析来分析检索结果以便指定候选应答。使用来自文本分析和上述问题分析的信息,从步骤230中获得的文件中抽取候选应答。在步骤中250中,验证候选应答,即按照似真掛应答的似然性减少的 顺序过滤和分级。根据相关标准(应答a比应答b好)排列候选应答以反映 应答的似然性。在步骤260中,应答概要由顶端的n个候选分量组成,考虑限制输出为 预定大小的需要。该预定大小可能取决于输出装置的显示大小、单文本消息 的最大尺寸或各个用户的喜好。取决于预定大小和检索到的候选应答片段的 数目n,其中n超过最小置信度阈值,考虑并合并数值c二f (s, n)个候选应 答A1, A2,…AN215,尽可能地格式化或用特殊符号(例如一条线或类似 7'的分隔字符)分开以形成应答概要。将该应答概要送回移动单元(108)。可选的,语音合成单元可以把该应 答概要转换为语音。图3更加详细显示了执行消息分析的步骤210。消息分析用于生成查询,用该查询输入搜索引擎,把这个问题归类到 一个宽泛但是公知的类别或问题类型,并生成关键字词条用于以后的流水 线。在步骤300中,首先确定消息是否由移动通信装置100以口语形式发起。 在这种情况下,它将在步骤中310中受到自动语音识别(ASR)。在步骤320中,从该消息中提取问题或短语。 一旦问题或短语分离,将 进一步分析它以便能够理解这个问题或短语,或者至少能够在期待的应答的 类型上得出某些推断。在步骤330中,使用语言问题类型模型计算该问题或者短语类型(寻求 什么类型的信息?)。由于问题M加利略什么时候出生?'是寻求时间的信
息,因此其应答不能是人名。同样导出这个问题或短语的焦点(寻求与哪个 信息有关的实体)(在这个例子中是伽利略)。在步骤340中,问题文本用于从语言学上分析这个问题,它使用一个 (组)包括词类(POS)标志、词干、按屈折变化形式归类、字节片、命名 实体标识、去除字意多义性和地名判定的语言模型。图4显示图3所示分析信息期间提取的问题的语言分析的细节。 标志化将问题(步骤400)分解为标志。按屈折变化形式归类(未显示)生成每个字的规范形式,例如术语"are" 生成"be"。POS标识(步骤410)用语法上的标识符标注标志,例如用JJ表示形 容词术语"大"。命名实体标识识别和分类专有名词,例如人名或者位置名、日期与时间等等。字节片是指非递归合成字句的识别及分类,例如动词组,名词组,命题组。图5显示根据本发明的移动式信息访问方法的实施例中的检索结果的 语言处理。在步骤510中,检索结果可能是规范的,S卩,文本可能必须与适合检索 引擎的元数据分离,或者从特定格式(例如HTML)转换成纯文本。在步骤520中,如图4和上述描述所示执行类似的分析,现在对规范化 的检索结果进行描述。在步骤530中,所有与问题类型单元兼容的文本单元(例如,"2月14 日"是一个日期,其与"什么时候"的查询兼容,"而伊莎贝拉"是名字, 其与"谁"的问题)兼容,和依照它们对该问题进行应答的似然性进行验证 /分级,产生称为'等级'的记录,该记录考虑了语言上下文,由从其中提 取回答候选的文档上下文的语言分析结果和语言问题分析单元的结果给出 该语言上下文,。具有最高等级的N个候选应答用作在应答概要组成步骤540的输入,其 中考虑到消息大小约束条件及其它从用户简档表得到的属性来组成应答概 要。图6显示根据本发明的移动式信息访问方法的更进一步的实施例。以下
描述将集中在与图2中显示的方法的特殊差异上。在这个实施例中,该消息也包括标识符,以便根据接收的消息来识别移动通信装置,例如在步骤610提取和存储的电话号码。在步骤620中,发起消息的移动通信装置的标识符用于检索用户的简档表。用户简档表用于协商查询它是否包含关于该移动通信装置特殊属性的知识(包括但不限于显示尺寸、分辩率、色彩数量、图形显示能力、声音 能力、和播放电影的能力),以及检索优选用户主题区域(包括但不限于 琐事/一般知识、运动、电影等等,或者自定义站点)。在问题分析处理中,来自简档表的该信息用于提炼査询结构,以使其偏 向用户优选区域,并同样地使候选应答提取及验证偏向优选区域,可选地, 使用在一组主题区域中感兴趣的预先表示的优先级顺序。在步骤630中,考虑到个别偏爱,根据确定的问题类型和提取的关键字/关键短语,还可以构造一个搜索引擎查询或者一组搜索引擎查询。例如, 用户可能想要设置他的简档表,以限制他的搜寻在世界杯期间在足球范围内 (因此只指向足球网站和网络服务)。或者,他或她可能仅仅想要表示对时 尚的兴趣比金融信息优先,以便不从财经网站或服务中寻求关于问题的应答。另外,可以根据从用户简档表检索的主题区域信息执行对特别站点的特 别搜索。考虑至鹏寻引,信息检索引擎的语法的怜性(例如类似"+"的特 殊算符以确保页面"+足球规则-法律"中必须存在某些字),将这样提取或 形成的短语或关键字转换为搜索引擎或信息检索査询。在步骤650中,候选应答提取和验证步骤,也考虑用户用户偏好和喜爱例如,用户的简档表反映对运动领域的强烈兴趣及对政治领域缺少兴趣的用 户,通过添加或去除指示各个领域的查询成分,寻求用于査询结构检索(步骤630)的以前领域的文件而回避以后领域的文件。由此,分别以队列形式 提升和降级指示体育领域和政治领域的来自上下文的候选应答。在步骤660中,应答概要组成步骤,从存储在用户简档表中的移动装置 自身的类型和模型有关的信息得到限制其输出的预定尺寸。基于以上所述信息,对于移动装置最合适的应答概要,用户使用呼叫方 标识发送问题以标识他或她的简档表记录。取决于从用户的简档表s得到的
喜好或学术上的移动装置最大信息尺寸限制(例如在SMS的情况下),并且 候选检索应答片断的数目n超过一个最小置信度阈值,数值c^f (s, n)个 候选应答A1, A2,…AN215由概要组成模块216考虑并合并,尽可能地格 式化或用特殊符号(例如一条线或分隔字符如7')分开,以形成应答概要 217。另外,保持在用户的简档表中的用户移动通信装置的属性可以用于组成应答概要,以创建使用移动通信装置能力概要例如,在本发明可能的实施例中,如果该移动用户的移动通信装置具备彩色显示,那么应答概要的重要 部分(例如标题、候选应答短语头部)可以显示为不同色彩。此外,根据用户的简档表设置,结果应答概要可以以文本(潜在包含图 像和电影)或语音(在这种情况下引用语音合成模块)呈现。最后,将输出发送给移动通信装置。图7显示可能具有移动式用户的简档表内容的表,包含特定于移动装置 和移动装置的所有者的参数。用户的简档表存储关于用户和他或她的移动通信装置的标识、认证、以 及用来向用户调整移动式信息访问服务器的行为的数据。在移动式信息访问服务器中用用户标识符(用户ID)识别彼此。在一 个基于因特网的用户的简档表运转图形用户界面,暗号(密码)限制用户自 己只能访问其简档表。保持一列用户标识特征(呼叫方标识),包括但不限 于用户呼叫标识,例如移动电话号码,当从用户的简档表中检索用户信息时, 其用作关键字。在存储中保存用户的移动装置的属性和能力(移动装置信 息),包括是否支持类似色彩或亮显的特征屏幕的大小和分辩率移动通信装 置是否分别支持SMS、 EMS和MMS、它是否是3 G电话、它是否能够将 多个文本信息合并为一个。 一列偏爱(用户偏好)存储用户喜好的系统行为, 包括但不限于主题区域重要意义的绝对和相对顺序、应答信息的最大数量 (例如SMS (存储管理服务)的最大数量)要求、是否适当考虑发送MMS (模块化存储系统)、和用户是否可接受附加广告。布尔寄存器(位置了解标记)存储用户是否明示同意自动位置检测,由 此允许考虑发送査询的用户的移动通信装置,以改进该搜寻(基于位置的搜 寻)。用户的历史问题(问题历史)允许考虑先前的信息需要以改进检索结 果。 一列喜爱的网站和服务(喜欢的事物)允许把搜寻聚焦在这些更可能与 用户需求相关的站点上。如何与用户的电子邮件存储连接的有关信息(电子 邮件帐户)允许从用户的个人信息检索。帐户余额存储与用户帐单有关的信 息,例如奖赏方案中的货币或虚拟的信用点帐户。图8显示根据本发明移动式信息检索方法生成的应答的实施例的格式。应答概要包括一组应答候选窗口 (802到807),该窗口每个都包含一个确切 的应答候选,由左边(804)和右边(805)的上下文围绕(g卩,在其被找到 的文件中围绕应答候选的文本)。在一个实施例中,应答候选窗口由分隔符标志(例如,但不限于字符"/") 分隔808,以标记边界,来防止混淆用户。在一个实施例中,包含最可能应 答的应答候选在初始位置806插入,其没有任何上下文,以确保在应答可能 很长的情况下,在最后的应答候选窗口 807之后的截止不会导致丢失最佳的 应答候选。图9显示根据本发明的用于移动式信息访问的服务器的实施例的结构图。移动式信息访问服务器包括用于从移动通信装置接收消息的接收器 900和发送器901,其将消息发回到移动通信装置。语音识别单元910、问题类型单元920、问题分析单元921、和用户简 档表存储器940的输入与接收器900的输出相连。语音识别单元910也与问 题类型单元920、查询分析单元921和接收器900相连接。问题类型单元920 的输出和查询分析单元921与査询构造单元930的输入连接。该査询构造单 元的输出与检索单元950的输入相连接。用户的简档表的输出与查询构造单元930的输入、归券验证单元970 和应答概要单元980相连接。检索单元的输出与候选应答和提取单元960的输入相连接。候选应答的 输出和提取单元与应答概要组成单元(980)的输入相连接。应答概要组成 单元(980)的输出与语音合成单元(911)和发送器(901)的输入相连接。 语音合成单元的输出也与该发送器相连接。
权利要求
1.一种用于移动式信息访问的方法,其在网络计算机系统中执行,该网络计算机系统包括至少一个移动式信息访问服务器和一个或多个信息检索系统,该方法包括步骤从移动通信装置接收消息;分析接收到的消息;根据消息分析形成一个或多个查询;根据该一个或多个查询获得文件;从该文件中提取候选应答;验证候选应答;组成应答概要;发回该应答概要到移动通信装置,其特征在于该应答概要受限于预定的尺寸。
2. 根据权利要求1的方法,特征在于根据以下一个或多个条件限制应 答概要的大小-移动通信装置的最大显示尺寸; -移动通信协议的最大消息尺寸; -各个用户的喜好。
3. 根据权利要求1或2的方法,特征在于分析接收到的消息的步骤包 括从消息中用自然语言提取一个问题或语言短语的步骤。
4. 根据权利要求3的方法,特征在于分析接收到的信息的步骤还包括 确定从消息中用自然语言提取的该问题或短语的类型和语言属性的步骤。
5. 根据前面任何一个权利要求的方法,特征在于还包括步骤 -检验该消息是否以语音形式接收;以及,如果是,-借助于自动语音识别将该消息从语音转换为文本形式。
6. 根据权利要求4或5的方法,特征在于形成一个或多个査询考虑了该提取的问题或短语是否涉及一个命名实体。
7. 根据前面任何一个权利要求的方法,特征在于自动识别用户和t艮据 该识别来检索用户的简档表。
8. 根据权利要求7的方法,特征在于从用户的简档表中获取一个或多 个以下内容--移动通信装置的最大显示尺寸; -移动通信协议的最大消息尺寸; -各个用户的喜好。
9. 根据权利要求7或8的方法,特征在于形成一个或多个查询的步骤 还基于从用户简档表获得的信息。
10. 根据权利要求7到9中一个的方法,特征在于提取应答候选的步骤 还考虑了从用户简档表获得的信息。
11. 根据权利要求7到10的方法,特征在于验证应答候选的步骤还考 虑了从用户简档表获得的信息。
12. 根据权利要求7到11的方法,特征在于组成应答概要的步骤还考 虑了从用户简档表获得的信息。
13. 根据前面任何一个权利要求的方法,特征在于组成应答概要的步骤 生成应答概要,该应答概要包括一组应答候选窗口,这些窗口每个都包含确 切的应答候选,并由左边和右边的上下文围绕。
14. 根据前面任何一个权利要求的方法,特征在于组成应答概要的步骤 生成应答概要,在应答概要中,将包含具有最高验证等级的应答的应答候选 插入在没有任何上下文的初始位置。
15. —种用于移动式信息访问的设备,包括 从移动通信装置接收消息的单元; 分析接收到的消息的单元; 根据消息分析形成一个或多个查询的单元; 基于一个或多个查询获得文件的单元; 从文件中提取候选应答的单元; 验证候选应答的单元;组成应答概要的单元,其中应答概要受限于预定的尺寸;和 发回应答概要到移动通信装置的单元。
全文摘要
一种在一个网络计算机系统中执行的移动式信息访问的方法,该系统包括至少一个移动式信息访问服务器和一个或多个信息检索系统,该方法包括步骤从一个移动通信装置接收信息;分析接收到的信息;根据该信息分析形成一个或多个查询;根据该一个或多个查询获得文件;从该文件中提取候选应答;验证候选应答;组成一个应答概要;将该应答概要发回到移动通信装置,其中该应答概要限于预定的尺寸。本发明同样描述了一种用于移动式信息访问的设备。
文档编号G06F17/30GK101120341SQ200580047695
公开日2008年2月6日 申请日期2005年2月6日 优先权日2005年2月6日
发明者约亨·莱得勒, 蒂普海恩·达尔马斯 申请人:凌圭特股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1