用于智能文本注释的方法、系统和计算机程序的制作方法

文档序号:6477776阅读:152来源:国知局
专利名称:用于智能文本注释的方法、系统和计算机程序的制作方法
技术领域
本发明一般涉及文字处理的领域;更具体地讲,本发明应用于注 释文本文档的方法。
背景技术
利用文字处理器,可通过对文本的多个部分加下划线或高亮、在 页边空白或在文档中的任何位置的文本框中写入文本来注释文本。这 便利和加快了文本解释。此外,如果文本注释功能与语义模型相关, 则所述文本注释功能能够提供有用的知识,所述知识帮助用户甚至更 好地解释文本,便利他们采取一些快速动作。这还可以大大地增强许 多与文本相关的应用(诸如文本分类、主题检测和文档检索)的准确 度。 一些应用,诸如微软Word中的智能标签(Smart Tags),当被 启用时,识别数据的类型,诸如名称、日期或电话号码,并包含为每 种数据类型提供一个或多个动作所需的逻辑。可进行的动作取决于被 Word识别并用智能标签标记的数据类型。例如,如果在文本中识别 出"人名",则可进行下述动作诸如打开联系人、安排会议、添加 到联系人或插入地址。如果用户选择例如"添加到联系人",则启动 相应的用于更新联系人列表的Outlook功能,用户可非常快地将该信 息粘贴到他的地址簿中。
然而,希望通过向文本提供更多知识并决定要执行的最佳动作来 提高文本解释。当今,没有向文本添加知识,或向文本添加了非常有 限的知识。

发明内容
本发明的一个目的是智能地注释文本以改进文本解释。根据权利要求1,该目的可利用在计算机上执行的方法来实现,
所述方法使开发者注释被用户读取的文本,所述方法包括
开发者创建主题地图,所述主题地图包含与用户相关联的兴趣主
题;
开发者为用户创建对应于主题模型的数据结构;
计算机自动地读取主题地图,并为每个主题存储包含主题名称和 知识结构的主题信息;
计算机自动地读取文本,并为文本中找到的每个主题检索存储的 主题信息并填写主题数据结构;
计算机将填写的主题数据结构作为注释自动地附于在文本中找到 的相应主题。
还利用从属权利要求的方法来实现本发明的目的。 根据权利要求10,还利用计算机程序产品来实现该目的,所述 计算机程序产品包含这样的程序代码指令,当在计算机上执行所述程 序时,所述程序代码指令执行根据权利要求1至8中的任一项所述的 方法的步骤。
根据权利要求11,还利用包含这样的装置的系统来实现该目 的,所述装置适合于执行根据方法权利要求中的任一项所述的方法。
方案的原理是提供一种语义模型,用于语义地结构化文本,以便 将文本中包含的信息变换为有用知识。
利用本发明的方法创建的文本注释将帮助用户更好地理解文本、 导航与所述文本相关联的知识、将所述文本的内容与他的知识体系关 联、并便利他进行一些相关的快速动作。
所述方案提供下述附加优点
1、 将由某个用户感兴趣的主题地图代表的知识体系嵌入文本, 以帮助恰当地解释所述文本,增加用户对所述文本的理解,并引导用 户进行与所述文本相关的正确的快速动作。
2、 支持基于语义模型的文本中的智能检索。
3、 允许文本的上下文内的知识导航,由此在正确的时间传递正确的上下文中的正确信息。
4、 不仅覆盖资源以上的元层,还连接元层内的资源(与文本相 关的)。
5、 能够支持基于文本语义结构的文本分类。
6、 能够使用来自其它源的标准化知识结构,诸如主题地图和从 主题地图创建的字典,所述主题地图和字典可被存储和重复使用。
7、 利用基于FSA的字典来改进创建注释的方法的性能。
8、 文本注释带来的知识包括与文本的被注释部分相关的动作, 所述文本读取器能够从文本界面激活这些动作。


图1描述了根据按照本发明优选实施例的创建文本注释的方法的 上下文和逻辑块。
图2是根据优选实施例的由设计者与用户上下文准备相关地建立 的主题地图的例子。
图3是根据优选实施例的基于FSA的主题字典的样本,用户上 下文准备的一部分。
图4描述了根据优选实施例的主题字典及其相关联的遍历字典中 的条目。
图5是根据本发明的优选实施例以UML描述的主题注释类。 图6描述了使用字典和动作数据库的内容实例化的主题注释类。 图7示例了根据优选实施例产生的、用户可看到的文本注释。 图8是根据优选实施例的方法的整体流程图。 图9是图8的流程图的一个步骤的流程图,描述了根据优选实施
例的主题注释类的实例4匕(instanciation )。
图10描述了用于用户访问根据优选实施例的方法创建的文本注
释的上下文和逻辑块。
具体实施例方式
6图1描述了特征化根据本发明的优选实施例用于创建注释文本的
方法的上下文和逻辑块。为用户准备文本注释的人(100)将是在计 算机(110)上工作的设计者或程序开发者。开发者首先通过图形用
户界面来准备主题地图,在所述主题地图中,开发者输入示例特定用 户的兴趣的互相关信息。该主题地图将按照用户感兴趣的主题来定向
知识的结构和内容,将用于该用户的文本注释。稍后参照图2的说明 在本文中描述主题地图的原理。保持主题地图数据库(130)存储已 经创建的代表用户兴趣的主题地图。作为一个程序或一组程序,在计 算机上运行注释器(150)来帮助开发者自动地执行用于注释文本的 方法的一些步骤。开发者首先让程序读取一个主题地图,并提取所有 必需的信息来创建与相应用户相关联的两个字典主题字典(170) 和遍历字典(160)。稍后参照图3和4的说明在本文中描述字典的 说明。在本发明的优选实施例中,文本注释包括与文本的主题相关联 的动作。在该情况下,开发者创建与主题地图的主题相关联的动作, 并将它们存储在数据库,即动作数据库(135)中。动作数据库(当 被创建时)和字典也是为用户创建他的文本注释的上下文的一部分。 上下文与一个用户相关联、或与由具有相同简档的人形成的一个群体
(诸如公司的一个部门等)相关联。为了开始创建(例如,从数据库 180获取的)给定文本的注释,开发者创建知识结构的数据结构。该 数据结构可以是数据库(140)中存储的以UML语言或任何其它建 模语言创建的注释主题类。如果在创建文本注释中考虑动作,则开发 者可决定创建包含"动作"对象的类。然后,开发者运行注释器
(150),所述注释器(150)识别文本的主题,并为每个识别的主 题,使用来自字典的信息自动地创建主题类的实例化。如果使用动作 数据库(135),则注释器将处理程序链接至实例化的主题类的动 作。然后,注释器通过将实例化的类附于在文本中找到的相应主题来 创建文本中的注释。然后,开发者创建GUI (用户GUI l卯),所述 GUI将允许读取被注释文本的用户通过例如茱单来以逻辑方式访问 该注释。给定主题地图的标准结构,可为所有用户的所有文本开发通用用
户GUI。然而,开发者可为一个用户或为一个用户的一个具体文本 定制用户GUI。
应注意,注释器是这样的程序,所述程序帮助为与任何用户、或 由具有相同简档的人组成的任何群体相关联的文本创建注释。事实 上,注释器能够读取任何ISO标准主题地图和以任何特定建模语言 写入的任何主题对象类。
即使开发者改变用于描述主题类的建模语言, 一旦定义了类,就 可使用同一注释器程序来实例化所述类,并在文本中包括注释。
图2是根据优选实施例,设计者与用户上下文准备相关地建立的 主题地图的例子。主题地图是用于描述知识结构,并将它们与信息资 源相关联的新的ISO标准,由此使得未被结构化的信息被结构化 (httD:〃www.topicmaps.org/xtm/1.0/)。主题地图包含知识体系,并 且由主题的集合构成,集合中的每个主题都代表一些概念。主题通过 关联彼此相关,所述关联是类型化的主题的n元组合。在图2中,主 题还可以通过其事件(occurence)与任何数量的资源相关。因为主 题地图定义了好的用于知识语义结构化的模型,所以主题地图的使用 允许智能地注释文本以实现上述目的。
图2的主题地图示例了与诸如微软和英特尔的其它公司一起工 作,并参与一些特殊技术领域中的特殊兴趣组的国际商业机器公司的 员工的兴趣和关系。图2的主题地图包括与他在公司中的员工等级和 在他的公司以外他的职业关系相关的主题。
图3是根据优选实施例的基于FSA的主题字典,用户上下文准 备的一部分。主题字典被用于发现文本中的主题。注释器使用与用户 相关联的主题地图作为输入,自动地建立用户的主题字典。图3描述 了包含下述内容的主题字典的一个条目
关键字,该关键字是字符序列;
与所述关鍵字相关联的一组属性,这些属性被分为逻辑組,每组 属性(称为"注解")包含特定类型的信息。
8优选实施例中的字典是基于FSA的,其中使用有限状态自动机 在字典中表示关键字,并将注释附于FSA中的终端结点。通过这种 方式,可由注释器极快地完成字典查找。给定由用户选择(或由他建 立或专为他建立)的表示他感兴趣的知识体系的主题地图,产生两个 相关联的字典,以便在文本文档中检测实体(主题),并检索在与该 主题相关的主题地图中表示的知识结构。
图4描述了根据优选实施例的主题字典和遍历字典中的条目。
主题字典的关键字是主题名称。与关键字相关联的值(注解)是 与该关键字(主题名称)相关联的主题标识符。例如,对于包含图4 中的第一条目(400 )的字典,当处理包含词"IBM"的文本时,字 典将检测该词并返回具有该名称的主题的标识符。
遍历字典被用于检索与给定主题相关的知识结构。当建立该字典 时,考虑了主题地图的一种特性,所述特性规定每个主题地图构成 (例如,主题、主题名称、事件、关联等)必须具有在地图上唯一的 标识符。该字典中的关键字是构成的标识符。并且与关键字相关联的 注解包含该构成的信息。遍历字典定义了多个注解类型,以保持与主 题地图相关的信息
主题注解:主题注解(410)包含
主题名称标识符用于检索该主题的名称;
类型标识符,用于检索该主题的类型(类);
事件标识符用于检索该主题的事件;
扮演角色标识符用于检索该主题参与的关联及其角色。
主题名称注解:主题名称注解(420)包含 主题名称主题名称的值;
类型标识符用于检索该主题名称的类型(类); 变体标识符用于检索该主题名称的变体形式。
变体注解:变体注解(430 )包含主题名称标识符是指具有该变体的主题名称; 变体值主题名称的该变体形式的值。
事件注解:事件注解(440)包含
事件值事件的值。可以是URI或简单特性的串;
类型标识符用于检索该事件的类型(类)。
关联角色注解:关联角色注解(450 )包含 类型标识符用于检索该角色的类型(类); 玩家标识符是指扮演该角色的主题; 关联标识符用于检索该玩家主题参与的关联。
关联注解:关联注解(460 )包含
类型标识符用于检索该关联的类型(类);
关联角色标识符用于检索该关联的参与者及其角色。
图4中未示例,动作数据库(135)的条目由与主题类型相关联 的动作名称组成,所述主题类型是主题类的主题对象的属性。
图5是根据本发明优选实施例的以UML描述的主题注释类。为 了捕获允许主题通过"关联"与其它主题相关的主题地图结构的性 质,开发者创建了允许递归地填充主题地图知识项目的动态扩展的数 据结构。该扩展允许容纳与其它主题相关的其它主题知识项目,所述 其它主题与原始主题相关联。
在图5的例子中,因为一个主题对象与一个动作对象相关,考虑 多个动作,关系为一个对多个。
图6描述了使用字典和动作数据库(135)的内容实例化的主题 注释类。注释器通过读取字典和读取来自动作数据库(135)的与主 题类型相关联的动作,自动地实例化在文本中识别的每个主题的主题 类,所述字典的条目已经关于图4的说明在上面在本文中描述过了。 稍后关于图9的说明在本文中详细地描述了根据在文本中接连识别的主题来实例化类的步骤。
图6的实例化的类对应于图5的类。例如,根据主题类型值,仅 一个动作与该主题相关。该信息已从动作数据库被读取。
图7示例了根据优选实施例产生的、用户能够看到的文本注释。 开发者创建了用户GUI来显示主题嵌入知识。用户能够按照下迷方 式与被注释文本交互当用户将他的指针光标移动到文本中的被注释 标记(token)(在图7中加了下划线)上时,从实例化的"主题注 释数据结构"取得"主题类型",并通过应用将其显示在文本上。如 果用户点击被注释标记,则显示包含主题字典(见图3)中存储的主 题名称、主题关联、主题事件和相关联的动作的菜单。根据用户的选 择和兴趣(图7示例了四个可能的兴趣名称700、关联710或事件 720 ),用户可从该菜单中选择一个项目,并将显示菜单的级联,包 含从实例化的"主题注释数据结构"(链接至识别的主题)取得的项 目,由此向用户提供与文本中的被注释标记相关的综合知识。如果用 户决定选择与文本中识别的主题相关的动作,则相关联的动作处理程 序立即执行命令(例如,发送电子邮件或730中的"示出股票 值,,)。
图10描述了用于用户(1000)读取被注释文本的上下文和逻辑 块。为了能够访问并连接通过优选实施例的方法创建的文本注释,用 户(1000)启动用户GUI (190),所述用户GUI (190)可以例如 在他的工作站(1020 )上连接他的普通编辑器(1010)。用户GUI 访问文本数据库(180)中的文本,并访问由注释器存储在注释主题 类数据库(140)中的实例化的主题类。用户GUI显示菜单,以提供 对与文本的主题相关的知识的访问。
图8是根据优选实施例用于创建被注释文本的方法的整体流程 图。请注意,不通过注释器程序的执行而自动执行的该整体流程图的 步骤由设计者(800, 820, 830 )或"开发者"(860)来执行,所述 设计者或开发者具有设计步骤(800, 820, 830)的应用的能力。大 多数时间,同一人中立地执行"开发者"或"设计者,,的步骤。设计者创建(800)用户兴趣的主题地图。如前面已提及的,包 含用户感兴趣的知识体系的主题地图定义了好的用于知识语义结构化 的模型。该主题地图可存储在主题地图数据库(130)中。优选地通 过在设计者的工作站上运行的图形用户界面(120)来执行该步骤。
设计者启动注释器(150)的执行,所述注释器将主题地图自动 地变换(810)为字典。在主题地图中表示的知识被变换为两个相关 联的字典,即之前在本文中描述过的主题字典和遍历字典。
设计者使用诸如UML的对象建模语言来创建主题类(820)。 该主题类捕获允许主题通过"关联"与其它主题相关的主题地图结构 的性质。
如果设计者定义了与主题类中的主题相关的"动作"对象,则他 将动作链接至(830)主题类型,并将其存储在数据库(135)中。这 意味着动作可与具有相同类型的不同主题相关联。
设计者启动注释器程序的执行,所述注释器程序为要被注释的文 本中识别的每个主题自动地实例化(840 )在之前的步骤中创建的主 题类。主题类数据结构允许动态扩展,当在该步骤中用主题字典和遍 历字典、以及可选的动作数据库(135)中存储的主题地图知识项目 递归地填写时。关于图9的说明更详细地描述该步骤。
开发者启动注释器程序的执行,所述注释器程序自动地将相应的 实例化的类附于(850)在文本中识别的主题名称。注释器可在文本 数椐库中存储已经被这样修改的文本。
开发者为用户创建GUI ( 860 ),即用户GUI,所述用户GUI 允许用户当在他的计算机上读取被注释文本时,以逻辑的方式(优选 地利用本文的图7中示例的菜单)显示注释。^使用该用户GUI,用 户将与被注释文本交互,将导航与所述文本相关联的知识,并将利用 被链接至所述文本的嵌入知识来解释文本;并且如果动作是知识的一 部分,则仅通过指向和点击文本中的被注释标记来采取快速被通知动 作。
图9是图8的流程图的一个步骤的流程图,描述了根据优选实施
12例的主题注释类的实例化(840)。注释器程序分析(900)文本,并在主题字典中为每个分析的标记执行查找。如果在主题字典中找到了标记,则识别主题名称,并使用主题字典来检索其主题标识符。在遍历字典中执行主题标识符的查找,并检索其相关联的注解。基于从这些注解中提取的标识符,注释器在遍历字典中执行一 系列的接连查找(920 )以检索与主题的知识结构相关的信息,然后使用该信息来实例化(930 )注释主题类(或者,更一般地说,填写注释主题数据结构)。
然后,如果选择在文本注释中支持动作,则注释器从动作数据库中取得与主题类型相关联的动作(925 ),以实例化注释主题类中的动作(930)。最终,注释器程序将处理程序链接(935)至实例化的注释主题类的每个动作,以完成该实例化。实例化的注释主题类优选地存储在注释主题类数据库(140)中。当用户通过用户GUI访问与当读取被注释文本时显示的注释中的主题相关联的动作时,处理程序在计算机上启动现有的或新程序的执行.
当已经识别了文本的所有标记(测试910中的回答为否)并且所有注释主题类已被实例化时,步骤840完成。然后,用于注释文本的方法返回步骤850。
权利要求
1、一种在计算机上执行的方法,用于开发者注释由用户读取的文本,所述方法包括开发者创建包含与用户相关联的兴趣主题的主题地图;开发者创建对应于用户的主题模型的数据结构;计算机自动地读取主题地图,并为每个主题存储包含主题名称和知识结构的主题信息;计算机自动地读取文本,并为在文本中找到的每个主题检索存储的主题信息并填写主题数据结构;计算机自动地将填写的主题数据结构作为注释附于在文本中找到的相应主题。
2、 如权利要求l所述的方法,进一步包括 开发者创建到文本的界面,所述界面允许用户在读取文本时访问文本注释。
3、 如权利要求1或2所述的方法,进一步包括在创建了主题地图之后,开发者将动作与主题链接并存储它们; 所述开发者创建数据结构的步骤包括在数据结构中包括动作; 所述计算机检索存储的主题信息的步骤包括检索存储的与主题链 接的动作;在计算机填写主题数据结构之后,计算机将处理程序链接至每个 动作。
4、 如权利要求1至3中任一项所述的方法,其中 存储主题信息的步骤包括在主题字典中存储主题标识符,以及在遍历字典中存储主题知识结构;以及检索主题信息的步骤包括读取主题字典和遍历字典。
5、 如权利要求1至4中任一项所述的方法,其中 存储主题信息的步骤包括在基于FSA的字典中存储主题标识符;以及检索主题信息的步骤包括读取基于FSA的字典。
6、 如权利要求1至5中任一项所述的方法,其中,创建数据结 构的步骤包括使用对象模型语言来创建主题类,所述计算机为在文本 中找到的每个主题填写主题数据结构的步骤包括为在文本中找到的每 个主题实例化主题类。
7、 如权利要求1至6中任一项所述的方法,其中,由计算机执 行的步骤包括开发者启动在计算机上运行的注释器程序的执行。
8、 如权利要求2至7中任一项所述的方法,其中,所述开发者 创建界面的步骤包括创建基于菜单的界面以访问文本注释。
9、 如权利要求3至8中任一项所述的方法,进一步包括 用户通过在用户计算机上执行的界面来选择用于执行的动作,所述界面访问包括所附的被填写主题数据结构的文本;以及用户计算机启动与选定动作相关联的处理程序的执行。
10、 一种计算机程序产品,包括程序代码指令,所述程序代码指 令用于当在计算机上执行所述程序时执行根据权利要求1至9中任一 项所述的方法的步骤。
11、 一种系统,包括适合于执行根据权利要求1至9中任一项所 述的方法的装置。
全文摘要
本发明提供了一种用于为用户注释文本的方法、系统和计算机程序,所述方法包括由开发者执行的创建总结用户感兴趣的主题的主题地图的步骤;开发者还为每个主题创建数据结构、主题类;在计算机上执行的注释器程序自动地使用主题地图来创建两个链接的用户字典,即反映主题名称的主题字典和遍历字典,所述字典优选地为基于FSA的字典,反映主题的知识结构;开发者可选地将动作与主题类型链接;注释器使用字典和动作来自动地实例化在文本中找到的主题的主题数据结构(当它们之前已经被链接至主题类型时);注释器自动地将实例化的主题数据结构附于文本;开发者创建GUI,允许用户访问文本注释并与其交互。
文档编号G06F17/24GK101689190SQ200880023507
公开日2010年3月31日 申请日期2008年6月5日 优先权日2007年7月10日
发明者A·拉格赫布, A·阿布杜勒·瓦尼斯, H·埃尔-辛辛尼, M·德亚布 申请人:国际商业机器公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1