用于从非结构化数据自动生成多语言电子内容的方法和系统的制作方法

文档序号:2572262阅读:344来源:国知局
专利名称:用于从非结构化数据自动生成多语言电子内容的方法和系统的制作方法
技术领域
本发明涉及信息管理系统,并且更特别地涉及用于从非结构化数据 自动生成多语言电子内容的系统、方法和计算机程序。
背景技术
问题
现在,在学习中包含电子内容(e-content)是在所难免的。电子内 容是充满了新挑战的新领域。电子内容的开发是对包括文本、图像和动 画的内容及相关资源的创建、设计和部署。对对象驱动、多语言的内容 进行管理是满足目前全球企业的高期望的要求。
问题是传统人工开发内容可能会耗费大量的时间(几个月)。此外, 内容"本地化"(使内容适应本地环境)需要额外的时间。
现有技术
题为"Compiling and distributing modular electronic publishing and electronic instruction materials,,的美国专利申请2003/0163784公开了 一种 用于促进课程和出版物内容的开发、维护及修改的系统和方法,因为课 程和出版物内容可以集中位于用作电子课程和出版物构建块的独立电 子学习和电子内容对象的大型库中。模块化CAI (计算机辅助教学)系 统和方法可以用于通过管理考试和跟踪特定学生已访问和/或复习了哪 些内容来监控学生的进展。在优选的实施例中,该发明包括作者使用互 联网访问工具和模板来编辑教学和信息内容,并且随后将基于web的教 学或信息内容发送给最终用户以便最终用户能够利用运行标准web浏览 应用的计算设备来接收并查看这类内容。
该专利申请假定存在用以构建(编译)电子课程和出版物的独立电 子学习和电子内容对象(结构化资料)的大型库。相反,本发明开始于
使用非结构化的输入的涂写(scratch )。本发明还具有在输入和输出中处 理多语言资料的能力以及自动建立主题之间联系的能力。
题为"Annotation process for message enabled digital content"的美国专 利申请2004/205547公开了 一种用于在教师与学生之间提供交互的电子 消息注释方法。该方法包括在可视显示器上显示注释及其到所选学科项 目的连接。该方法包括关于下述内容的过程和技术
(a)通过一系列生动的数学公式、科学表达式和数据可视形式来传 达抽象概念;
( b )以有利于将这些表达式和可视形式在教育论述过程中包含在读 者交换的消息中的方式对它们进行编码;以及
(c)以数字传送的显示页形式将这些表达式、可视形式以及注释传 递并呈现给其他用户。
该方法包括一种以这样的方式编码数字内容的技术,即,允许创建 文本消息以及方便地包含注释以参考文字和非文字的媒体元素。该方法 的主要目的是在内容开发过程中表现电子内容。
本发明通过提供一种用于自动生成电子内容的方法超越了在此公开 的系统。
题为"System and method for producing, publishing, managing and interacting with e-content on multiple platforms"的美国专利申 请 2002/0156702公开了内容制作工具,其将XML协议与面向对象方法学 结合在一起以使得制作出具有竟争力且有效的显示。所主张的方法和系 统在一组高质量、易用工具的辅助下为所有的内容平台统一 了内容的制 作、传递和显示。这些工具使得能够在不需要深度了解编程的情况下用 户友好地制作独立于平台的内容。
本发明通过提供 一 种用于从非结构化数据自动生成电子内容的方法 超越了在此公开的系统。然而,在此以上公开的工具可以在本发明的最 后阶段使用。相关现有技术
书写文本的自动语言识别
某些用于在书写文本中自动识别语言的技术使用了 关于短词的信息;
字母的独立可能性和不同字母组合结合的可能性; .词的n字母组(n-gram );
字符的n字母组;
变音符号和特殊字符; 音节特性,词法和句法。
题为"Trigram-based method of language identification,,的美国专利号 5,062,143公开了一种用于检查文本主体并识别其语言的机制。该机制对 连续的三字母组(trigram)进行比较,其中利用三字母组集合的库将文 本主体解析为三字母组。对于三字母组的相应语言特定关键字集合,如 果该文本中的三字母组(已经在该关键字集合中为其找到匹配)的数目 相对于该文本中的三字母组总数的比例至少等于^L定值,则该文本^f皮识 别为可能是以与该相应的关键字集合相关联的语言写成的。每个相应的 三字母组关键字集合与一种相应的不同语言相关联,并且包含的那些三 字母组已经被预先确定为以至少等于为该相应语言规定的三字母组出 现频率的频率出现。如上所述处理用于其他语言的连续关键字集合,并 且将匹配比率最大以及如上所述比例超出上述规定值的语言选作编写 文本主体所用的语言。
机器翻译
"机器翻译"是利用计算机系统从一种自然语言到另 一种自然语言的 翻译。机器翻译研究者已经采用了很多不同手段,并且市场上针对不同 语言有很多系统可用。这些系统主要分为两类 基于规则的机器翻译系统;和
统计才几器翻译系统。
文本搜索/自动信息检索
从自然语言文本文集中自动检索信息主要是基于对与用户查询中给 出的一个或多个关键字相匹配的文档的检索。例如,因特网上的大多数 传统搜索引擎使用基于用户给出的关键字的布尔(Boolean)搜索。
很多提议基于创建这样的信息检索系统,其可以在自然语言文本文 集中找到在查询的语义方面与自然语言查询相匹配的文档。
一些这种提议涉及已经利用给定领域内专门的通用知识进行了拓展 的系统。这些系统基于在单一领域内的通用知识的广博数据库。
其他提议基于语义表示的基础语言学级別。在这些提议中,不使用 一个或多个关键字的逐字匹配,而是对自然语言文本文集和自然语言查 询进行语义分析,并返回与查询的语义内容意思相匹配的文档。
信息提取
"信息提取"包括从文本文档中提取实体和这些实体间的关系。实体 的例子有"人"、"组织,,和"位置"。关系的例子有"个人-隶属"和"组织-位置"。"个人-隶属"关系的意思是特定的个人隶属于某个组织。例如, 句子"John Sm他是Hardcom公司的首席研究员"包含个人"John Smith" 与组织"Hardcom公司"之间的"个人-隶属"关系。
"信息检索"得到相关文档的集合(用户分析这些文档),而"信息提 取"从文档中得到事实(用户分析事实)。
目前有若干方法(例如,词性标注和实体提取)用于从自然语言中 提取信息。隐马尔科夫模型(HMM)可能是最流行的适应性信息提取 方法。HMM对于名称提取[l] (Bikel等人,1999)表现出极佳的性能。 HMM最适合于模拟本地和平面(flat)问题。对关系的提取常常涉及模 拟较长范围的依赖关系,对此HMM方法不能直接应用。
近来已经引入了若干用于模拟顺序数据的概率框架来限制HMM约

最大熵马尔科夫模型(MEMM) [2] (McCallum等人,2000)能够模
拟更复杂的跃迁(transition)和发布( emission) 4既率分布并考虑、不同的 文本特;[正。
条件随机域(CRF) [3] (Lafferty等人,2001 )是指数模型的例子。
这样,它们都享受到了多种吸引人的特性(例如,全局似然性最大) 并且与其他条件模型相比更适合于模拟顺序数据。
用于学习线性才莫型的在线学习算法(例如,Perceptron, Winnow) 变得越来越常用于自然语言处理(NLP)问题[4] (Roth, 1999)。这些 算法表现出多种吸引人的特征,诸如递增学习和升级到大量例子的能 力。它们最近到浅解析[5] (Munoz等人,1999)以及信息提取[6] (Roth 和Yih, 2001 )的应用表现出现有技术中最新的性能。
更近的工作集中在用于从非结构化文本中提取实体间关系的无人管 理方法。例如,在"The proceedings of the 1998 International Workshop on the Web and Databases"中发表的、题为"Extracting Patterns and Relations from the World Wide Web" ( Sergy Brin-斯坦福大学计算机科学系)的论 文中,所展示的工作是针对在万维网上提取作者信息(如同在书本描述 中找到)。该公开基于双迭代模式关系提取,其中迭代地构建关系和模 式集合。
在"Proceeding of the Fifth ACM International Conference on Digital Libraries", 2000中,发表的题为"Snowball: Extracting Relations from Large Plain-Text collections,,的论文公开了类似于前一工作的思想。种子例子用 于生成初始模式并用于迭代地获取进一步的模式。然后部署专门的测量 以估计新近获得的模式的相关性。
题为"Visualization of integrated structured data and extracted relational facts from free text" ( Wakefield等人)的美国专利申请US 2004/0167907 公开了 一种从非结构化的随意文本中提取简单关系的机制。题为"System and method for automatically and iterativdy mining related terms in a document through relations and patterns of occurrences" ( Simdaresan等人) 的美国专利US 6,505,197公开了 一种用于识别万维网上定义关系的相关 信息集合的自动化迭代数据挖掘系统。更具体地,该挖掘系统迭代地4是
炼以特定方式相关的成对短语,以及它们在网页中出现的模式。该自动 化挖掘系统以迭代的方式运行,从而持续且递增地提炼相关短语及它们
相应的才莫式。在一个实施例中,该自动化挖掘系统#4居短语在网页中出 现的模式方面来识别关系。该自动化挖掘系统包括导出新关系的关系识 别器和导出新模式的模式识别器。新导出的关系和模式存储在数据库 中,该数据库最初开始于关系和模式的小种子集合,这些集合持续且迭 代地由该自动化挖掘系统拓宽。
题为"Wrapper induction by hierarchical data analysis" (Muslea等人) 的美国专利US 6,606,625公开了 一种基于用户标记的训练例子生成提取 规则的归纳算法。
参考文献 D. M. Bikel, R. Schwartz和R. M. Weischedel, "An Algorithm that Leams What's a name," Machine Learning 34(l画3):211-231, 1999. D. Freitag牙口 A. MaCallum, "Information extraction with HMM structures learned by stochastic optimization," Artificial Intelligence (AAAI画00)第十七次会议的文集和Innovative Applications of Artificial Intelligence (IAAI-00)的第十二次会议的文集,第584-589页,MenloPark, CA, 2000年7月30日至8月3日,AAAI出版社。 J. Lafferty, A. McCallum和F. Pereira, "Conditional random fields: Probablistic models for segmenting and labeling sequence data," Machine Learning第十八次国际会议的文集,第282-289页,Morgan Kaufmann, San Francisco, CA, 2001 。 D. Roth, "Learning in natural language," Artificil Intelligence (IJCAI-99-Vol2)第十六次国际联合会议的文集,Dean Thomas任编者,第 898-904页,S.F., 1999年7月31日至8月6日,Morgan Kaufmann发行公 司。 M. Munoz, V. Punyakanok, D. Roth和D. Zimak, "A learning approach to shallow parsing," Technical Report 2087, University of Illinois
at Urnana-Champaign, Urbana, Illinois, 1999。 D. Roth和W. Yih, "Relational learning via propositional algorithms: An information extraction case study," Atrificial Intelligence (IJCAI隱01)第十 七次国际会议的文集,Bernhard Nebel任编者,第1257-1263页,San Francisco, CA, 2001年8月4日至10日,Morgan Kaufmann发行7>司。
发明目的
本发明的目的是基于选定主题并以期望的最终内容形式自动生成电 子内容。
本发明的目的是自动开发和本地化多语言电子内容。 本发明的另 一 目的是自动地将非结构化多语言信息转换为单一语言 以4更处理。
本发明的又一 目的是使得用户能够配置自动化数字内容生成器,以 便生成用户选择的形式和语言的电子内容。

发明内容
本发明针对电子内容管理领域,并且更特别地针对一种用于基于用 户设计的内容表格和期望的最终内容形式自动生成电子内容的方法、系 统和计算机程序。语言识别技术和自动机器翻译技术也用于拓宽信息源。
该用于基于用户首选项从非结构化数据生成电子内容并对其进行本 地化的方法包括下述步骤
从所述非结构化数据提取与一个或多个预选主题有关的信息;
将所提取信息合并为结构化形式;
根据选定环境对所合并信息进行本地化;
根据指定形式生成内容。
更具体地,根据本发明的方法还包括下述步骤 接收一个或多个预选的主题; 接收用户选定的环境;
可选地,识别在非结构化数据中使用的语言; 可选地,将非结构化数据转换为单一语言;
从非结构化数据中提取与一个或多个预选主题有关的信息;针对每个
预选主题,所述步骤进一步包括下述步骤
*从非结构化数据中检索与所述主题有关的内容; .测量所;险索内容与所述主题的相关性; .从所检索内容中选择被认为与所述主题最相关的内容; .根据一个或多个预定义的类别对所选择内容进行标记; *从所标记内容中识别相关的具名实体以及所述具名实体之 间的关系;
"人非结构化数据中为每个识别出的具名实体和关系提取特 征向量;
,在主题图中表现所述实体和关系,其中节点代表所述实体并 且边代表所述实体之间的关系。
将所提取信息合并为结构化形式,所述步骤进一步包括步骤
.将与不同主题相关联的所有主题图结合在一起,并且如果相
同子主题被表现在多于一个主题图中,贝'J:
*只在主题图中保留所述子主题数据的 一 个实例; *使用参考来在任意其他主题图中引用所述子主题数据。
对所合并信息进行本地化,所述步骤进一步包括步骤 *调整所合并信息以适应选定的环境。 *可选地,根据用户选定的语言翻译所合并信息。 本发明的优势在于用户可以配置自动化数字内容生成器,以便根据 其选择的形式和语言生成电子内容。
参考以下的说明书、权利要求书以及附图,本发明的前述以及其他 目的、特征和优势将得到更好的理解。


所附的权利要求书中阐明了本发明所特有的新颖和发明性特征。然 而,本发明自身以及其优选使用模式、进一步的目的和优势将通过结合
附图参考下面对示例性具体实施例的详细描述得到最好的理解,其中 图1示出了根据本发明的自动数字内容生成器(ADCG)的基本应用。
图2是根据本发明的自动数字内容生成器(ADCG)的详细视图。
图3是根据本发明的自动数字内容生成器(ADCG)中包括的信息提 取器的详细视图。
图4是根据本发明的自动数字内容生成器(ADCG)的结构化信息生 成器部分的详细视图。
图5示出了根据本发明信息提取器的、基于图的、分等级主题表现输 出。
具体实施例方式
提供下面的描述以使得本领域普通技术人员能够实现和使用本发 明,并且在专利申请和其要求的上下文中提供了这些描述。对在此描述
人员来说将是显然的。因此,本发明并不限于所示出的实施例,而是依 照与在此描述的原理和特征一致的最宽范围。
定义
内容引起人兴趣的"信息,,一声音、文本、图片、视频等。"内容"是 用于在数字上下文中描述"信息,,的 一般术语。其可以采取网页以及文件 (文档)中包含的声音、文本、图像和视频的形式。
信息具有含义的数据,其被创建用于给接收到它的人以某种知识。
数据从中可以得出结论的事实集合(例如"统计数据")。
文档包含"信息"的书面记载。
元数据用于描述其他"数据"的数据。"元数据"的例子包括图解、表 格、索引、视图和分栏定义。
文本从左向右读的字符与从右向左读的字符的混合。
超文本具有到其他"文本"的链接的"文本"。
在本发明中,术语"信息"、"数据"、和"文档"将被用于相同目的。
基本原理
本发明结合了自动文本分析技术、信息搜索技术和信息提取技术用 于从非结构化信息(书、网页内容,等等)自动生成用于电子学习的数 字内容。本发明提出了 一种用于自动开发多语言电子内容并对其进行本 地化(使其适应于本地环境)的方法和系统。本发明提出了对某些已知
做出贡献。很多世界范围的出版物公开了自动文本分析技术、信息搜索 技术和信息提取技术的各个方面。以类似的方式,某些参考文献公开了 使用上述技术的系统和技术。然而,这些参考文献都没有公开本发明所 主张的步骤和装置的组合。
本发明的全视图
图1示出了根据本发明的"自动数字内容生成器"(ADCG)的基本应用。
ADCG(100)接收
.来自在线书、网页等的非结构化信息(101),以及 .来自用户的输入,诸如
.期望的内容表格(TOC) (102),
.环境选择(104),(语言、目标受众、地点、地区等)
以及
.输出中电子内容的期望最终形式(105)。
ADCG输出用户之前所指定最终形式的电子内容(文本、图像、视频 等)(103 )。
自动数字内容生成器
图2示出了结合自动数字内容生成器(ADCG) —起使用的各种系
统和信息。在该图中,虛线(100)包围了 ADCG的组件。ADCG包括 信息提取器(201 ),用于提取与内容表格中指定的每个主题有关的相
关信息。
结构化信息生成器(202),用于将所提取信息合并为结构化形式,并 用于产生初步电子内容输出。
本地化处理器(203 ),用于使用环境选择输入(语言、目标受众、地 点、地区等)对初步电子内容输出进行本地化,以及 表达合成器(204),用于产生期望最终形式的电子内容(课程、考试、 小结、RDF、演讲等)。
将使用下述例子来描述信息提取器(201 )、结构化信息生成器(202 )、 以及整个ADCG系统(100)如何操作,在该例子中用户希望开发具有 下述主题列表的内容表格TOC的电子内容
-主题l(Tl)
-主题2(T2)
-主题N(TN)。
内容表格(TOC)的设计由用户(102)完成。TOC供ADCG系统 (100)使用。
信息提取器
图3描述了信息提取器(201)。信息的提取如下执行 对于内容表格(TOC)中的每个主题(Ti):
(301):搜索引擎(301)从非结构化信息(101)中检索与当前主题 (Ti)有关的所有内容Ti—ALL。这样的搜索引擎系统(例如,Google、
Yahoo、 AltaVista、 Lycos等)是公知的,并且是现有技术的一部分。然 而,搜索引擎往往检索出海量的相关内容,并且因此必须对检索出的内 容的相关性进行检查。
( 302 ):相关性检测器(302 )检查从非结构化信息检索的内容Ti—ALL
的相关性。相关性分数(类似于在普通搜索引擎中使用的分数)用于测
量内容Ti—ALL的相关性。使用一个阈值来确定内容是否相关。 *滤掉不相关的内容。
'只选择对于主题(Ti)来说最相关的内容Ti一REL 。 可以基于用户的判断调谐阈值。
( 303 ):所选择的内容Ti—REL由具名实体(NE )识别器(303 )使 用。具名实体识别器根据预定义的类别对所选择内容Ti一REL进行标记。 这些类别例如可以是
.个人姓名; "立置名称; .国家名称; *动物名称;
品5 '组织;
交通工具......
( 304):由具名实体识别器(303 )标记的数据Ti—TAG由关系提取 器(304)使用,以识别有关的具名实体并提取所述具名实体之间的关 系。为了提取关系和有关实体,关系提取器304可以使用在相关技术中 描述的方法之一 。提取关系和有关实体的 一种方式是使用具有相关联的 置信度测量的模式。在这种情况下,导出(自动获得)模式的处理在系 统建立过程中执行一次且离线执行。模式使用可以用于任何实体和关系 类型的一般框架来导出。在运行时,所导出的模式被应用于非结构化文 本以提取实体和与它们相关联的关系。
( 305 ):关系提取器(304)的输出,代表有关的具名实体和与它们 相关联的关系,被用作特征提取器(305 )的输入。特征提取器(305 ) 从非结构化数据为每个具名实体和关系提取特征向量。与每个实体和关 系相关联的特征包括多种类型的数据,诸如
包括有关实体和这些实体间关系的文本; *到更多信息的超链接;
,与所考虑实体最相关的实体;
,不同实体之间的关系; *不同实体和关系的特征;
值得注意的是,所提出的系统可以适应于任何类型的特征。关系提 取器(304)的输出代表具名实体和所述具名实体之间的关系。特征向 量与每个具名实体及关系相关联。该特征向量包括关于相关联实体或关 系的很多信息。
将实体和关系表示在有向图中,其中节点代表实体而边代表不同实 体之间的关系。主题(Ti)也用图中的节点来代表,并且所有其他节点 是候选子主题。
因此,特征提取器(305 )的输出是基于图的、分等级主题表示Ti一G。 为了生成内容表格(TOC)中包含的每个主题的图,重复步骤301 至305。图5示出了主题Ti的基于图的、分等级主题表示Ti—G。基于图 的、分等级主题表示Ti一G是结构化信息生成器的输出,其中主题(Ti)
用节点500代表,该主题与其他候选子主题502(STil、 STi2.......STin,
其中n是子主题的数目)之间的关系用边501代表。
结构化信息生成器
图4描述了结构化信息生成器(202)。
每个基于图的主题表示Ti—G都被传递给结构化信息生成器(202 ), 其执行下述步骤
( 401 ):子主题相关性检查器(401 )解析图Ti—G并根据评分功能、 基于不同节点与主要主题(Ti)的相关性对它们进行排序。评分功能测 量不同因素以确定代表子主题的节点是否与主要主题(Ti)相关。Ti与 节点STj之间的相关性分数表示如下
Score = - log(Dist(Ti一Features,STj一Features))
具有高分数的节点被视为相关子主题并被保留,而具有低分数的节
点:故拒绝。
然后,基于子主题相关性检查器(401 )输出中的所有基于图的主题 表示Ti—G,结构化信息生成器(202)执行下述步骤 (402):交叉主题参考检查器(402)检测主题重复并识别在多于一 个主题图中出现的子主题。这通过基于不同主题将所有主题图混合来完 成。这一步骤的输入包括与不同主题相关联的所有图。换言之,如果相 同的子主题表现在多于一个主题图中,则只在图中保留该子主题数据的 一个实例。使用参考来在任意其他图中引用该子主题数据。由此,任何 重复都被移除。
本地化处理器
如上述的图2所示,本地化处理器(203 )基于用户选择的环境(语 言、目标受众、地点、地区等)对结构化信息生成器(202)生成的输 出进行本地化。该输出被调整以适应于用户的环境翻译该内容,选择 相关图像......
表示合成器
所生成的结构化内容随后被传递给表示合成器(204),其4吏用用户 对所需材料类型(课程、考试、小结、演讲、RDF等)的选择来合成最 终的电子内容。
语言识别器和文本处理器
注意,向ADCG系统提供了可以是多于一种语言的非结构化信息。 语言识别器(106)可以与文本处理器(107)(如图1所示,可选的) 一起使用以将信息转换为单一语言,例如英语(因为这是最常用的内容 语言)并稍后依赖于本地化处理器(203 )转换为目标语言。例如,文 本处理器(107)将英语文本翻译成法语。文本处理器(107)在这种情 况下是传统商业可得的自动机器翻译(AMT)系统。
具体实施例
在一个具体实施例中,本发明由内容提供商在服务器中^丸行。服务 器接收来自客户端的请求和首选项(主题列表、选定的环境、指定形式), 并向所述客户端发回该指定形式的所请求内容。
尽管已经参考优选实施例具体地示出并描述了本发明,但是应当理 解,在不偏离本发明的精神和范围的情况下,可以对其中的形式和细节 进行各种修改。
权利要求
1.一种用于基于用户首选项从非结构化数据生成电子内容并对其进行本地化的方法,所述方法包括下述步骤·从所述非结构化数据提取与一个或多个预选主题有关的信息;·将所提取信息合并为结构化形式;·根据选定环境对所合并信息进行本地化;·根据指定形式生成内容。
2. 根据权利要求1所述的方法,其中与所提取信息相关的主题、根 据其对所述信息进行本地化的环境以及根据其生成所述内容的形式基 于用户首选项。
3. 根据前述权利要求中任意一项所述的方法,包括预备步骤 -接收一个或多个预选主题。
4. 根据前述权利要求中任意一项所述的方法,包括预备步骤 -接收用户选定的环境。
5. 根据前述权利要求中任意一项所述的方法,包括预备步骤 -接收用户指定的形式。
6. 根据前述权利要求中任意一项所述的方法,其中所述从非结构化 数据提取与 一个或多个预选主题有关的信息的步骤,进一步包括下述步 骤针对每个所述预选主题-从非结构化数据中检索与所述主题有关的内容;-测量所检索内容与所述主题的相关性;-从所检索内容中选择被认为与所述主题最相关的内容;-根据一个或多个预定义类别对所选择内容进行标记;-从所标记内容中识别相关的具名实体以及所述具名实体之间的关系;-从非结构化数据中为每个识别出的具名实体和关系提取特征向量; .在主题图中表现所述实体和关系,其中节点代表所述实体并且边代 表所述实体之间的关系。
7. 根据前述权利要求所述的方法,其中在主题图中,预选主题用节 点来代表,子主题用其他节点来代表,并且预选主题与子主题之间的关 系用边来代表。
8. 根据前述权利要求中任意一项所述的方法,其中将所提取信息合 并为结构化形式的步骤进一步包括步骤.针对与每个预选主题有关的每个主题图-选择被认为与预选主题有关的子主题; -移除被认为与预选主题无关的子主题。
9. 根据前述权利要求中任意一项所述的方法,其中将所提取信息合 并为结构化形式的步骤进一步包括步骤.将与不同主题相关联的所有主题图结合在一起并且检测被表现在多于一个主题图中的子主题;-针对被表现在多于一个主题图中的每个子主题 .只在主题图中保存所述子主题数据的一个实例; .使用参考来在任意其他主题图中引用所述子主题数据。
10,根据前述权利要求中任意一项所述的方法,其中对所合并信息 进行本地化的步骤进一步包括步骤 -调整所合并信息以适应选定环境。
11. 根据前述权利要求所述的方法,其中调整所合并信息以适应选 定环境的步骤包括下述步骤4艮据用户选定的语言翻译所合并信息。
12. 根据前述权利要求中任意一项所述的方法,包括预备步骤 -将非结构化数据转换为单一语言。
13. 根据前述权利要求所述的方法,其中将非结构化数据转换为单 一语言的步骤包括下述步骤-识别在非结构化数据中使用的语言。
14. 根据前述权利要求中任意一项所述的方法,其中所述方法在服 务器中执行;所述方法包括下述步骤-从一个或多个客户端接收包括用户首选项的请求; -响应于所述请求、根据用户首选项将内容发回客户端。
15. —种系统,包括适用于实现根据前述权利要求中任意一项所述 的方法步骤的装置。
16. 根据前述权利要求的系统,其中所述系统是服务器。
17. —种计算机程序,包括用于当所述计算机程序在计算机系统上 执行时,实现根据权利要求1-14中任一方法的步骤的指令。
全文摘要
本发明针对电子内容管理领域,并且更特别地针对一种用于基于用户设计的内容表格(102)和期望的最终内容形式(105)自动生成电子内容的方法、系统和计算机程序。还使用了语言识别(105)技术和自动机器翻译技术来拓宽信息源。本方法包括以下步骤从非结构化数据中提取与一个或多个预选主题有关的信息;将所提取信息合并为结构化形式;根据选定环境对所合并信息进行本地化;根据指定形式生成内容。
文档编号G09B5/00GK101341486SQ200680048390
公开日2009年1月7日 申请日期2006年12月4日 优先权日2005年12月22日
发明者A·亚辛, H·哈桑, O·伊玛姆 申请人:国际商业机器公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1