文本表示方法和装置的制造方法

文档序号:9922003阅读:398来源:国知局
文本表示方法和装置的制造方法
【技术领域】
[0001] 本发明涉及文本分析,更具体地,涉及文本表示方法和装置。
【背景技术】
[0002] 文本分析在信息检索、数据挖掘、机器翻译等领域有广泛的应用,文本分析是指对 文本的表示及其特征项的选取,将无结构的原始文本转化为结构化的计算机可以识别处理 的信息,即对文本进行科学的抽象,建立它的数学模型,用以描述和代替文本,使计算机能 够通过对这种模型的计算和操作来实现对文本的识别。
[0003] LSA (latent semantic analysis)潜在语义分析,也被称为 LSI (latent semanticindex),是 Scott Deerwester, Susan T. Dumais 等人在 1990 年提出来的一种新的 索引和检索方法。该方法和传统向量空间模型(Vector Space Model) -样使用向量来表 示词(terms)和文档(documents),并通过向量间的关系(如夹角)来判断词及文档间的 关系;而不同的是,LSA将词和文档映射到潜在语义空间,从而去除了原始向量空间中的一 些"噪音",提高了信息检索的精确度,然而LSA对一词多义问题依然没有解决,仅仅解决了 一义多词。因为LSA将每一个词表示为潜在语义空间中的一个点,因此一个词的多个意义 在空间中对应的是一个点,没有被区分。
[0004] ESA (Explicit Semantic Analysis)明确语义分析,ESA的意图是给定一个文档片 段,ESA将产生一个语义解释器,它能够将这个片段影射到一些相关的维基概念中,并且根 据相关度进行排序,ESA的方法只考虑概念上下文和文本的相似度来确定一组概念,并没有 考虑概念之间的相关性。
[0005] 因此,需要一种更有效准确的文本表示方法。

【发明内容】

[0006] 根据本发明的一个方面,提供一种文本表示方法,包括:利用知识库识别文本中的 概念并确定概念之间的关系;利用所述概念之间的关系生成概念图;确定所述概念图的连 通分量;计算所述连通分量的权重;根据连通分量的权重确定表示该文本的概念。
[0007] 根据本发明的另一个方面,提供一种文本表示装置,包括:概念识别模块,配置为 利用知识库识别文本中的概念并确定概念之间的关系;概念图生成模块,被配置为利用所 述概念之间的关系生成概念图;连通分量确定模块,被配置为确定所述概念图的连通分量; 权重计算模块,被配置为计算所述连通分量的权重;概念确定模块,被配置为根据连通分量 的权重确定表示该文本的概念。
[0008] 本发明利用了知识库中概念之间的相关性,根据图的连通分量理论,找出最能够 代表文本主题的一组概念,而将和主题无关的概念去除掉,提高了文本表达的准确度,减少 了噪音。
【附图说明】
[0009] 通过结合附图对本公开示例性实施方式进行更详细的描述,本公开的上述以及其 它目的、特征和优势将变得更加明显,其中,在本公开示例性实施方式中,相同的参考标号 通常代表相同部件。
[0010] 图1示出了适于用来实现本发明实施方式的示例性计算机系统/服务器12的框 图。
[0011] 图2示出根据本发明实施例的一种文本表示方法。
[0012] 图3示出无向图M。
[0013] 图4示出图3的无向图Μ的两个连通分量氏和H2。
[0014] 图5示出根据本发明实施例的文本实例。
[0015] 图6示出图5的文本实例中的概念与知识库中其它概念之间的关联图。
[0016] 图7示出根据文本实例中识别的概念之间的关系生成的概念图。
[0017] 图8示出根据本发明实施例的文本表示装置800。
【具体实施方式】
[0018] 下面将参照附图更详细地描述本公开的优选实施方式。虽然附图中显示了本公开 的优选实施方式,然而应该理解,可以以各种形式实现本公开而不应被这里阐述的实施方 式所限制。相反,提供这些实施方式是为了使本公开更加透彻和完整,并且能够将本公开的 范围完整地传达给本领域的技术人员。
[0019] 图1示出了适于用来实现本发明实施方式的示例性计算机系统/服务器12的框 图。图1显示的计算机系统/服务器12仅仅是一个示例,不应对本发明实施例的功能和使 用范围带来任何限制。
[0020] 如图1所示,计算机系统/服务器12以通用计算设备的形式表现。计算机系统 /服务器12的组件可以包括但不限于:一个或者多个处理器或者处理单元16,系统存储器 28,连接不同系统组件(包括系统存储器28和处理单元16)的总线18。
[0021] 总线18表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器, 外围总线,图形加速端口,处理器或使用多种总线结构中的任意总线结构的局域总线。举例 来说,这些体系结构包括但不限于工业标准体系结构(ISA)总线,微通道体系结构(MAC)总 线,增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。
[0022] 计算机系统/服务器12典型地包括多种计算机系统可读介质。这些介质可以是 任何能够被计算机系统/服务器12访问的可用介质,包括易失性和非易失性介质,可移动 的和不可移动的介质。
[0023] 系统存储器28可以包括易失性存储器形式的计算机系统可读介质,例如随机存 取存储器(RAM) 30和/或高速缓存存储器32。计算机系统/服务器12可以进一步包括其 它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统34 可以用于读写不可移动的、非易失性磁介质(图1未显示,通常称为"硬盘驱动器")。尽管 图1中未示出,可以提供用于对可移动非易失性磁盘(例如"软盘")读写的磁盘驱动器, 以及对可移动非易失性光盘(例如⑶-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。 在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线18相连。存储器28 可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模 块被配置以执行本发明各实施例的功能。
[0024] 具有一组(至少一个)程序模块42的程序/实用工具40,可以存储在例如存储器 28中,这样的程序模块42包括--但不限于--操作系统、一个或者多个应用程序、其它 程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程 序模块42通常执行本发明所描述的实施例中的功能和/或方法。
[0025] 计算机系统/服务器12也可以与一个或多个外部设备14 (例如键盘、指向设备、 显示器24等)通信,还可与一个或者多个使得用户能与该计算机系统/服务器12交互的 设备通信,和/或与使得该计算机系统/服务器12能与一个或多个其它计算设备进行通信 的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接 口 22进行。并且,计算机系统/服务器12还可以通过网络适配器20与一个或者多个网络 (例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适 配器20通过总线18与计算机系统/服务器12的其它模块通信。应当明白,尽管图中未示 出,可以结合计算机系统/服务器12使用其它硬件和/或软件模块,包括但不限于:微代 码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存 储系统等。
[0026] 图2示出根据本发明实施例的一种文本表示方法,包括:在步骤S201,利用知识库 识别文本中的概念并确定概念之间的关系;在步骤S202,利用所述概念之间的关系生成概 念图;在步骤S203,确定所述概念图的连通分量;在步骤S204,计算所述连通分量的权重; 在步骤S205,根据连通分量的权重确定表示该文本的概念。
[0027] 根据本发明实施例的知识库定义了内容广泛的概念和概念之间的关系,知识库 米用RDF(resource description framework,资源描述框架)来描述,RDF的基本思想 是:(1)将一切可以在Web上标识的事物(具体的或抽象的,存在的或不存的)统称为"资 源";(2)用URI (Universal Resource Identifier,通用资源标识)来标识资源;(3)用属性 (property)来描述资源的特征以及资源之间的关系。本发明实施例中知识库中的概念是具 有可区别性且独立存在的某种事物,对应于RDF中
当前第1页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1