文本表示方法和装置的制造方法_3

文档序号:9922003阅读:来源:国知局
6] 节点 C2 对应于知识库的概念 Category :Physical_education:
[0057] http://abc. org/ontopology/Category:Physical-education,
[0058] 节点 C3 对应于知识库的概念 Category :education_by_subject:
[0059] http://abc. org/ontopology/Category: education-by-subject,
[0060] 节点C4对应于知识库的概念Category: education:
[0061] http://abc. org/ontopology/Category: education,
[0062] 节点C5对应于知识库的概念Education :
[0063] http://abc. org/resource/Education,
[0064] 节点C6对应于知识库的概念Aerobic_exercise :
[0065] http://abc. org/resource/Aerobic-exercise,
[0066] 节点C7对应于知识库的概念Physical_education :
[0067] http://abc. org/resource/Physical-education,
[0068] 节点 C8 对应于知识库的概念 Category :aerobic_exercise:
[0069] http://abc. org/resource/Category:aerobic_exercise,
[0070] 节点C9对应于知识库的概念Category:Disease:
[0071] http://abc. org/resource/Category:Disease,
[0072] 节点 C!。对应于知识库的概念 Aging :http://abc· org/resource/Aging。
[0073] 节点 Cn 对应于知识库的概念 Parent :http://abc· org/resource/Parent,
[0074] 由图 6 所不,概念 Physical-education 通过概念 Category: physical-education、 Category: education-by_subject 和 Category: education 与概念 Education 关耳关,概 念Physical_education和概念Aerobic_exercise之间的路径长度为4个长度单位,概 念 physical_education 通过概念 Category:physical_exercise 和 Category:aerobic_ exercise 与概念 Aerobic_exercise 关联,概念 Physical_education 和概念 Aerobic_ exercise之间的路径长度为3个长度单位,概念Aging与概念Category:Disease关联。概 念Parent在知识库中没有找到与之没有找到与它关联的概念。
[0075] 图7示出根据文本实例中识别的概念之间的关系生成的概念图,由于概念 Physical_education和概念Education关联,因此这两个概念之间产生连接路径,由于概 念physical_education与概念Aerobic_exercise关联,因此这两个概念之间产生路径连 接。概念Aging与Parent没有其它概念与它们关联,因此是独立的节点。按照连通分量的 定义,生成的概念图存在3个连通分量,分别是氏、H2和H3。
[0076] 统计出概念Physical_education在文本中出现的次数为3,概念Aerobic_ exercise在文本中出现的次数为1,概念Education在文本中出现的次数为1,图6示 出概念Physical_education和概念Education之间的路径长度为4个长度单位,概念 Physical_education和概念Aerobic_exercise之间的路径长度为3个长度单位,连通分量 氏的权重1(?)计算如下:
[0078] 概念Aging与概念Parent在文本中出现的次数都是1,并且没有其它概念与它们 关联,不存在与其它节点之间的路径。
[0079] ff(H2) = 1,
[0080] ff(H3) = 1,
[0081] 根据本发明的实施例,可以选取权重最大的连通分量氏包含的概念Physical education、Aerobic_exercise 和 Education 来表不图 5 所不的文本实例。
[0082] 前面已经参考附图描述了实现本发明的方法的各个实施例。本领域技术人员可以 理解的是,上述方法可以以软件方式实现,也可以以硬件方式实现,或者通过软件与硬件相 结合的方式实现。并且,本领域技术人员可以理解,通过以软件、硬件或者软硬件相结合的 方式实现上述方法中的各个步骤,可以提供一种文本表示装置。即使该装置在硬件结构上 与通用处理设备相同,由于其中所包含的软件的作用,使得该装置表现出区别于通用处理 设备的特性,从而形成本发明的各个实施例的装置。
[0083] 基于同一发明构思,根据本发明的实施例还提出一种文本表示装置,图8示出根 据本发明实施例的文本表示装置800,包括:概念识别模块801,被配置为利用知识库识别 文本中的概念并确定概念之间的关系;概念图生成模块802,被配置为利用所述概念之间 的关系生成概念图;连通分量确定模块803,被配置为确定所述概念图的连通分量;权重计 算模块804,被配置为计算所述连通分量的权重;概念确定模块805,被配置为根据连通分 量的权重确定表示该文本的概念。
[0084] 根据本发明的实施例,其中述知识库用资源描述语言描述概念和概念之间的关 系。根据本发明的实施例,其中还包括:概念提取模块,被配置为从知识库中提取概念的所 有名称并形成名称词典;映射建立模块,被配置为建立名称词典中所有名称与概念之间的 映射;名称识别模块,被配置为识别出所述文本中所有在名称字典中出现的名称,其中所述 概念识别模块801被配置为利用映射确定所述识别出的名称对应的至少一个概念,以及根 据文本上下文的语义分析从所述至少一个概念中确定与所述识别出的名称含义相同的概 念。
[0085] 根据本发明的实施例,其中所述概念图的节点对应于所述文本中的概念,节点之 间的路径表明对应于所述节点的所述文本中的概念的关联关系。
[0086] 根据本发明的实施例,其中所述连通分量的权重是根据所述连通分量的节点权重 和节点之间的路径权重计算的。
[0087] 根据本发明的实施例,其中所述连通分量的节点权重根据节点对应的概念在文本 中出现的次数来确定,所述连通分量的节点之间的路径权重根据所述知识库的概念关联图 中所述连通分量的节点之间的路径长度确定。
[0088] 根据本发明的实施例,其中所述概念确定模块进一步被配置为用权重最大的连通 分量包含的节点对应的概念表示该文本。
[0089] 上述每个模块的具体实现方法参照根据本发明实施例的文本表示方法的详细描 述,在此不一一赘述。
[0090] 本发明可以是系统、方法和/或计算机程序产品。计算机程序产品可以包括计算 机可读存储介质,其上载有用于使处理器实现本发明的各个方面的计算机可读程序指令。
[0091] 计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形 设备。计算机可读存储介质例如可以是一一但不限于一一电存储设备、磁存储设备、光存储 设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质 的更具体的例子(非穷举的列表)包括:便携式计算机盘、硬盘、随机存取存储器(RAM)、只 读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、 便携式压缩盘只读存储器(⑶-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例 如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用 的计算机可读存储介质不被解释为瞬时信号本身,诸如无线电波或者其他自由传播的电磁 波、通过波导或其他传输媒介传播的电磁波(例如,通过光纤电缆的光脉冲)、
当前第3页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1