信息处理方法和信息处理设备的制作方法

文档序号:6489221阅读:275来源:国知局
信息处理方法和信息处理设备的制作方法
【专利摘要】公开了信息处理方法和信息处理设备,该方法包括:候选语义关键词提取步骤,用于对输入文本进行分词以从文本提取候选语义关键词;权重计算步骤,用于计算提取的候选语义关键词的权重;语义关键词选择步骤,用于基于算出的权重,根据预定规则从提取的候选语义关键词中选择语义关键词;链接关系确定步骤,用于确定选择的语义关键词与预定语义知识库中的概念间的链接关系;及文本语义图构建步骤,用于基于确定的链接关系、语义知识库中的概念间的语义关系及根据预定推理规则确定的语义关键词与语义知识库中其他概念间的关系,构建表示文本中的语义关键词与语义知识库中的概念间的关系的文本语义图。根据本发明,能够高效地进行信息集成、检索和共享。
【专利说明】信息处理方法和信息处理设备
【技术领域】
[0001]本发明涉及自然语言处理领域,更具体地,涉及一种信息处理方法和信息处理设备,其能够从海量的非结构化文本信息中提取表示文本的语义信息的关键词,并且将语义关键词链接到语义知识库中,从而更高效地进行信息集成、共享和检索,同时支持多种应用,诸如文本分类、聚类、主题提取以及机器翻译等等。
【背景技术】
[0002]随着信息技术的发展,文本信息的种类和数量(诸如新闻、博客、微博、专利文献和科技论文等等)得到了快速增长。如何对海量的非结构化文本信息加以利用,以更高效地进行信息集成、检索和共享等一系列应用,已对本领域技术人员提出了新的挑战。

【发明内容】

[0003]在下文中给出了关于本发明的简要概述,以便提供关于本发明的某些方面的基本理解。但是,应当理解,这个概述并不是关于本发明的穷举性概述。它并不是意图用来确定本发明的关键性部分或重要部分,也不是意图用来限定本发明的范围。其目的仅仅是以简化的形式给出关于本发明的某些概念,以此作为稍后给出的更详细描述的前序。
[0004]因此,鉴于上述情形,本发明的目的是提供一种信息处理方法和信息处理设备,其能够从文本信息中提取语义关键词,根据语义相似度将语义关键词链接到预设的语义知识库中,并结合语义知识库中概念间的语义关系和推理规则来产生语义关键词与其它概念间的新链接,从而构建文 本的语义图。根据本发明的信息处理方法和设备可以用于多种应用,例如,通过计算两个文本的语义图之间的语义相似度来计算这两个文本之间的语义相似度,从而可以对文本进行分类和聚类处理;以及通过将文本链接到跨语言的语义知识库中,可以将原语言文本转换为由目标语言表示的语义图,进而辅助目标语言的用户对该文本的理解,这可以应用于机器翻译等领域。
[0005]为了实现上述目的,根据本发明的一方面,提供了一种信息处理方法,该方法包括:候选语义关键词提取步骤,用于对输入的文本进行分词,以从文本提取候选语义关键词;权重计算步骤,用于计算所提取的候选语义关键词的权重;语义关键词选择步骤,用于基于算出的权重,根据预定规则从所提取的候选语义关键词中选择语义关键词;链接关系确定步骤,用于确定所选择的语义关键词与预定的语义知识库中的概念之间的链接关系;以及文本语义图构建步骤,用于基于所确定的链接关系、语义知识库中的概念之间的语义关系以及根据预定推理规则确定的语义关键词与语义知识库中其他概念之间的关系,构建表示文本中的语义关键词与语义知识库中的概念之间的关系的文本语义图。
[0006]根据本发明的实施例,在权重计算步骤中,基于下述因素中的一个或多个来计算候选语义关键词的权重:词频-反文档频率(TF-1DF)、词频-比例文档频率(TF-PDF)J^增益、在预定的语料库中被选择作为关键词的概率以及是否出现在语义知识库中。
[0007]根据本发明的另一实施例,在语义关键词选择步骤中,将候选语义关键词按其权重的降序进行排序,并且选择排序靠前的特定数量的候选语义关键词作为语义关键词。
[0008]根据本发明的另一实施例,如果文本不包含语义知识库中的概念,则特定数量为零;如果文本仅包含语义知识库中的一个概念,则特定数量为I;以及如果文本中包含语义知识库中的概念的数量大于1,则基于文本的长度和预定均值来确定特定数量,其中该预定均值是基于预定的语料库而统计的各个文本中的语义关键词的数量与该文本的长度的比值的平均值。
[0009]根据本发明的另一实施例,在链接关系确定步骤中,利用所选择的语义关键词在语义知识库中进行检索,如果检索到的概念的数量为一个,则将该概念确定为要与语义关键词链接的概念;否则,基于下述因素中的一个或多个来确定各个语义关键词与检索到的两个或更多个概念之间的相似度,并且将相似度最大的概念确定为要与该语义关键词链接的概念:语义关键词与概念在预定语料库中互指的概率;语义关键词与概念在预定语料库中共现的概率;语义关键词与概念在预定语料库的分类结构树中的距离;以及语义关键词所在的文本与概念所在的文本之间的余弦距离。
[0010]根据本发明的另一方面,还提供了一种信息处理设备,该设备包括:候选语义关键词提取单元,被配置成对输入的文本进行分词,以从文本提取候选语义关键词;权重计算单元,被配置成计算所提取的候选语义关键词的权重;语义关键词选择单元,被配置成基于算出的权重,根据预定规则从所提取的候选语义关键词中选择语义关键词;链接关系确定单元,被配置成确定所选择的语义关键词与预定的语义知识库中的概念之间的链接关系;以及文本语义图构建单元,被配置成基于所确定的链接关系、语义知识库中的概念之间的语义关系以及根据预定推理规则确定的语义关键词与语义知识库中其他概念之间的关系,构建表示文本中的语义关键词与语义知识库中的概念之间的关系的文本语义图。
[0011]另外,根据本发明的又一方面,还提供了一种存储介质,该存储介质包括机器可读的程序代码,当在数据处理设备上执行程序代码时,该程序代码使得数据处理设备执行根据本发明的信息处理方法。
[0012]此外,根据本发明的再一方面,还提供了一种程序产品,该程序产品包括机器可执行的指令,当在数据处理设备上执行指令时,该指令使得数据处理设备执行根据本发明的/[目息处理方法。
[0013]因此,根据本发明的实施例,能够高效、准确地对非结构化文本信息进行处理,不仅将表示该文本信息的语义关键词链接到语义知识库中的相同实体,而且还利用语义知识库中的概念之间的语义链接关系以及推理规则来确定语义关键词与知识库中其他概念之间的链接关系,从而获得关于语义关键词的更多语义信息。
[0014]在下面的说明书部分中给出本发明实施例的其他方面,其中,详细说明用于充分地公开本发明实施例的优选实施例,而不对其施加限定。
【专利附图】

【附图说明】
[0015]本发明可以通过参考下文中结合附图所给出的详细描述而得到更好的理解,其中在所有附图中使用了相同或相似的附图标记来表示相同或者相似的部件。所述附图连同下面的详细说明一起包含在本说明书中并形成说明书的一部分,用来进一步举例说明本发明的优选实施例和解释本发明的原理和优点。其中:[0016]图1是示出根据本发明的实施例的信息处理方法的示例的流程图;
[0017]图2示出通过根据本发明的实施例的信息处理方法构建的文本语义图的示例的示意图;
[0018]图3是示出通过根据本发明的实施例的信息处理方法构建的文本语义图的另一示例的示意图;
[0019]图4是示出根据本发明的实施例的信息处理设备的功能配置的结构框图;以及
[0020]图5是示出作为本发明的实施例中所采用的信息处理装置的个人计算机的示例性结构的框图。
【具体实施方式】
[0021]在下文中将结合附图对本发明的示范性实施例进行描述。为了清楚和简明起见,在说明书中并未描述实际实施方式的所有特征。然而,应该了解,在开发任何这种实际实施例的过程中必须做出很多特定于实施方式的决定,以便实现开发人员的具体目标,例如,符合与系统及业务相关的那些限制条件,并且这些限制条件可能会随着实施方式的不同而有所改变。此外,还应该了解,虽然开发工作有可能是非常复杂和费时的,但对得益于本公开内容的本领域技术人员来说,这种开发工作仅仅是例行的任务。
[0022]在此,还需要说明的一点是,为了避免因不必要的细节而模糊了本发明,在附图中仅仅示出了与根据本发明的方案密切相关的设备结构和/或处理步骤,而省略了与本发明关系不大的其它细节。
[0023]以下将参照图1至图5来详细描述根据本发明的实施例的信息处理方法和信息处
理设备。
[0024]首先,将参照图1来描述根据本发明的实施例的信息处理方法。如图1所示,该信息处理方法可以包括候选语义关键词提取步骤S101、权重计算步骤S102、语义关键词选择步骤S103、链接关系确定步骤S104以及文本语义图构建步骤S105。
[0025]具体地,在候选语义关键词提取步骤SlOl中,对输入的文本进行分词,以从该文本提取候选语义关键词。优选地,输入的文本的类型可以包括但不限于新闻文本、博客、微博、专利文献以及科技论文等等。
[0026]优选地,在候选语义关键词提取步骤SlOl中,如果所输入的文本中的特定词与语义知识库中的概念最长匹配,则提取该词作为候选语义关键词。具体地,利用最长匹配策略,将知识库中的概念作为一个分词单元,如果文本中的某个词与知识库中的概念最长匹配,则将该词作为一个独立的词,然后去掉停止词,将剩余的词作为候选语义关键词。例如,对于输入文本中的一段信息“中华人民共和国成立于1949年10月I日”,其中的词“中华人民共和国”与语义知识库中的概念“中华人民共和国”实现了最长匹配,则提取词“中华人民共和国”作为该文本的候选语义关键词。优选地,该语义知识库可以是公知的知识库如DBPedia等,或者也可以是用户预设的语义知识库。
[0027]在权重计算步骤S102中,计算在步骤SlOl中所提取的候选语义关键词的权重。
[0028]优选地,在权重计算步骤S102中,基于下述因素中的一个或多个来计算各个候选语义关键词的权重:词频-反文档频率(TF-1DF)、词频-比例文档频率(TF-PDF)JtIJI益、在预定的语料库中被选择作为关键词的概率以及是否出现在语义知识库中。[0029]在上述权重计算步骤S102中,由于同时考虑到该候选语义关键词的统计信息和语义知识库的信息,从而使得计算结果更加准确。优选地,可以通过将关于语义关键词的统计信息和关于知识库的信息进行线性加权来得到总权重,该计算过程可以以下述公式(I)来表示:
[0030]Score (word) = a ^statistics (word) + (1- a ) φ (I)
[0031]其中,Score (word)表示候选语义关键词word的权重,statistics (word)表示基于以下因素中的至少一个而统计的候选语义关键词word的信息重要度:词频-反文档频率(TF-1DF);词频-比例文档频率(TF-PDF);信息增益;以及候选语义关键词word在预定的语料库中被选作关键词的概率,Φ为二值函数,当候选语义关键词word出现在语义知识库中时,Φ为1,否则为O,并且α为基于输入文本的类型而预先确定的加权系数,其为经验值或者通过有限次的实验来确定。加权系数α表示统计信息重要度在总权重中所占的比例,通过根据不同的文本类型调整α,可以调整统计信息重要度和知识库权重的比例。
[0032]在上述权重计算步骤中,词的TF-1DF、TF-PDF以及信息增益的计算均为本领域公知的技术,在此不再赘述。预定的语料库可以是包括用户预先标注好的文本的集合或者公知的语料库(如维基百科等)。
[0033]接下来,在语义关键词选择步骤S103中,可以基于在步骤S102中算出的权重,根据预定规则从在步骤SlOl中提取的候选语义关键词中选择语义关键词。
[0034]优选地,在语义关键词选择步骤S103中,可以将所提取的候选语义关键词按其权重的降序进行排序,并且选择排序靠前的特定数量的候选语义关键词作为语义关键词。该特定数量可以以下述方式来确定:如果文本不包含语义知识库中的概念,则特定数量为O ;如果文本仅包含语义知 识库中的一个概念,则特定数量为I;以及如果文本中包含语义知识库中的概念的数量大于I,则基于该文本的长度和预定均值来确定该特定数量,该预定均值是基于预定的语料库而统计的各个文本中的语义关键词的数量与该文本的长度的比值的平均值。该预定的语料库可以为在例如维基百科中随机选择的一些文本或者是用户预先标注好的一些文本。优选地,该特定数量的确定过程可以以下述公式(2)来表示:
[0035]
【权利要求】
1.一种信息处理方法,包括: 候选语义关键词提取步骤,用于对输入的文本进行分词,以从所述文本提取候选语义关键词; 权重计算步骤,用于计算所提取的候选语义关键词的权重; 语义关键词选择步骤,用于基于算出的权重,根据预定规则从所提取的候选语义关键词中选择语义关键词; 链接关系确定步骤,用于确定所选择的语义关键词与预定的语义知识库中的概念之间的链接关系;以及 文本语义图构建步骤,用于基于所确定的链接关系、所述语义知识库中的概念之间的语义关系以及根据预定推理规则确定的语义关键词与所述语义知识库中其他概念之间的关系,构建表示所述文本中的语义关键词与所述语义知识库中的概念之间的关系的文本语义图。
2.根据权利要求1所述的信息处理方法,其中,在所述权重计算步骤中,基于下述因素中的一个或多个来计算所述候选语义关键词的权重:词频-反文档频率TF-1DF、词频-比例文档频率TF-PDF、信息增益、在预定的语料库中被选择作为关键词的概率以及是否出现在所述语义知识库中。
3.根据权利要求1所述的信息处理方法,其中,在所述语义关键词选择步骤中,将所述候选语义关键词按其权重的降序进行排序,并且选择排序靠前的特定数量的候选语义关键词作为所述语义关键词。
4.根据权利要求3`所述的信息处理方法,其中,如果所述文本不包含所述语义知识库中的概念,则所述特定数量为零;如果所述文本仅包含所述语义知识库中的一个概念,则所述特定数量为I ;以及如果所述文本中包含所述语义知识库中的概念的数量大于1,则基于所述文本的长度和预定均值来确定所述特定数量,其中所述预定均值是基于预定的语料库而统计的各个文本中的语义关键词的数量与该文本的长度的比值的平均值。
5.根据权利要求1所述的信息处理方法,其中,在所述链接关系确定步骤中,利用所选择的语义关键词在所述语义知识库中进行检索,如果检索到的概念的数量为一个,则将该概念确定为要与所述语义关键词链接的概念;否则,基于下述因素中的一个或多个来确定各个语义关键词与检索到的两个或更多个概念之间的相似度,并且将相似度最大的概念确定为要与该语义关键词链接的概念:语义关键词与概念在预定语料库中互指的概率;语义关键词与概念在预定语料库中共现的概率;语义关键词与概念在预定语料库的分类结构树中的距离;以及语义关键词所在的文本与概念所在的文本之间的余弦距离。
6.—种信息处理设备,包括: 候选语义关键词提取单元,被配置成对输入的文本进行分词,以从所述文本提取候选语义关键词; 权重计算单元,被配置成计算所提取的候选语义关键词的权重; 语义关键词选择单元,被配置成基于算出的权重,根据预定规则从所提取的候选语义关键词中选择语义关键词; 链接关系确定单元,被配置成确定所选择的语义关键词与预定的语义知识库中的概念之间的链接关系;以及文本语义图构建单元,被配置成基于所确定的链接关系、所述语义知识库中的概念之间的语义关系以及根据预定推理规则确定的语义关键词与所述语义知识库中其他概念之间的关系,构建表示所述文本中的语义关键词与所述语义知识库中的概念之间的关系的文本语义图。
7.根据权利要求6所述的信息处理设备,其中,所述权重计算单元被配置成基于下述因素中的一个或多个来计算所述候选语义关键词的权重:词频-反文档频率TF-1DF、词频-比例文档频率TF-PDF、信息增益、在预定的语料库中被选择作为关键词的概率以及是否出现在所述语义知识库中。
8.根据权利要求6所述的信息处理设备,其中,所述语义关键词选择单元被配置成将所述候选语义关键词按其权重的降序进行排序,并且选择排序靠前的特定数量的候选语义关键词作为所述语义关键词。
9.根据权利要求8所述的信息处理设备,其中,如果所述文本不包含所述语义知识库中的概念,则所述特定数量为零;如果所述文本仅包含所述语义知识库中的一个概念,则所述特定数量为I ;以及如果所述文本中包含所述语义知识库中的概念的数量大于1,则基于所述文本的长度和预定均值来确定所述特定数量,其中所述预定均值是基于预定的语料库而统计的各个文本中的语义关键词的数量与该文本的长度的比值的平均值。
10.根据权利要求6所述的信息处理设备,其中,所述链接关系确定单元被配置成利用所选择的语义关键词在所述语义知识库中进行检索,如果检索到的概念的数量为一个,则将该概念确定为要与所述语义关键词链接的概念;否则,基于下述因素中的一个或多个来确定各个语义关键词与检索到的两个或更多个概念之间的相似度,并且将相似度最大的概念确定为要与该语义关键词链接的概念:语义关键词与概念在预定语料库中互指的概率;语义关键词与概念在预定语料库中共现的概率;语义关键词与概念在预定语料库的分类结构树中的距离;以及语义关键词所在的文本与概念所在的文本之间的余弦距离。
【文档编号】G06F17/27GK103678418SQ201210362152
【公开日】2014年3月26日 申请日期:2012年9月25日 优先权日:2012年9月25日
【发明者】缪庆亮, 孟遥, 于浩 申请人:富士通株式会社
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1