识别文本题材的方法和装置的制造方法

文档序号:9547179阅读:473来源:国知局
识别文本题材的方法和装置的制造方法
【技术领域】
[0001] 本申请涉及计算机技术领域,具体涉及自然语言处理技术领域,尤其涉及识别文 本题材的方法和装置。
【背景技术】
[0002] 目前,随着互联网行业的迅速发展,互联网新闻逐渐成为大众的主要阅读来源。为 了更好地引导用户阅读、或者为用户的决策(例如购买股票)提供参考,如何识别出新闻文 本的题材(即主题、概念)成为目前需要解决的问题。现有技术中识别文本的题材的方法 是:通过将文本与题材库中的题材文本进行匹配,根据匹配到的题材文本来识别文本的题 材。
[0003] 然而,在实际的新闻文本中,题材的表达方式是多种多样的,大部分情况下不能与 题材库中题材文本的表达形式完全相同。因此,采用现有技术只能识别出与题材文本的表 达形式完全相同的文本的题材,而无法识别出其它表达形式的文本的题材。

【发明内容】

[0004] 本申请的目的在于提出一种识别文本题材的方法和装置,来解决以上【背景技术】部 分提到的技术问题。
[0005] 第一方面,本申请提供了一种识别文本题材的方法,所述方法包括:接收待识别文 本;根据预存的题材信息集合中的题材信息的原始题材文本和题材切分文本,在所述题材 信息集合中匹配与所述待识别文本对应的题材信息,其中,所述题材信息包括以下信息:原 始题材文本、与所述原始题材文本相关联的题材切分文本,所述题材切分文本通过对所述 原始题材文本进行切分后获得;根据匹配结果识别出所述待识别文本的题材。
[0006] 在一些实施例中,所述根据预存的题材信息集合中的题材信息的原始题材文本和 题材切分文本,在所述题材集合中匹配与所述待识别文本对应的题材信息,包括:将所述待 识别文本与所述题材信息集合中的各个题材信息的原始题材文本进行匹配;如果匹配到原 始题材文本,则将匹配到的原始题材文本对应的题材信息作为所述与所述待识别文本对应 的题材信息;如果没有匹配到原始题材文本,则将所述待识别文本与所述题材信息集合中 的各个题材信息的题材切分文本进行匹配;如果匹配到题材切分文本,则将与匹配到的题 材切分文本信息对应的题材信息作为所述待识别文本对应的题材信息。
[0007] 在一些实施例中,所述将所述待识别文本与所述题材信息集合中的各个题材信息 的原始题材文本进行匹配,包括:通过最大匹配算法将所述待识别文本与所述题材信息集 合中的各个题材信息的原始题材文本进行匹配。
[0008] 在一些实施例中,所述将所述待识别文本与所述题材信息集合中的各个题材信息 的题材切分文本进行匹配,包括:根据各个题材切分文本中的字符以及字符间的前后关系, 将所述待识别文本与各个题材切分文本进行匹配。
[0009] 在一些实施例中,在接收待识别文本之前,所述方法还包括:根据预先收集的原始 题材文本集合构建N-Gram模型,得到所述原始题材文本集合中的各个原始题材文本对应 的至少一个题材切分文本;在每个原始题材文本对应的至少一个题材切分文本中选择一个 题材切分文本作为与原始题材文本相关联的题材切分文本;将各个原始题材文本对应的题 材信息加入所述题材信息集合中,其中,所述题材信息包括以下信息:原始题材文本、与所 述原始题材文本相关联的题材切分文本。
[0010] 在一些实施例中,所述在每个原始题材文本对应的至少一个题材切分文本中选择 一个题材切分文本作为与原始题材文本相关联的题材切分文本,包括:根据预先收集的基 准文本集合、各个原始题材文本和所述各个原始题材文本对应的至少一个题材切分文本, 得到各个原始题材文本对应的各个题材切分文本的权重;针对每一个原始题材文本,将所 述原始题材文本对应的各个题材切分文本中权重最高的题材切分文本作为与所述原始题 材文本相关联的题材切分文本。
[0011] 在一些实施例中,所述根据预先收集的基准文本集合、各个原始题材文本和所述 各个原始题材文本对应的至少一个题材切分文本,得到各个原始题材文本对应的各个题材 切分文本的权重,包括:获取各个原始题材文本以及各个题材切分文本在所述基准文本集 合中出现的频次;针对每个原始题材文本,将所述原始题材文本对应的各个题材切分文本 的所述频次与所述原始题材文本的所述频次的比值分别作为各个题材切分文本的权重。
[0012] 第二方面,本申请提供了一种识别文本题材的装置,所述装置包括:
[0013] 待识别文本接收单元,用于接收待识别文本;题材信息匹配单元,用于根据预存的 题材信息集合中的题材信息的原始题材文本和题材切分文本,在所述题材信息集合中匹配 与所述待识别文本对应的题材信息,其中,所述题材信息包括以下信息:原始题材文本、与 所述原始题材文本相关联的题材切分文本,所述题材切分文本通过对所述原始题材文本进 行切分后获得;文本题材识别单元,用于根据匹配结果识别出所述待识别文本的题材。
[0014] 在一些实施例中,所述题材信息匹配单元包括:原始题材文本匹配子单元,用于将 所述待识别文本与所述题材信息集合中的各个题材信息的原始题材文本进行匹配,如果匹 配到原始题材文本,则将匹配到的原始题材文本对应的题材信息作为所述与所述待识别文 本对应的题材信息;题材切分文本匹配子单元,用于在没有匹配到原始题材文本时,将所述 待识别文本与所述题材信息集合中的各个题材信息的题材切分文本进行匹配,如果匹配到 题材切分文本,则将与匹配到的题材切分文本信息对应的题材信息作为所述待识别文本对 应的题材?目息。
[0015] 在一些实施例中,所述原始题材文本匹配子单元进一步配置用于通过最大匹配算 法将所述待识别文本与所述题材信息集合中的各个题材信息的原始题材文本进行匹配。
[0016] 在一些实施例中,所述题材切分文本匹配子单元进一步配置用于根据各个题材切 分文本中的字符以及字符间的前后关系,将所述待识别文本与各个题材切分文本进行匹 配。
[0017] 在一些实施例中,所述装置还包括:题材切分文本获取单元,用于根据预先收集的 原始题材文本集合构建N-Gram模型,得到所述原始题材文本集合中的各个原始题材文本 对应的至少一个题材切分文本;题材切分文本选择单元,用于在每个原始题材文本对应的 至少一个题材切分文本中选择一个题材切分文本作为与原始题材文本相关联的题材切分 文本;题材信息添加单元,用于将各个原始题材文本对应的题材信息加入所述题材信息集 合中,其中,所述题材信息包括以下信息:原始题材文本、与所述原始题材文本相关联的题 材切分文本。
[0018] 在一些实施例中,所述题材切分文本选择单元包括:权重获取子单元,用于根据预 先收集的基准文本集合、各个原始题材文本和所述各个原始题材文本对应的至少一个题材 切分文本,得到各个原始题材文本对应的各个题材切分文本的权重;题材切分文选择子单 元,用于针对每一个原始题材文本,将所述原始题材文本对应的各个题材切分文本中权重 最高的题材切分文本作为与所述原始题材文本相关联的题材切分文本。
[0019] 在一些实施例中,所述权重获取子单元包括:频次获取模块,用于获取各个原始题 材文本以及各个题材切分文本在所述基准文本集合中出现的频次;权重计算模块,用于针 对每个原始题材文本,将所述原始题材文本对应的各个题材切分文本的所述频次与所述原 始题材文本的所述频次的比值分别作为各个题材切分文本的权重。
[0020] 本申请提供的识别文本题材的方法和装置,通过根据预存的题材信息集合中的题 材信息的原始题材文本和题材切分文本,在所述题材信息集合中匹配与所述待识别文本对 应的题材信息,并根据匹配结果识别出所述待识别文本的题材,增加了题材切分文本作为 匹配对象,从而能够识别出更多表达形式的文本的题材。
【附图说明】
[0021] 通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它 特征、目的和优点将会变得更明显:
[0022] 图1是本申请可以应用于其中的示例性系统架构图;
[0023] 图2是根据本申请的识别文本题材的方法的一个实施例的流程图;
[0024] 图3是根据本申请的识别文本题材的方法的另一个实施例的流程图;
[0025] 图4是根据本申请的识别文本题材的装置的一个实施例的结构示意图;
[0026] 图5是适于用来实现本申请实施例的服务器的计算机系统的结构示意图。
【具体实施方式】
[0027] 下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描 述的具体实施例仅仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了 便于描述,附图中仅示出了与有关发明相关的部分。
[0028] 需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相 互组合。下面将参考附图并结合实施例来详细说明本申请。
[0029] 图1示出了可以应用本申请的识别文本题材的方法或识别文本题材的装置的实 施例的示例性系统架构100。
[0030] 如图1所示,系统架构10
当前第1页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1