网络文本处理方法及装置制造方法

文档序号:6631124阅读:157来源:国知局
网络文本处理方法及装置制造方法
【专利摘要】本发明公开了一种网络文本处理方法及装置。该网络文本处理方法包括:获取待分析的网络文本;获取预设词汇集合;按照多个预设词汇的长度由长到短的顺序,依次判断多个预设词汇是否出现在网络文本中,其中,依次判断多个预设词汇是否出现在网络文本中包括:判断第一预设词汇是否出现在网络文本中,如果第一预设词汇出现在网络文本中,在判断第二预设词汇是否出现在网络文本中时,忽略网络文本中与第一预设词汇相同的词汇;获取网络文本中与第一预设词汇和第二预设词汇相同的词汇。通过本发明,在网络文本处理过程中有效避免了文本词汇重复匹配问题,并且提高了文本词汇的匹配效率。
【专利说明】网络文本处理方法及装置

【技术领域】
[0001] 本发明涉及数据处理领域,具体而言,涉及一种网络文本处理方法及装置。

【背景技术】
[0002] 在对网络文本的处理中,例如,对网络文本中的情感词汇的处理,文本词汇的提取 是非常关键的一个环节。通常提取文本词汇的方法是载入预设词汇集合(词典),将文本 与词典中的词汇逐一进行匹配,并记录匹配到的词汇,用于后续进行词汇分析。在匹配过程 中,若词汇在文本中出现,则实例化该词汇对象,记录该词汇的权重,通过一系列包括但不 限于否定、程度等逻辑的修正,得到该词汇的得分,最后对所有匹配到的词汇进行统计意义 上的汇总。例如,对某网站访客评价的网络文本进行情感词汇的分析,有助于网站对评价对 象做出情感倾向性判断。
[0003] 但是在上述文本和预设词汇集合的匹配过程中存在重复匹配的问题。重复匹配, 指一个文章中同一个位置的文本词汇被多个不同的预设词汇匹配到,造成实例化的词汇对 象指代重复。例如,如果预设情感词汇集合(情感词典)中同时存在"高高兴兴"和"高兴" 两个预设情感词汇,那么当文本中出现"高高兴兴"时,将同时提取出两个情感词汇元素,即 "高高兴兴"和"高兴",造成重复匹配。
[0004] 现有的进行词汇匹配的方式主要有两种:第一种方法是通过遍历预设词汇集合, 直接对网络文本进行匹配,判断文本中是否包含预设词汇集合中的词汇,如果有则记录该 词汇;第二种方法,首先对文本进行切分,产生多个切分词,通过与预设词汇集合比对,判 断每一个切分词是否为预设词汇集合中的词汇,如果是则记录该词汇。第一种方法的特点 是执行效率较高,时间复杂度为〇(n),是线性的,但是可能发生重复匹配现象;第二种方法 匹配时采用的方式不再是原有的包含查询,而是切分词与预设词汇集合中词汇的完全匹配 查询,因此能够有效避免重复匹配的发生,但是该方法需要对切分词进行遍历,执行效率较 低,时间复杂度为〇(m*n),是非线性的,同时,匹配结果依赖于分词系统的分词结果,中文分 词效果的好坏会直接对文本中词汇的提取造成影响。
[0005] 针对相关技术在进行网络文本处理过程中不能兼顾避免文本词汇重复匹配和提 高文本词汇匹配效率的问题,目前尚未提出有效的解决方案。


【发明内容】

[0006] 针对现有的对网络文本进行处理过程中不能兼顾避免文本词汇重复匹配和提高 文本词汇匹配效率的问题,为此,本发明的主要目的在于提供一种网络文本处理方法及装 置,以解决上述问题。
[0007] 为了实现上述目的,根据本发明的一个方面,提供了一种网络文本处理方法。该方 法包括:获取待分析的网络文本,其中,网络文本包括多个词汇,多个词汇中至少有一个词 汇包括另一个词汇;获取预设词汇集合,其中,预设词汇集合包含多个预设词汇,多个预设 词汇包括第一预设词汇和第二预设词汇,第一预设词汇的长度大于第二预设词汇的长度; 按照多个预设词汇的长度由长到短的顺序,依次判断多个预设词汇是否出现在网络文本 中,其中,依次判断多个预设词汇是否出现在网络文本中包括:判断第一预设词汇是否出现 在网络文本中,如果第一预设词汇出现在网络文本中,在判断第二预设词汇是否出现在网 络文本中时,忽略网络文本中与第一预设词汇相同的词汇;获取网络文本中与第一预设词 汇和第二预设词汇相同的词汇。
[0008] 进一步地,按照以下方法对多个预设词汇按词汇长度由长到短的顺序进行排序: 获取多个预设词汇的首字母;按照首字母的顺序对多个预设词汇进行第一次排序;计算多 个预设词汇的长度;在第一次排序的基础上,按照词汇长度由长到短的顺序对多个预设词 汇进行再次排序。
[0009] 进一步地,如果第一预设词汇出现在网络文本中,在判断第二预设词汇是否出现 在网络文本中时,忽略网络文本中与第一预设词汇相同的词汇包括:如果第一预设词汇出 现在网络文本中,在判断第二预设词汇是否出现在网络文本中之前,将网络文本中与第一 预设词汇相同的词汇替换为非文字符号。
[0010] 进一步地,如果第一预设词汇出现在网络文本中,在判断第二预设词汇是否出现 在网络文本中时,忽略网络文本中与第一预设词汇相同的词汇包括:如果第一预设词汇出 现在网络文本中,在判断第二预设词汇是否出现在网络文本中之前,记录网络文本中与第 一预设词汇相同的词汇在网络文本中的位置,在判断第二预设词汇是否出现在网络文本中 时,忽略网络文本中位于第一预设词汇位置处的词汇。
[0011] 进一步地,获取网络文本中与第一预设词汇和第二预设词汇相同的词汇之后,该 方法还包括:将网络文本中与第一预设词汇和第二预设词汇相同的词汇实例化;获取实例 化的词汇的权重;对实例化的词汇进行逻辑修正。
[0012] 为了实现上述目的,根据本发明的另一方面,提供了一种网络文本处理装置,该装 置包括:第一获取单元,用于获取待分析的网络文本,其中,网络文本包括多个词汇,多个词 汇中至少有一个词汇包括另一个词汇;第二获取单元,用于获取预设词汇集合,其中,预设 词汇集合包含多个预设词汇,多个预设词汇包括第一预设词汇和第二预设词汇,第一预设 词汇的长度大于第二预设词汇的长度;判断单元,用于按照多个预设词汇的长度由长到短 的顺序,依次判断多个预设词汇是否出现在网络文本中,其中,依次判断多个预设词汇是否 出现在网络文本中包括:判断第一预设词汇是否出现在网络文本中,如果第一预设词汇出 现在网络文本中,在判断第二预设词汇是否出现在网络文本中时,忽略网络文本中与第一 预设词汇相同的词汇;第三获取单元,用于获取网络文本中与第一预设词汇和第二预设词 汇相同的词汇。
[0013] 进一步地,该装置还包括:第四获取单元,用于获取多个预设词汇的首字母;第一 排序单元,用于按照首字母的顺序对多个预设词汇进行第一次排序;计算单元,用于计算多 个预设词汇的长度;第二排序单元,用于在第一次排序的基础上,按照词汇长度由长到短的 顺序对多个预设词汇进行再次排序。
[0014] 进一步地,该装置还包括:替换单元,用于在判断单元判断出第一预设词汇出现在 网络文本中,判断单元判断第二预设词汇是否出现在网络文本中之前,将网络文本中与第 一预设词汇相同的词汇替换为非文字符号。
[0015] 进一步地,该装置还包括:记录单元,用于在判断单元判断出第一预设词汇出现在 网络文本中,判断单元判断第二预设词汇是否出现在网络文本中之前,记录网络文本中与 第一预设词汇相同的词汇在网络文本中的位置;忽略单元,用于在判断单元判断出第一预 设词汇出现在网络文本中,判断单元判断第二预设词汇是否出现在网络文本中时,忽略网 络文本中位于第一预设词汇位置处的词汇。
[0016] 进一步地,该装置还包括:第五获取单元,用于将网络文本中与第一预设词汇和第 二预设词汇相同的词汇实例化;第六获取单元,用于获取实例化的词汇的权重;修正单元, 用于对实例化的词汇进行逻辑修正。
[0017] 通过本发明,采用包括以下步骤的方法:获取待分析的网络文本,其中,网络文本 包括多个词汇,多个词汇中至少有一个词汇包括另一个词汇;获取预设词汇集合,其中,预 设词汇集合包含多个预设词汇,多个预设词汇包括第一预设词汇和第二预设词汇,第一预 设词汇的长度大于第二预设词汇的长度;按照多个预设词汇的长度由长到短的顺序,依次 判断多个预设词汇是否出现在网络文本中,其中,依次判断多个预设词汇是否出现在网络 文本中包括:判断第一预设词汇是否出现在网络文本中,如果第一预设词汇出现在网络文 本中,在判断第二预设词汇是否出现在网络文本中时,忽略网络文本中与第一预设词汇相 同的词汇;获取网络文本中与第一预设词汇和第二预设词汇相同的词汇,解决了进行网络 文本处理过程中不能兼顾避免词汇重复匹配和提高词汇匹配效率的问题,进而使得在网络 文本处理过程中,在文本词汇与预设词汇集合不出现重复匹配的前提下,提升了词汇匹配 的效率,提高了网络文本处理的准确性。

【专利附图】

【附图说明】
[0018] 构成本申请的一部分的附图用来提供对本发明的进一步理解,本发明的示意性实 施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
[0019] 图1是根据本发明网络文本处理方法的第一实施例的流程图;
[0020] 图2是根据本发明的网络文本处理方法的第二实施例的流程图;
[0021] 图3是根据本发明的网络文本处理装置的第一实施例的示意图;以及
[0022] 图4是根据本发明的网络文本处理装置的第二实施例的示意图。

【具体实施方式】
[0023] 为了使本【技术领域】的人员更好地理解本发明方案,下面将结合本发明实施例中的 附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是 本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术 人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范 围。
[0024] 需要说明的是,本发明的说明书和权利要求书及上述附图中的术语"第一"、"第 二"等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。此外,术语"包括" 和"具有"以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单 元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没 有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
[0025] 在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将 参考附图并结合实施例来详细说明本发明。
[0026] 图1是根据本发明的网络文本处理方法的第一实施例的流程图。如图1所示,该 方法包括如下步骤:
[0027] 步骤S102,获取待分析的网络文本,其中,网络文本包括多个词汇,多个词汇中至 少有一个词汇包括另一个词汇。
[0028] 网络文本中往往包含了大量的可参考信息。比如,对于一个购物网站,在消费者的 购物评价网页中,会存在大量的消费者对相应商品的购物评价文本。当购物网站获取了这 些评价文本,便可通过分析这些文本,而获知消费者对该商品的情感倾向,从而优化销售策 略。
[0029] 获取待分析的网络文本的目的是获取网络文本中的待分析的文本词汇。网络文本 中在包含词汇之余,可以包含其他符号等非文字信息。当网络文本中包含多个词汇时,可能 出现一个词汇包含另外一个词汇的现象。比如,网络文本中包含"稳定性很好",其中,"稳定 性"包含了"稳定"。
[0030] 步骤S104,获取预设词汇集合,其中,预设词汇集合包含多个预设词汇,多个预设 词汇包括第一预设词汇和第二预设词汇,第一预设词汇的长度大于第二预设词汇的长度。
[0031] 预设词汇集合可以作为一种词典。比如,我们需要从网络文本中提取代表情感方 面的词汇,例如,高兴、整垮等,可选择包含了诸多情感词的预设词汇集合,其中的情感词可 以按词义分类为褒义、中性、贬义,或者积极、中性、消极等,但分类形式不仅限于此。预设词 汇集合中给出了对应不同词汇的权重值(强度值)。
[0032] 如,预设情感词汇集合如表一所示(表一只列出了预设情感词汇集合中的部分 词汇):
[0033] 表一
[0034]

【权利要求】
1. 一种网络文本处理方法,其特征在于,包括: 获取待分析的网络文本,其中,所述网络文本包括多个词汇,所述多个词汇中至少有一 个词汇包括另一个词汇; 获取预设词汇集合,其中,所述预设词汇集合包含多个预设词汇,所述多个预设词汇 包括第一预设词汇和第二预设词汇,所述第一预设词汇的长度大于所述第二预设词汇的长 度; 按照所述多个预设词汇的长度由长到短的顺序,依次判断所述多个预设词汇是否出现 在所述网络文本中,其中,依次判断所述多个预设词汇是否出现在所述网络文本中包括:判 断所述第一预设词汇是否出现在所述网络文本中,如果所述第一预设词汇出现在所述网络 文本中,在判断所述第二预设词汇是否出现在所述网络文本中时,忽略所述网络文本中与 所述第一预设词汇相同的词汇;以及 获取所述网络文本中与所述第一预设词汇和所述第二预设词汇相同的词汇。
2. 根据权利要求1所述的方法,其特征在于,按照以下方法对所述多个预设词汇按词 汇长度由长到短的顺序进行排序: 获取所述多个预设词汇的首字母; 按照首字母的顺序对所述多个预设词汇进行第一次排序; 计算所述多个预设词汇的长度;以及 在所述第一次排序的基础上,按照词汇长度由长到短的顺序对所述多个预设词汇进行 再次排序。
3. 根据权利要求1所述的方法,其特征在于,如果所述第一预设词汇出现在所述网络 文本中,在判断所述第二预设词汇是否出现在所述网络文本中时,忽略所述网络文本中与 所述第一预设词汇相同的词汇包括: 如果所述第一预设词汇出现在所述网络文本中,在判断所述第二预设词汇是否出现在 所述网络文本中之前,将所述网络文本中与所述第一预设词汇相同的词汇替换为非文字符 号。
4. 根据权利要求1所述的方法,其特征在于,如果所述第一预设词汇出现在所述网络 文本中,在判断所述第二预设词汇是否出现在所述网络文本中时,忽略所述网络文本中与 所述第一预设词汇相同的词汇包括: 如果所述第一预设词汇出现在所述网络文本中,在判断所述第二预设词汇是否出现在 所述网络文本中之前,记录所述网络文本中与所述第一预设词汇相同的词汇在所述网络文 本中的位置,在判断所述第二预设词汇是否出现在所述网络文本中时,忽略所述网络文本 中位于所述第一预设词汇位置处的词汇。
5. 根据权利要求1所述的方法,其特征在于,获取所述网络文本中与所述第一预设词 汇和所述第二预设词汇相同的词汇之后,所述方法还包括: 将所述网络文本中与所述第一预设词汇和所述第二预设词汇相同的词汇实例化; 获取实例化的词汇的权重;以及 对实例化的词汇进行逻辑修正。
6. -种网络文本处理装置,其特征在于,包括: 第一获取单元,用于获取待分析的网络文本,其中,所述网络文本包括多个词汇,所述 多个词汇中至少有一个词汇包括另一个词汇; 第二获取单元,用于获取预设词汇集合,其中,所述预设词汇集合包含多个预设词汇, 所述多个预设词汇包括第一预设词汇和第二预设词汇,所述第一预设词汇的长度大于所述 第二预设词汇的长度; 判断单元,用于按照所述多个预设词汇的长度由长到短的顺序,依次判断所述多个预 设词汇是否出现在所述网络文本中,其中,依次判断所述多个预设词汇是否出现在所述网 络文本中包括:判断所述第一预设词汇是否出现在所述网络文本中,如果所述第一预设词 汇出现在所述网络文本中,在判断所述第二预设词汇是否出现在所述网络文本中时,忽略 所述网络文本中与所述第一预设词汇相同的词汇;以及 第三获取单元,用于获取所述网络文本中与所述第一预设词汇和所述第二预设词汇相 同的词汇。
7. 根据权利要求6所述的装置,其特征在于,所述装置还包括: 第四获取单元,用于获取所述多个预设词汇的首字母; 第一排序单元,用于按照首字母的顺序对所述多个预设词汇进行第一次排序; 计算单元,用于计算所述多个预设词汇的长度;以及 第二排序单元,用于在所述第一次排序的基础上,按照词汇长度由长到短的顺序对所 述多个预设词汇进行再次排序。
8. 根据权利要求6所述的装置,其特征在于,所述装置还包括: 替换单元,用于在所述判断单元判断出所述第一预设词汇出现在所述网络文本中,所 述判断单元判断所述第二预设词汇是否出现在所述网络文本中之前,将所述网络文本中与 所述第一预设词汇相同的词汇替换为非文字符号。
9. 根据权利要求6所述的装置,其特征在于,所述装置还包括: 记录单元,用于在所述判断单元判断出所述第一预设词汇出现在所述网络文本中,所 述判断单元判断所述第二预设词汇是否出现在所述网络文本中之前,记录所述网络文本中 与所述第一预设词汇相同的词汇在所述网络文本中的位置;以及 忽略单元,用于在所述判断单元判断出所述第一预设词汇出现在所述网络文本中,所 述判断单元判断所述第二预设词汇是否出现在所述网络文本中时,忽略所述网络文本中位 于所述第一预设词汇位置处的词汇。
10. 根据权利要求6所述的装置,其特征在于,所述装置还包括: 第五获取单元,用于将所述网络文本中与所述第一预设词汇和所述第二预设词汇相同 的词汇实例化; 第六获取单元,用于获取实例化的词汇的权重;以及 修正单元,用于对实例化的词汇进行逻辑修正。
【文档编号】G06F17/30GK104317883SQ201410564652
【公开日】2015年1月28日 申请日期:2014年10月21日 优先权日:2014年10月21日
【发明者】何鑫, 侯明午 申请人:北京国双科技有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1