网络文本处理方法及装置制造方法

文档序号：6631124阅读：157来源：国知局

网络文本处理方法及装置制造方法
【专利摘要】本发明公开了一种网络文本处理方法及装置。该网络文本处理方法包括：获取待分析的网络文本；获取预设词汇集合；按照多个预设词汇的长度由长到短的顺序，依次判断多个预设词汇是否出现在网络文本中，其中，依次判断多个预设词汇是否出现在网络文本中包括：判断第一预设词汇是否出现在网络文本中，如果第一预设词汇出现在网络文本中，在判断第二预设词汇是否出现在网络文本中时，忽略网络文本中与第一预设词汇相同的词汇；获取网络文本中与第一预设词汇和第二预设词汇相同的词汇。通过本发明，在网络文本处理过程中有效避免了文本词汇重复匹配问题，并且提高了文本词汇的匹配效率。
【专利说明】网络文本处理方法及装置

【技术领域】
[0001] 本发明涉及数据处理领域，具体而言，涉及一种网络文本处理方法及装置。

【背景技术】
[0002] 在对网络文本的处理中，例如，对网络文本中的情感词汇的处理，文本词汇的提取是非常关键的一个环节。通常提取文本词汇的方法是载入预设词汇集合（词典），将文本与词典中的词汇逐一进行匹配，并记录匹配到的词汇，用于后续进行词汇分析。在匹配过程中，若词汇在文本中出现，则实例化该词汇对象，记录该词汇的权重，通过一系列包括但不限于否定、程度等逻辑的修正，得到该词汇的得分，最后对所有匹配到的词汇进行统计意义上的汇总。例如，对某网站访客评价的网络文本进行情感词汇的分析，有助于网站对评价对象做出情感倾向性判断。
[0003] 但是在上述文本和预设词汇集合的匹配过程中存在重复匹配的问题。重复匹配，指一个文章中同一个位置的文本词汇被多个不同的预设词汇匹配到，造成实例化的词汇对象指代重复。例如，如果预设情感词汇集合（情感词典）中同时存在"高高兴兴"和"高兴" 两个预设情感词汇，那么当文本中出现"高高兴兴"时，将同时提取出两个情感词汇元素，即 "高高兴兴"和"高兴"，造成重复匹配。
[0004] 现有的进行词汇匹配的方式主要有两种：第一种方法是通过遍历预设词汇集合，直接对网络文本进行匹配，判断文本中是否包含预设词汇集合中的词汇，如果有则记录该词汇；第二种方法，首先对文本进行切分，产生多个切分词，通过与预设词汇集合比对，判断每一个切分词是否为预设词汇集合中的词汇，如果是则记录该词汇。第一种方法的特点是执行效率较高，时间复杂度为〇(n)，是线性的，但是可能发生重复匹配现象；第二种方法匹配时采用的方式不再是原有的包含查询，而是切分词与预设词汇集合中词汇的完全匹配查询，因此能够有效避免重复匹配的发生，但是该方法需要对切分词进行遍历，执行效率较低，时间复杂度为〇(m*n)，是非线性的，同时，匹配结果依赖于分词系统的分词结果，中文分词效果的好坏会直接对文本中词汇的提取造成影响。
[0005] 针对相关技术在进行网络文本处理过程中不能兼顾避免文本词汇重复匹配和提高文本词汇匹配效率的问题，目前尚未提出有效的解决方案。

【发明内容】

[0006] 针对现有的对网络文本进行处理过程中不能兼顾避免文本词汇重复匹配和提高文本词汇匹配效率的问题，为此，本发明的主要目的在于提供一种网络文本处理方法及装置，以解决上述问题。
[0007] 为了实现上述目的，根据本发明的一个方面，提供了一种网络文本处理方法。该方法包括：获取待分析的网络文本，其中，网络文本包括多个词汇，多个词汇中至少有一个词汇包括另一个词汇；获取预设词汇集合，其中，预设词汇集合包含多个预设词汇，多个预设词汇包括第一预设词汇和第二预设词汇，第一预设词汇的长度大于第二预设词汇的长度；按照多个预设词汇的长度由长到短的顺序，依次判断多个预设词汇是否出现在网络文本中，其中，依次判断多个预设词汇是否出现在网络文本中包括：判断第一预设词汇是否出现在网络文本中，如果第一预设词汇出现在网络文本中，在判断第二预设词汇是否出现在网络文本中时，忽略网络文本中与第一预设词汇相同的词汇；获取网络文本中与第一预设词汇和第二预设词汇相同的词汇。
[0008] 进一步地，按照以下方法对多个预设词汇按词汇长度由长到短的顺序进行排序：获取多个预设词汇的首字母；按照首字母的顺序对多个预设词汇进行第一次排序；计算多个预设词汇的长度；在第一次排序的基础上，按照词汇长度由长到短的顺序对多个预设词汇进行再次排序。
[0009] 进一步地，如果第一预设词汇出现在网络文本中，在判断第二预设词汇是否出现在网络文本中时，忽略网络文本中与第一预设词汇相同的词汇包括：如果第一预设词汇出现在网络文本中，在判断第二预设词汇是否出现在网络文本中之前，将网络文本中与第一预设词汇相同的词汇替换为非文字符号。
[0010] 进一步地，如果第一预设词汇出现在网络文本中，在判断第二预设词汇是否出现在网络文本中时，忽略网络文本中与第一预设词汇相同的词汇包括：如果第一预设词汇出现在网络文本中，在判断第二预设词汇是否出现在网络文本中之前，记录网络文本中与第一预设词汇相同的词汇在网络文本中的位置，在判断第二预设词汇是否出现在网络文本中时，忽略网络文本中位于第一预设词汇位置处的词汇。
[0011] 进一步地，获取网络文本中与第一预设词汇和第二预设词汇相同的词汇之后，该方法还包括：将网络文本中与第一预设词汇和第二预设词汇相同的词汇实例化；获取实例化的词汇的权重；对实例化的词汇进行逻辑修正。
[0012] 为了实现上述目的，根据本发明的另一方面，提供了一种网络文本处理装置，该装置包括：第一获取单元，用于获取待分析的网络文本，其中，网络文本包括多个词汇，多个词汇中至少有一个词汇包括另一个词汇；第二获取单元，用于获取预设词汇集合，其中，预设词汇集合包含多个预设词汇，多个预设词汇包括第一预设词汇和第二预设词汇，第一预设词汇的长度大于第二预设词汇的长度；判断单元，用于按照多个预设词汇的长度由长到短的顺序，依次判断多个预设词汇是否出现在网络文本中，其中，依次判断多个预设词汇是否出现在网络文本中包括：判断第一预设词汇是否出现在网络文本中，如果第一预设词汇出现在网络文本中，在判断第二预设词汇是否出现在网络文本中时，忽略网络文本中与第一预设词汇相同的词汇；第三获取单元，用于获取网络文本中与第一预设词汇和第二预设词汇相同的词汇。
[0013] 进一步地，该装置还包括：第四获取单元，用于获取多个预设词汇的首字母；第一排序单元，用于按照首字母的顺序对多个预设词汇进行第一次排序；计算单元，用于计算多个预设词汇的长度；第二排序单元，用于在第一次排序的基础上，按照词汇长度由长到短的顺序对多个预设词汇进行再次排序。
[0014] 进一步地，该装置还包括：替换单元，用于在判断单元判断出第一预设词汇出现在网络文本中，判断单元判断第二预设词汇是否出现在网络文本中之前，将网络文本中与第一预设词汇相同的词汇替换为非文字符号。
[0015] 进一步地，该装置还包括：记录单元，用于在判断单元判断出第一预设词汇出现在网络文本中，判断单元判断第二预设词汇是否出现在网络文本中之前，记录网络文本中与第一预设词汇相同的词汇在网络文本中的位置；忽略单元，用于在判断单元判断出第一预设词汇出现在网络文本中，判断单元判断第二预设词汇是否出现在网络文本中时，忽略网络文本中位于第一预设词汇位置处的词汇。
[0016] 进一步地，该装置还包括：第五获取单元，用于将网络文本中与第一预设词汇和第二预设词汇相同的词汇实例化；第六获取单元，用于获取实例化的词汇的权重；修正单元，用于对实例化的词汇进行逻辑修正。
[0017] 通过本发明，采用包括以下步骤的方法：获取待分析的网络文本，其中，网络文本包括多个词汇，多个词汇中至少有一个词汇包括另一个词汇；获取预设词汇集合，其中，预设词汇集合包含多个预设词汇，多个预设词汇包括第一预设词汇和第二预设词汇，第一预设词汇的长度大于第二预设词汇的长度；按照多个预设词汇的长度由长到短的顺序，依次判断多个预设词汇是否出现在网络文本中，其中，依次判断多个预设词汇是否出现在网络文本中包括：判断第一预设词汇是否出现在网络文本中，如果第一预设词汇出现在网络文本中，在判断第二预设词汇是否出现在网络文本中时，忽略网络文本中与第一预设词汇相同的词汇；获取网络文本中与第一预设词汇和第二预设词汇相同的词汇，解决了进行网络文本处理过程中不能兼顾避免词汇重复匹配和提高词汇匹配效率的问题，进而使得在网络文本处理过程中，在文本词汇与预设词汇集合不出现重复匹配的前提下，提升了词汇匹配的效率，提高了网络文本处理的准确性。

【专利附图】

【附图说明】
[0018] 构成本申请的一部分的附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：
[0019] 图1是根据本发明网络文本处理方法的第一实施例的流程图；
[0020] 图2是根据本发明的网络文本处理方法的第二实施例的流程图；
[0021] 图3是根据本发明的网络文本处理装置的第一实施例的示意图；以及
[0022] 图4是根据本发明的网络文本处理装置的第二实施例的示意图。

【具体实施方式】
[0023] 为了使本【技术领域】的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。
[0024] 需要说明的是，本发明的说明书和权利要求书及上述附图中的术语"第一"、"第二"等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。此外，术语"包括" 和"具有"以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
[0025] 在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。
[0026] 图1是根据本发明的网络文本处理方法的第一实施例的流程图。如图1所示，该方法包括如下步骤：
[0027] 步骤S102,获取待分析的网络文本，其中，网络文本包括多个词汇，多个词汇中至少有一个词汇包括另一个词汇。
[0028] 网络文本中往往包含了大量的可参考信息。比如，对于一个购物网站，在消费者的购物评价网页中，会存在大量的消费者对相应商品的购物评价文本。当购物网站获取了这些评价文本，便可通过分析这些文本，而获知消费者对该商品的情感倾向，从而优化销售策略。
[0029] 获取待分析的网络文本的目的是获取网络文本中的待分析的文本词汇。网络文本中在包含词汇之余，可以包含其他符号等非文字信息。当网络文本中包含多个词汇时，可能出现一个词汇包含另外一个词汇的现象。比如，网络文本中包含"稳定性很好"，其中，"稳定性"包含了"稳定"。
[0030] 步骤S104,获取预设词汇集合，其中，预设词汇集合包含多个预设词汇，多个预设词汇包括第一预设词汇和第二预设词汇，第一预设词汇的长度大于第二预设词汇的长度。
[0031] 预设词汇集合可以作为一种词典。比如，我们需要从网络文本中提取代表情感方面的词汇，例如，高兴、整垮等，可选择包含了诸多情感词的预设词汇集合，其中的情感词可以按词义分类为褒义、中性、贬义，或者积极、中性、消极等，但分类形式不仅限于此。预设词汇集合中给出了对应不同词汇的权重值（强度值）。
[0032] 如，预设情感词汇集合如表一所示（表一只列出了预设情感词汇集合中的部分词汇）：
[0033] 表一
[0034]

【权利要求】
1. 一种网络文本处理方法，其特征在于，包括：获取待分析的网络文本，其中，所述网络文本包括多个词汇，所述多个词汇中至少有一个词汇包括另一个词汇；获取预设词汇集合，其中，所述预设词汇集合包含多个预设词汇，所述多个预设词汇包括第一预设词汇和第二预设词汇，所述第一预设词汇的长度大于所述第二预设词汇的长度；按照所述多个预设词汇的长度由长到短的顺序，依次判断所述多个预设词汇是否出现在所述网络文本中，其中，依次判断所述多个预设词汇是否出现在所述网络文本中包括：判断所述第一预设词汇是否出现在所述网络文本中，如果所述第一预设词汇出现在所述网络文本中，在判断所述第二预设词汇是否出现在所述网络文本中时，忽略所述网络文本中与所述第一预设词汇相同的词汇；以及获取所述网络文本中与所述第一预设词汇和所述第二预设词汇相同的词汇。
2. 根据权利要求1所述的方法，其特征在于，按照以下方法对所述多个预设词汇按词汇长度由长到短的顺序进行排序：获取所述多个预设词汇的首字母；按照首字母的顺序对所述多个预设词汇进行第一次排序；计算所述多个预设词汇的长度；以及在所述第一次排序的基础上，按照词汇长度由长到短的顺序对所述多个预设词汇进行再次排序。
3. 根据权利要求1所述的方法，其特征在于，如果所述第一预设词汇出现在所述网络文本中，在判断所述第二预设词汇是否出现在所述网络文本中时，忽略所述网络文本中与所述第一预设词汇相同的词汇包括：如果所述第一预设词汇出现在所述网络文本中，在判断所述第二预设词汇是否出现在所述网络文本中之前，将所述网络文本中与所述第一预设词汇相同的词汇替换为非文字符号。
4. 根据权利要求1所述的方法，其特征在于，如果所述第一预设词汇出现在所述网络文本中，在判断所述第二预设词汇是否出现在所述网络文本中时，忽略所述网络文本中与所述第一预设词汇相同的词汇包括：如果所述第一预设词汇出现在所述网络文本中，在判断所述第二预设词汇是否出现在所述网络文本中之前，记录所述网络文本中与所述第一预设词汇相同的词汇在所述网络文本中的位置，在判断所述第二预设词汇是否出现在所述网络文本中时，忽略所述网络文本中位于所述第一预设词汇位置处的词汇。
5. 根据权利要求1所述的方法，其特征在于，获取所述网络文本中与所述第一预设词汇和所述第二预设词汇相同的词汇之后，所述方法还包括：将所述网络文本中与所述第一预设词汇和所述第二预设词汇相同的词汇实例化；获取实例化的词汇的权重；以及对实例化的词汇进行逻辑修正。
6. -种网络文本处理装置，其特征在于，包括：第一获取单元，用于获取待分析的网络文本，其中，所述网络文本包括多个词汇，所述多个词汇中至少有一个词汇包括另一个词汇；第二获取单元，用于获取预设词汇集合，其中，所述预设词汇集合包含多个预设词汇，所述多个预设词汇包括第一预设词汇和第二预设词汇，所述第一预设词汇的长度大于所述第二预设词汇的长度；判断单元，用于按照所述多个预设词汇的长度由长到短的顺序，依次判断所述多个预设词汇是否出现在所述网络文本中，其中，依次判断所述多个预设词汇是否出现在所述网络文本中包括：判断所述第一预设词汇是否出现在所述网络文本中，如果所述第一预设词汇出现在所述网络文本中，在判断所述第二预设词汇是否出现在所述网络文本中时，忽略所述网络文本中与所述第一预设词汇相同的词汇；以及第三获取单元，用于获取所述网络文本中与所述第一预设词汇和所述第二预设词汇相同的词汇。
7. 根据权利要求6所述的装置，其特征在于，所述装置还包括：第四获取单元，用于获取所述多个预设词汇的首字母；第一排序单元，用于按照首字母的顺序对所述多个预设词汇进行第一次排序；计算单元，用于计算所述多个预设词汇的长度；以及第二排序单元，用于在所述第一次排序的基础上，按照词汇长度由长到短的顺序对所述多个预设词汇进行再次排序。
8. 根据权利要求6所述的装置，其特征在于，所述装置还包括：替换单元，用于在所述判断单元判断出所述第一预设词汇出现在所述网络文本中，所述判断单元判断所述第二预设词汇是否出现在所述网络文本中之前，将所述网络文本中与所述第一预设词汇相同的词汇替换为非文字符号。
9. 根据权利要求6所述的装置，其特征在于，所述装置还包括：记录单元，用于在所述判断单元判断出所述第一预设词汇出现在所述网络文本中，所述判断单元判断所述第二预设词汇是否出现在所述网络文本中之前，记录所述网络文本中与所述第一预设词汇相同的词汇在所述网络文本中的位置；以及忽略单元，用于在所述判断单元判断出所述第一预设词汇出现在所述网络文本中，所述判断单元判断所述第二预设词汇是否出现在所述网络文本中时，忽略所述网络文本中位于所述第一预设词汇位置处的词汇。
10. 根据权利要求6所述的装置，其特征在于，所述装置还包括：第五获取单元，用于将所述网络文本中与所述第一预设词汇和所述第二预设词汇相同的词汇实例化；第六获取单元，用于获取实例化的词汇的权重；以及修正单元，用于对实例化的词汇进行逻辑修正。
【文档编号】G06F17/30GK104317883SQ201410564652
【公开日】2015年1月28日申请日期:2014年10月21日优先权日:2014年10月21日
【发明者】何鑫, 侯明午申请人:北京国双科技有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：何鑫;侯明午
技术所有人：北京国双科技有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。