一种基于网页文本的新词查找系统及方法

文档序号：6374491阅读：118来源：国知局

专利名称：一种基于网页文本的新词查找系统及方法
技术领域：
本发明涉及互联网信息处理领域，尤其涉及一种基于网页文本的新词查找系统及方法。
背景技术：
随着互联网的飞速发展，网络信息的发布和传播越来越快，网络新词语也随之层出不穷。根据中国语言文字工作委员会的专家所做的统计，自改革开放以来20年内平均每年产生800多个新词语，而近年来，网络的发达早已使新词的产生速度远远超过这一数字。新词的产生导致进行互联网信息处理时，对词语的切分、理解和信息检索的能力大大下降。因此如何有效地从海量的网络文本中发现新词，是互联网信息处理领域的一项重要工作。本发明中所称的“新词”，不仅包含传统语言学上的词语，还包括互联网上最新出现的广为传颂的短语。目前的新词发现方法主要有基于统计和基于规则两类方法。基于统计的方法，首先利用统计模型，根据词语的特征信息获取候选串，再利用词频等信息过滤垃圾串，该方法依赖于语料库的完善，并且倾向于识别较短或高频的新词，识别新短语及低频词的能力较差。基于规则的方法，一般是根据新词的语言构词特征或构词模式特点建立规则库、领域词典或模式库，然后通过模式匹配发现新词，该方法需要专业领域知识及语言学基础，可移植性和可扩展性较差、更新速度较慢。新词常常是对新事物或新事件的概述，在构成方面没有普遍统一的规律，常常不符合汉字的构词规则，并且新词产生速度快，覆盖范围广，语料收集工作较难同步。因此传统的基于统计和基于规则进行新词识别的方法已无法满足快速、准确地发现新词的需求。

发明内容
有鉴于此，本发明的主要目的在于提供一种基于网页文本的新词查找系统及方法，克服现有技术中基于统计的方法中对语料库的要求较高、容易产生垃圾串，且常常由于数据稀疏导致无法识别出低频新词的不足，以及克服基于规则的方法依赖规则获取的有效性和完备性，无法满足新词快速更新的需求的缺陷。本发明的目的还在于利用该基于网页文本的新词查找系统及方法，根据一段时间内词串出现频率的变化情况及词串的共现率，辅以过滤策略，不需构建语料库和特殊规则，即可简便易行地从网页文本中发现新词，以实现增量式新词发现，且新词一经发现，立即加入分词词库中，确保新词不被重复发现。为达到上述目的，本发明的技术方案是这样实现的:
一种基于网页文本的新词查找系统，主要包括网页文本选取模块、网页文本预处理模块、新词发现模块和新词生成模块；其中:
网页文本选取模块，用于根据设置的定时新词发现的时间，定期从网页文本集合中获取定时间隔的这一段时间内的网页文本，并按照时间对选取的网页文本集合进行划分；网页文本预处理模块，用于解析出网页文本的时间信息并保存，定义小说、影视类专名识别规则，识别出文本中的专名信息，并对网页文本进行分词处理。保存每个n-gram串、相应的频次、专名信息及网页时间；
新词发现模块，用于根据网页文本的分词结果和专名信息，通过单页面串频统计和多页面串频统计两个阶段来统计起始时间一致的相同n-gram串的频次；并利用前次和本次定时间隔内相同词串的平均每个页面的词频，计算前后两个定时间隔内该词串出现频次的变化率，选取变化率大的词串作为候选新词；并根据n-gram串中单个词的频次和n-gram串的频次计算候选新词的共现率，筛选掉共现率较低的词串；归并候选新词集合中相近频次的父子串；
新词生成模块，对候选新词集合进行过滤和剪枝，去除候选新词集合中的垃圾串，得到最终的新词集合。其中，所述新词查找系统的新词生成模块，将最终新词集合导入分词词库中，实现增量式新词发现。一种基于网页文本的新词查找方法，该方法包括:
A、选取网页文本的步骤；按照时间对网页库进行划分，根据指定的时间段，选择前后连个时间段的网页文本；
B、网页文本预处理的步骤；按设定时间段分类提取每个网页文本的信息，同一时间段的网页文本的时间均置为该时间段的起始时间；解析网页文本，根据专名在文本中的常见特征信息，定义小说、影视类专名识别规则，识别出文本中的专名信息；再使用分词工具对网页文本进行切分；
C、新词发现的实现步骤，包括进行串频统计、计算词串变化率、计算词串共现率以及进行父子串归并；
D、实现新词过滤和剪枝策略的步骤，对生成的候选新词集合进行过滤，以去除垃圾串。其中，步骤B所述使用分词工具对网页文本进行切分，根据数据串进行分词处理后成词的词数，将词串分类为2-gram、3-gram、…、n-gram ;词串中的每个词称为token,则n-gram的格式为:[token-Ι][空格][token-2]…[token-n];并为专名信息对应的n-gram串设置标志位。步骤B所述使用分词工具对网页文本进行切分，采用分词的最大粒度结果，以保证词串中任意词的组合都不是已经存在的词。步骤C所述进行串频统计、计算词串变化率、计算词串共现率以及进行父子串归并，具体为:
进行串频统计:分为单页面串频统计和多页面串频统计两个阶段，首先统计同一个页面中相同n-gram词串的频次，再将网页时间一致的多个页面中的相同词串的词频进行累加统计；此处相同词串是指去除网页文本中常见符号及实体引用后相同的n-gram串；在进行串频统计时，专名信息对应的n-gram串会按照类别进行不同程度的词频提权；其输出n-gram、对应的词频及网页时间，表示为〈n-gram, tf (n-gram), date (n-gram) > ;其中1-gram的词是已存在的词，不需进入候选新词集合，但在计算词串共现率的步骤中需要使用，因此仍需统计词频并单独保存起来；数据结构采用stl的hash_map，实现快速地串频统计；计算词串变化率:根据前后两个设定时间段相同词串的平均每个页面的词频，计算前后两个时间段内该词串频率的变化率，选取变化率大的词串为候选新词；
计算词串共现率:使用词串中所有词共同出现的概率来表示其组合成词的可能性，删除候选新词集合中共现率较低的词串；如果组成词串的所有词经常同时出现，且该组合在这些词的所有组合中出现的概率较高，则认为这个词串是一个新词；以及
进行父子串归并:根据n-gram串的定义，高阶gram串会包含低阶gram串，则称高阶gram串为父串，低阶gram串为子串；若两者的频次相同或相近，则舍弃子串，保留父串；遍历获取到的所有n-gram串，如果两个串存在父子包含关系，且两者的出现频率相同或相近，则从候选新词集合中删除子串。步骤D所述实现新词过滤和剪枝策略，根据语言学构词规则统计和成词模式研究获得垃圾串过滤规则，主要包括字数过滤规则、纯数字字母串和日期过滤规则、常见辅助词过滤规则、常见搭配词过滤规则及叠词模式过滤规则、2-2模式剪枝规则。本发明所提供的基于网页文本的新词查找系统及方法，具有以下优点:
本发明使用词串频率变化率和词串共现率，辅以过滤策略的基于网页文本的新词发现方法，解决了基于统计方法中由于语料库导致的垃圾串多、低频新词无法识别的问题，及基于规则方法中依赖规则定义而不易扩展、更新较慢的问题。本发明适用于覆盖范围广、更新速度快的网页文本数据集，能够实现快速、准确的从网页文本中发现新词，适用于在分词词典扩充及热词挖掘等方面的应用。

图1为本发明的基于网页文本的新词查找(发现)方法流程图2为本发明的新词发现方法流程图3为本发明的基于网页文本的新词查找(发现)系统示意图。
具体实施例方式下面结合附图及本发明的实施例对本发明的系统及方法作进一步详细的说明。新词识别，通常分为基于字和基于词两种方法，一般来讲，基于字的新词识别方法以单个字为基本元素，能获取较高的召回率，而基于词的新词识别方法以每个词为基本元素，具有较高的准确率。由于网页文本中信息量较大，内容较杂，若采用基于字的新词识别方法会导致产生过多垃圾串，从而降低识别效率和准确率。因此本发明采用基于词的方法，即先利用分词工具对网页文本做分词处理，再进行新词的识别。图1为本发明的基于网页文本的新词查找(发现)方法流程图，该新词发现方法基于图3所示的新词发现系统，所述信息发现系统主要包括四个功能模块，其分别负责执行图1所示的处理步骤。如图3所示，该基于网页文本的新词查找系统的四个功能模块，分别是网页文本选取模块、网页文本预处理模块、新词发现模块和新词生成模块。其中:
网页文本选取模块，用于根据设置的定时新词发现的时间，定期从网页文本集合中获取定时间隔的这一段时间内的网页文本，并按照时间对选取的网页文本集合进行划分，以周为单位。每次选取的文本集合要保证数据的可比性，包括网站来源、网页类型和数据规模等。网页文本预处理模块，用于解析出网页文本的时间信息并保存，定义小说、影视类专名识别规则，识别出文本中的专名信息，并对网页文本进行分词处理。保存每个n-gram串、相应的频次、专名信息及网页时间。新词发现模块，用于根据网页文本的分词结果和专名信息，通过单页面串频统计和多页面串频统计两个阶段来统计起始时间一致的相同n-gram串的频次；利用前一周和本周相同词串的平均每个页面的词频，计算前后两周内该词串出现频次的变化率，选取变化率比较明显的词串作为候选新词。根据n-gram串中单个词的频次和n-gram串的频次计算候选新词的共现率，并筛选掉共现率较低的词串；归并候选新词集合中相近频次的父子串O新词生成模块:对候选新词集合进行过滤和剪枝，去除候选新词集合中的垃圾串，得到最终的新词集合。将最终新词集合导入分词词库中，实现增量式新词发现。如图1所示，该基于网页文本的新词查找(发现)方法，主要包括如下步骤:
步骤101、选取网页文本的步骤；按照时间对网页库进行划分，如，可以以周为单位，根据指定的时间段，选择两周的网页文本。由于后续会计算串频的变化率，因此在选择每周的网页文本集合时要保证数据的可比性，包括网站来源、网页类型和数据规模等。步骤102、网页文本预处理的步骤；首先按周分类提取每个网页文本的信息，同一周的网页文本的时间均置为该周的起始时间。解析网页文本，根据专名在文本中的常见特征信息，定义小说、影视类专名识别规则，识别出文本中的专名信息。如，对于小说类专名，定义识别规则:
“(书小说).{O, 2} \ I \u300a) (r〈>\u300a\u300b] {2，50} \( | \u300b) ”和“ ( I \u300a) (r〈>\u300a\u300b] {2，50} \( | \u300b).{0，2} \书小说)”。再使用分词工具对网页文本进行切分，根据数据串进行分词处理后成词的词数，将词串分类为2-gram、3-gram、…、n-gram ;词串中的每个词称为token,则n-gram的格式为:[token-Ι][空格][token-2]…[token-n]。为专名信息对应的n-gram串设置标志位，以便后续进行特殊处理。本发明采用分词的最大粒度结果，以保证词串中任意词的组合都不是已经存在的词。步骤103、新词发现的具体实现步骤。如附图2所示，本发明中新词发现方法主要包括如下几个步骤:
步骤201、进行串频统计；分为单页面串频统计和多页面串频统计两个阶段，首先统计同一个页面中相同n-gram词串的频次，再将网页时间一致的多个页面中的相同词串的词频进行累加统计。此处相同词串是指去除网页文本中常见符号及实体引用后相同的n-gram串，如“  ”、“© ”等。在进行串频统计时,专名信息对应的n-gram串会按照类别进行不同程度的词频提权。本阶段输出n-gram、对应的词频及网页时间,表示为〈n-gram,tf (n-gram), date (n-gram) >。其中1-gram的词是已存在的词，不需进入候选新词集合,但在计算词串共现率的步骤中需要使用，因此仍需统计词频并单独保存起来。数据结构采用stl的hash_map,实现快速地串频统计。步骤202、计算词串变化率；根据前一周和本周相同词串的平均每个页面的词频，计算前后两周内该词串频率的变化率，选取变化率比较明显的词串为候选新词。利用时间信息提取出网页文本的候选新词，能够较准确的识别出迅速产生并流行的网络新词。串频变化率计算公式如下:
其中，n-gram为候选新词串，avg_tfl (n-gram)指上周平均每个页面中n-gram串的词频，avg_tf2 (n-gram)指本周平均每个页面中n-gram串的词频。步骤203、计算词串共现率；使用词串中所有词共同出现的概率来表示其组合成词的可能性，删除候选新词集合中共现率较低的词串。基于假设:如果组成词串的所有词经常同时出现，且该组合在这些词的所有组合中出现的概率较高，则认为这个词串是一个新词。共现率根据每个词的词频和整个词串的词频计算得到，不是单纯使用词频阈值进行新词过滤，解决了基于统计的方法中由于数据稀疏导致的漏识别低频新词的问题。词串共现率计算公式如下:
权利要求
1.一种基于网页文本的新词查找系统，其特征在于，主要包括网页文本选取模块、网页文本预处理模块、新词发现模块和新词生成模块；其中: 网页文本选取模块，用于根据设置的定时新词发现的时间，定期从网页文本集合中获取定时间隔的这一段时间内的网页文本，并按照时间对选取的网页文本集合进行划分；网页文本预处理模块，用于解析出网页文本的时间信息并保存，定义小说、影视类专名识别规则，识别出文本中的专名信息，并对网页文本进行分词处理。
2.保存每个n-gram串、相应的频次、专名信息及网页时间；新词发现模块，用于根据网页文本的分词结果和专名信息，通过单页面串频统计和多页面串频统计两个阶段来统计起始时间一致的相同n-gram串的频次；并利用前次和本次定时间隔内相同词串的平均每个页面的词频，计算前后两个定时间隔内该词串出现频次的变化率，选取变化率大的词串作为候选新词；并根据n-gram串中单个词的频次和n-gram串的频次计算候选新词的共现率，筛选掉共现率较低的词串；归并候选新词集合中相近频次的父子串；新词生成模块，对候选新词集合进行过滤和剪枝，去除候选新词集合中的垃圾串，得到最终的新词集合。
3.根据权利要求1所述的基于网页文本的新词查找系统，其特征在于，所述新词查找系统的新词生成模块，将最终新词集合导入分词词库中，实现增量式新词发现。
4.一种基于网页文本的新词查找方法，其特征在于，该方法包括: A、选取网页文本的步骤；按照时间对网页库进行划分，根据指定的时间段，选择前后连个时间段的网页文本； B、网页文本预处理的步骤；按设定时间段分类提取每个网页文本的信息，同一时间段的网页文本的时间均置为该时间段的起始时间；解析网页文本，根据专名在文本中的常见特征信息，定义小说、影视类专名识别规则，识别出文本中的专名信息；再使用分词工具对网页文本进行切分； C、新词发现的实现步骤，包括进行串频统计、计算词串变化率、计算词串共现率以及进行父子串归并； D、实现新词过滤和剪枝策略的步骤，对生成的候选新词集合进行过滤，以去除垃圾串。
5.根据权利要求3所述的基于网页文本的新词查找方法，其特征在于，步骤B所述使用分词工具对网页文本进行切分，根据数据串进行分词处理后成词的词数，将词串分类为2-gram、3-gram、…、n-gram ;词串中的每个词称为token,则n-gram的格式为:[token-1][空格][token-2]...[token-n];并为专名信息对应的n-gram串设置标志位。
6.根据权利要求3所述的基于网页文本的新词查找方法，其特征在于，步骤B所述使用分词工具对网页文本进行切分，采用分词的最大粒度结果，以保证词串中任意词的组合都不是已经存在的词。
7.根据权利要求3所述的基于网页文本的新词查找方法，其特征在于，步骤C所述进行串频统计、计算词串变化率、计算词串共现率以及进行父子串归并，具体为: 进行串频统计:分为单页面串频统计和多页面串频统计两个阶段，首先统计同一个页面中相同n-gram词串的频次，再将网页时间一致的多个页面中的相同词串的词频进行累加统计；此处相同词串是指去除网页文本中常见符号及实体引用后相同的n-gram串；在进行串频统计时，专名信息对应的n-gram串会按照类别进行不同程度的词频提权；其输出n-gram、对应的词频及网页时间，表示为〈n-gram, tf (n-gram), date (n-gram) > ;其中1-gram的词是已存在的词，不需进入候选新词集合，但在计算词串共现率的步骤中需要使用，因此仍需统计词频并单独保存起来；数据结构采用stl的hash_map，实现快速地串频统计；计算词串变化率:根据前后两个设定时间段相同词串的平均每个页面的词频，计算前后两个时间段内该词串频率的变化率，选取变化率大的词串为候选新词；计算词串共现率:使用词串中所有词共同出现的概率来表示其组合成词的可能性，删除候选新词集合中共现率较低的词串；如果组成词串的所有词经常同时出现，且该组合在这些词的所有组合中出现的概率较高，则认为这个词串是一个新词；以及进行父子串归并:根据n-gram串的定义，高阶gram串会包含低阶gram串，则称高阶gram串为父串，低阶gram串为子串；若两者的频次相同或相近，则舍弃子串，保留父串；遍历获取到的所有n-gram串，如果两个串存在父子包含关系，且两者的出现频率相同或相近，则从候选新词集合中删除子串。
8.根据权利要求3所述的基于网页文本的新词查找方法，其特征在于，步骤D所述实现新词过滤和剪枝策略，根据语言学构词规则统计和成词模式研究获得垃圾串过滤规则，主要包括字数过滤规则、纯数字字母串和日期过滤规则、常见辅助词过滤规则、常见搭配词过滤规则及叠词模式过滤规则、2-`2模式剪枝规则。
全文摘要
本发明公开了一种基于网页文本的新词查找系统及方法，包括网页文本选取模块、网页文本预处理模块、新词发现模块和新词生成模块；其通过A、选取网页文本的步骤；B、网页文本预处理的步骤；C、新词发现的实现步骤，包括进行串频统计、计算词串变化率、计算词串共现率以及进行父子串归并；D、实现新词过滤和剪枝策略的步骤，对生成的候选新词集合进行过滤，去除垃圾串。采用本发明，能够根据一段时间内词串出现频率的变化情况及词串的共现率，辅以过滤策略，不需构建语料库和特殊规则，即可简便易行地从网页文本中发现新词，以实现增量式新词发现。
文档编号G06F17/30GK103106227SQ20121027648
公开日2013年5月15日申请日期2012年8月3日优先权日2012年8月3日
发明者杨青, 张爱琦, 崔世起申请人:人民搜索网络股份公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：杨青;张爱琦;崔世起;
技术所有人：人民搜索网络股份公司;
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。