基于有向有权图发现新词的方法与流程

文档序号：11950232阅读：497来源：国知局

本发明涉及自然语言处理技术领域，特别涉及一种基于有向有权图发现新词的方法。

背景技术：

新词发现作为自然语言处理领域的一项基础研究，深受学术界乃至企业界的关注。随着互联网以及各种社交媒体的发展，涌现了大量的新词，大量新词的出现使得现有的分词工具准确率下降，据统计，大约60％的分词错误是由于新词导致的。相比传统媒体，互联网媒体成为人们关注时事热点，发表观点的主要平台，互联网媒体(比如微博)传播速度迅速，传播群体广泛，与之涌现的新词也呈病毒传染的态势传播，其中如“马航”，“敬业福”，“微信收费”等，反映了民众的态度与看法。通过有效地发现新词，及时把握热点事件的关键词，对于热点事件发现以及热点事件预警监控具有重大的意义。

P2P借贷是新兴的一个金融服务行业，在美国，LeadingClub成立于2007年，目前已经是世界第一大借贷平台。P2P借贷行业作为新兴的行业，包含大量新词，同时更新频率快，其中如“羊毛党”，“微众银行”，“e租宝”，“跑路”等，这些新词反映了P2P借贷行业的发展，在该领域进行新词发现具有一定的挑战性。

在学术界，对于新词还没有一个明确的概念，在中文分词领域，有新词和未登录词两种概念，未登录词就是当前词库中“未登录”的词，新词属于未登录词的一种。目前新词发现的研究大体可以分为三种，其一是基于规则的方法，其二是基于统计的方法，其三是基于规则与统计相结合的方法。基于规则的方法准确率比较高，针对性强，但是维护规则的工作量比较大。基于统计的方法通过现有的分词工具对语料进行分词，根据分词结果进行统计从而发现新词，对语料的依赖性小，适应性比较强，然而准确率不高。基于规则与统计相结合的方法发挥了组合优势，目前大部分研究人员都采用规则与统计相结合的方法来发现新词。

综上，新词的涌现一般与事件热点的趋势是相适应的，有效地发现新词可以正确分析事件发展的脉络，以及有效地把握事件舆情动态，对于舆情预警监控具有重大的意义。新词发现一直是自然语言处理领域一项基础研究，目前对于新词发现已经有大量的研究。本发明根据P2P借贷资讯的内容，准确有效地发现新词，有效地把握P2P行业的热点，具有很好的可用性。

技术实现要素：

本发明要解决的技术问题在于，提供一种基于有向有权图发现新词的方法，使更加准确地发现语料中的新词。

为解决上述技术问题，本发明提供如下技术方案：一种基于有向有权图发现新词的方法，包括以下步骤：

S1、获取语料，且采用分词开源工具对语料进行分词，过滤停用词；

S2、根据过滤后的分词结果，对滑动窗口范围内的词项建立有向边以及权重,根据有向边以及权重生成有向有权图；

S3、采用边权重门限阀值对有向有权图的边进行过滤，且保留语料中同现频率较高的词项搭配；

S4、根据过滤后的有向有权图，筛选有向有权图中的孤立点以及自环，生成有向有权图的子图；

S5、根据子图中相邻节点之间的边权重以及节点强度，验证该相邻节点是否属于新词搭配；

S6、根据词性标注规则对新词搭配进行筛选，生成最终的新词。

进一步地，所述步骤S1中的停用词包括语气词和标点符号。

进一步地，所述步骤S1中的分词结果，其表现形式为W＝(W₁,W₂,...W_i...,W_n)以及T＝(T₁,T₂,...T_i...,T_n)，其中W表示词项集合，T表示词性集合。

进一步地，所述步骤S2中的有向有权图，其表现形式为G＝＜V,E＞，其中V表示节点v_i集合，所述词项搭配对应节点v_i的标签属性，E表示有向边集合，所述词项搭配之间的同现关系组成所述有向边集合。

进一步地，所述步骤S2的具体方式为：

(5a)遍历有向有权图G＝＜V,E＞，在集合V中查询是否存在节点v_i的标签为W_i，如果存在节点v_i的标签为W_i，返回节点v_i，否则在有向图中创建节点v_i，并标注其标签为W_i，返回节点v_i；

(5b)设置滑动窗口长度l，或默认长度l设为1，重复步骤(5a)，依次查询W_i+1、W_i+2、...、W_i+l是否存在于有向图中，若存在，返回有向有权图中对应的节点v_i+1、v_i+2、...、v_i+l；

(5c)建立节点v_i与节点v_i+1、v_i+2、...、v_i+k、...、v_i+l的有向边，若节点v_i与节点v_i+k在有向有权图中存在有向边，则节点v_i与节点v_i+k的边权重加1，否则，建立节点v_i与节点v_i+k的有向边，权重为1。

进一步地，所述步骤S4中的孤立点是指在有向有权图中度数为零时的节点，若有向有权图中存在某些边的权重低于门限阀值，则这些边在被过滤后产生孤立点。

进一步地，所述步骤S4中的自环是指所述有向有权图中一条边的起始节点和终止节点是同一个节点，所述自环由所述语料中的叠词产生。

进一步地，所述步骤S5的具体过程为：

(8a)计算相邻节点v_i、节点v_j的分布均值μ，计算方法如下:

μ＝s_is_j/S²

式中，s_i为所述子图中节点v_i的强度，s_j为所述子图中节点v_j的强度，S为所述子图中的节点总强度；

(8b)计算节点v_i和节点v_j的样本均值和样本方差s²，计算方法如下：

$<mrow> <mover> <mi>x</mi> <mo>&OverBar;</mo> </mover> <mo>=</mo> <msub> <mi>w</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>/</mo> <mi>S</mi> </mrow>$

$<mrow> <msup> <mi>s</mi> <mn>2</mn> </msup> <mo>=</mo> <mover> <mi>x</mi> <mo>&OverBar;</mo> </mover> <mo>×</mo> <mrow> <mo>(</mo> <mn>1</mn> <mo>-</mo> <mover> <mi>x</mi> <mo>&OverBar;</mo> </mover> <mo>)</mo> </mrow> </mrow>$

其中，w_ij为子图中节点v_i和节点v_j的边权重；

(8c)做零假设H₀，

(8d)计算t检验值，具体计算方法如下：

$<mrow> <mi>t</mi> <mo>=</mo> <mrow> <mo>(</mo> <mover> <mi>x</mi> <mo>&OverBar;</mo> </mover> <mo>-</mo> <mi>μ</mi> <mo>)</mo> </mrow> <mo>/</mo> <msqrt> <mrow> <msup> <mi>s</mi> <mn>2</mn> </msup> <mo>/</mo> <mi>S</mi> </mrow> </msqrt> <mo>;</mo> </mrow>$

(8e)检验零假设H₀，具体检验过程如下：判断t检验值的绝对值是否大于t分布α的临界值，若大于，则接受零假设H₀，即节点v_i和节点v_j对应的标签属性属于新词搭配；否则，则拒绝零假设H₀，即节点v_i和节点v_j对应的标签属性不属于新词搭配。

进一步地，所述α＝0.005，所述临界值设为2.576。

进一步地，所述步骤S6中的词性标注规则是指句法结构中的词性搭配规则，包括ANN、NN、ANN以及NPN，其中A表示形容词，N表示名词，P表示前置词。

采用上述技术方案后，本发明至少具有如下有益效果：

1、本发明在开源工具分词结果的基础上，对停用词进行过滤，降低了有向有权图的耦合度，提高了新词发现的准确性，同时提高了效率。

2、本发明设置滑动窗口长度，对固定滑动窗口范围内的词项建立关联关系，考虑了中文词项搭配的特征。

3、本发明采用边权重门限阀值对有向有权图的边进行过滤，降低了有向有权图的耦合度，提高了效率，同时减少次要词项搭配对新词发现的噪声影响，提高了新词发现的准确性。

4、本发明根据子图中相邻节点之间的边权重以及节点度数，采用统计学的t分布来检验相邻节点是否属于新词搭配，充分考虑有向有权图的节点特征，提高了新词发现的准确率。

5、本发明词性标注规则对全部新词搭配进行筛选，基于规则的方式进一步提高了新词发现的准确率。

6、本发明能够有效地，准确地发现P2P借贷行业的新词，把握P2P借贷行业的口碑以及走势，帮助民众理性投资，具有很好的可用性。

附图说明

图1为本发明基于有向有权图发现新词的方法的流程图。

图2为依照本发明基于有向有权图发现新词的一个实例。

具体实施方式

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互结合，下面结合附图和具体实施例对本申请作进一步详细说明。

实施例

如图1-图2所示，图1是本实施例一中公开的基于有向有权图的发现新词方法及各个相应步骤的流程图，所述方法包括以下步骤：

S1、获取语料，采用分词开源工具对语料进行分词，对分词的结果进行停用词过滤，如图2所述，分词结果包括“E”、“租宝”、“APPLE”、“PAY”、“蚂蚁”“金服”等；

S2、根据分词结果，对滑动窗口范围内的词项建立有向边以及权重，生成有向有权图，“E”和“租宝”、“APPLE”和“PAY”以及“蚂蚁”和“金服”各自生成带有权重的有向边；

S3、采用边权重门限阀值对有向有权图的边进行过滤，保留语料中的同现频率比较高的词项搭配；

S4、筛选有向权重图中的孤立点以及自环，生成有向有权图的子图；

S5、根据子图中相邻节点之间的边权重以及节点强度，验证该相邻节点是否属于新词搭配，通过假设检验，验证“E”和“租宝”属于新词搭配，“APPLE”和“PAY”以及“蚂蚁”和“金服”亦然；

S6、根据词性标注规则对新词搭配进行筛选，“E”和“租宝”“APPLE”和“PAY”以及“蚂蚁”和“金服”符合词性标注规则，生成最终的新词E租宝、APPLEPAY以及蚂蚁金服等。

其中，所述分词结果，表现形式为W＝(W₁,W₂,...W_i...,W_n)，T＝(T₁,T₂,...T_i...,T_n)其中W表示词项集合，T表示词性集合。

进一步地，所述停用词是指在语料中应用非常广泛然而没有实际意义的词项，比如语气词，标点符号等。

进一步地，所述有向有权图，表现形式为G＝＜V,E＞，其中V表示节点集合，语料分词结果中的词项对应节点的标签属性，其中E表示有向边集合，词项之间的同现关系组成有向边集合。

进一步地，所述步骤S2根据分词结果，对滑动窗口范围内的词建立有向边以及权重，生成有向有权图的具体过程为：

(1)第一步遍历有向有权图G＝＜V,E＞，在集合V中查询是否存在节点的标签为W_i，如果存在节点v_i的标签为W_i，返回节点v_i，否则在有向图中创建节点v_i，并标注其标签为W_i，返回节点v_i；

(2)第二步设置滑动窗口长度l(默认长度为1)，重复步骤(1)，依次查询W_i+1,W_i+2,...,W_i+l是否存在有向图中，返回有向图中对应的节点v_i+1,v_i+2,...,v_i+l；

(3)第三步建立节点v_i与节点v_i+1,v_i+2,...,v_i+k,...,v_i+l的有向边，如果v_i与v_i+k在图中存在有向边，v_i与v_i+k的边权重加1，否则建立v_i与v_i+k的有向边，权重为1。

进一步地，所述孤立点是指在有向有权图中度数为零的节点，某些节点对的边权重低于门限阀值，这些边被过滤后产生孤立点。

进一步地，所述自环是指有向图中源节点以及目标节点属于同一个节点，主要是语料中的叠词会产生自环。

进一步地，所述步骤S5根据子图中相邻节点之间的边权重以及节点强度，验证该相邻节点是否属于新词搭配的具体过程为：

(1)第一步是计算节点v_i和v_j的分布均值μ，计算方法如下:

μ＝s_is_j/S²，其中s_i为子图中节点v_i的强度，s_j为子图中节点v_j的强度，S为子图中的总强度。

(2)第二步计算节点v_i和v_j的样本均值和样本方差s²，计算方法如下：

其中w_ij为子图中节点v_i和节点v_j的边权重。

(3)第二步是做零假设H₀:

(4)第三步计算t检验值，具体计算方法如下：

(5)第四步是检验零假设H₀，具体检验过程如下：

判断t检验值的绝对值是否大于t分布α＝0.005的临界值(2.576)，如果是，则接受零假设H₀，即v_i和v_j对应的标签属性属于新词搭配，否则拒绝零假设H₀，即v_i和v_j对应的标签属性不属于新词搭配。

进一步地，所述词性标注规则是指句法结构中的词性搭配规则，包括ANN，NN，ANN，NPN等，其中A表示形容词，N表示名词，P表示前置词。

上述方法可以准确地发现语料中的新词，具有很好的可用性。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解的是，在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种等效的变化、修改、替换和变型，本发明的范围由所附权利要求及其等同范围限定。

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：郭泽豪;王振宇;李风环;戴瑾如;
技术所有人：华南理工大学;
我是此专利的发明人

上一篇：青少年心理压力区间及其压力源事件感知方法及装置与流程
上一篇：主题信息获取方法、装置和电子设备与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。