1.一种基于有向有权图发现新词的方法,其特征在于,所述方法包括以下步骤:
S1、获取语料,且采用分词开源工具对语料进行分词,过滤停用词;
S2、根据过滤后的分词结果,对滑动窗口范围内的词项建立有向边以及权重,根据有向边以及权重生成有向有权图;
S3、采用边权重门限阀值对有向有权图的边进行过滤,且保留语料中同现频率较高的词项搭配;
S4、根据过滤后的有向有权图,筛选有向有权图中的孤立点以及自环,生成有向有权图的子图;
S5、根据子图中相邻节点之间的边权重以及节点强度,验证该相邻节点是否属于新词搭配;
S6、根据词性标注规则对新词搭配进行筛选,生成最终的新词。
2.根据权利要求1所述的基于有向有权图发现新词的方法,其特征在于,所述步骤S1中的停用词包括语气词和标点符号。
3.根据权利要求1所述的基于有向有权图发现新词的方法,其特征在于,所述步骤S1中的分词结果,其表现形式为W=(W1,W2,...Wi...,Wn)以及T=(T1,T2,...Ti...,Tn),其中W表示词项集合,T表示词性集合。
4.根据权利要求3所述的基于有向有权图发现新词的方法,其特征在于,所述步骤S2中的有向有权图,其表现形式为G=<V,E>,其中V表示节点vi集合,所述词项搭配对应节点vi的标签属性,E表示有向边集合,所述词项搭配之间的同现关系组成所述有向边集合。
5.根据权利要求4所述的基于有向有权图发现新词的方法,其特征在于,所述步骤S2的具体方式为:
(5a)遍历有向有权图G=<V,E>,在集合V中查询是否存在节点vi的标签为Wi,如果存在节点vi的标签为Wi,返回节点vi,否则在有向图中创建节点vi,并标注其标签为Wi,返回节点vi;
(5b)设置滑动窗口长度l,或默认长度l设为1,重复步骤(5a),依次查询Wi+1、Wi+2、...、Wi+l是否存在于有向图中,若存在,返回有向有权图中对应的节点vi+1、vi+2、...、vi+l;
(5c)建立节点vi与节点vi+1、vi+2、...、vi+k、...、vi+l的有向边,若节点vi与节点vi+k在有向有权图中存在有向边,则节点vi与节点vi+k的边权重加1,否则,建立节点vi与节点vi+k的有向边,权重为1。
6.根据权利要求1所述的基于有向有权图发现新词的方法,其特征在于,所述步骤S4中的孤立点是指在有向有权图中度数为零时的节点,若有向有权图中存在某些边的权重低于门限阀值,则这些边在被过滤后产生孤立点。
7.根据权利要求1所述的基于有向有权图发现新词的方法,其特征在于,所述步骤S4中的自环是指所述有向有权图中一条边的起始节点和终止节点是同一个节点,所述自环由所述语料中的叠词产生。
8.根据权利要求1所述的基于有向有权图发现新词的方法,其特征在于,所述步骤S5的具体过程为:
(8a)计算相邻节点vi、节点vj的分布均值μ,计算方法如下:
μ=sisj/S2
式中,si为所述子图中节点vi的强度,sj为所述子图中节点vj的强度,S为所述子图中的节点总强度;
(8b)计算节点vi和节点vj的样本均值和样本方差s2,计算方法如下:
其中,wij为子图中节点vi和节点vj的边权重;
(8c)做零假设H0,
(8d)计算t检验值,具体计算方法如下:
(8e)检验零假设H0,具体检验过程如下:判断t检验值的绝对值是否大于t分布α的临界值,若大于,则接受零假设H0,即节点vi和节点vj对应的标签属性属于新词搭配;否则,则拒绝零假设H0,即节点vi和节点vj对应的标签属性不属于新词搭配。
9.根据权利要求8所述的基于有向有权图发现新词的方法,其特征在于,所述α=0.005,所述临界值设为2.576。
10.根据权利要求1所述的基于有向有权图发现新词的方法,其特征在于,所述步骤S6中的词性标注规则是指句法结构中的词性搭配规则,包括ANN、NN、ANN以及NPN,其中A表示形容词,N表示名词,P表示前置词。