一种改进的中文自动分词算法的制作方法

文档序号:11063459阅读:来源:国知局

技术特征:

1.一种改进的中文自动分词算法,本发明涉及中文语义网络技术领域,具体涉及一种改进的中文自动分词算法,其特征是,包括如下步骤:

步骤1:初始化训练模型,可以是《分词词典》或相关领域的语料库,或是两者结合模型

步骤2:根据《分词词典》找到待分词句子中与词典中匹配的词

步骤3:依据概率统计学,将待分词句子拆分为网状结构,即得n个可能组合的句子结构,把此结构每条顺序节点依次规定为

步骤4:利用统计学概念理论知识,给上述网状结构每条边赋予一定的权值

步骤5:找到权值最大的一条路径,即为待分词句子的分词结果

步骤6:验证此分词结果的准确率和召回率。

2.根据权利要求1中所述的一种改进的中文自动分词算法,其特征是,以上所述步骤4中的具体计算过程如下:

步骤4:利用统计学概念理论知识,给上述网状结构每条边赋予一定的权值,其具体计算过程如下:

步骤4.1)取路径中词的数量最少min()

根据《分词词典》匹配出的字典词与未匹配的单个词,第i条路径包含词的个数为,即n条路径词的个数集合为

步骤4.2)计算相邻两个词相关度

将两个词映射到概念模型中,得到相应的概念即概念的相关度即为相邻两个词相关度

这里考虑了本体间的基本属性关系、路径距离与路径数量、密度与深度等影响因子计算两本体概念间的相关度

步骤4.2.1)构造基于基本属性关系对两本体概念相似度的影响函数

两本体概念相似度与属性相似度成正比,与属性权重也成正比

路径为

假设的属性个数各为

每个属性对相应概念的影响权重是不同的,按照权重系数分别对概念属性进行排序,对每个概念属性取前i个属性权重值

这里

即得下列属性权重矩阵

从专业领域本体树中,可以很清楚的知道概念中的共有属性,记为这里j为共有属性的个数,

为概念中属性相同,则取出其对应权重值

所以构建的影响函数为:

步骤4.2.2)构造基于路径距离、与路径数量对两本体概念相似度的影响函数

两本体概念相似度与其路径长度成反比,找到两本体概念间最长路径,其中经过的概念节点有n个,即

即经过路径的长度为

两本体概念相似度与路径数量成反比,即当路径数量越多,两本体概念相似度越大,这里根据专业领域本体树可知路径数量为N,如下式:

上式为路径长度与路径个数的权重比值,这个可以根据实验迭代出来

步骤4.2.3)构造密度与深度对两本体概念相似度的影响函数

步骤4.2.3.1)两本体概念深度函数

概念节点的深度是指概念在所处的本体树中的层次深度,在本体树中,每个概念节点都是对上一层节点的一次细化,因此概念节点处于本体树中层次越深,则表示的内容越具体,概念间的相似度越大,反之概念间的相似度越小

这里深度值从根节点开始,根节点的深度值为1,从概念与共同父节点构成的树子集中找到同一层中两本体概念数量最多的,其对应的深度为h

如果两本体概念不在同一层,则其平均,即有下式:

分别为从概念与共同父节点构成的树子集中两本体概念数量最多的深度值

步骤4.2.3.2)两本体概念密度函数

概率节点密度越大,则其直接子节点数目越多,节点细化的越具体,各直接子节点之间的相似度越大

从概念的直接子节点中找到共同直接子节点个数,如上为N

步骤4.2.3.3)由上述步骤可得:

上式分别为深度与密度的权重系数,越大表示概念深度对相关度的影响越大,反之影响越小,越大表示概念密度对相关度的影响越大,反之影响越小,为平滑因子,可以通过非线回归迭代估计来确定

综上所述,有下式:

上式A、B、C为相应的影响系数,根据其值大小,影响相关度的程度也不一样,值越大,对相关度影响也越大,A+B+C=1。

3.根据权利要求1中所述的一种改进的中文自动分词算法,其特征是,以上所述步骤5中的具体计算过程如下:

步骤5:找到权值最大的一条路径,即为待分词句子的分词结果,其具体计算过程如下:

有n条路径,每条路径长度不一样,假设路径长度集合为

假设经过取路径中词的数量最少操作,排除了m条路径,m<n,即剩下(n-m)路径,设其路径长度集合为

则每条路径权重为:

上式分别为第1,2到路径边的权重值,根据步骤4可以一一计算得出,为剩下(n-m)路径中第条路径的长度

权值最大的一条路径:

4.根据权利要求1中所述的一种改进的中文自动分词算法,其特征是,以上所述步骤6中的具体计算过程如下:

步骤6:验证此分词结果的准确率和召回率

准确率:

上式为《分词词典》识别待分词句子中字典词的个数,为此方法正确分词词的个数

召回率:

上式为待分词句子中词的总个数

最后综合考虑这两个因子,判定此系统分词结果的正确性

为一个很小的阈值,这个由专家给定,当d满足上述条件,则分词效果比较理想。

当前第2页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1