分词的方法及装置的制造方法

文档序号:9929633阅读:265来源:国知局
分词的方法及装置的制造方法
【技术领域】
[0001] 本发明设及互联网技术领域,尤其设及一种分词的方法及装置。
【背景技术】
[0002] 随着互联网的快速发展,信息服务变得越来越普遍。信息服务提供商提供信息服 务时,通常会挖掘实体(现实世界中的客观事物称为实体,例如概念、事物或事件等)之间的 关联关系,并根据实体之间的关联关系提供信息服务。例如,"南方航空"是"一带一路"的概 念股票,二者是实体的实例并且之间存在联系,基于运种关联关系通过检索"一带一路"可 W获取与其相关的概念股票。实体之间的关联关系通常是在文本分词基础之上通过计算共 现等测度获得,因此分词性能的好坏直接影响后续处理及最终的关联结果。
[0003] 在现有技术中通常有基于词典的分词和基于统计模型的分词,如公开号为 102982099A的专利文献,提供了一种个性化并行分词处理系统及其处理方法。基于词典的 分词方法分词效率较高但准确性较差,而基于统计模型的分词方法可W自动学习词语切分 的规则,在歧义切分效果上较好,但受限于训练语料分词结果在粒度和一致性上不够稳定, 性能较差。基于N-最短路径的分词方法结合词典与统计模型在分词速度和准确度两方面都 取得了较好效果,但受限词典与统计模型,对于词的切分常常过于细,例如"可穿戴设备"被 切分为"可"、"穿戴"和"设备",但在特定领域内常常需要将"可穿戴设备"作为一个整词来 与其他实体建立关联。通常可采用领域词典的方式对初始分词结果中的词进行机械合并, 但运种方法只能合并领域词典中包含的词,例如词典中只包含"广东旅游"、"北京旅游"贝U 只能合并运两个词而不能合并"西藏旅游",并且常由于不考虑上下文信息而导致错误的合 并。
[0004] N-最短路径W及其他基于词典和统计模型的分词方法对特定领域的词常常切分 过细导致部分实体之间的关联无法建立,例如在金融领域,一些概念与股票的名词通常是 由几个较短的单词组合而成,在切分过程中很容易被切分成多个较短的单词,运对运些特 定领域内实体关联的建立非常不利。而采用领域词典的方式虽然能合并词典中包含的词, 但常常导致错误的合且不具有泛化能力。

【发明内容】

[0005] 针对现有技术存在的缺陷,本发明提出一种分词的方法和装置,在原始分词的基 础上考虑上下文信息从而可使特定领域内的实体在分词结果中正确切分,并通过对领域词 典中的词模式进行自动学习可识别出具有相同模式的词从而进行正确切分,例如词典中只 包含"广东旅游"、"北京旅游",对于"西藏旅游"也能正确切出来,从而提升实体之间的关联 效果。
[0006] 本发明的技术方案是:首先使用条件随机场(简称CRF)训练词标注模型:训练词标 注模型的方法为:采集语料库,并使用N-最短路径分词方法对语料库进行分词,然后使用领 域词典对语料库分词结果进行标注,将标注后的语料库使用CRF工具进行训练得到词标注 模型;得到词标注模型后即可进入分词应用,分词应用其方法为:首先使用N-最短路径分词 方法对文本进行初始分词,对初始分词结果基于词标注模型进行序列标注,将包含特定标 注的词进行合并得到最终分词结果。关于领域词典,就是特定领域的定制词典,就是具体应 用领域中,需要在分词中完整切分的词,例如金融领域中的相关概念词如"一带一路"、股票 全称W及简称等。
[0007]具体地,一种分词方法,包括词标注模型训练和分词应用两个阶段,首先使用条件 随机场(简称CR巧训练词标注模型,得到词标注模型后即可进入分词应用。
[000引所述词标注模型训练包括W下步骤:
[0009] Sl.采集语料库和准备语料库所属领域的领域词典
[0010] 随机选取一定时期内一技术领域内的新闻语料,并选取该领域的领域词典;
[0011] S2.对语料库进行分词并进行词性标注,得到分词列表;
[0012] 分词所采用的方法可W选N-最短路径分词方法、最短路径分词方法、正向最大匹 配分词方法、逆向最大匹配分词方法、双向最大匹配分词方法、隐马尔科夫模型分词方法或 条件随机场模型分词方法;对语料库分词结果进行词性标注所采用的方法为隐马尔科夫模 型标注、最大赌模型标注或条件随机场模型标注。
[0013] S3.根据领域词典对步骤S2的分词结果采用"BI炉标记进行标注得到训练语料;
[0014] ①遍历分词列表:对词进行向后取N个词进行组合,遇到标点符号则停止,每个词 最多可产生N-I个词组合,得到当前词的词组合列表;运里的分词列表是步骤S2步骤中经分 词后得到。
[0015] ②遍历词组合列表,将词组合与领域词典进行比较,获取包含于领域词典中的最 长词组合;
[0016] ③若最长词组合存在,则对最长词组合中包含的第一个词标注为"B",其他词标注 为"I";
[0017] ④若当前词的最长词组合不存在,则将当前词标注为"炉;
[0018] ⑤将标注结果保存成CRF工具所要求的格式;
[0019] S4.采用CRF工具对训练语料进行训练得到词标注模型;
[0020] S5.输出词标注模型,完成模型训练;
[0021] 所述分词应用包括W下步骤:
[0022] a)读取文本,加载词标注模型,采用与模型训练其步骤S2中相同的方法对文本进 行初始分词及词性标注,得到初始分词列表;
[0023] b)基于初始分词列表构建特征表;
[0024] 特征表是一个M*3大小的二维列表T[M] [3],其中M为分词列表的长度;遍历初始分 词列表,对于第i个词,将该词的字符记录在T[i][l],词性记录在T[i][2],其中假设列表的 索引从1开始;
[0025] C)对特征表T使用模型训练中得到的词标注模型进行标注,将标注结果保存在特 征表对应位置的第=列;标注过程采用维特比解码算法;
[0026] d)根据词标注结果进行词合并
[0027] ①初始化分词结果列表r;
[0028] ②遍历特征表T,假设当前位置为i,若T[i][3]为"B"标注,则继续查找邻接的最后 一个"r标注的位置j,将i到j之间的词合并为一个词,加入到分词结果列表r并更新遍历位 置为j+1;
[0029] ③若否即T[i][3]不为"B"标注则直接将当前词加入到r;
[0030] e)输出最终分词结果。
[0031] 本发明提供一种分词装置,包括用于模型训练阶段的分词&标注模块和CRF训练模 块,W及用于分词应用阶段的初始分词模块、词标注模块和词合并模块;
[0032] 所述分词&标注模块对采集的语料库进行分词然后对分词结果进行前后组合并使 用领域词典进行标注,得到用于CRF训练的标注训练集;CRF训练模块配置特征模板并使用 CRF工具对标注训练集进行训练得到词标注模型,并将词标注模型W文件形式保存用于分 词应用;
[0033] 所述初始分词模块对输入文本进行初始切分和词性标注,得到初始分词信息列 表;词标注模块对初始分词信息列表构建特征表,然后加载词标注模型使用维特比算法对 特征表进行标注,并将标注结果保存在特征表的最后一列;词合并模块对特征表的最后一 列标注结果进行分析,对于符合{BI+}(表示WB标注开始,后面接一个到多个I标注)标注序 列的若干词将其合并为新词,得到最终分词结果进行输出。
[0034] 其中,所述分词&标注模块对采集的语料库采用N-最短路径分词,采用隐马尔科夫 模型进行词性标注。
[0035] 所述初始分词模块对输入文本采用了N-最短路径分词,采用隐马尔科夫模型进行 词性标注。
[0036] 本发明的有益技术效果:
[0037] 1.采用多层分词,可根据需要控制分词的切分粒度;
[0038] 2.采用CRF进行词标注,考虑了全局上下文信息,有利于提高词合并的准确性;
[0039] 3.通过CRF训练的词标注模型可自动学习语料库中的规则模式,对相同模式但未 包含于领域词典中的词也可识别出来,具有一定的新词发现能力。
【附图说明】
[0040] 图1为本发明一种分词装置的功能模块图 [0041 ]图2为词标注模型训练流程图
[0042] 图3为训练语料标注流程图
[0043] 图4为分词应用流程图
【具体实施方式】
[0044] 下面结合附图,对本发明作进一步的说明:
[0045] 本发明根据应用领域的领域词典(例如对于金融领域,领域词典可包含相关概念 词如"一带一路"、股票全称W及简称等)对语料库进行标注并采用CRF进行训练得到词标注 模型,然后采用常用分词算法对文本进行初始切分,对初始切分结果基于词标注模型进行 合并得到最终的分词结果。
[0046] 本发明包括模型训练(即词标注模型训练)与分词应用两个阶段,其中词标注模型 训练阶段采用CRF工具离线训练词标注模型用于分词应用阶段的词标注,由分词&标注模块 和CRF训练模块两部分组成;分词应用阶段实时对文本进行分词应用,包括初始分词模块、 词标注模块和词合并模块,如图1所示。
[0047] 模型训练阶段:分词&标注模块对采集的语料库使用常规分词技术进行分词然后 对分词结果进行前后组合并使用领域词典进行标注,得到用于CRF训练的标注训练集;CRF 训练模块配置特征模板并使用CRF工具对标注训练集进行训练得到词标注模型,并将词标 注模型W文件形式保存用于分词应用。模型训练阶段只需在分词应用阶段之前进行一次即 可,得到词标注模型进行保存。
[0048] 所述初始分词模块对输入文本进行初始切分和词性标注,得到初始分词信息列 表;词标注模块对初始分词信息列表构建特征表,然后加载词标注模型使用维特比算法对 特征表进行标注,并将标注结果保存在特征表的最后一列;词合并模块对特征表的最后一 列标注结果进行分析,对于符合{BI+}(表示WB标注开始,后面接一个到多个I标注)标注序 列的若干词将其合并为新词,得到最终分词结果进行输出。
[0049] -种分词方法,包括词标注模型训练和分词应用两个阶段,
[0050] 参照图2,词标注模型训练包括W下步骤:
[0051] a)采集语料库和准备领域词典(指在具体应用领域中,需要在分词中完整切分的 词,例如金融领域中的相关概念词、股票全称W及简称等)。随机选取一定时期内特定领域 内的新闻语料,例如财经领域。领域词典可选取特定领域内的实体W及其他业务需要的词。 比如先从互联网将领域类相关的网页爬取下来存储在数据库中,然后从其中随机选取。
[0052] b)对语料库使用常用分词技术进行分词并进行词性标注。在案例实施中采用了 N-最短路径分词,采用隐马尔科夫模型进行词性标注。
[0053] C)根据领域词典对分词结果采用"BI0"标记进行标注得到训练语料,参照图3
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1