一种基于机器学习的数字出版智能标识标引方法与流程

文档序号:37156429发布日期:2024-02-26 17:18阅读:15来源:国知局

本发明涉及数字出版,具体是一种基于机器学习的数字出版智能标识标引方法。


背景技术:

1、数字出版是指利用数字技术进行内容编辑加工,并通过网络传播数字内容产品的一种新型出版方式,其主要特征为内容生产数字化、管理过程数字化、产品形态数字化和传播渠道网络化。数字出版产品形态主要包括电子图书、数字报纸、数字期刊、网络原创文学、网络教育出版物、网络地图、数字音乐、网络动漫、网络游戏、数据库出版物、手机出版物(彩信、彩铃、手机报纸、手机期刊、手机小说、手机游戏)等;数字出版产品的传播途径主要包括有线互联网、无线通讯网和卫星网络等。由于其海量存储、搜索便捷、传输快速、成本低廉、互动性强、环保低碳等特点,已经成为新闻出版业的战略性新兴产业和出版业发展的主要方向。

2、随着出版行业的不断发展与深化,出版内容更加丰富、出版内容形式更加多样,对数字资源的分类标引提出了更加严格的要求。目前数据标引多以人工标引方式存在,对数据进行分门别类打标记。由于人工精力有限,且大量标引工作过于繁琐,因此仅使用人工标引无法满足出版内容发展日益深化的需求。

3、因此本领域技术人员提供了一种基于机器学习的数字出版智能标识标引方法,以解决上述背景技术中提出的问题。


技术实现思路

1、为解决上述技术问题,本发明提供一种基于机器学习的数字出版智能标识标引方法,其特征在于,包括以下步骤。

2、包括以下步骤:

3、s1:首先采用基于crf算法识别数字资源中的命名实体,构建一个可视化的数据标注平台;

4、s2:知识抽取,建立实体关系联合抽取模型,实体和关系的联合抽取是从非结构化文本中同时抽取提到的实体以及实体之间的关系;

5、s3:建设数字资源语料库,从一个标注任务开始,需要创建标注规格说明、设计标注指南、创建一个语料库,最后采用这个标注过程开始创建实际的数据;

6、s4:实体和关系抽取方面,面向数字资源,使用联合学习(joint learning)技术,基于传统机器学习的联合模型(joint model)来对实体识别和和关系抽取做联合学习。

7、优选的:步骤s1中,基于“建模–标注–训练–测试–评价–修订”的循环标注方法,在平台上对机器自动标注的数据进行审校,最终形成精准的数字资源语料标注数据集。

8、根据权利要求1所述的一种基于机器学习的数字出版智能标识标引方法,其特征在于,步骤s2中,采用的联合抽取方法是在一个模型中同时在数字资源中抽取实体及实体间的关系。

9、根据权利要求1所述的一种基于机器学习的数字出版智能标识标引方法,其特征在于,步骤s3中,这一过程可以概括为matter标注开发过程:建模-标注-训练-测试-评价-修改。

10、根据权利要求1所述的一种基于机器学习的数字出版智能标识标引方法,其特征在于,步骤s3中,先用条件随机场(conditional random field,crf)这种简单模型来进行训练和冷启动,进行辅助自动标注,并用matter的循环标注方法,在数据标注平台上对机器自动标注的数据进行审校,最终形成精准的数字资源语料库标注数据集。

11、根据权利要求1所述的一种基于机器学习的数字出版智能标识标引方法,其特征在于,步骤s4中,主要采用基于神经网络方法的联合学习,比如参数共享(parametersharing)的联合学习模型,用共享神经网络底层表达来进行联合学习。具体的说,对于输入句子通过共用的word embedding层,然后接双向的lstm层来对输入进行编码。然后分别使用一个lstm来进行命名实体识别(ner)和一个cnn来进行关系分类(rc)。

12、本发明的技术效果和优点:

13、与现有技术相比,本发明的有益效果是:

14、1、本发明通过机器学习算法创建模型后,可以为后续标引工作提供自动分类标引。对已分类的数据再次学习,不断优化模型后,逐渐替代人工标引,从而建立完善的数字资源标引体系;实现我们对复杂事务处理的自动化要求。



技术特征:

1.一种基于机器学习的数字出版智能标识标引方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的一种基于机器学习的数字出版智能标识标引方法,其特征在于,步骤s1中,基于“建模–标注–训练–测试–评价–修订”的循环标注方法,在平台上对机器自动标注的数据进行审校,最终形成精准的数字资源语料标注数据集。

3.根据权利要求1所述的一种基于机器学习的数字出版智能标识标引方法,其特征在于,步骤s2中,采用的联合抽取方法是在一个模型中同时在数字资源中抽取实体及实体间的关系。

4.根据权利要求1所述的一种基于机器学习的数字出版智能标识标引方法,其特征在于,步骤s3中,这一过程可以概括为matter标注开发过程:建模-标注-训练-测试-评价-修改。

5.根据权利要求1所述的一种基于机器学习的数字出版智能标识标引方法,其特征在于,步骤s3中,先用条件随机场(conditional random field,crf)这种简单模型来进行训练和冷启动,进行辅助自动标注,并用matter的循环标注方法,在数据标注平台上对机器自动标注的数据进行审校,最终形成精准的数字资源语料库标注数据集。

6.根据权利要求1所述的一种基于机器学习的数字出版智能标识标引方法,其特征在于,步骤s4中,主要采用基于神经网络方法的联合学习,比如参数共享(parametersharing)的联合学习模型,用共享神经网络底层表达来进行联合学习。具体的说,对于输入句子通过共用的word embedding层,然后接双向的lstm层来对输入进行编码。然后分别使用一个lstm来进行命名实体识别(ner)和一个cnn来进行关系分类(rc)。


技术总结
本发明公开了一种基于机器学习的数字出版智能标识标引方法,包括以下步骤:包括以下步骤。S1:首先采用基于CRF算法识别数字资源中的命名实体,构建一个可视化的数据标注平台;S2:知识抽取,建立实体关系联合抽取模型;S3:建设数字资源语料库,从一个标注任务开始,需要创建标注规格说明、设计标注指南、创建一个语料库;S4:实体和关系抽取方面,面向数字资源,使用联合学习(Joint Learning)技术。本发明通过机器学习算法创建模型后,可以为后续标引工作提供自动分类标引。对已分类的数据再次学习,不断优化模型后,逐渐替代人工标引,从而建立完善的数字资源标引体系;实现我们对复杂事务处理的自动化要求。

技术研发人员:黄永健,郭俊汝,黄丽,邓强
受保护的技术使用者:广东轩辕网络科技股份有限公司
技术研发日:
技术公布日:2024/2/25
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1