语料生成方法、装置、计算机设备及存储介质与流程

文档序号:22627741发布日期:2020-10-23 19:36阅读:254来源:国知局
语料生成方法、装置、计算机设备及存储介质与流程

本发明涉及人工智能领域,尤其涉及一种语料生成方法、装置、计算机设备及存储介质。



背景技术:

随着人们生活水平的提高,许多人开始关心自身的健康问题,疫苗相关的问题也成了健康问题的一个热门问题,为缓解医院咨询窗口的压力,一些医院开始采用智能的机器人服务系统,通过智能问答机器人来给予咨询者有效反馈,智能问答机器人在使用之前,需要采用大量相关领域的语料来进行训练,以便提高问答的准确率,易理解地,针对疫苗问答机器人,需要大量疫苗相关的语料来进行训练。

当前,获取疫苗相关的语料,主要通过网络爬虫从相关站点爬取,并使用正则匹配、关键字抽取的方式,来进行语料选取,采用这些方式选取的语料来训练问答机器人,其精准程度远远达不到要求,使得问答机器人的应答准确率不高,同时也影响用户体验,因而,如何获取精准程度较高的训练语料,成了一个亟待解决的难题。



技术实现要素:

本发明实施例提供一种语料生成方法、装置、计算机设备和存储介质,以提高生成疫苗问答机器人的训练语料的准确度。

为了解决上述技术问题,本申请实施例提供一种语料生成方法,包括:

从医疗问诊库中,获取疫苗相关的咨询文本和应答文本,作为初始文本;

对所述初始文本进行数据清洗,得到原始语料数据;

采用k-means聚类模型,对所述原始语料数据进行聚类处理,得到至少两簇的粗粒度聚类语料;

针对每簇粗粒度聚类语料,通过密度聚类算法对所述粗粒度聚类语料进行二次聚类处理,将得到的密度聚类语料作为目标语料。

可选地,所述从医疗问诊库中,获取疫苗相关的咨询文本和应答文本,作为初始文本包括:

通过链接分析的方式,确定医疗问诊库中每个预设路径的页面权重;

根据每个所述预设路径的所述页面权重,确定目标页面;

基于预设的页面排名策略,计算每个所述目标页面的页面排名值,并根据所述页面排名值由大到小的顺序,对所述目标页面进行排序,得到目标页面队列;

基于所述目标页面队列,抓取所述目标页面中的内容,得到所述疫苗相关的咨询文本和应答文本。

可选地,所述针对每簇粗粒度聚类语料,通过密度聚类算法对所述粗粒度聚类语料进行二次聚类处理,将得到的密度聚类语料作为目标语料包括:

获取预设的扫描半径eps和预设的最小包含点数minpts;

针对粗粒度聚类语料中的每个语料数据,统计所述语料数据在所述预设的扫描半径eps内包含的其他语料数据的数量,将该数量作为该语料数据对应的邻域点数量;

将所述邻域点数量大于等于预设的最小包含点数minpts的语料数据,作为核心点;

将邻域点数量小于预设的最小包含点数minpts,并且,处于核心点的预设的扫描半径eps内的语料数据,作为边界点;

将距离不超过预设的扫描半径eps的边界点互相连接,构成一个密度聚类簇,将该密度聚类簇范围内的核心点加入到该密度聚类簇,得到目标语料。

可选地,在所述采用k-means聚类模型,对所述原始语料数据进行聚类处理,得到至少两簇的粗粒度聚类语料之后,并且,在所述针对每簇粗粒度聚类语料,通过密度聚类算法对所述粗粒度聚类语料进行二次聚类处理,将得到的密度聚类语料作为目标语料之前,所述语料生成方法还包括:

针对每个簇的粗粒度聚类语料,设置不同的类别标签,并将所述簇粗粒度聚类语料、类别标签,以及所述簇粗粒度聚类语料与类别标签的对应关系,存入到elasticsearch引擎中。

可选地,在所述针对每簇粗粒度聚类语料,通过密度聚类算法对所述粗粒度聚类语料进行二次聚类处理,将得到的密度聚类语料作为目标语料之后,所述语料生成方法还包括:

获取预设阈值,根据所述预设阈值,采用elasticsearch引擎对所述目标语料进行聚合,得到聚类结果;

根据聚类结果,甄选出非相关语料,并对所述非相关语料进行剔除处理,得到更新后的目标语料。

可选地,在所述针对每簇粗粒度聚类语料,通过密度聚类算法对所述粗粒度聚类语料进行二次聚类处理,将得到的密度聚类语料作为目标语料之后,还包括:将所述目标语料存储于区块链网络节点中。

为了解决上述技术问题,本申请实施例还提供一种语料生成装置,包括:

数据获取模块,用于从医疗问诊库中,获取疫苗相关的咨询文本和应答文本,作为初始文本;

数据清洗模块,用于对所述初始文本进行数据清洗,得到原始语料数据;

粗粒度聚类模块,用于采用k-means聚类模型,对所述原始语料数据进行聚类处理,得到至少两簇的粗粒度聚类语料;

语料确定模块,用于针对每簇粗粒度聚类语料,通过密度聚类算法对所述粗粒度聚类语料进行二次聚类处理,将得到的密度聚类语料作为目标语料。

可选地,所述数据获取模块包括:

链接分析单元,用于通过链接分析的方式,确定医疗问诊库中每个预设路径的页面权重;

目标页面确定单元,用于根据每个所述预设路径的所述页面权重,确定目标页面;

页面排序单元,用于基于预设的页面排名策略,计算每个所述目标页面的页面排名值,并根据所述页面排名值由大到小的顺序,对所述目标页面进行排序,得到目标页面队列;

内容获取单元,用于基于所述目标页面队列,抓取所述目标页面中的内容,得到所述疫苗相关的咨询文本和应答文本。

可选地,所述语料确定模块包括:

预设参数获取单元,用于获取预设的扫描半径eps和预设的最小包含点数minpts;

领域点数量确定单元,用于针对粗粒度聚类语料中的每个语料数据,统计所述语料数据在所述预设的扫描半径eps内包含的其他语料数据的数量,将该数量作为该语料数据对应的邻域点数量;

核心店确定单元,用于将所述邻域点数量大于等于预设的最小包含点数minpts的语料数据,作为核心点;

边界点确定单元,用于将邻域点数量小于预设的最小包含点数minpts,并且,处于核心点的预设的扫描半径eps内的语料数据,作为边界点;

目标语料获取单元,用于将距离不超过预设的扫描半径eps的边界点互相连接,构成一个密度聚类簇,将该密度聚类簇范围内的核心点加入到该密度聚类簇,得到目标语料。

可选地,所述语料生成装置还包括:

第一存储模块,用于针对每个簇的粗粒度聚类语料,设置不同的类别标签,并将所述簇粗粒度聚类语料、类别标签,以及所述簇粗粒度聚类语料与类别标签的对应关系,存入到elasticsearch引擎中。

可选地,所述语料生成装置还包括:

聚合模块,用于获取预设阈值,根据所述预设阈值,采用elasticsearch引擎对所述目标语料进行聚合,得到聚类结果;

更新模块,用于根据聚类结果,甄选出非相关语料,并对所述非相关语料进行剔除处理,得到更新后的目标语料。

可选地,所述语料生成装置还包括:

第二存储模块,用于将所述目标语料存储于区块链网络节点中。

为了解决上述技术问题,本申请实施例还提供一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述语料生成方法的步骤。

为了解决上述技术问题,本申请实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述语料生成方法的步骤。

本发明实施例提供的语料生成方法、装置、计算机设备及存储介质,通过从医疗问诊库中,获取疫苗相关的咨询文本和应答文本,作为初始文本,再对初始文本进行数据清洗,得到原始语料数据,进而采用k-means聚类模型,对原始语料数据进行聚类处理,得到至少两簇的粗粒度聚类语料,针对每簇粗粒度聚类语料,通过密度聚类算法对粗粒度聚类语料进行二次聚类处理,实现多层次的聚类处理得到更为精准的分类,将得到的密度聚类语料作为目标语料,确保目标语料的分类更为准确,同时,也提高了目标语料针对疫苗问答的精准程度。

附图说明

为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。

图1是本申请可以应用于其中的示例性系统架构图;

图2是本申请的语料生成方法的一个实施例的流程图;

图3是根据本申请的语料生成装置的一个实施例的结构示意图;

图4是根据本申请的计算机设备的一个实施例的结构示意图。

具体实施方式

除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同;本文中在申请的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本申请;本申请的说明书和权利要求书及上述附图说明中的术语“包括”和“具有”以及它们的任何变形,意图在于覆盖不排他的包含。本申请的说明书和权利要求书或上述附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。

在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

请参阅图1,如图1所示,系统架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。

终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、电子书阅读器、mp3播放器(movingpicturee界面显示pertsgroupaudiolayeriii,动态影像专家压缩标准音频层面3)、mp4(movingpicturee界面显示pertsgroupaudiolayeriv,动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机和台式计算机等等。

服务器105可以是提供各种服务的服务器,例如对终端设备101、102、103上显示的页面提供支持的后台服务器。

需要说明的是,本申请实施例所提供的语料生成方法由服务器执行,相应地,语料生成装置设置于服务器中。

应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器,本申请实施例中的终端设备101、102、103具体可以对应的是实际生产中的应用系统。

请参阅图2,图2示出本发明实施例提供的一种语料生成方法,以该方法应用在图1中的服务端为例进行说明,详述如下:

s201:从医疗问诊库中,获取疫苗相关的咨询文本和应答文本,作为初始文本。

具体地,通过检索预设关键字,对医疗问诊库进行查询处理,得到疫苗相关的咨询文本和应答文本,作为初始文本。

其中,预设关键字具体可以是涵盖疫苗的接种时间、程序、注意事项、人群适应性等相关的分词或短句。

其中,医疗问诊库是指用于存储由通过网络或者电话咨询疫苗相关问题的信息(文本信息和语音信息)的资源库。

作为一种优选方式,为方便查询,可将语音信息通过第三方语音转化文本工具,转化为文本信息,进而将该文本信息存储至医疗问诊库中。

需要说明的是,本实施例中的医疗问诊库对应多个站点页面,这些站点页面提供医疗问诊的记录信息的查询和阅读。

优选的,本实施例采用爬虫的方式,从医疗问诊库的站点页面中快速精准爬取疫苗相关的咨询文本和应答文本,提高初始文本的获取速度,有利于提高训练语料的生成效率。

s202:对初始文本进行数据清洗,得到原始语料数据。

具体地,获取到的初始文本,包括一些标点符号、文本格式、无效表情和图片等,在对这些数据进行数据处理之前,需要先进行数据清洗。

其中,数据清洗包括但不限于:去除标点图片、分本分割、关键语句提取等。

进一步地,对数据清洗后的文本进行向量化,将得到的词向量,作为原始语料数据。

具体地,将数据清理后的文本映射到一个向量中,将这些向量联系在一起,形成一个词向量空间,每个向量相当于是这个空间中的一个点。

例如,某汽车销售公司产品名称里面有宝马、奔驰这两个关键字,根据预设的语料库,获取了这两个关键字的所有可能分类:“汽车”、“奢侈品”、“动物”、“动作”和“美食”。因此,对这两个关键字引入一种向量表示:

<汽车,奢侈品,动物,动作,美食>

根据统计学习的方法计算这两个关键字属于每个分类的概率,计算机学到的可能是:

宝马=<0.5,0.2,0.2,0.0,0.1>

奔驰=<0.7,0.2,0.0,0.1,0.0>

可以理解地,基础词向量的每一维的值代表一个具有一定的语义和语法上能够解释的特征,故可以将基础词向量的每一维称为一个关键字特征。

需要说明的是,在本实施例中,词向量表征的具体可以是一个分词、一个短句或者一对问答语句,此处不作更多闲置。

s203:采用k-means聚类模型,对原始语料数据进行聚类处理,得到至少两簇的粗粒度聚类语料。

具体地,采用k-means聚类模型,对原始语料数据进行聚类处理,将每个聚类中心对应的原始语料数据作为一簇粗粒度聚类语料,得到至少两簇的粗粒度聚类语料。

其中,粗粒度聚类语料是指精度不是很高的聚类语料,其中包含了一些共同语义,但最终语义不一定相同。例如,两条原始语料数据为“我吃完饭后一会儿,肚子又饿了”与“我吃完饭肚子有点痛”,经过k-means聚类模型聚类后,这两条语料被归到一簇内,因而属于粗粒度聚类语料,为确保分类的准确性,在后续需要对粗粒度聚类语料进行进一步精细化分类。

其中,k-means算法是基于距离的聚类算法,采用距离作为相似性的评价指标,即认为两个对象的距离越近,其相似度就越大。该算法认为簇是由距离靠近的对象组成的,因此把得到紧凑且独立的簇作为最终目标。

s204:针对每簇粗粒度聚类语料,通过密度聚类算法对粗粒度聚类语料进行二次聚类处理,将得到的密度聚类语料作为目标语料。

具体地,由于疫苗问答专业性较强,因而需要分类较为细致、准确度较高的训练语料,由于k-means算法功能局限性,无法做到完美聚类每类疫苗问题,所以首先利用k-means聚类算法对原始语料进行粗粒度聚类,聚类过程中调整算法超参可以获取合适的文本簇,使得簇内文本具有一定相似性,每个簇粗略代表一类疫苗问题,例如涉及某种疫苗的接种时间的不同问法会集中在同一簇内,而簇内又可以分出接种时间的不同问题方向,为进一步提高分类的精细程度和提高语料针对疫苗问题的准确性,本实施例采用密度聚类算法对粗粒度聚类语料进行二次聚类处理,将得到的密度聚类语料作为目标语料。

优选的,本实施例采用的密度聚类算法为dbscan,具体采用dbscan进行二次聚类处理的过程,可参考后续实施例的描述,为避免重复,此处不再赘述。

其中,dbscan(density-basedspatialclusteringofapplicationswithnoise)是一个比较有代表性的基于密度的聚类算法。与划分和层次聚类方法不同,它将簇定义为密度相连的点的最大集合,能够把具有足够高密度的区域划分为簇,并可在噪声的空间数据库中发现任意形状的聚类。

在本实施例中,通过从医疗问诊库中,获取疫苗相关的咨询文本和应答文本,作为初始文本,再对初始文本进行数据清洗,得到原始语料数据,进而采用k-means聚类模型,对原始语料数据进行聚类处理,得到至少两簇的粗粒度聚类语料,针对每簇粗粒度聚类语料,通过密度聚类算法对粗粒度聚类语料进行二次聚类处理,实现多层次的聚类处理得到更为精准的分类,将得到的密度聚类语料作为目标语料,确保目标语料的分类更为准确,同时,也提高了目标语料针对疫苗问答的精准程度。

在一实施例中,在得到目标语料之后,将每个目标语料存储于区块链网络节点中,通过区块链存储,实现数据信息在不同平台之间的共享,也可防止数据被篡改。

区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层。

在本实施例的一些可选的实现方式中,步骤s201中,从医疗问诊库中,获取疫苗相关的咨询文本和应答文本,作为初始文本包括:

通过链接分析的方式,确定医疗问诊库中每个预设路径的页面权重;

根据每个预设路径的页面权重,确定目标页面;

基于预设的页面排名策略,计算每个目标页面的页面排名值,并根据页面排名值由大到小的顺序,对目标页面进行排序,得到目标页面队列;

基于目标页面队列,抓取目标页面中的内容,得到疫苗相关的咨询文本和应答文本。

具体地,在医疗问诊库中预先存储由多个预设路径,每个预设路径存储有1个或多个页面,通过对页面内容的爬取,来获取对应的信息,在进行页面爬取之前,先对待爬取的站点进行链接分析,确认每个站点页面的权重,以便后续根据权重确定需要进行爬取的目标页面,服务端预设有参考权重,在计算出的页面权重大于预设的参考权重时,确认该页面具有爬取价值,将该页面确定为目标页面,进而通过预设的页面排名策略,计算每个目标页面的页面排名值,并根据页面排名值由大到小的顺序,对目标页面进行排序,得到目标页面队列,再根据目标页面队列中页面的顺序,对目标页面的内容进行爬取,得到目标页面中包含的基础数据和基础数据对应的用户信息。

其中,链接分析即link,是指对医疗问诊库中,每个预设路径对应的页面的基本特征进行分析,在本实施例中,选取进行分析的基本特征包括但不限于:疫苗相关、网络拓扑和页面内容等。

其中,网络拓扑分析,包含对网页的外链、层次和等级等数据的分析。

其中,页面内容分析,包含对网页的外观、文本等内容特征数据的分析。

本实施例通过对疫苗相关文本分析、网络拓扑分析和网页内容分析,得到三项分析结果,并对三项分析结果进行综合评估,得到站点的页面权重。综合评估的具体方式可以是通过预设的加权公式来实现,也可以根据实际需要进行设定,此处不做限定。

其中,预设的页面排名策略包括但不限于:pagerank策略、hilltop算法、基于链接关系的排名(trustrank)算法和expertrank等。

其中,pagerank策略,又称网页排名策略、google左侧排名策略或佩奇排名策略,是一种由根据网页之间相互的超链接计算的技术,而作为网页排名的要素之一,pagerank值可以用来体现网页的相关性和重要性,在搜索引擎优化操作中是经常被用来评估网页优化的一个重要因素,根据pagerank值由大到小的方式进行排序,使得将重要级更高的页面排在前面,在后面进行内容爬取时,优先获取排名靠前的网页的信息。

在本实施例中,通过构建页面权重队列,进而根据页面权重队列中的顺序进行爬取,优先爬取重要信息,有利于提高爬取内容的质量和爬取效率。

在本实施例的一些可选的实现方式中,步骤s204中,针对每簇粗粒度聚类语料,通过密度聚类算法对粗粒度聚类语料进行二次聚类处理,将得到的密度聚类语料作为目标语料包括:

获取预设的扫描半径eps和预设的最小包含点数minpts;

针对粗粒度聚类语料中的每个语料数据,统计语料数据在预设的扫描半径eps内包含的其他语料数据的数量,将该数量作为该语料数据对应的邻域点数量;

将邻域点数量大于等于预设的最小包含点数minpts的语料数据,作为核心点;

将邻域点数量小于预设的最小包含点数minpts,并且,处于核心点的预设的扫描半径eps内的语料数据,作为边界点;

将距离不超过预设的扫描半径eps的边界点互相连接,构成一个密度聚类簇,将该密度聚类簇范围内的核心点加入到该密度聚类簇,得到目标语料。

具体地,通过针对粗粒度聚类语料中的每个语料数据,统计语料数据在预设的扫描半径eps内包含的其他语料数据的数量,将该数量作为该语料数据对应的邻域点数量,进而将邻域点数量大于等于预设的最小包含点数minpts的语料数据,作为核心点,将邻域点数量小于预设的最小包含点数minpts,并且,处于核心点的预设的扫描半径eps内的语料数据,作为边界点,并将距离不超过预设的扫描半径eps的边界点互相连接,构成一个形状为封闭多边形的密度聚类簇,将该密度聚类簇范围内的核心点加入到该密度聚类簇,得到目标语料。

其中,预设的扫描半径eps和预设的最小包含点数minpts可根据实际需要进行设定,此处不做限制,例如,将预设的扫描半径eps设置为10,将预设的最小包含点数minpts设置为5。

应理解,将距离不超过预设的扫描半径eps的边界点互相连接,构成一个密度聚类簇,最后得到的密度聚类簇可以是一个,也可以是多个,每个密度聚类簇为一个类别的疫苗问题的各项分枝问题的汇集,具体的疫苗问题的类别和分枝问题的数量取决于爬取到的初始文本的内容。

需要说明的是,本实施例将粗粒度聚类语料中,不属于核心点和边界点中任何一种的语料数据,作为噪音点,并对噪音点进行清理,提高语料的精确程度。

在本实施例中,通过对粗粒度聚类语料的二次聚类,对每类疫苗问题进行细化分类,有利于提高训练语料的精确程度,同时,也对一些噪点进行过滤,避免与疫苗问答关联较弱语料对后续疫苗问答训练产生干扰,提高语料生成的准确程度。

在本实施例的一些可选的实现方式中,在步骤s203之后,并且,在步骤s204之前,该语料生成方法还包括:

针对每个簇的粗粒度聚类语料,设置不同的类别标签,并将簇粗粒度聚类语料、类别标签,以及簇粗粒度聚类语料与类别标签的对应关系,存入到elasticsearch引擎中。

具体地,针对每个簇的粗粒度聚类语料,为每个簇的粗粒度聚类语设置设置唯一的一个类别标签,并将簇粗粒度聚类语料、类别标签,以及簇粗粒度聚类语料与类别标签的对应关系,存入到elasticsearch引擎中,利用elasticsearch引擎的特性,对簇粗粒度聚类语料、类别标签,以及簇粗粒度聚类语料与类别标签的对应关系,进行快速存储与排序,以便后续通过elasticsearch引擎存储的这些数据和对应关系,进行快速提取速度和进行聚合处理,有利于提高后续对语料的筛选效率。

其中,elasticsearch引擎是一个高扩展、开源的全文检索和分析引擎,它可以准实时地快速存储、搜索、分析海量的数据,其实现原理主要分为以下几个步骤,首先用户将数据提交到elasticsearch数据库中,再通过分词控制器去将对应的语句分词,将其权重和分词结果一并存入数据,当用户搜索数据时候,再根据权重将结果排名打分,再按分数的高低顺序将结果返回呈现给用户。

在本实施例中,通过对每个簇的粗粒度聚类语料设置唯一的分类标签,并建立对应关系存储至elasticsearch引擎中,有利于后续通过elasticsearch引擎进行数据融合和对一些非相关语料数据的筛选。

在本实施例的一些可选的实现方式中,在步骤s204之后,该语料生成方法还包括:

获取预设阈值,根据预设阈值,采用elasticsearch引擎对目标语料进行聚合,得到聚类结果;

根据聚类结果,甄选出非相关语料,并对非相关语料进行剔除处理,得到更新后的目标语料。

具体地,elasticsearch引擎可以用来获取表达相似文本,在elasticsearch引擎检索某一阈值的条件下,可以通过elasticsearch引擎的聚合功能有针对的从目标语料中获取代表性问题的相似问题,再次对目标语料进行筛选,可以剔除非强相关语料,从而提高语料的质量。

其中,某一阈值也即本实施例中的预设阈值,该预设阈值随着实际应用场景的不同有所不同,可根据实际需要进行设定,例如设置为0.6,此处不作具体限定。

其中,非相关语料是指采用elasticsearch引擎对目标语料进行聚合后,相关度低于预设阈值的聚类簇或语料。

可选地,本实施例还通过句子相似性算法,计算非强相关语料与目标语料的所有簇心的距离,若存在小于预设距离的非强相关语料,则确定该非强相关语料作为弱相似文本,即为问题孤点,将该问题孤点单独作为一类问题,并将该问题孤点作为新的语料更新到目标语料中,提高目标语料对偏门冷门的疫苗问题的支持。

其中,句子相似度算法包括但不限于:暴力(bruteforce)算法、rk算法、kmp(theknuth-morris-prattalgorithm)算法和基于音形码,editdistance的字符串纠正相似度算法等。可根据实际需求进行选取使用,此处不做限制。

在本实施例中,通过elasticsearch引擎对非相关语料进行剔除,并对目标语料进行更新,确保目标语料的精简和准确,避免相关度不高的语料导致后续疫苗问答训练的准确度不高,同时,对一些孤点问题进行单独作为一类问题,补充进目标语料,提高目标语料对偏门冷门的疫苗问题的支持。

应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。

图3示出与上述实施例语料生成方法一一对应的语料生成装置的原理框图。如图3所示,该语料生成装置包括数据获取模块31、数据清洗模块32、粗粒度聚类模块33和语料确定模块34。各功能模块详细说明如下:

数据获取模块31,用于从医疗问诊库中,获取疫苗相关的咨询文本和应答文本,作为初始文本;

数据清洗模块32,用于对初始文本进行数据清洗,得到原始语料数据;

粗粒度聚类模块33,用于采用k-means聚类模型,对原始语料数据进行聚类处理,得到至少两簇的粗粒度聚类语料;

语料确定模块34,用于针对每簇粗粒度聚类语料,通过密度聚类算法对粗粒度聚类语料进行二次聚类处理,将得到的密度聚类语料作为目标语料。

可选地,数据获取模块31包括:

链接分析单元,用于通过链接分析的方式,确定医疗问诊库中每个预设路径的页面权重;

目标页面确定单元,用于根据每个预设路径的页面权重,确定目标页面;

页面排序单元,用于基于预设的页面排名策略,计算每个目标页面的页面排名值,并根据页面排名值由大到小的顺序,对目标页面进行排序,得到目标页面队列;

内容获取单元,用于基于目标页面队列,抓取目标页面中的内容,得到疫苗相关的咨询文本和应答文本。

可选地,语料确定模块34包括:

预设参数获取单元,用于获取预设的扫描半径eps和预设的最小包含点数minpts;

领域点数量确定单元,用于针对粗粒度聚类语料中的每个语料数据,统计语料数据在预设的扫描半径eps内包含的其他语料数据的数量,将该数量作为该语料数据对应的邻域点数量;

核心店确定单元,用于将邻域点数量大于等于预设的最小包含点数minpts的语料数据,作为核心点;

边界点确定单元,用于将邻域点数量小于预设的最小包含点数minpts,并且,处于核心点的预设的扫描半径eps内的语料数据,作为边界点;

目标语料获取单元,用于将距离不超过预设的扫描半径eps的边界点互相连接,构成一个密度聚类簇,将该密度聚类簇范围内的核心点加入到该密度聚类簇,得到目标语料。

可选地,语料生成装置还包括:

第一存储模块,用于针对每个簇的粗粒度聚类语料,设置不同的类别标签,并将簇粗粒度聚类语料、类别标签,以及簇粗粒度聚类语料与类别标签的对应关系,存入到elasticsearch引擎中。

可选地,语料生成装置还包括:

聚合模块,用于获取预设阈值,根据预设阈值,采用elasticsearch引擎对目标语料进行聚合,得到聚类结果;

更新模块,用于根据聚类结果,甄选出非相关语料,并对非相关语料进行剔除处理,得到更新后的目标语料。

可选地,语料生成装置还包括:

第二存储模块,用于将目标语料存储于区块链网络节点中。

关于语料生成装置的具体限定可以参见上文中对于语料生成方法的限定,在此不再赘述。上述语料生成装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。

为解决上述技术问题,本申请实施例还提供计算机设备。具体请参阅图4,图4为本实施例计算机设备基本结构框图。

所述计算机设备4包括通过系统总线相互通信连接存储器41、处理器42、网络接口43。需要指出的是,图中仅示出了具有组件连接存储器41、处理器42、网络接口43的计算机设备4,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。其中,本技术领域技术人员可以理解,这里的计算机设备是一种能够按照事先设定或存储的指令,自动进行数值计算和/或信息处理的设备,其硬件包括但不限于微处理器、专用集成电路(applicationspecificintegratedcircuit,asic)、可编程门阵列(field-programmablegatearray,fpga)、数字处理器(digitalsignalprocessor,dsp)、嵌入式设备等。

所述计算机设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述计算机设备可以与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互。

所述存储器41至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,sd或d界面显示存储器等)、随机访问存储器(ram)、静态随机访问存储器(sram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、可编程只读存储器(prom)、磁性存储器、磁盘、光盘等。在一些实施例中,所述存储器41可以是所述计算机设备4的内部存储单元,例如该计算机设备4的硬盘或内存。在另一些实施例中,所述存储器41也可以是所述计算机设备4的外部存储设备,例如该计算机设备4上配备的插接式硬盘,智能存储卡(smartmediacard,smc),安全数字(securedigital,sd)卡,闪存卡(flashcard)等。当然,所述存储器41还可以既包括所述计算机设备4的内部存储单元也包括其外部存储设备。本实施例中,所述存储器41通常用于存储安装于所述计算机设备4的操作系统和各类应用软件,例如电子文件的控制的程序代码等。此外,所述存储器41还可以用于暂时地存储已经输出或者将要输出的各类数据。

所述处理器42在一些实施例中可以是中央处理器(centralprocessingunit,cpu)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器42通常用于控制所述计算机设备4的总体操作。本实施例中,所述处理器42用于运行所述存储器41中存储的程序代码或者处理数据,例如运行电子文件的控制的程序代码。

所述网络接口43可包括无线网络接口或有线网络接口,该网络接口43通常用于在所述计算机设备4与其他电子设备之间建立通信连接。

本申请还提供了另一种实施方式,即提供一种计算机可读存储介质,所述计算机可读存储介质存储有界面显示程序,所述界面显示程序可被至少一个处理器执行,以使所述至少一个处理器执行如上述的语料生成方法的步骤。

通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如rom/ram、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本申请各个实施例所述的方法。

显然,以上所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例,附图中给出了本申请的较佳实施例,但并不限制本申请的专利范围。本申请可以以许多不同的形式来实现,相反地,提供这些实施例的目的是使对本申请的公开内容的理解更加透彻全面。尽管参照前述实施例对本申请进行了详细的说明,对于本领域的技术人员来而言,其依然可以对前述各具体实施方式所记载的技术方案进行修改,或者对其中部分技术特征进行等效替换。凡是利用本申请说明书及附图内容所做的等效结构,直接或间接运用在其他相关的技术领域,均同理在本申请专利保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1